このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220930となっている論文です。

PDF登録状況(公開日: 20220930)

TitleAuthorsAbstract論文公表日・翻訳日
# 新しい可積分多重L'evy-インデックスと混合フラクショナル非線形ソリトン階層

New Integrable Multi-L\'evy-Index and Mixed Fractional Nonlinear Soliton Hierarchies ( http://arxiv.org/abs/2208.13393v2 )

ライセンス: Link先を確認
Zhenya Yan(参考訳) 本稿では,マルチインデックスと混合分数高次非線形schr\"odinger (nls)階層,分数複素修飾korteweg-de vries (cmkdv)階層,分数mkdv階層を含む,2種類の新規可積分型マルチl\'evy-indexとmix-l\'evy-index (mixed)分数非線形ソリトン階層を生成する,単純かつ新しいアイデアを提案する。 それらの明示形式は正方形固有関数の完全性を用いて与えられる。 さらに, 行列リーマン・ヒルベルト問題を用いた逆散乱変換による分数多重ソリトン解と, 線形化による異常分散関係を示す。 これらの分数多ソリトン解は、マルチインデックス分数非線形媒体における非線形波の関連する超分散輸送を理解するのに有用である。

In this letter, we present a simple and new idea to generate two types of novel integrable multi-L\'evy-index and mix-L\'evy-index (mixed) fractional nonlinear soliton hierarchies, containing multi-index and mixed fractional higher-order nonlinear Schr\"odinger (NLS) hierarchy, fractional complex modified Korteweg-de Vries (cmKdV) hierarchy, and fractional mKdV hierarchy. Their explicit forms can be given using the completeness of squared eigenfunctions. Moreover, we present their anomalous dispersion relations via their linearizations, and fractional multi-soliton solutions via the inverse scattering transform with matrix Riemann-Hilbert problems. These obtained fractional multi-soliton solutions may be useful to understand the related super-dispersion transports of nonlinear waves in multi-index fractional nonlinear media.
翻訳日:2023-01-28 15:03:02 公開日:2022-09-30
# QAOAのベイズ最適化

Bayesian Optimization for QAOA ( http://arxiv.org/abs/2209.03824v2 )

ライセンス: Link先を確認
Simone Tibaldi, Davide Vodola, Edoardo Tignone, Elisa Ercolessi(参考訳) 量子近似最適化アルゴリズム(QAOA)は、変分最適化問題の近似解を見つけるために、ハイブリッド量子古典的アプローチを採用する。 実際、量子回路のパラメータを最適化するために古典的なサブルーチンに依存している。 本研究では,この最適化タスクを実現するためのベイズ最適化手順を提案し,その性能を他のグローバルオプティマイザと比較した。 私たちのアプローチは、一般的にqaoaで最も高価な部分である量子回路への呼び出し数を大幅に削減できることを示しています。 我々は、我々の手法が遅い回路繰り返しの状況でもうまく機能し、量子アンザッツの測定がエネルギーを十分に見積もるのに十分であることを示す。 さらに,ゲートレベルのノイズの存在下での手法の性能について検討し,低回路深度ではノイズに対して頑健であることを確認した。 提案手法は,うるさい中間スケール量子デバイス上でのqaoaのハイブリッド性を活用するための有望な枠組みであることが示唆された。

The Quantum Approximate Optimization Algorithm (QAOA) adopts a hybrid quantum-classical approach to find approximate solutions to variational optimization problems. In fact, it relies on a classical subroutine to optimize the parameters of a quantum circuit. In this work we present a Bayesian optimization procedure to fulfil this optimization task, and we investigate its performance in comparison with other global optimizers. We show that our approach allows for a significant reduction in the number of calls to the quantum circuit, which is typically the most expensive part of the QAOA. We demonstrate that our method works well also in the regime of slow circuit repetition rates, and that few measurements of the quantum ansatz would already suffice to achieve a good estimate of the energy. In addition, we study the performance of our method in the presence of noise at gate level, and we find that for low circuit depths it is robust against noise. Our results suggest that the method proposed here is a promising framework to leverage the hybrid nature of QAOA on the noisy intermediate-scale quantum devices.
翻訳日:2023-01-27 08:04:49 公開日:2022-09-30
# 量子ニューラルネットワークに基づくデータ再構成

Data reconstruction based on quantum neural networks ( http://arxiv.org/abs/2209.05711v2 )

ライセンス: Link先を確認
Ming-Ming Wang and Yi-Da Jiang(参考訳) 小型データからの大規模データの再構成は情報科学において重要な問題であり、典型例はコンピュータビジョンにおける画像超解像再構成である。 機械学習と量子コンピューティングを組み合わせることで、量子機械学習はデータ処理を加速する能力を示し、情報処理のための新しい方法を提供する。 本稿では,量子ニューラルネットワーク(QNN)と量子オートエンコーダ(QAE)に基づく2つのデータ再構成フレームワークを提案する。 2つのフレームワークの効果をmnist手書きの数字をデータセットとして評価する。 シミュレーションの結果,QNNとQAEはデータ再構成に有効であることがわかった。 また、この結果と古典的超解像ニューラルネットワークを比較し、あるQNNの結果は古典的ニューラルネットワークに非常に近い。

Reconstruction of large-sized data from small-sized ones is an important problem in information science, and a typical example is the image super-resolution reconstruction in computer vision. Combining machine learning and quantum computing, quantum machine learning has shown the ability to accelerate data processing and provides new methods for information processing. In this paper, we propose two frameworks for data reconstruction based on quantum neural networks (QNNs) and quantum autoencoder (QAE). The effects of the two frameworks are evaluated by using the MNIST handwritten digits as datasets. Simulation results show that QNNs and QAE can work well for data reconstruction. We also compare our results with classical super-resolution neural networks, and the results of one QNN are very close to classical ones.
翻訳日:2023-01-26 19:39:45 公開日:2022-09-30
# 準備・測定の非局所性の基準の実験的実証

Experimental demonstration of the criterion for the prepare-and-measure nonlocality ( http://arxiv.org/abs/2209.15209v1 )

ライセンス: Link先を確認
Xiaoqian Zhang, Maolin Luo and Xiaoqi Zhou(参考訳) 準備と測定理論は、物理系の次元性の観点から古典理論と量子力学の非互換性を明らかにする新しいタイプの量子パラドックスである。 与えられた量子状態がベルの非古典性を示すことができるかどうかを決定するのと同じように、与えられた量子状態が準備と測定の非古典性を示すことができるかどうかを決定するためには、同様の基準が必要である。 本研究では, 52種類の異なる量子状態が, この基準を用いてそれぞれ準備され, 試験され, 準備および測定された非古典性を示すことができるかどうかを判定し, 実験結果と理論的期待値との整合性を検証した。 ここで実験的に検証された基準は、将来の非古典性の準備と測定に関する研究に広く使われる可能性がある。

The prepare-and-measure theory is a new type of quantum paradox that reveals the incompatibility between classical theory and quantum mechanics in terms of the dimensionality of physical systems. Just as the Horodecki criterion can determine whether given quantum states are capable of exhibiting Bell nonclassicality, a similar criterion is needed for the prepare-and-measure theory to determine whether given quantum states can exhibit the prepare-and-measure nonclassicality.Recently, Poderini \emph{et al.} [Phys. Rev. Research 2, 043106 (2020)] presented such a criterion for the prepare-and-measure nonclassicality.In this work, we experimentally validate this criterion -- 52 different sets of quantum states are prepared and tested one by one using this criterion to determine whether they can exhibit the prepare-and-measure nonclassicality, and the experimental results are in good agreement with the theoretical expectations. The criterion experimentally verified here has the potential to be widely used in future research on the prepare-and-measure nonclassicality.
翻訳日:2023-01-24 07:53:58 公開日:2022-09-30
# 擬エルミートチャーン絶縁体における量子クエンチ

Quantum quenches in a pseudo-Hermitian Chern insulator ( http://arxiv.org/abs/2209.15204v1 )

ライセンス: Link先を確認
Peng He, Yan-Qing Zhu, Jian-Te Wang, Shi-Liang Zhu(参考訳) 量子クエンチダイナミクスにより擬エルミートチャーン絶縁体のトポロジーを明らかにすることを提案する。 擬エルミート・チャーン絶縁体のブロッホ・ハミルトニアンは、変形代数の表現に関連するq-変形されたパウリ行列に基づいて定義される。 擬エルミート相のバルク面双対性を示し、さらに時間平均スピンテクスチャの観点から静的バンドトポロジーとクエンチダイナミクスの具体的な関係を構築した。 結果はまた、ポスト・クエンチ進化がフロケット擬エルミティアンハミルトニアンによって支配される完全非平衡の場合にも一般化される。 さらに,二層格子において一見挑戦的に見えるモデルを実現し,ダブルクエンチプロトコルを用いてダイナミクスを検出する手法を提案する。

We propose to uncover the topology of a pseudo-Hermitian Chern insulator by quantum quench dynamics. The Bloch Hamiltonian of the pseudo-Hermitian Chern insulator is defined in the basis of the q-deformed Pauli matrices, which are related to the representation of the deformed algebras. We show the bulk-surface duality of the pseudo-Hermitian phases, then further build a concrete relation between the static band topology and quench dynamics, in terms of the time-averaged spin textures. The results are also generalized into a fully nonequilibrium case where the post quench evolution is governed by a Floquet pseudo-Hermitian Hamiltonian. Furthermore, we propose a possible scheme to realize the seemingly challenging model in a bilayer lattice and detect the dynamics with a double-quench protocol.
翻訳日:2023-01-24 07:53:37 公開日:2022-09-30
# トフォリ添加を簡略化した量子フーリエ添加

Quantum Fourier Addition, Simplified to Toffoli Addition ( http://arxiv.org/abs/2209.15193v1 )

ライセンス: Link先を確認
Alexandru Paler(参考訳) 量子加算回路は2種類のものと考えられる。 1)古典的可逆ゲート(CNOT, Toffoli)のみを用いるトフォリ加算回路、及び 2)量子フーリエ変換に基づくqft加算回路。 本稿では,QFT付加回路をToffoliベースの加算器に初めて体系的に変換する。 この結果、qft加算は、qft回路からのゲートの近似分解を用いる代わりに、ゲートをマージするより効率が良い、最もコスト効率の良いトッフォリ加算器と基本的に同じフォールトトレランスコスト(例えばtカウント)を持つことが示される。 そこで我々は,複数の制御ゲートに対して新しい回路IDを定式化し,そのIDをアルゴリズムで適用した。 採用技術は量子回路最適化ヒューリスティックの自動化に利用できる。

Quantum addition circuits are considered being of two types: 1) Toffolli-adder circuits which use only classical reversible gates (CNOT and Toffoli), and 2) QFT-adder circuits based on the quantum Fourier transformation. We present the first systematic translation of the QFT-addition circuit into a Toffoli-based adder. This result shows that QFT-addition has fundamentally the same fault-tolerance cost (e.g. T-count) as the most cost-efficient Toffoli-adder: instead of using approximate decompositions of the gates from the QFT circuit, it is more efficient to merge gates. In order to achieve this, we formulated novel circuit identities for multi-controlled gates and apply the identities algorithmically. The employed techniques can be used to automate quantum circuit optimisation heuristics.
翻訳日:2023-01-24 07:53:12 公開日:2022-09-30
# マジックペンタグラム問題による量子優位性

Quantum advantage through the magic pentagram problem ( http://arxiv.org/abs/2209.15188v1 )

ライセンス: Link先を確認
Haesol Han, Jeonghyeon Shin, Minjin Choi, Byung Chan Kim, Soojoon Lee(参考訳) 2d隠れ線形関数問題(英語版)と1dマジック正方問題(英語版)であるbravyiらは最近、$\mathbf{qnc^0}$と$\mathbf{nc^0}$と$\mathbf{qnc^0}$と$\mathbf{nc^0}$の分離が存在することを示した。 本稿では,非ローカルゲームであるマジックペンタグラムゲームに基づくマジックペンタグラム問題という,同じ性質の別の問題を提案する。 言い換えると、問題は$\mathbf{qnc^0}$回路によって確実に解くことができるが、$\mathbf{nc^0}$回路では解くことができない。

Through the two specific problems, the 2D hidden linear function problem and the 1D magic square problem, Bravyi et al. have recently shown that there exists a separation between $\mathbf{QNC^0}$ and $\mathbf{NC^0}$, where $\mathbf{QNC^0}$ and $\mathbf{NC^0}$ are the classes of polynomial-size and constant-depth quantum and classical circuits with bounded fan-in gates, respectively. In this paper, we present another problem with the same property, the magic pentagram problem based on the magic pentagram game, which is a nonlocal game. In other words, we show that the problem can be solved with certainty by a $\mathbf{QNC^0}$ circuit but not by any $\mathbf{NC^0}$ circuits.
翻訳日:2023-01-24 07:52:53 公開日:2022-09-30
# 磁場によるホログラフィック閉じ込め・解圧ゲージ理論と絡み合い測度

Holographic confining/deconfining gauge theories and entanglement measures with a magnetic field ( http://arxiv.org/abs/2209.15355v1 )

ライセンス: Link先を確認
Parul Jain, Siddhi Swarupa Jena, Subhash Mahapatra(参考訳) 背景磁場の存在下でのボトムアップads/qcdモデルの拘束・脱圧相における種々のホログラフィック純・混合状態の絡み合い測定について検討した。 エンタングルメント・エントロピー,エンタングルメント・ウェッジ断面積,相互情報,エンタングルメント・ネガティビティを分析し,これらの測定方法のエンタングルメント構造に背景磁場がどのように印字を残しているかを検討する。 磁場によって導入された異方性のため、これらの測度の挙動は磁場に対するストリップの相対配向に非自明に依存していることが分かる。 凝縮相では、エンタングルメントエントロピーと負性度は同じ臨界ストリップ長で相転移し、その大きさは磁場の平行/垂直方向に対して増加/減少する。 エンタングメントウェッジ断面も同様に、異なるエンタング面間の相転移が起こるたびに不連続な挙動を示し、さらに磁場による異方性特性を示す。 さらに, 磁場は崩壊相の絡み合い測度にも大きな変化をもたらすが, これらの変化は磁場のすべての方向に対して定性的に類似していることがわかった。 さらに、絡み合いのくさびと相互情報を含む不等式について検討し、前者は閉/分割位相のパラメータ空間において、常に後者の半分を超えていることを示す。

We study various holographic pure and mixed state entanglement measures in the confined/deconfined phases of a bottom-up AdS/QCD model in the presence of a background magnetic field. We analyse the entanglement entropy, entanglement wedge cross-section, mutual information, and entanglement negativity and investigate how a background magnetic field leaves its imprints on the entanglement structure of these measures. Due to the anisotropy introduced by the magnetic field, we find that the behaviour of these measures depends nontrivially on the relative orientation of the strip with respect to the field. In the confining phase, the entanglement entropy and negativity undergo a phase transition at the same critical strip length, the magnitude of which increases/decreases for parallel/perpendicular orientation of the magnetic field. The entanglement wedge cross-section similarly displays discontinuous behaviour each time a phase transition between different entangling surfaces occurs, while further exhibiting anisotropic features with a magnetic field. We further find that the magnetic field also introduces substantial changes in the entanglement measures of the deconfined phase, however, these changes remain qualitatively similar for all orientations of the magnetic field. We further study the inequality involving entanglement wedge and mutual information and find that the former always exceeds half of the latter everywhere in the parameter space of the confined/deconfined phases.
翻訳日:2023-01-24 07:49:48 公開日:2022-09-30
# 宇宙状スクリュー転位における位置依存質量Schr\"オーディンガー粒子:関連する退化と磁気およびアハロノフ・ボーム磁束効果

Position-dependent mass Schr\"odinger particles in space-like screw dislocation: associated degeneracies and magnetic and Aharonov-Bohm flux fields effects ( http://arxiv.org/abs/2209.15344v1 )

ライセンス: Link先を確認
Zeinab Algadhi and Omar Mustafa(参考訳) 非相対論的位置依存質量(pdm)シュレッディンガー粒子を空間状ねじ転位を伴う弾性媒質中で移動させる。 筒状座標では, スクリュー転位およびPDM設定がいくつかのPDM量子系のエネルギーレベルに及ぼす影響について検討, 報告する。 その際、パワーロー型正値次元スカラー乗算器 f(r) を用いる(これは明らかにpdm-シュレッディンガー粒子のメタファー概念を導入する)。 次に、このようなpdm粒子を磁束およびアハルノフ・ボーム磁束場に印加する。 V (r) = 0 および V (r) = a + b r + c r^2 の完全あるいは条件的正確な固有値と固有関数を報告する。

We consider non-relativistic position-dependent mass (PDM) Schrodinger particles moving in an elastic medium with space-like screw dislocation. Within the cylindrical coordinates, we study and report the effects of screw dislocation as well as PDM settings on the energy levels of some PDM-quantum mechanical systems. In so doing, we use a power-law type positive-valued dimensionless scalar multiplier f(r) (Which manifestly introduces the metaphoric notion of PDM-Schrodinger particles). Next, we subject such PDM particles to magnetic and Aharonov-Bohm flux fields. We report exact or conditionally exact eigenvalues and eigenfunctions for V (r) = 0 and V (r) = a + b r + c r^2
翻訳日:2023-01-24 07:49:23 公開日:2022-09-30
# ニシン・フリッカーカップリングとdzyaloshinskii-moriya相互作用を用いた均質磁場中における2量子ハイゼンベルクxxz模型の絡み合い

Entanglement of a two--qutrit Heisenberg XXZ model with Herring--Flicker coupling and Dzyaloshinskii--Moriya interaction in homogeneous magnetic field ( http://arxiv.org/abs/2209.15311v1 )

ライセンス: Link先を確認
Brahim Adnane and Younes Moqine and Abdelhadi Belouad and Rachid Hou\c{c}a(参考訳) 本研究では,一様磁場下での2量子ハイゼンベルクXXZモデルの絡み合いと,Herring-Flicker(HF)結合によるZ軸ジアロシンスキー-モリヤ(DM)相互作用を,負性の概念を用いて特徴づける。 温度、磁場、DM相互作用、およびHFカップリング距離を変化させることによって。 高温でも強磁場でも、状態系の絡み合いが小さくなり、逆に強磁場が強くなる。 また,z軸DM相互作用の増加に伴い絡み合いが増大することが示唆された。 最後に、HF結合は絡み合いの程度に影響を与える。 例えば、HFカップリングと温度が小さい場合、絡み合いの度合いは最も高く、HFカップリングが実質値である場合には、複雑さの度合いは安定する傾向にある。

In this study, we use the concept of negativity to characterize the entanglement of a two--qutrit Heisenberg XXZ model for subject to a uniform magnetic field and z--axis Dzyaloshinskii--Moriya (DM) interaction with Herring-Flicker (HF) coupling. By varying the temperature, magnetic field, DM interaction, and distance of HF coupling. We find that the state system becomes less entangled at high temperatures or in strong magnetic fields, and vice versa. Our findings also suggest that entanglement rises when the z--axis DM interaction increases. Finally, HF coupling affects the degree of entanglement. For example, when HF coupling and temperature are at small values, the degree of entanglement is at its highest, but when HF coupling is at substantial values, the degree of intricacy tends to stabilize.
翻訳日:2023-01-24 07:48:43 公開日:2022-09-30
# dzyaloshinskii-moriyaカップリングが異なる2量子ビットxyハイゼンベルク模型の局所量子不確かさ

Local quantum uncertainty of a two-qubit XY Heisenberg model with different Dzyaloshinskii-Moriya couplings ( http://arxiv.org/abs/2209.15307v1 )

ライセンス: Link先を確認
Younes Moqine and Brahim Adnane and Abdelhadi Belouad and Soufiane Belhouideg and Rachid Hou\c{c}a(参考訳) 本研究では,Dzyaloshinskii-Moriya(DM)相互作用の異なる2ビットハイゼンベルクXY鎖の局所量子不確実性(LQU)について検討した。 DM相互作用パラメータと結合係数$J$は相関管理に有用であることが示されている。 DM相互作用のx軸パラメータは、DM相互作用のz軸よりも相関に強い影響を与える。 その結果、DM相互作用の方向を調整することにより、より効率的な操作を可能とし、相関性を改善することができる。

This study investigates the local quantum uncertainty (LQU) of a two--qubit Heisenberg XY chain with different directions of Dzyaloshinskii--Moriya (DM) interactions. The DM interaction parameters and coupling coefficient $J$ are demonstrated to be beneficial in managing correlation. The DM interaction's x--axis parameter has more influence on correlation than the DM interaction's z--axis. As a result, adjusting the direction of the DM interaction may be capable of producing a more efficient operation to improve the correlation.
翻訳日:2023-01-24 07:48:25 公開日:2022-09-30
# 検知不要なセンシングによるメタンセンサの強化

Enhancing methane sensors by sensing without detection ( http://arxiv.org/abs/2209.15289v1 )

ライセンス: Link先を確認
Arthur C. Cardoso, Haichen Zhou, Siddarth K. Joshi and John G. Rarity(参考訳) 本研究では,検知不要なセンシングに基づくメタンセンサを提案する。 量子イメージングで最初に使用されるこの手法は、ポンプ信号とアイドラーモードが非線形結晶をダブルパスする際に3つの波動混合で見られる干渉効果に依存する。 この方法では、検出器が貧弱な波長を検知し、光子計数感度を達成できる波長を検出できる。 この小型干渉計は、フィールド操作用の携帯装置に設定される可能性があり、最大100mの範囲でメタンの低濃度を検出することができる。 信号対雑音比計算は、高非線形利得状態において、この方法の感度が積分経路差吸収直接センシングを克服できることを指摘する。

We propose a novel methane sensor based on sensing without detection. First used in quantum imaging, this technique relies on the interference effects seen in three wave mixing when pump signal and idler modes make a double pass through a nonlinear crystal. The method allows sensing at wavelengths where detectors are poor and detecting at wavelengths where photon counting sensitivity can be achieved. This compact interferometer, potentially set in a portable device for field operations, could allow the detection of low concentrations of methane at up to 100m range. Signal-to-noise ratio calculations point out that the method's sensitivity can overcome the integrated path differential absorption direct sensing at high non-linear gain regimes.
翻訳日:2023-01-24 07:48:15 公開日:2022-09-30
# 単位平均化による光クラスター状態生成

Optical cluster-state generation with unitary averaging ( http://arxiv.org/abs/2209.15282v1 )

ライセンス: Link先を確認
Deepesh Singh, Austin P. Lund, and Peter P. Rohde(参考訳) クラスター状態は、フュージョンベースの量子計算(FBQC)の実装で使われる必須資源である。 単元平均化の概念を利用して高忠実度光クラスター状態を生成する手法を提案する。 このエラー平均化技術は完全に受動的であり、提案されたPsiQuantumのFBQCアーキテクチャに容易に組み込むことができる。 ポストセレクションとフュージョンゲートの冗長符号化を用いて,出力クラスタ状態の平均忠実度の向上を観測した。 また,BSMが不完全である場合の線形光ベル状態測定(BSM)の成功確率も改善した。

Cluster states are the essential resource used in the implementation of Fusion-based quantum computation (FBQC). We introduce a method to generate high-fidelity optical cluster states by utilising the concept of unitary averaging. This error averaging technique is entirely passive and can be readily incorporated into the proposed PsiQuantum's FBQC architecture. Using postselection and the redundant encoding of Fusion gates, we observe an enhancement in the average fidelity of the output cluster state. We also show an improvement in the linear optical Bell-state measurement (BSM) success probability when the BSM is imperfect.
翻訳日:2023-01-24 07:48:05 公開日:2022-09-30
# Qutrits と Ququarts のベル対角対角ペアの境界絡み : 比較検討

Bound Entanglement of Bell Diagonal Pairs of Qutrits and Ququarts: A Comparison ( http://arxiv.org/abs/2209.15267v1 )

ライセンス: Link先を確認
Christopher Popp and Beatrix C. Hiesmayr(参考訳) 我々は,正部分転位 (PPT) を持つベル対角二部晶石英を絡み合ったあるいは分離可能なものと分類し,その特性を異なる次元で比較した。 分離性と絡み合った状態の区別という分離性問題は、一般に有界な絡み合った状態が存在するため、効率的な解がない。 局所操作や古典的通信による絡み合い蒸留に使用できる自由絡み合い状態とは対照的に、これらの状態はペレス・ホロデキ基準(peres-horodecki criterion)やppt基準(ppt criterion)では検出できない。 ユークリッド空間における状態の幾何学的表現を利用して、分離可能、自由絡み合い、あるいは束縛された2部ベル対角クディットの族を解析する。 ベル対角クォート(d=3$)の分離性をほぼ完全に解く解析的および数値的手法を拡張し,適用することにより,75 %以上のベル対角 PPT 状態を$d=4$で分類することができた。 これらの代表州を通じて、分離可能で自由で束縛された状態の体積を推定することができる。 すべてのppt状態の少なくとも75.7.%$は分離可能であるのに対し、1.7.%$は結合したエンタングルであり、22.6.%$では分離可能か結合されたエンタングルかは不明である。 有界絡み合った状態と検出器の構造を比較すると、検出能力にかなりの違いが見られ、これらはクォート(d=3$)とクォート(d=4$)のユークリッド幾何学の違いと関連している。 最後に、分離可能なベル対角状態の集合の詳細な視覚的解析を用いて、解析された家族のベル対角状態の群構造と、分離可能な状態に対する十分な混合条件に関する予想を動機付ける。

We classify Bell diagonal bipartite qudits with positive partial transposition (PPT) as entangled or separable and compare their properties for different dimensions. The separability problem, i.e. distinguishing separable and entangled states, generally lacks an efficient solution due to the existence of bound entangled states. In contrast to free entangled states that can be used for entanglement distillation via local operations and classical communication, these states cannot be detected by the Peres-Horodecki criterion or PPT criterion. Leveraging a geometrical representation of states in Euclidean space, we analyze a family of bipartite Bell diagonal qudits that can be separable, free entangled or bound entangled. Extending and applying analytical and numerical methods that almost completely solve the separability problem for Bell diagonal qutrits ($d=3$), we successfully classify more than $75\%$ of representative Bell diagonal PPT states for $d=4$. Via those representative states we are able to estimate the volumes of separable and free and bound entangled states. We find that at least $75.7\%$ of all PPT states are separable, while only $1.7\%$ are found to be bound entangled and for $22.6\%$ it remains unclear whether they are separable or bound entangled. Comparing the structure of bound entangled states and their detectors, we find considerable differences in the detection capabilities and relate those to differences of the Euclidean geometry for qutrits ($d=3$) and ququarts ($d=4$). Finally, using a detailed visual analysis of the set of separable Bell diagonal states, a conjecture relating the group structure of Bell diagonal states of the analyzed family to necessary and sufficient mixing conditions for separable states is motivated.
翻訳日:2023-01-24 07:47:56 公開日:2022-09-30
# 1次元ボースガスの励起スペクトル関数

Exact Spectral Function of One-Dimensional Bose Gases ( http://arxiv.org/abs/2209.15221v1 )

ライセンス: Link先を確認
Song Cheng, Yang-Yang Chen, Xi-Wen Guan, Wen-Li Yang, Rubem Mondaini, and Hai-Qing Lin(参考訳) 1次元(1D)量子系の強い相関は、相互作用の存在下での動的および輸送特性を劇的に変化させる。 この手紙では、量子可積分理論と数値を組み合わせることで、1次元リーブ・リンガー気体のスペクトル関数を多体大スケールで正確に計算する。 しきい値のビジニティのパワーロー特異点をフルキャプチャするには、何千もの粒子のシステムサイズが必要であることが判明した。 本研究は, 非線形友長・ラッティンガー液体の有効性を確認し, 熱力学的限界のみに現れる臨界挙動を研究するための信頼性の高い手法を提供する。

Strong correlation in one-dimensional (1D) quantum systems drastically changes their dynamic and transport properties in the presence of the interaction. In this letter, combining quantum integrable theory with numerics, we exactly compute the spectral function of 1D Lieb-Liniger gas at a many-body level of large scales. It turns out that a full capture of the power-law singularities in the vicinities of thresholds requires system size as large as thousands of particles. Our research essentially confirms the validity of the nonlinear Tomonaga-Luttinger liquid and provides a reliable technique for studying critical behaviour emerged only in thermodynamic limit.
翻訳日:2023-01-24 07:47:19 公開日:2022-09-30
# 基本熱操作による触媒作用

Catalysis in Action via Elementary Thermal Operations ( http://arxiv.org/abs/2209.15213v1 )

ライセンス: Link先を確認
Jeongrak Son and Nelly H. Y. Ng(参考訳) 本研究は, 初等熱操作の枠組みにおける触媒作用について検討し, その特異な利点を利用して触媒動力学を照らす。 基礎として, 基本熱処理における状態遷移規則の計算可能性, 特に, クォート系における状態遷移の完全な評価を行うための新しい技術ツールを確立する。 これらのツールと数値的手法を組み合わせることで、量子ビット触媒のみを採用することで、クトリット系の状態遷移の組を大きく拡大し、初等熱操作と一般熱操作の間の到達可能な状態のギャップを縮めることができることがわかった。 さらに、触媒遷移を時間分解進化に分解し、そこから非平衡自由エネルギー交換が追跡される。 熱力学における単純で実践可能な触媒効果の存在を報告し,触媒過程のメカニズムを解析する方法を実証した。

We investigate catalysis in the framework of elementary thermal operations, making use of its unique advantages to illuminate catalytic dynamics. As groundwork, we establish new technical tools that improve the computability of state transition rules for elementary thermal operations, in particular, providing a full characterization of state transitions for a qutrit system. Using these tools in conjunction with numerical methods, we find that by adopting even just a qubit catalyst, one can significantly enlarge the set of state transitions for a qutrit system, largely closing the gap of reachable states between elementary thermal operations and generic thermal operations. In addition, we decompose catalytic transitions into time-resolved evolution, from which the nonequilibrium free energy exchanges are tracked. Our results document the existence of simple and practicable catalytic advantage in thermodynamics, and demonstrate a way to analyse the mechanism of catalytic processes.
翻訳日:2023-01-24 07:47:08 公開日:2022-09-30
# 絡み合い計:干渉計における単一コピーによる絡み合いの推定

Entanglement Meter: Estimation of entanglement with single copy in Interferometer ( http://arxiv.org/abs/2209.15592v1 )

ライセンス: Link先を確認
Som Kanjilal, Vivek Pandey and Arun Kumar Pati(参考訳) 複合システムの高次元絡み合いの効率的な証明と定量化は理論的にも実験的にも困難である。 ここでは,マッハ・ツェンダー干渉計のセットアップにおいて,複数の絡み検出手法を効率的に実装できることを実証する。 特に,入力状態の単一コピーを用いたマッハ・ゼーダー干渉計の視認性から,二成分系の線形エントロピーとネガティビティを測定する方法を示す。 この結果から,2つの純二部状態に対して,干渉可視性は絡み合いの直接測度であることがわかった。 また, 相互に偏りのない基礎の局所的な測定に頼らずに, 干渉計配置の強度パターンから実験的に相互予測可能性を測定する方法を提案する。 さらに、絡み合い証人オペレータを干渉設定で測定でき、位相シフトが状態の分離性または絡み合い性に敏感であることを示す。 提案手法は, エンタングルメントメータの設計への道を開く純および複数の混合状態のエンタングルメント検出における干渉計設定のパワーをもたらす。

Efficient certification and quantification of high dimensional entanglement of composite systems are challenging both theoretically as well as experimentally. Here, we demonstrate that several entanglement detection methods can be implemented efficiently in a Mach-Zehnder Interferometric set-up. In particular, we demonstrate how to measure the linear entropy and the negativity of bipartite systems from the visibility of Mach-Zehnder interferometer using single copy of the input state. Our result shows that for any two qubit pure bipartite state, the interference visibility is a direct measure of entanglement. We also propose how to measure the mutual predictability experimentally from the intensity patterns of the interferometric set-up without having to resort to local measurements of mutually unbiased bases. Furthermore, we show that the entanglement witness operator can be measured in a interference setup and the phase shift is sensitive to the separable or entangled nature of the state. Our proposals bring out the power of Interferometric set-up in entanglement detection of pure and several mixed states which paves the way towards design of entanglement meter.
翻訳日:2023-01-24 07:40:42 公開日:2022-09-30
# システム変動による量子回路誤差の抑制

Suppressing quantum circuit errors due to system variability ( http://arxiv.org/abs/2209.15512v1 )

ライセンス: Link先を確認
Paul D. Nation and Matthew Treinish(参考訳) 本稿では,今日の雑音量子コンピューティングプラットフォームに固有の誤り率の変動を考慮に入れた,コンパイル後の量子回路最適化手法を提案する。 この方法は、入力回路への同型部分グラフの計算と、システムキャリブレーションデータから得られたヒューリスティックコスト関数を用いてそれぞれをスコアリングする。 標準のアルゴリズムテスト回路を用いて、コスト関数の計算により、より優れた量子ビット選択を用いて、平均40%の欠落忠実度で回復可能であることを示す。 複数の量子プロセッサ上での量子ビット配置を考慮し、さらなる性能向上を示す。 これらのツールからのオーバーヘッドは、キュービット数の増加に伴ってキュービットルーティングなどの他のコンパイルステップに対して最小である。 このようにして、この手法は量子アドバンテージのスケールで問題に対する量子ビットマッピングを見つけるのに使うことができる。

We present a post-compilation quantum circuit optimization technique that takes into account the variability in error rates that is inherent across present day noisy quantum computing platforms. This method consists of computing isomorphic subgraphs to input circuits and scoring each using heuristic cost functions derived from system calibration data. Using standard algorithmic test circuits we show that it is possible to recover on average nearly 40% of missing fidelity using better qubit selection via efficient to compute cost functions. We demonstrate additional performance gains by considering qubit placement over multiple quantum processors. The overhead from these tools is minimal with respect to other compilation steps such as qubit routing as the number of qubits increases. As such, our method can be used to find qubit mappings for problems at the scale of quantum advantage and beyond.
翻訳日:2023-01-24 07:40:04 公開日:2022-09-30
# DWDM光伝送網に統合された量子鍵分布系の理論的解析

Theoretical analysis of quantum key distribution systems when integrated with a DWDM optical transport network ( http://arxiv.org/abs/2209.15507v1 )

ライセンス: Link先を確認
Irina Vorontsova, Roman Goncharov, Angelina Tarabrina, Fedor Kiselev, and Vladimir Egorov(参考訳) 自然発振ラマン散乱, 4波混合, 線形チャネルクロストークによるQKDシステムの性能への影響に関する理論的研究と数値シミュレーションを行った。 コヒーレントワンウェイ(COW)QKDプロトコル、サブキャリアウェーブ(SCW)QKDシステム、従来のDWDMチャネルと統合された連続可変(CV)QKDシステムである。 我々は、異なるチャネル割り当てスキーム(例えば、構成)に対処するシステムに対して、セキュアな鍵生成率を算出する。 均一なDWDMグリッドは、通信窓のCバンドとOバンド(約1310nm)に量子チャネルがあると考えられる。 システムの性能は、最大到達可能な距離値の観点から分析される。 さらなる分析と調査のための構成は、最適に選択され、すなわち、最大到達距離が最適である。

A theoretical research and numerical simulation of the noise influence caused by spontaneous Raman scattering, four-wave mixing, and linear channel crosstalk on the performance of QKD systems was conducted. Three types of QKD systems were considered: coherent one-way (COW) QKD protocol, subcarrier-wave (SCW) QKD system, and continuous-variable (CV) QKD integrated with classical DWDM channels. We calculate the secure key generation rate for the systems mentioned addressing different channel allocation schemes (i.e., configurations). A uniform DWDM grid is considered with quantum channel located in C-band and O-band (at 1310 nm) of a telecommunication window. The systems' performance is analyzed in terms of the maximal achievable distance values. Configurations for the further analysis and investigation are chosen optimally, i.e., their maximal achievable distances are the best.
翻訳日:2023-01-24 07:39:51 公開日:2022-09-30
# 218イオン多ビット量子メモリの実験的実現

Experimental realization of a 218-ion multi-qubit quantum memory ( http://arxiv.org/abs/2209.15459v1 )

ライセンス: Link先を確認
R. Yao and W.-Q. Lian and Y.-K. Wu and G.-X. Wang and B.-W. Li and Q.-X. Mei and B.-X. Qi and L. Yao and Z.-C. Zhou and L. He and L.-M. Duan(参考訳) 記憶寿命と容量は量子メモリの性能を特徴づける2つの重要な要素である。 本稿では,200個以上のイオンを低温設定で安定トラップし,ランダムに選択したイオンのコヒーレンス時間を数百ミリ秒のオーダーで測定することにより,多ビット容量と長期保存寿命の組み合わせを実証する。 複合マイクロ波パルスを用いて、異なる記憶ユニットの効率的な評価を同時に行うとともに、量子メモリの性能と共振冷却レーザの併用の有無を比較し、複数のイオン量子ビットの長期保存における共振冷却の必要性を明確に示す。

Storage lifetime and capacity are two important factors to characterize the performance of a quantum memory. Here we report the stable trapping of above 200 ions in a cryogenic setup, and demonstrate the combination of the multi-qubit capacity and long storage lifetime by measuring the coherence time of randomly chosen ions to be on the order of hundreds of milliseconds. We apply composite microwave pulses to manipulate qubit states globally for efficient characterization of different storage units simultaneously, and we compare the performance of the quantum memory with and without the sympathetic cooling laser, thus unambiguously show the necessity of sympathetic cooling for the long-time storage of multiple ionic qubits.
翻訳日:2023-01-24 07:39:01 公開日:2022-09-30
# キラル分子を含む共鳴エネルギー移動のマクロ量子電磁力学理論

Macroscopic quantum electrodynamics theory of resonance energy transfer involving chiral molecules ( http://arxiv.org/abs/2209.15400v1 )

ライセンス: Link先を確認
Janine Christine Franz, Stefan Yoshi Buhmann, A. Salam(参考訳) キラル分子間の共鳴エネルギー移動は、異なるエナンチオマー間の識別に利用できる。 キラル分子間の移動速度は、非差別的および差別的部分からなる。 この2つの速度の寄与をマクロ量子電磁力学の枠組みで導出する。 これらの比率は、通常、大きな離間距離の遅滞状態や遠距離において大きく、周囲の媒体を考慮すると識別の程度が変更可能であることを示す。 判別の度合いに対する局所場効果の重要性を強調し、識別に最適な誘電体媒質である一般的な同一キラル分子の予測を行う。 我々はこの結果を3-メチルシクロペンタノンに適用し,エキゾチックメディアが識別効果を逆転できることを示した。

Resonance energy transfer between chiral molecules can be used to discriminate between different enantiomers. The transfer rate between chiral molecules consists of a non-discriminatory and discriminatory parts. We derive these two rate contributions in the framework of macroscopic quantum electrodynamics. We show that their ratio is usually larger in the retarded regime or far-zone of large separation distances and that the degree of discrimination can be modified when considering a surrounding medium. We highlight the importance of local field effects onto the degree of discrimination and predict for general identical chiral molecules the optimum dielectric medium for discrimination. We apply our results on to 3-methylcyclopentanone and show that exotic media can even invert the discriminatory effect.
翻訳日:2023-01-24 07:38:50 公開日:2022-09-30
# 最適確率量子制御理論

Optimal probabilistic quantum control theory ( http://arxiv.org/abs/2210.16184v1 )

ライセンス: Link先を確認
Randa Herzallah and Abdessamad Belfakir(参考訳) 原子スケールや分子スケールのシステムには、基本的な制限がある。 この曖昧さは必ずしも測定行為によるものではない。 その他の要因としては、システムパラメータの不確実性、入力関数に由来する機能的不確実性、センサーノイズなどがある。 この決定論は、原子スケールシステムのための正確な制御方法の開発に大きな課題をもたらした。 本研究は, これらのシステムの確率的・不確実性に対処するために, 系の量子状態の表現と, 確率論的アプローチによる物理特性の定量化を考慮した新しい制御フレームワークを提案する。 私たちのフレームワークは完全に確率的です。 情報理論からのシャノン相対エントロピーを用いて、原子スケールシステムの望ましい結果を達成する最適なランダム化制御器を設計する。 提案手法の適用性と有効性を示すために,いくつかの実験を行った。

There is a fundamental limit to what is knowable about atomic and molecular scale systems. This fuzziness is not always due to the act of measurement. Other contributing factors include system parameter uncertainty, functional uncertainty that originates from input functions, and sensors noises to mention a few. This indeterminism has led to major challenges in the development of accurate control methods for atomic scale systems. To address the probabilistic and uncertain nature of these systems, this work proposes a novel control framework that considers the representation of the system quantum states and the quantification of its physical properties following a probabilistic approach. Our framework is fully probabilistic. It uses the Shannon relative entropy from information theory to design optimal randomised controllers that can achieve a desired outcome of an atomic scale system. Several experiments are carried out to illustrate the applicability and effectiveness of the proposed approach.
翻訳日:2023-01-24 07:31:44 公開日:2022-09-30
# 局所ランダムハミルトニアンのスペクトル

The spectrum of local random Hamiltonians ( http://arxiv.org/abs/2210.00855v1 )

ライセンス: Link先を確認
Benoit Collins, Zhi Yin, Liang Zhao, Ping Zhong(参考訳) 局所ランダムハミルトニアンのスペクトルは、その局所項の確率分布のいわゆる$\epsilon$-free畳み込みによって一般表現することができる。 我々は、$\epsilon$-noncrossingパーティションの集合と、そのスペクトルを研究するために置換の間の同型性を確立する。 さらに、ハミルトニアンの最大の固有値に対して下界と上界を導出する。

The spectrum of a local random Hamiltonian can be represented generically by the so-called $\epsilon$-free convolution of its local terms' probability distributions. We establish an isomorphism between the set of $\epsilon$-noncrossing partitions and permutations to study its spectrum. Moreover, we derive some lower and upper bounds for the largest eigenvalue of the Hamiltonian.
翻訳日:2023-01-24 07:31:32 公開日:2022-09-30
# 一般化n量子ビットヴェルナー状態における量子不一致と対数ネガティビティ

Quantum Discord and Logarithmic Negativity in the Generalized n-qubit Werner State ( http://arxiv.org/abs/2210.00096v1 )

ライセンス: Link先を確認
M. S. Ramkarthik and Devvrat Tiwari and Pranay Barkataki(参考訳) 量子ディスコード(quantum discord, qd)は、量子系の全量子非局所相関の尺度である。 量子不協和の定式化は、様々な2量子混合状態に適用され、状態が絡み合っていない場合でも非ゼロ量子不協和が存在することが報告されている。 この目的のために、我々は2キュービット混合状態、すなわち二部分割を持つ一般化されたn-キュービットヴェルナー状態に対して量子Discordを計算した。 熱力学限界において,QDは単位勾配の直線に飽和することがわかった。 対数ネガティビティを用いた2つのサブシステム間の絡み合いの質的研究により、それらの間の絡み合い含量は、その飽和に繋がるキュービット数と不均一に増加することが明らかとなった。 我々は上記の主張を解析的にも数値的にも証明した。

Quantum Discord (QD) is a measure of the total quantum non-local correlations of a quantum system. The formalism of quantum discord has been applied to various two-qubit mixed states and it has been reported that there is a non-zero quantum discord even when the states are unentangled. To this end, we have calculated the Quantum Discord for higher than two qubit mixed state, that is, the generalized n-qubit Werner state with a bipartite split. We found that the QD saturates to a straight line with unit slope in the thermodynamic limit. Qualitative studies of entanglement between the two subsystems using logarithmic negativity revealed that the entanglement content between them increases non-uniformly with the number of qubits leading to its saturation. We have proved the above claims both analytically and numerically.
翻訳日:2023-01-24 07:31:16 公開日:2022-09-30
# 窒化ケイ素担持薄膜PPLN導波路における相関2光子生成

Correlated twin-photon generation in a silicon nitrite loaded thin film PPLN waveguide ( http://arxiv.org/abs/2210.00076v1 )

ライセンス: Link先を確認
Antoine Henry, David Barral, Isabelle Zaquine, Andreas Boes, Arnan Mitchell, Nadia Belabas and Kamel Bencheikh(参考訳) 絶縁体技術に基づく薄膜ニオブ酸リチウムに基づく光ファイバー源は、集積光量子情報処理において大きな可能性を秘めている。 窒化ケイ素(SiN)リブ装荷薄膜における自然パラメトリックダウン変換により生じる2光子対の相関源について報告する。 生成した光子対は、現在の通信インフラと互換性のある波長1560,nm、広帯域(21,THz)、輝度は10^5$\,pairs/s/mW/GHzである。 これらの光子は相関関係にあり、約8000の相関関係を持つg^{(2)}(0)$を示す。 ハンベリー・ブラウン効果とtwiss効果を用いて、ヘラルド単光子放射を示し、自己相関 $g^{(2)}_h(0) \simeq 0.04$ を得る。

Photon-pair sources based on thin film lithium niobate on insulator technology have a great potential for integrated optical quantum information processing. We report on such a source of correlated twin-photon pairs generated by spontaneous parametric down conversion in a silicon nitride (SiN) rib loaded thin film periodically poled lithium niobate (LN) waveguide. The generated photon pairs have a wavelength centred at 1560\,nm compatible with present telecom infrastructure, a large bandwidth (21\,THz) and a brightness of $\sim 2.5\times 10^5$\,pairs/s/mW/GHz. The photons are correlated and exhibit a cross correlation $g^{(2)}(0)$ of about 8000. Using the Hanbury Brown and Twiss effect, we have also shown heralded single photon emission, achieving an autocorrelation $g^{(2)}_H(0) \simeq 0.04$.
翻訳日:2023-01-24 07:31:01 公開日:2022-09-30
# 量子カオス二次ハミルトニアンの一般化熱分解

Generalized thermalization in quantum-chaotic quadratic Hamiltonians ( http://arxiv.org/abs/2210.00016v1 )

ライセンス: Link先を確認
Patrycja {\L}yd\.zba, Marcin Mierzejewski, Marcos Rigol, Lev Vidmar(参考訳) 非可積分(可積分)量子系における熱化(一般熱化)には、平衡とgibbs (generalized gibbs)アンサンブルの予測との一致という2つの成分が必要である。 単一粒子セクターにおける固有状態熱化を示す観測値は、量子カオス二次モデルの多体セクターにおいて平衡であることを示す。 驚くべきことに、同じ観測可能領域は、多体セクタにおいて固有熱化を示さない(指数関数的に多くの異常値が存在することを定めている)。 したがって、一般化ギブスアンサンブルは一般に、平衡後の期待値を記述するために必要であり、単粒子エネルギーの滑らかな関数であるラグランジュ乗算器によって特徴づけられる。

Thermalization (generalized thermalization) in nonintegrable (integrable) quantum systems requires two ingredients, equilibration and an agreement with the predictions of the Gibbs (generalized Gibbs) ensemble. We prove that observables that exhibit eigenstate thermalization in single-particle sector equilibrate in many-body sectors of quantum-chaotic quadratic models. Remarkably, the same observables do not exhibit eigenstate thermalization in many-body sectors (we establish that there are exponentially many outliers). Hence, the generalized Gibbs ensemble is generally needed to describe their expectation values after equilibration, and it is characterized by Lagrange multipliers that are smooth functions of single-particle energies.
翻訳日:2023-01-24 07:30:19 公開日:2022-09-30
# 明るい周波数コムを用いた量子増幅吸収分光

Quantum-enhanced absorption spectroscopy with bright squeezed frequency combs ( http://arxiv.org/abs/2209.15628v1 )

ライセンス: Link先を確認
Alexandre Belsley(参考訳) 吸収分光法は、低濃度でガス種を検出・評価する技術として広く用いられている。 本稿では、周波数変調分光の利点と、プローブ状態のスクイーズによるノイズ特性の低減を併用したセンシング戦略を提案する。 ホモダイン検出方式では、複数の周波数での吸収を同時に測定することができ、吸収プロファイルの分散に敏感である。 我々は,スクイーズ係数に指数関数的にスケールする信号対雑音比の大幅な向上を予測した。 標準的な量子限界を超える等級の改善が可能で、最先端のスクイージングレベルにより高精度なガスセンシングが容易になる。

Absorption spectroscopy is a widely used technique that permits the detection and characterization of gas species at low concentrations. We propose a sensing strategy combining the advantages of frequency modulation spectroscopy with the reduced noise properties accessible by squeezing the probe state. A homodyne detection scheme allows the simultaneous measurement of the absorption at multiple frequencies and is insensitive to dispersion across the absorption profile. We predict a significant enhancement of the signal-to-noise ratio that scales exponentially with the squeezing factor. An order of magnitude improvement beyond the standard quantum limit is possible with state-of-the-art squeezing levels facilitating high precision gas sensing.
翻訳日:2023-01-24 07:29:36 公開日:2022-09-30
# 説明可能なAIにおける解釈可能な表現:理論から実践へ

Interpretable Representations in Explainable AI: From Theory to Practice ( http://arxiv.org/abs/2008.07007v2 )

ライセンス: Link先を確認
Kacper Sokol and Peter Flach(参考訳) 解釈可能表現は、人工知能と機械学習アルゴリズムに基づくブラックボックス予測システムのために設計された多くの説明者のバックボーンである。 優れた予測性能に必要な低レベルのデータ表現を、説明的洞察を伝えるために使用される高度な人間知的な概念に変換する。 特に、説明タイプとその認知的複雑性は解釈可能な表現によって直接制御され、特定のオーディエンスとユースケースをターゲットにすることができる。 しかし、解釈可能な表現の上に構築された多くの説明者は、その利点を軽視し、暗黙の仮定をしばしば持つデフォルトのソリューションに逆らう。 この問題に対処するために,人間の理解可能な概念の存在と欠如をエンコードする解釈可能な表現の特性について検討する。 表、画像、テキストデータに対してどのように運用されているかを示し、仮定、強度、弱点について議論し、中核となるビルディングブロックを特定し、パラメータ化を精査する。 特に,この深度解析により,図表データの文脈における記述特性,デシラタ,(有害な)操作範囲を特定でき,そこでは線形モデルを用いて,解釈可能な概念がブラックボックス予測に与える影響を定量化することができる。 本研究は,信頼に値する解釈可能な表現を設計するための様々な推奨事項,特に表データ(例えば決定木)のクラス認識(教師付き)非表示化の利点,および画像解釈可能な表現のセグメンテーション粒度と咬合色に対する感受性について支持する。

Interpretable representations are the backbone of many explainers designed for black-box predictive systems based on artificial intelligence and machine learning algorithms. They translate the low-level data representation necessary for good predictive performance into high-level human-intelligible concepts used to convey the explanatory insights. Notably, the explanation type and its cognitive complexity are directly controlled by the interpretable representation, allowing to target a particular audience and use case. However, many explainers built upon interpretable representations overlook their merit and fall back on default solutions that often carry implicit assumptions, thereby degrading the explanatory power and reliability of such techniques. To address this problem, we study properties of interpretable representations that encode presence and absence of human-comprehensible concepts. We show how they are operationalised for tabular, image and text data; discuss their assumptions, strengths and weaknesses; identify their core building blocks; and scrutinise their parameterisation. In particular, this in-depth analysis allows us to pinpoint their explanatory properties, desiderata and scope for (malicious) manipulation in the context of tabular data, where a linear model is used to quantify the influence of interpretable concepts on a black-box prediction. Our findings support a range of recommendations for designing trustworthy interpretable representations; specifically, the benefits of class-aware (supervised) discretisation of tabular data, e.g., with decision trees, and sensitivity of image interpretable representations to segmentation granularity and occlusion colour.
翻訳日:2022-10-28 08:58:46 公開日:2022-09-30
# ナノダイヤモンドの機械学習フロンティア軌道エネルギー

Machine learning frontier orbital energies of nanodiamonds ( http://arxiv.org/abs/2210.07930v1 )

ライセンス: Link先を確認
Thorren Kirschbaum, B\"orries von Seggern, Joachim Dzubiella, Annika Bande, Frank No\'e(参考訳) ナノダイヤモンドは触媒、センシング、トライボロジー、バイオメディシンなど幅広い用途に応用されている。 マシンラーニングによるナノダイアモンド設計を活用するために,5,089個のダイヤモンド構造とナノダイアモンド構造とフロンティア軌道エネルギーからなる新しいデータセットnd5kを紹介する。 ND5k構造は密結合密度汎関数理論(DFTB)により最適化され、そのフロンティア軌道エネルギーはPBE0ハイブリッド汎関数理論(DFT)を用いて計算される。 また,ND5kでの補間)と同様な構造のフロンティア軌道エネルギーを予測するための最近の機械学習モデルを比較し,より大規模な構造への予測を外挿する能力をテストする。 補間処理と補間処理の両方において、同変グラフニューラルネットワークPaiNNを用いて最適な性能を示す。 第二の最良の結果は、ここで提案された一連の原子ディスクリプタを使用して、メッセージパッシングニューラルネットワークによって達成される。

Nanodiamonds have a wide range of applications including catalysis, sensing, tribology and biomedicine. To leverage nanodiamond design via machine learning, we introduce the new dataset ND5k, consisting of 5,089 diamondoid and nanodiamond structures and their frontier orbital energies. ND5k structures are optimized via tight-binding density functional theory (DFTB) and their frontier orbital energies are computed using density functional theory (DFT) with the PBE0 hybrid functional. We also compare recent machine learning models for predicting frontier orbital energies for similar structures as they have been trained on (interpolation on ND5k), and we test their abilities to extrapolate predictions to larger structures. For both the interpolation and extrapolation task, we find best performance using the equivariant graph neural network PaiNN. The second best results are achieved with a message passing neural network using a tailored set of atomic descriptors proposed here.
翻訳日:2022-10-23 20:53:38 公開日:2022-09-30
# aiのためのフェア: 学際的、国際的、包括的、多様なコミュニティ構築視点

FAIR for AI: An interdisciplinary, international, inclusive, and diverse community building perspective ( http://arxiv.org/abs/2210.08973v1 )

ライセンス: Link先を確認
E.A. Huerta, Ben Blaiszik, L. Catherine Brinson, Kristofer E. Bouchard, Daniel Diaz, Caterina Doglioni, Javier M. Duarte, Murali Emani, Ian Foster, Geoffrey Fox, Philip Harris, Lukas Heinrich, Shantenu Jha, Daniel S. Katz, Volodymyr Kindratenko, Christine R. Kirkpatrick, Kati Lassila-Perini, Ravi K. Madduri, Mark S. Neubauer, Fotis E. Psomopoulos, Avik Roy, Oliver R\"ubel, Zhizhen Zhao and Ruike Zhu(参考訳) 2016年、適切なデータ管理と管理のための前提条件として、発見可能、アクセス可能、相互運用可能、再利用可能な(fair)原則の基本的なセットが提案され、学術データの再利用を可能にした。 この原則は、他のデジタル資産にも高いレベルで適用することを目的としており、時間とともに、データを生成するソフトウェア、ツール、アルゴリズム、ワークフローを含むように、公正な指針の原則が再解釈または拡張された。 FAIR原則は現在、AIモデルとデータセットのコンテキストに適応している。 ここでは、FAIRの実践コミュニティにおけるFAIRの原則の定義と採用をリードする各国の研究者の視点、ビジョン、経験を示し、FAIRのAI研究を追求し、インセンティブを与える結果について議論する。 このレポートの資料は2022年6月7日にアルゴンヌ国立研究所で開催されたFAIR for AI Workshopに基づいている。

A foundational set of findable, accessible, interoperable, and reusable (FAIR) principles were proposed in 2016 as prerequisites for proper data management and stewardship, with the goal of enabling the reusability of scholarly data. The principles were also meant to apply to other digital assets, at a high level, and over time, the FAIR guiding principles have been re-interpreted or extended to include the software, tools, algorithms, and workflows that produce data. FAIR principles are now being adapted in the context of AI models and datasets. Here, we present the perspectives, vision, and experiences of researchers from different countries, disciplines, and backgrounds who are leading the definition and adoption of FAIR principles in their communities of practice, and discuss outcomes that may result from pursuing and incentivizing FAIR AI research. The material for this report builds on the FAIR for AI Workshop held at Argonne National Laboratory on June 7, 2022.
翻訳日:2022-10-23 20:53:21 公開日:2022-09-30
# 知識グラフに基づく自動走行法に関する調査研究

A Survey on Knowledge Graph-based Methods for Automated Driving ( http://arxiv.org/abs/2210.08119v1 )

ライセンス: Link先を確認
Juergen Luettin, Sebastian Monka, Cory Henson, Lavdim Halilaj(参考訳) 自動運転はコンピュータ科学で最も活発な研究分野の一つである。 ディープラーニングの手法は、マシンラーニング全般、特に自動運転(AD)において顕著なブレークスルーを遂げている。 しかし、自動化システムの信頼性と安全性を保証し、特に運転タスクで利用可能なすべての情報と知識を効果的に組み込むことは、まだ未解決である。 知識グラフ(KG)は最近、構造化データ、動的データ、リレーショナルデータを活用することで恩恵を受けるアプリケーションのために、業界と学術の両方から大きな注目を集めている。 複雑な関係とオブジェクト間の相互依存性を持つグラフ構造データの複雑性は、既存の機械学習アルゴリズムに重大な課題をもたらした。 しかし、知識グラフ埋め込みとグラフニューラルネットワークの最近の進歩により、グラフ構造化データに機械学習を適用することができる。 したがって、ADを含む主要な業務に適用されるKGの潜在的な利益を動機づけ、議論する。 1)オントロジー 2)知覚 3)シーン理解。 4)運動計画,及び 5)検証。 次に,オントロジーとkgベースのアプローチを調査し,分析し,分類する。 我々は,現在の研究課題を議論し,広告のためのkg型ソリューションの今後の研究方向性を提案する。

Automated driving is one of the most active research areas in computer science. Deep learning methods have made remarkable breakthroughs in machine learning in general and in automated driving (AD)in particular. However, there are still unsolved problems to guarantee reliability and safety of automated systems, especially to effectively incorporate all available information and knowledge in the driving task. Knowledge graphs (KG) have recently gained significant attention from both industry and academia for applications that benefit by exploiting structured, dynamic, and relational data. The complexity of graph-structured data with complex relationships and inter-dependencies between objects has posed significant challenges to existing machine learning algorithms. However, recent progress in knowledge graph embeddings and graph neural networks allows to applying machine learning to graph-structured data. Therefore, we motivate and discuss the potential benefit of KGs applied to the main tasks of AD including 1) ontologies 2) perception, 3) scene understanding, 4) motion planning, and 5) validation. Then, we survey, analyze and categorize ontologies and KG-based approaches for AD. We discuss current research challenges and propose promising future research directions for KG-based solutions for AD.
翻訳日:2022-10-23 20:45:09 公開日:2022-09-30
# 不確実性の複合化による緊急避難の優先順位付け

Prioritizing emergency evacuations under compounding levels of uncertainty ( http://arxiv.org/abs/2210.08975v1 )

ライセンス: Link先を確認
Lisa J. Einstein, Robert J. Moss, Mykel J. Kochenderfer(参考訳) 緊急避難は命を救い、苦しみを減らすことができる。 しかし、緊急避難に固有の混乱、不確実性、および価値判断を考慮して、意思決定者は最適な避難方針を決定するのに苦労する。 民間避難に備えたチームを対象とした危機前訓練のための意思決定支援ツールの提案と分析を行い,2021年の米国主導のアフガニスタンからの避難に備えて,そのツールを探索する。 我々は,(1)避難ゲートに次に現れる優先カテゴリー,(2)人口レベルでの優先カテゴリーの分布,(3)個人が主張する優先カテゴリーにおいて,複合的不確実性のレベルを捉えるために,異なる種類のマルコフ決定過程(MDP)を用いる。 8つのヒューリスティックな政策の下で、優先的な地位で避難する人の数を比較した。 最適化されたMDPポリシは、すべてのヒューリスティックベースラインと比較して最高のパフォーマンスを達成する。 また,モデルの不確かさの複合化レベルを考慮すれば,政策性能の向上を伴わずに複雑さが増すことが示された。 有用なヒューリスティックは、人間の意思決定者に知らせるために最適化されたポリシーから抽出できる。 われわれは、アルゴリズムを高い人道的意思決定に組み込むためのトレードオフ、制限、可能性に関する堅牢な対話を促進するためのすべてのツールをオープンソース化した。

Well-executed emergency evacuations can save lives and reduce suffering. However, decision makers struggle to determine optimal evacuation policies given the chaos, uncertainty, and value judgments inherent in emergency evacuations. We propose and analyze a decision support tool for pre-crisis training exercises for teams preparing for civilian evacuations and explore the tool in the case of the 2021 U.S.-led evacuation from Afghanistan. We use different classes of Markov decision processes (MDPs) to capture compounding levels of uncertainty in (1) the priority category of who appears next at the gate for evacuation, (2) the distribution of priority categories at the population level, and (3) individuals' claimed priority category. We compare the number of people evacuated by priority status under eight heuristic policies. The optimized MDP policy achieves the best performance compared to all heuristic baselines. We also show that accounting for the compounding levels of model uncertainty incurs added complexity without improvement in policy performance. Useful heuristics can be extracted from the optimized policies to inform human decision makers. We open-source all tools to encourage robust dialogue about the trade-offs, limitations, and potential of integrating algorithms into high-stakes humanitarian decision-making.
翻訳日:2022-10-23 20:44:25 公開日:2022-09-30
# 複雑なネットワークに基づくシーケンスアウェア勧告手法

A Sequence-Aware Recommendation Method Based on Complex Networks ( http://arxiv.org/abs/2210.07814v1 )

ライセンス: Link先を確認
Abdullah Alhadlaq and Said Kerrache and Hatim Aboalsamh(参考訳) オンラインストアやサービスプロバイダは、大量の利用可能な製品を通じてユーザをガイドするレコメンデーションソフトウェアに大きく依存している。 その結果、推薦制度の分野は産業や学界からも注目が集まっているが、この共同作業にもかかわらず、この分野は依然としていくつかの課題に直面している。 例えば、既存の作業の多くは、推奨問題を行列補完問題としてモデル化し、アイテムのユーザの好みを予測する。 この抽象化により、システムはオンラインセッションに記録されたユーザーアクションの順序列からリッチな情報を利用することができない。 この制限に対処するために、研究者は、現在進行中のユーザセッションにおけるアクションのシーケンスからなる時系列を利用して、ユーザの次のアクションを予測するシーケンシャルアウェアレコメンダシステムと呼ばれる有望な新しいアルゴリズムを開発した。 本稿では,ノードの類似点と人気度を組み合わせてリンクを生成する,隠れ距離空間モデルによって生成される複雑なネットワークに基づく,新しいシーケンス対応レコメンデーション手法を提案する。 データからネットワークモデルを構築し、それを使ってユーザのその後のアクションを予測する。 ネットワークモデルは、レコメンデーションの精度を向上させる追加の情報ソースを提供する。 提案手法は大規模データセット上で実験的に実装および試験を行った。 その結果,提案手法は最先端のレコメンデーション手法よりも優れた性能を示した。

Online stores and service providers rely heavily on recommendation softwares to guide users through the vast amount of available products. Consequently, the field of recommender systems has attracted increased attention from the industry and academia alike, but despite this joint effort, the field still faces several challenges. For instance, most existing work models the recommendation problem as a matrix completion problem to predict the user preference for an item. This abstraction prevents the system from utilizing the rich information from the ordered sequence of user actions logged in online sessions. To address this limitation, researchers have recently developed a promising new breed of algorithms called sequence-aware recommender systems to predict the user's next action by utilizing the time series composed of the sequence of actions in an ongoing user session. This paper proposes a novel sequence-aware recommendation approach based on a complex network generated by the hidden metric space model, which combines node similarity and popularity to generate links. We build a network model from data and then use it to predict the user's subsequent actions. The network model provides an additional source of information that improves the accuracy of the recommendations. The proposed method is implemented and tested experimentally on a large dataset. The results prove that the proposed approach performs better than state-of-the-art recommendation methods.
翻訳日:2022-10-23 20:43:41 公開日:2022-09-30
# ライブシステムにおけるセッション内コンテキスト認識フィードレコメンデーション

Intra-session Context-aware Feed Recommendation in Live Systems ( http://arxiv.org/abs/2210.07815v1 )

ライセンス: Link先を確認
Luo Ji and Gao Liu and Mingyang Yin and Hongxia Yang(参考訳) フィードレコメンデーションにより、ユーザーは興味のないと感じ、セッションを離れるまで、アイテムを常に閲覧することができる。 セッション内で、ユーザーがブラウジングを続けるかどうかの決定は、後続クリックの発生に大きく影響する。 しかし、この種の露光バイアスは一般的に無視されるか、ほとんどのフィード推奨研究で明示的にモデル化されていない。 本稿では,この効果をセッション内コンテキストの一部としてモデル化し,全ビューと全クリックを同時に最大化するための新しいセッション内コンテキスト対応フィードレコメンデーション(INSCAFER)フレームワークを提案する。 ユーザクリックとブラウジングの決定はマルチタスク設定で共同学習され、セッション単位のアイテムシーケンスによってセッション内コンテキストが符号化される。 当社のモデルをalipayにデプロイし、すべての主要なビジネスベンチマークを改善しました。 提案手法は,セッションレベルのクリックとビューのメトリクスを最適化することを目的とした,フィードレコメンデーション研究に光を当てる。

Feed recommendation allows users to constantly browse items until feel uninterested and leave the session, which differs from traditional recommendation scenarios. Within a session, user's decision to continue browsing or not substantially affects occurrences of later clicks. However, such type of exposure bias is generally ignored or not explicitly modeled in most feed recommendation studies. In this paper, we model this effect as part of intra-session context, and propose a novel intra-session Context-aware Feed Recommendation (INSCAFER) framework to maximize the total views and total clicks simultaneously. User click and browsing decisions are jointly learned by a multi-task setting, and the intra-session context is encoded by the session-wise exposed item sequence. We deploy our model on Alipay with all key business benchmarks improved. Our method sheds some lights on feed recommendation studies which aim to optimize session-level click and view metrics.
翻訳日:2022-10-23 20:43:21 公開日:2022-09-30
# 深層学習を用いた乳癌検診のための対話型解釈システム

An Interactive Interpretability System for Breast Cancer Screening with Deep Learning ( http://arxiv.org/abs/2210.08979v1 )

ライセンス: Link先を確認
Yuzhe Lu, Adam Perer(参考訳) 深層学習、特に畳み込みニューラルネットワークは、医用画像処理タスクにおいて強力なツールとして登場した。 これらの複雑なモデルは優れた性能を提供するが、ブラックボックスの性質は、高い意思決定において現実の採用を妨げる可能性がある。 本稿では,乳がん検診における放射線科医支援のための最新診断技術を活用したインタラクティブシステムを提案する。 本システムは, 深層学習モデルを放射線学者のワークフローに統合し, モデル決定プロセスの理解を促進するために, 新たなインタラクションを提供する。 さらに, ユーザのインタラクションを段階的に活用して, ラベル付けのオーバーヘッドが少なく, より詳細な説明可能性レポートを提供できることを示す。 提案手法の汎用性から,本システムはドメイン非依存であり,様々な医用画像処理タスクに利用可能であり,視覚分析を用いて元々の静的解釈技術を変換し,人間の意思決定を増強し,医療aiの採用を促進するための新しい視点を提示する。

Deep learning methods, in particular convolutional neural networks, have emerged as a powerful tool in medical image computing tasks. While these complex models provide excellent performance, their black-box nature may hinder real-world adoption in high-stakes decision-making. In this paper, we propose an interactive system to take advantage of state-of-the-art interpretability techniques to assist radiologists with breast cancer screening. Our system integrates a deep learning model into the radiologists' workflow and provides novel interactions to promote understanding of the model's decision-making process. Moreover, we demonstrate that our system can take advantage of user interactions progressively to provide finer-grained explainability reports with little labeling overhead. Due to the generic nature of the adopted interpretability technique, our system is domain-agnostic and can be used for many different medical image computing tasks, presenting a novel perspective on how we can leverage visual analytics to transform originally static interpretability techniques to augment human decision making and promote the adoption of medical AI.
翻訳日:2022-10-23 20:34:50 公開日:2022-09-30
# 移動プラットフォーム検出・着陸のための完全自律型UAV制御

Towards a Fully Autonomous UAV Controller for Moving Platform Detection and Landing ( http://arxiv.org/abs/2210.08120v1 )

ライセンス: Link先を確認
Michalis Piponidis, Panayiotis Aristodemou, Theocharis Theocharides(参考訳) 無人航空機(uavs)は、いくつかのミッションで徐々に展開されているが、信頼性と一貫性の欠如は、真に自律的にシステムを展開する上で大きな障害となる。 本稿では,移動プラットフォームに着陸するための自律型uavランディングシステムを提案する。 既存の試みとは対照的に,提案システムはカメラセンサのみに依存し,可能な限り軽量に設計されている。 提案するシステムは、外部通信や他のセンサーとは無関係に、ドローンペイロードの一部として低電力プラットフォームにデプロイすることができる。 このシステムは、ニューラルネットワーク(NN)ベースのコントローラに依存しており、ターゲットと環境に依存しないシミュレータが作成され、RL(Reinforcement Learning)とPPO(Proximal Policy Optimization)を介して提案システムのトレーニングとテストに使用される。 実世界のテストにより、システムは目標の中心から平均15cmずれて40回の着陸の試みで評価された。

While Unmanned Aerial Vehicles (UAVs) are increasingly deployed in several missions, their inability of reliable and consistent autonomous landing poses a major setback for deploying such systems truly autonomously. In this paper we present an autonomous UAV landing system for landing on a moving platform. In contrast to existing attempts, the proposed system relies only on the camera sensor, and has been designed as lightweight as possible. The proposed system can be deployed on a low power platform as part of the drone payload, whilst being indifferent to any external communication or any other sensors. The system relies on a Neural Network (NN) based controller, for which a target and environment agnostic simulator was created, used in training and testing of the proposed system, via Reinforcement Learning (RL) and Proximal Policy optimization (PPO) to optimally control and steer the drone towards landing on the target. Through real-world testing, the system was evaluated with an average deviation of 15cm from the center of the target, for 40 landing attempts.
翻訳日:2022-10-23 20:34:36 公開日:2022-09-30
# 成長次元部分関数線形モデルのための非漸近最適予測誤差

Non-asymptotic Optimal Prediction Error for Growing-dimensional Partially Functional Linear Models ( http://arxiv.org/abs/2009.04729v3 )

ライセンス: Link先を確認
Huiming Zhang, Xiaoyu Lei(参考訳) 再現カーネルヒルベルト空間(RKHS)の下では、関数的および伝統的な多変数部分を含む予測子を持つ部分汎関数線形モデルの最小二乗法を考える。 非漸近的な観点から、予測誤差の速度-最適上界と下界に焦点を当てる。 過剰な予測リスクの正確な上限は、モデルへの効果的な次元として知られるより一般的な仮定の下で非漸近的な形で示され、多変量共変量の数 p$ がサンプルサイズ $n$ でわずかに増加する場合の予測一貫性を示す。 我々の新しい発見は、非機能予測器の数とカーネルの主成分の有効次元とのトレードオフを示唆し、増大する次元における予測整合性を保証する。 この証明における解析は、共分散作用素と再生核のサンドウィッチ作用素のスペクトル条件と、ヒルベルト空間のランダム要素に対する準ガウスおよびベルシュタイン濃度の不等式にかかっている。 最後に、モデルのkullback-leibler発散の正規性仮定の下で非漸近的ミニマックス下限を導出する。

Under the reproducing kernel Hilbert spaces (RKHS), we consider the penalized least-squares of the partially functional linear models (PFLM), whose predictor contains both functional and traditional multivariate parts, and the multivariate part allows a divergent number of parameters. From the non-asymptotic point of view, we focus on the rate-optimal upper and lower bounds of the prediction error. An exact upper bound for the excess prediction risk is shown in a non-asymptotic form under a more general assumption known as the effective dimension to the model, by which we also show the prediction consistency when the number of multivariate covariates $p$ slightly increases with the sample size $n$. Our new finding implies a trade-off between the number of non-functional predictors and the effective dimension of the kernel principal components to ensure prediction consistency in the increasing-dimensional setting. The analysis in our proof hinges on the spectral condition of the sandwich operator of the covariance operator and the reproducing kernel, and on sub-Gaussian and Berstein concentration inequalities for the random elements in Hilbert space. Finally, we derive the non-asymptotic minimax lower bound under the regularity assumption of the Kullback-Leibler divergence of the models.
翻訳日:2022-10-20 04:02:53 公開日:2022-09-30
# 自己監督学習を用いた多段階心電図不整脈分類

Multimodality Multi-Lead ECG Arrhythmia Classification using Self-Supervised Learning ( http://arxiv.org/abs/2210.06297v1 )

ライセンス: Link先を確認
Thinh Phan, Duc Le, Patel Brijesh, Donald Adjeroh, Jingxian Wu, Morten Olgaard Jensen, Ngan Le(参考訳) 心電図(ecg)信号は、心臓リズムの異常と関連した心血管疾患(cvds)の診断と予測に主に使用される最も効果的な情報源の1つである。 明らかに、単一のモダリティecg(すなわち時系列)はその完全な特性を伝達できないため、時系列データとスペクトログラムの形で時間と時間-周波数のモダリティを利用する必要がある。 ラベルのないデータに最先端の自己教師付き学習(SSL)技術を活用することで、SSLベースのマルチモダリティECG分類を提案する。 提案するネットワークはssl学習パラダイムに従い,プリストリームタスクとダウンストリームタスクに対応する2つのモジュールで構成される。 SSL-pre-streamタスクでは、ラベル付きデータのない自己知識蒸留(KD)技術を用いて、様々な変換、時間と周波数の領域で行う。 ラベル付きデータに基づいて訓練された下流タスクにおいて,マルチモーダリティからの情報を融合するためのゲート融合機構を提案し,本手法の有効性を評価するため,12リードのPhyloNet 2020データセット上で10倍のクロス検証を行った。

Electrocardiogram (ECG) signal is one of the most effective sources of information mainly employed for the diagnosis and prediction of cardiovascular diseases (CVDs) connected with the abnormalities in heart rhythm. Clearly, single modality ECG (i.e. time series) cannot convey its complete characteristics, thus, exploiting both time and time-frequency modalities in the form of time-series data and spectrogram is needed. Leveraging the cutting-edge self-supervised learning (SSL) technique on unlabeled data, we propose SSL-based multimodality ECG classification. Our proposed network follows SSL learning paradigm and consists of two modules corresponding to pre-stream task, and down-stream task, respectively. In the SSL-pre-stream task, we utilize self-knowledge distillation (KD) techniques with no labeled data, on various transformations and in both time and frequency domains. In the down-stream task, which is trained on labeled data, we propose a gate fusion mechanism to fuse information from multimodality.To evaluate the effectiveness of our approach, ten-fold cross validation on the 12-lead PhysioNet 2020 dataset has been conducted.
翻訳日:2022-10-16 16:21:32 公開日:2022-09-30
# NTFields:物理情報を用いたロボット運動計画のためのニューラルネットワーク

NTFields: Neural Time Fields for Physics-Informed Robot Motion Planning ( http://arxiv.org/abs/2210.00120v1 )

ライセンス: Link先を確認
Ruiqi Ni, Ahmed H. Qureshi(参考訳) Neural Motion Planners (NMP)は、複雑な環境でロボットナビゲーションタスクを解くための有望なツールとして登場した。 しかし、これらの方法は学習のために専門的なデータを必要とすることが多く、データ生成が時間を要するシナリオに限定される。 近年の進歩は、複雑な動的部分微分方程式(PDE)を表現できる物理インフォームドディープニューラルモデルにも繋がっている。 これらの発展にインスパイアされたロボット動作計画のためのニューラルタイムフィールド(NTFields)を提案する。 本フレームワークは,Eykonal Equationと呼ばれる非線形一階PDEから得られる経路解を見つけるために連続到着時間を生成する波動伝搬モデルを表す。 提案手法はギブソンデータセットを含む様々な散在した3次元環境において評価し,従来のグリッドベースのアイコナルプランナーがしばしば次元の呪いに直面する4-DOFおよび6-DOFロボットマニピュレータの動作計画問題を解く能力を示す。 さらに,本手法は,従来のプランナーのトレーニングデータを必要とするNMPを含む最先端の手法よりも,高い成功率と計算時間を示すことを示す。

Neural Motion Planners (NMPs) have emerged as a promising tool for solving robot navigation tasks in complex environments. However, these methods often require expert data for learning, which limits their application to scenarios where data generation is time-consuming. Recent developments have also led to physics-informed deep neural models capable of representing complex dynamical Partial Differential Equations (PDEs). Inspired by these developments, we propose Neural Time Fields (NTFields) for robot motion planning in cluttered scenarios. Our framework represents a wave propagation model generating continuous arrival time to find path solutions informed by a nonlinear first-order PDE called Eikonal Equation. We evaluate our method in various cluttered 3D environments, including the Gibson dataset, and demonstrate its ability to solve motion planning problems for 4-DOF and 6-DOF robot manipulators where the traditional grid-based Eikonal planners often face the curse of dimensionality. Furthermore, the results show that our method exhibits high success rates and significantly lower computational times than the state-of-the-art methods, including NMPs that require training data from classical planners.
翻訳日:2022-10-09 17:12:47 公開日:2022-09-30
# BayesFT: フォールトトレラントニューラルネットワークアーキテクチャのためのベイズ最適化

BayesFT: Bayesian Optimization for Fault Tolerant Neural Network Architecture ( http://arxiv.org/abs/2210.01795v1 )

ライセンス: Link先を確認
Nanyang Ye, Jingbiao Mei, Zhicheng Fang, Yuwen Zhang, Ziqing Zhang, Huaying Wu, Xiaoyao Liang(参考訳) リソース制限されたシナリオにディープラーニングアルゴリズムをデプロイするために、新たなデバイス抵抗ランダムアクセスメモリ(ReRAM)がアナログコンピューティングを通じて有望であると見なされている。 しかし、ReRAMの実用性は主に、製造や熱騒音など多要素的な理由から、ReRAMニューラルネットワークの重みのドリフトによって制限されている。 本稿では,フォールトトレラントニューラルネットワークアーキテクチャ(BayesFT)のための新しいベイズ最適化手法を提案する。 ニューラルアーキテクチャの探索空間設計のために,ニューラルネットワークの検索空間全体を探索する代わりに,まず,ドロップアウト,正規化,レイヤ数,およびドロップアウトがニューラルネットワークの重みドリフトに対するロバスト性を改善することができるアクティベーション関数といった,異なるニューラルネットワークコンポーネントの重みドリフト耐性を体系的に検討する。 そこで本研究では,各層に対するドロップアウト率のみを探索し,効率的な探索空間を提案する。 次に,重みドリフトにロバストな最適なニューラルネットワークを探索するためにベイズ最適化を用いる。 実証実験により,画像分類や物体検出などの様々なタスクにおいて,アルゴリズムフレームワークが最先端の手法を最大10倍に上回ったことを実証した。

To deploy deep learning algorithms on resource-limited scenarios, an emerging device-resistive random access memory (ReRAM) has been regarded as promising via analog computing. However, the practicability of ReRAM is primarily limited due to the weight drifting of ReRAM neural networks due to multi-factor reasons, including manufacturing, thermal noises, and etc. In this paper, we propose a novel Bayesian optimization method for fault tolerant neural network architecture (BayesFT). For neural architecture search space design, instead of conducting neural architecture search on the whole feasible neural architecture search space, we first systematically explore the weight drifting tolerance of different neural network components, such as dropout, normalization, number of layers, and activation functions in which dropout is found to be able to improve the neural network robustness to weight drifting. Based on our analysis, we propose an efficient search space by only searching for dropout rates for each layer. Then, we use Bayesian optimization to search for the optimal neural architecture robust to weight drifting. Empirical experiments demonstrate that our algorithmic framework has outperformed the state-of-the-art methods by up to 10 times on various tasks, such as image classification and object detection.
翻訳日:2022-10-09 17:03:17 公開日:2022-09-30
# 変圧器のさらなる予習のための自己蒸留

Self-Distillation for Further Pre-training of Transformers ( http://arxiv.org/abs/2210.02871v1 )

ライセンス: Link先を確認
Seanie Lee, Minki Kang, Juho Lee, Sung Ju Hwang, Kenji Kawaguchi(参考訳) 大量のラベル付きデータ上で大きなトランスフォーマーモデルを事前トレーニングし、さまざまな下流タスクのためにラベル付きデータセットで微調整することは、さまざまなビジョンや自然言語処理タスクにおいて、成功した戦略であることが証明されている。 しかし、事前学習と微調整のためのデータ領域に大きな差異がある場合、事前学習モデルの直接的微調整は最適ではないかもしれない。 この問題に対処するために、いくつかの先行研究がさらなる事前学習戦略を提案しており、微調整前にターゲット未ラベルデータセット上でモデルを事前訓練し続けている。 しかし、これらはいずれも言語モデルにのみ焦点を合わせており、ターゲットの未ラベルデータに対してモデルを事前訓練し続けながら、Vision Transformerが過度な適合に弱いことを経験的に見出した。 この制限に対処するために, さらなる予習段階の定期化として, 自己蒸留を提案する。 具体的には,まず,対象の未ラベルデータに対する事前学習モデルの事前学習を行い,それを自己蒸留の教師とみなす。 そして,学生と同じ事前学習モデルを用いて,隠された表現を教師のそれに近いものにし,マスク付き自動符号化の目的で生徒を最適化する。 画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。 実験により,提案手法は関連するベースラインを全て上回ることを示す。 理論的には,提案手法を単純化したモデルを用いて解析し,さらなる事前学習のための自己蒸留が下流タスクの性能向上にどのように役立つかを理解する。

Pre-training a large transformer model on a massive amount of unlabeled data and fine-tuning it on labeled datasets for diverse downstream tasks has proven to be a successful strategy, for a variety of vision and natural language processing tasks. However, direct fine-tuning of the pre-trained model may be suboptimal if there exist large discrepancies across data domains for pre-training and fine-tuning. To tackle this issue, several previous studies have proposed further pre-training strategies, where we continue to pre-train the model on the target unlabeled dataset before fine-tuning. However, all of them solely focus on language models and we empirically find that a Vision Transformer is vulnerable to overfitting as we continue to pretrain the model on target unlabeled data. In order to tackle this limitation, we propose self-distillation as a regularization for a further pre-training stage. Specifically, we first further pre-train the initial pre-trained model on the target unlabeled data and then consider it as a teacher for self-distillation. Then we take the same initial pre-trained model as a student and enforce its hidden representations to be close to those of the teacher while optimizing the student with a masked auto-encoding objective. We empirically validate the efficacy of self-distillation on a variety of benchmark datasets for image and text classification tasks. Experimentally, we show that our proposed method outperforms all the relevant baselines. Theoretically, we analyze the proposed method with a simplified model to understand how self-distillation for further pre-training can potentially help improve the performance of the downstream tasks.
翻訳日:2022-10-09 17:02:56 公開日:2022-09-30
# 分散型連合学習における毒物攻撃検出のためのブロックチェーンベースのモニタリング

Blockchain-based Monitoring for Poison Attack Detection in Decentralized Federated Learning ( http://arxiv.org/abs/2210.02873v1 )

ライセンス: Link先を確認
Ranwa Al Mallah, David Lopez(参考訳) Federated Learning(FL)は、データサンプルをローカルに保持するノード間でモデルのトレーニングを可能にすることで、ローカルデータセットへのアクセス権の観点から、プライバシの問題に対処する機械学習技術である。 分散型フェデレーション学習を実現するために、ブロックチェーンベースのFLが分散FLアーキテクチャとして提案された。 分散flでは、労働者同士が協力してグローバルモデルをトレーニングすることで、チーフが学習プロセスから排除される。 分散FLアプリケーションは、ブロックチェーンベースのFLデプロイメントによる追加の遅延を考慮する必要がある。 特に,本研究では,標的/非標的の中毒攻撃を検出するために,現実的な分散型FLプロセスのエンド・ツー・エンド学習完了遅延について検討する。 本研究では,作業者の行動監視を目的とした分散連合学習展開において,被毒攻撃に対する防御において,監視フェーズを検出フェーズから分離する手法を提案する。 提案するブロックチェーンベースの監視により,ネットワークのスケーラビリティ,堅牢性,時間効率が向上することを示す。 処理の並列化は、FLおよびブロックチェーン操作中に発生するエンドツーエンドの通信、計算、コンセンサス遅延を最小化する。

Federated Learning (FL) is a machine learning technique that addresses the privacy challenges in terms of access rights of local datasets by enabling the training of a model across nodes holding their data samples locally. To achieve decentralized federated learning, blockchain-based FL was proposed as a distributed FL architecture. In decentralized FL, the chief is eliminated from the learning process as workers collaborate between each other to train the global model. Decentralized FL applications need to account for the additional delay incurred by blockchain-based FL deployments. Particularly in this setting, to detect targeted/untargeted poisoning attacks, we investigate the end-to-end learning completion latency of a realistic decentralized FL process protected against poisoning attacks. We propose a technique which consists in decoupling the monitoring phase from the detection phase in defenses against poisoning attacks in a decentralized federated learning deployment that aim at monitoring the behavior of the workers. We demonstrate that our proposed blockchain-based monitoring improved network scalability, robustness and time efficiency. The parallelization of operations results in minimized latency over the end-to-end communication, computation, and consensus delays incurred during the FL and blockchain operations.
翻訳日:2022-10-09 17:02:13 公開日:2022-09-30
# 脳活動から複雑なイメージを再構築するmind reader

Mind Reader: Reconstructing complex images from brain activities ( http://arxiv.org/abs/2210.01769v1 )

ライセンス: Link先を確認
Sikun Lin, Thomas Sprague, Ambuj K Singh(参考訳) 脳がどのように外部刺激をコードし、これらの刺激を計測された脳の活動からどのようにデコードするかを理解することは、神経科学における長年の課題である。 本稿では、fmri(functional magnetic resonance imaging)信号から複雑な画像刺激を再構成することに焦点を当てる。 単一の物体や単純な形状で画像を再構成する従来の作品とは異なり、本研究の目的は、日常的な場面に近い意味に富んだイメージ刺激を再構築することであり、より多くの視点を明らかにすることにある。 しかし、この問題に最先端のディープラーニングモデルを適用する上で、fMRIデータセットのデータ不足が主な障害となっている。 脳信号を直接画像に翻訳するよりも、追加のテキストモダリティを組み込むことは、再建問題にとって有益である。 したがって,本手法に係わるモダリティは次のとおりである。 (i)ボクセルレベルのfMRI信号 (ii)脳信号を誘発する画像を観察し、 (iii)画像の本文的記述。 さらにデータの不足に対処するために,大量のデータセットで事前学習された視覚言語潜在空間を活用する。 3つのモードで共有される潜在空間を見つけるために、スクラッチからモデルをトレーニングする代わりに、fMRI信号を予め整列された潜在空間にエンコードする。 そして,この空間の埋め込みを条件とし,生成モデルを用いて画像の再構成を行う。 パイプラインから再構成された画像は、自然性と忠実性の両方のバランスをとります。

Understanding how the brain encodes external stimuli and how these stimuli can be decoded from the measured brain activities are long-standing and challenging questions in neuroscience. In this paper, we focus on reconstructing the complex image stimuli from fMRI (functional magnetic resonance imaging) signals. Unlike previous works that reconstruct images with single objects or simple shapes, our work aims to reconstruct image stimuli that are rich in semantics, closer to everyday scenes, and can reveal more perspectives. However, data scarcity of fMRI datasets is the main obstacle to applying state-of-the-art deep learning models to this problem. We find that incorporating an additional text modality is beneficial for the reconstruction problem compared to directly translating brain signals to images. Therefore, the modalities involved in our method are: (i) voxel-level fMRI signals, (ii) observed images that trigger the brain signals, and (iii) textual description of the images. To further address data scarcity, we leverage an aligned vision-language latent space pre-trained on massive datasets. Instead of training models from scratch to find a latent space shared by the three modalities, we encode fMRI signals into this pre-aligned latent space. Then, conditioned on embeddings in this space, we reconstruct images with a generative model. The reconstructed images from our pipeline balance both naturalness and fidelity: they are photo-realistic and capture the ground truth image contents well.
翻訳日:2022-10-05 14:06:40 公開日:2022-09-30
# 生物学的制約との相違:機能細胞型の理論

Disentangling with Biological Constraints: A Theory of Functional Cell Types ( http://arxiv.org/abs/2210.01768v1 )

ライセンス: Link先を確認
James C.R. Whittington, Will Dorrell, Surya Ganguli, Timothy E.J. Behrens(参考訳) 脳内のニューロンは、特定のタスク変数に対して微調整されることが多い。 さらに、このような非絡み合った表現は、機械学習の後に強く求められている。 ここでは,ニューロンに対する単純な生物学的制約,すなわち,活動量と重みの両面での非負性性とエネルギー効率が,ニューロンを強制的に介在させ,タスク変動の単一要因に選択的に作用させることによって,絡み合った表現の追求を促進することを数学的に証明する。 これらの制約が,多種多様なタスクやアーキテクチャ,例えば変分オートエンコーダの混乱につながることを実証する。 また、この理論を用いて、なぜ脳がその細胞をグリッドやオブジェクトベクトル細胞のような異なる細胞タイプに分割するのかを説明し、また、脳が、絡み合ったタスクファクターに応答して表現を絡み合うのかを説明する。 全体として、この研究は、脳と機械の両方においてニューロンがなぜ、いつ、どのように因子を表すのかを数学的に理解し、タスクが神経表現をどのように構成するかを理解するための第一歩となる。

Neurons in the brain are often finely tuned for specific task variables. Moreover, such disentangled representations are highly sought after in machine learning. Here we mathematically prove that simple biological constraints on neurons, namely nonnegativity and energy efficiency in both activity and weights, promote such sought after disentangled representations by enforcing neurons to become selective for single factors of task variation. We demonstrate these constraints lead to disentangling in a variety of tasks and architectures, including variational autoencoders. We also use this theory to explain why the brain partitions its cells into distinct cell types such as grid and object-vector cells, and also explain when the brain instead entangles representations in response to entangled task factors. Overall, this work provides a mathematical understanding of why, when, and how neurons represent factors in both brains and machines, and is a first step towards understanding of how task demands structure neural representations.
翻訳日:2022-10-05 13:23:45 公開日:2022-09-30
# 時間依存型PDEのための暗黙的空間表現

Implicit Neural Spatial Representations for Time-dependent PDEs ( http://arxiv.org/abs/2210.00124v1 )

ライセンス: Link先を確認
Honglin Chen, Rundi Wu, Eitan Grinspun, Changxi Zheng, Peter Yichen Chen(参考訳) 偏微分方程式(PDE)は、しばしば空間的および時間的離散化を必要とする。 従来の方法(有限差分、有限要素、滑らかな粒子流体力学など)では、格子、メッシュ、点雲などの空間的離散化がしばしば採用され、各自由度が空間上の位置に対応する。 これらの明示的な空間対応はモデルや理解に直感的であるが、これらの表現は必ずしも正確性、メモリ使用量、適応性に最適ではない。 本研究では,空間情報をニューラルネットワークの重みに暗黙的に格納する空間離散化手法として,暗黙的な神経表現を探索する。 暗黙的なニューラルネットワーク空間表現では、pdeが制約する時間ステップはニューラルネットワークの重みの更新へと変換され、一般的に採用されている最適化時間積分器と自然に統合される。 我々は, 弾性変形, 乱流流体, マルチスケール現象を例に, 様々な古典的PDEに対するアプローチを検証した。 従来の表現よりも計算が遅いが,より精度が高く,メモリ消費が低く,複雑なリメッシングを伴わずに動的に自由度を割り当てることができる。

Numerically solving partial differential equations (PDEs) often entails spatial and temporal discretizations. Traditional methods (e.g., finite difference, finite element, smoothed-particle hydrodynamics) frequently adopt explicit spatial discretizations, such as grids, meshes, and point clouds, where each degree-of-freedom corresponds to a location in space. While these explicit spatial correspondences are intuitive to model and understand, these representations are not necessarily optimal for accuracy, memory-usage, or adaptivity. In this work, we explore implicit neural representation as an alternative spatial discretization, where spatial information is implicitly stored in the neural network weights. With implicit neural spatial representation, PDE-constrained time-stepping translates into updating neural network weights, which naturally integrates with commonly adopted optimization time integrators. We validate our approach on a variety of classic PDEs with examples involving large elastic deformations, turbulent fluids, and multiscale phenomena. While slower to compute than traditional representations, our approach exhibits higher accuracy, lower memory consumption, and dynamically adaptive allocation of degrees of freedom without complex remeshing.
翻訳日:2022-10-04 18:11:56 公開日:2022-09-30
# モデル誤差とその推定,特に損失保存への応用

Model error and its estimation, with particular application to loss reserving ( http://arxiv.org/abs/2210.01099v1 )

ライセンス: Link先を確認
G Taylor, G McGuire(参考訳) 本稿では,特に損失保存に関する予測誤差について考察する。 これは一般的にパラメータ、プロセス、モデルエラーという3つのコンポーネントで構成されています。 これらのコンポーネントの最初の2つとその推定はよく理解されているが、モデルエラーは少ない。 モデルエラーそのものは、過去のデータから推定できる部分(内部モデルエラー)と、(外部モデルエラー)ではない部分(外部モデルエラー)の2つに分けられる。 ここでは内部モデルエラーに注目します。 この誤差成分の推定は、ラッソのベイズ解釈を用いてベイズモデル平均化によってアプローチされる。 これは許容されるモデルのセットを生成するのに使われ、それぞれが事前の確率と観測データの可能性を持つ。 この後部に従って損失予備金の分散として、モデルセットの後方、データに対する条件付き、結果、(損失予備金に含まれる)モデル誤差の推定値を得る。 後方の支持部に物質的に入射するモデルの個体数は、所望よりも薄いことが判明し、ラッソのブートストラップはバルクを得るために使用される。 これはパラメータエラーの推定値のボーナスも提供する。 パラメータとモデル誤差の推定値が絡み合っており、それらの解離は少なくとも困難であり、おそらく意味のあるものではないことが判明した。 これらの事柄について論じる。 議論の大半は概ね予測に当てはまるが、保険データと保険損失の保存問題との関連で、概念の数値的な説明がなされている。

This paper is concerned with forecast error, particularly in relation to loss reserving. This is generally regarded as consisting of three components, namely parameter, process and model errors. The first two of these components, and their estimation, are well understood, but less so model error. Model error itself is considered in two parts: one part that is capable of estimation from past data (internal model error), and another part that is not (external model error). Attention is focused here on internal model error. Estimation of this error component is approached by means of Bayesian model averaging, using the Bayesian interpretation of the LASSO. This is used to generate a set of admissible models, each with its prior probability and the likelihood of observed data. A posterior on the model set, conditional on the data, results, and an estimate of model error (contained in a loss reserve) is obtained as the variance of the loss reserve according to this posterior. The population of models entering materially into the support of the posterior may turn out to be thinner than desired, and bootstrapping of the LASSO is used to gain bulk. This provides the bonus of an estimate of parameter error also. It turns out that the estimates of parameter and model errors are entangled, and dissociation of them is at least difficult, and possibly not even meaningful. These matters are discussed. The majority of the discussion applies to forecasting generally, but numerical illustration of the concepts is given in relation to insurance data and the problem of insurance loss reserving.
翻訳日:2022-10-04 17:47:19 公開日:2022-09-30
# ロバストな人物識別:WiFiビジョンに基づくアプローチ

Robust Person Identification: A WiFi Vision-based Approach ( http://arxiv.org/abs/2210.00127v1 )

ライセンス: Link先を確認
Yili Ren and Jie Yang(参考訳) 個人再識別(Re-ID)は、幅広いセキュリティアプリケーションをサポートするため、ますます重要になっている。 従来のRe-IDは、主に光学カメラベースのシステムに依存しており、人の外観、オクルージョン、人間のポーズの変化によっていくつかの制限が生じる。 本研究では3次元空間における人物Re-IDのためのWiFiビジョンベースシステムである3D-IDを提案する。 当社のシステムは、wifiとディープラーニングの進歩を利用して、wi-fiデバイスが人々を認識、識別、認識するのを支援する。 特に、次世代のwifiデバイス上で複数のアンテナを活用し、信号反射を2次元aoa推定することで、物理環境でのwi-fiを可視化する。 次に、ディープラーニングを利用して、人物の可視化を3dボディ表現にデジタイズし、静的体形と動的歩行パターンの両方を抽出する。 各種屋内環境下での評価結果から,3D-IDシステム全体のランク1精度は85.3%であった。 また,本システムは各種攻撃に対する耐性を示す。 提案されている3d-idは、カメラベースのシステムを拡張または補完できるため、非常に有望である。

Person re-identification (Re-ID) has become increasingly important as it supports a wide range of security applications. Traditional person Re-ID mainly relies on optical camera-based systems, which incur several limitations due to the changes in the appearance of people, occlusions, and human poses. In this work, we propose a WiFi vision-based system, 3D-ID, for person Re-ID in 3D space. Our system leverages the advances of WiFi and deep learning to help WiFi devices see, identify, and recognize people. In particular, we leverage multiple antennas on next-generation WiFi devices and 2D AoA estimation of the signal reflections to enable WiFi to visualize a person in the physical environment. We then leverage deep learning to digitize the visualization of the person into 3D body representation and extract both the static body shape and dynamic walking patterns for person Re-ID. Our evaluation results under various indoor environments show that the 3D-ID system achieves an overall rank-1 accuracy of 85.3%. Results also show that our system is resistant to various attacks. The proposed 3D-ID is thus very promising as it could augment or complement camera-based systems.
翻訳日:2022-10-04 17:46:35 公開日:2022-09-30
# 産業のレバレッジ 4.0 -- 深層学習・サロゲートモデル・トランスファーラーニングと不確実性量子化による原子力システムのためのディジタルツイン

Leveraging Industry 4.0 -- Deep Learning, Surrogate Model and Transfer Learning with Uncertainty Quantification Incorporated into Digital Twin for Nuclear System ( http://arxiv.org/abs/2210.00074v1 )

ライセンス: Link先を確認
M. Rahman, Abid Khan, Sayeed Anowar, Md Al-Imran, Richa Verma, Dinesh Kumar, Kazuma Kobayashi, Syed Alam(参考訳) 産業 4.0は、技術革命による伝統的な産業の知的産業への転換を目標としている。 この革命はイノベーション、最適化、相互接続、迅速な意思決定能力によってのみ可能となる。 数値モデルは産業4.0の重要な要素であり、コストのかかる実験ではなくシミュレーションによる迅速な意思決定を容易にすると考えられている。 しかし、最適化や意思決定のための精度の高い高忠実度モデルの数値的な研究は通常、時間と計算コストがかかる。 このような場合、データ駆動サロゲートモデルは、高速な計算解析と新しい入力パラメータの出力パラメータの確率的予測に優れた代用となる。 IoT(Internet of Things)と機械学習(ML)の出現により、サロゲートモデリングの概念はさらに有効になった。 しかしながら、これらの代理モデルは、モデル欠陥に由来する固有の不確実性を含むか、その両方を含む。 これらの不確実性は、定量化され最小化されていなければ、歪んだ結果を生み出すことができる。 したがって、最適化、コスト削減、安全性向上プロセス分析において、不確実性定量化技術の適切な実装が不可欠である。 この章は、代理モデリング、トランスファーラーニング、IoT、デジタルツインという概念の概要から始まる。 その後、不確実性、不確実性定量化フレームワーク、およびデジタル双生児と結びついた代理モデルに対する不確実性定量化方法論の具体的詳細が提示される。 最後に、核産業における不確実な定量化アプローチの使用に対処している。

Industry 4.0 targets the conversion of the traditional industries into intelligent ones through technological revolution. This revolution is only possible through innovation, optimization, interconnection, and rapid decision-making capability. Numerical models are believed to be the key components of Industry 4.0, facilitating quick decision-making through simulations instead of costly experiments. However, numerical investigation of precise, high-fidelity models for optimization or decision-making is usually time-consuming and computationally expensive. In such instances, data-driven surrogate models are excellent substitutes for fast computational analysis and the probabilistic prediction of the output parameter for new input parameters. The emergence of Internet of Things (IoT) and Machine Learning (ML) has made the concept of surrogate modeling even more viable. However, these surrogate models contain intrinsic uncertainties, originate from modeling defects, or both. These uncertainties, if not quantified and minimized, can produce a skewed result. Therefore, proper implementation of uncertainty quantification techniques is crucial during optimization, cost reduction, or safety enhancement processes analysis. This chapter begins with a brief overview of the concept of surrogate modeling, transfer learning, IoT and digital twins. After that, a detailed overview of uncertainties, uncertainty quantification frameworks, and specifics of uncertainty quantification methodologies for a surrogate model linked to a digital twin is presented. Finally, the use of uncertainty quantification approaches in the nuclear industry has been addressed.
翻訳日:2022-10-04 17:22:21 公開日:2022-09-30
# E-Branchformer:音声認識のための統合強化ブランチフォーマ

E-Branchformer: Branchformer with Enhanced merging for speech recognition ( http://arxiv.org/abs/2210.00077v1 )

ライセンス: Link先を確認
Kwangyoun Kim, Felix Wu, Yifan Peng, Jing Pan, Prashant Sridhar, Kyu J. Han, Shinji Watanabe(参考訳) convolutionとself-attentionを順次組み合わせてローカル情報とグローバル情報の両方を捉えるconformerは、目覚ましい性能を示しており、現在、自動音声認識(asr)の最先端技術と見なされている。 コンボリューションとセルフアテンションの統合を探求した研究はいくつかあるが、コンフォメータのパフォーマンスには一致していない。 最近導入されたbranchformerはconvolutionとself-attentionの専用のブランチを使用して、各ブランチからローカルとグローバルコンテキストをマージすることで、conformerと同等のパフォーマンスを実現している。 本稿では,効果的なマージ手法を適用し,ポイントワイズモジュールを積み重ねることでブランチフォーマを強化するe-branchformerを提案する。 E-Branchformerは新しい最先端ワードエラー率(WER)1.81%と3.65%を、外部トレーニングデータを使用しずにLibriSpeechテストクリーンおよび他のセットで設定する。

Conformer, combining convolution and self-attention sequentially to capture both local and global information, has shown remarkable performance and is currently regarded as the state-of-the-art for automatic speech recognition (ASR). Several other studies have explored integrating convolution and self-attention but they have not managed to match Conformer's performance. The recently introduced Branchformer achieves comparable performance to Conformer by using dedicated branches of convolution and self-attention and merging local and global context from each branch. In this paper, we propose E-Branchformer, which enhances Branchformer by applying an effective merging method and stacking additional point-wise modules. E-Branchformer sets new state-of-the-art word error rates (WERs) 1.81% and 3.65% on LibriSpeech test-clean and test-other sets without using any external training data.
翻訳日:2022-10-04 17:22:00 公開日:2022-09-30
# MLPInit: MLP初期化によるGNNトレーニング加速の恥ずかしさ

MLPInit: Embarrassingly Simple GNN Training Acceleration with MLP Initialization ( http://arxiv.org/abs/2210.00102v1 )

ライセンス: Link先を確認
Xiaotian Han, Tong Zhao, Yozen Liu, Xia Hu, Neil Shah(参考訳) 大規模グラフ上でのトレーニンググラフニューラルネットワーク(gnns)は複雑で、非常に時間がかかる。 これは、マルチ層パーセプトロン(MLP)をノード機能のみでトレーニングする際にサイドステップされるスパース行列乗算によるオーバーヘッドに起因する。 グラフコンテキストを無視したmlpは、グラフデータにとってシンプルで高速であるが、予測精度を犠牲にして、グラフデータへの応用を制限する。 ほとんどのメッセージパスベースのGNNでは、重みを同一にできるアナログMLP(これをPeerMLPと呼ぶ)を自明に導き出すことができます。 驚くべきことに、そのような重み付けで初期化されたGNNは、グラフデータにおいてPeerMLPよりも大幅に優れており、GNNトレーニングの先駆的な初期化ステップとしてPeerMLPトレーニングを使用する動機となっている。 そこで本稿では,MLPInit と呼ばれる GNN トレーニングアクセラレーションの初期化手法を提案する。 さまざまなGNNアーキテクチャを持つ大規模グラフデータセットに関する大規模な実験では、MLPInitがGNNのトレーニング(OGB製品で最大33倍のスピードアップ)を加速し、予測性能(ノード分類のために7つのデータセットで最大7.97%の改善、メトリクスHits@10上のリンク予測のために4つのデータセットで最大17.81%の改善)を改善することが確認されている。 MLPInitは実装が非常にシンプルで、メッセージパッシングベースのGNNのプラグアンドプレイ初期化メソッドとして柔軟に使用できる。

Training graph neural networks (GNNs) on large graphs is complex and extremely time consuming. This is attributed to overheads caused by sparse matrix multiplication, which are sidestepped when training multi-layer perceptrons (MLPs) with only node features. MLPs, by ignoring graph context, are simple and faster for graph data, however they usually sacrifice prediction accuracy, limiting their applications for graph data. We observe that for most message passing-based GNNs, we can trivially derive an analog MLP (we call this a PeerMLP) whose weights can be made identical, making us curious about how do GNNs using weights from a fully trained PeerMLP perform? Surprisingly, we find that GNNs initialized with such weights significantly outperform their PeerMLPs for graph data, motivating us to use PeerMLP training as a precursor, initialization step to GNN training. To this end, we propose an embarrassingly simple, yet hugely effective initialization method for GNN training acceleration, called MLPInit. Our extensive experiments on multiple large-scale graph datasets with diverse GNN architectures validate that MLPInit can accelerate the training of GNNs (up to 33X speedup on OGB-products) and often improve prediction performance (e.g., up to 7.97% improvement for GraphSAGE across 7 datasets for node classification, and up to 17.81% improvement across 4 datasets for link prediction on metric Hits@10). Most importantly, MLPInit is extremely simple to implement and can be flexibly used as a plug-and-play initialization method for message passing-based GNNs.
翻訳日:2022-10-04 17:21:40 公開日:2022-09-30
# impnet: コンパイル型ニューラルネットワークにおけるインセプタブルおよびブラックボックス検出不能バックドア

ImpNet: Imperceptible and blackbox-undetectable backdoors in compiled neural networks ( http://arxiv.org/abs/2210.00108v1 )

ライセンス: Link先を確認
Tim Clifford, Ilia Shumailov, Yiren Zhao, Ross Anderson, Robert Mullins(参考訳) 機械学習に対する初期のバックドア攻撃は、攻撃と防衛開発で武器競争を開始した。 防衛隊はその後、モデル内のバックドアを検知したり、取り除いたりできる能力を示した。 これらの防御は、訓練手順の訓練データ、モデル、または整合性を検査することで機能する。 本研究では,データ準備とモデルトレーニングの段階でのセーフガードを回避して,コンパイル中にバックドアを追加できることを示す。 例示として、攻撃者はトレーニングやデータ準備プロセスでは検出されないハードウェアコンパイルステップ中に、重みベースのバックドアを挿入することができる。 次に、ImpNetのようなバックドアは、挿入された時にのみ確実に検出でき、他の場所で削除することは重大な課題であることを示す。 機械学習モデルのセキュリティには、データ、モデルアーキテクチャ、コンパイラ、ハードウェア仕様を含む、技術パイプライン全体の保証が必要であると結論付けた。

Early backdoor attacks against machine learning set off an arms race in attack and defence development. Defences have since appeared demonstrating some ability to detect backdoors in models or even remove them. These defences work by inspecting the training data, the model, or the integrity of the training procedure. In this work, we show that backdoors can be added during compilation, circumventing any safeguards in the data preparation and model training stages. As an illustration, the attacker can insert weight-based backdoors during the hardware compilation step that will not be detected by any training or data-preparation process. Next, we demonstrate that some backdoors, such as ImpNet, can only be reliably detected at the stage where they are inserted and removing them anywhere else presents a significant challenge. We conclude that machine-learning model security requires assurance of provenance along the entire technical pipeline, including the data, model architecture, compiler, and hardware specification.
翻訳日:2022-10-04 17:21:05 公開日:2022-09-30
# ビンスオ触覚変換器

Visuo-Tactile Transformers for Manipulation ( http://arxiv.org/abs/2210.00121v1 )

ライセンス: Link先を確認
Yizhou Chen, Andrea Sipos, Mark Van der Merwe, Nima Fazeli(参考訳) 視覚と触覚のジョイント領域における学習表現は、相互情報と補完的手がかりを活用し、操作のデキスタリティ、ロバスト性、サンプル複雑度を向上させることができる。 本稿では,モデルに基づく強化学習と計画に適した,新しいマルチモーダル表現学習手法であるVisuo-Tactile Transformers(VTT)を提案する。 我々のアプローチは視覚トランスフォーマー \cite{dosovitskiy2021image} を拡張し、視覚触覚フィードバックを処理する。 具体的には、VTTは触覚フィードバックと自己および横断的な注意を用いて、視覚領域の重要なタスク機能に注意を集中する潜熱マップ表現を構築する。 4つの模擬ロボットタスクと1つの実世界ブロックプッシュタスクのベースラインに対して比較評価を行い,VTTによる表現学習の有効性を示した。 表現学習におけるモダリティの重要性を明らかにするために,VTTの構成要素に関するアブレーション研究を行う。

Learning representations in the joint domain of vision and touch can improve manipulation dexterity, robustness, and sample-complexity by exploiting mutual information and complementary cues. Here, we present Visuo-Tactile Transformers (VTTs), a novel multimodal representation learning approach suited for model-based reinforcement learning and planning. Our approach extends the Visual Transformer \cite{dosovitskiy2021image} to handle visuo-tactile feedback. Specifically, VTT uses tactile feedback together with self and cross-modal attention to build latent heatmap representations that focus attention on important task features in the visual domain. We demonstrate the efficacy of VTT for representation learning with a comparative evaluation against baselines on four simulated robot tasks and one real world block pushing task. We conduct an ablation study over the components of VTT to highlight the importance of cross-modality in representation learning.
翻訳日:2022-10-04 17:20:49 公開日:2022-09-30
# ローコモーションとマニピュレーションを効果的に学習する

Efficiently Learning Small Policies for Locomotion and Manipulation ( http://arxiv.org/abs/2210.00140v1 )

ライセンス: Link先を確認
Shashank Hegde and Gaurav S. Sukhatme(参考訳) メモリ制約のあるアジャイルロボットのニューラルコントロールには、小さくて高性能なモデルが必要だ。 グラフハイパーネットワークを利用して,オフポリシー強化学習によってトレーニングされたグラフハイパーポリシを学習することにより,一般的なネットワークよりも2桁小さく,同じタスクでトレーニングされた大規模ネットワークでエンコードされるものと同等のポリシをエンコードするネットワークを実現する。 本手法は,移動作業や操作作業において,ハイパーパラメータの変化を伴わずに,任意の非政治強化学習アルゴリズムに付加可能であることを示す。 さらに,パラメータ数が異なる動作ポリシの配列を取得し,システムのメモリ制約に対して最適なネットワークを選択することができる。 この方法で複数のポリシーをトレーニングすることは、1つのポリシーをトレーニングするのと同じくらい効率的なサンプルです。 最後に,パラメータ数の制約を考慮し,最適なアーキテクチャを選択する方法を提案する。 プロジェクトウェブサイト: https://sites.google.com/usc.edu/graphhyperpolicy

Neural control of memory-constrained, agile robots requires small, yet highly performant models. We leverage graph hyper networks to learn graph hyper policies trained with off-policy reinforcement learning resulting in networks that are two orders of magnitude smaller than commonly used networks yet encode policies comparable to those encoded by much larger networks trained on the same task. We show that our method can be appended to any off-policy reinforcement learning algorithm, without any change in hyperparameters, by showing results across locomotion and manipulation tasks. Further, we obtain an array of working policies, with differing numbers of parameters, allowing us to pick an optimal network for the memory constraints of a system. Training multiple policies with our method is as sample efficient as training a single policy. Finally, we provide a method to select the best architecture, given a constraint on the number of parameters. Project website: https://sites.google.com/usc.edu/graphhyperpolicy
翻訳日:2022-10-04 17:20:35 公開日:2022-09-30
# 時間分解線グラフによる時間ネットワークエッジの直接埋め込み

Direct Embedding of Temporal Network Edges via Time-Decayed Line Graphs ( http://arxiv.org/abs/2210.00032v1 )

ライセンス: Link先を確認
Sudhanshu Chanpuriya, Ryan A. Rossi, Sungchul Kim, Tong Yu, Jane Hoffswell, Nedim Lipka, Shunan Guo, and Cameron Musco(参考訳) 時間ネットワークは、実体間の時間的相互作用を含む様々な重要な現象をモデル化する。 時間ネットワーク上の機械学習の既存の方法は、一般的に2つの制限のうちの少なくとも1つを示す。 まず、時刻が離散化されていると仮定し、時間データが連続している場合は、ユーザがその離散化を決定し、正確な時刻情報を破棄しなければならない。 第二に、エッジ表現はノードから間接的にしか計算できないが、エッジ分類のようなタスクには最適ではない。 ネットワークの線グラフを構成することで、各インタラクションのノードを含むネットワークの線グラフを構築し、インタラクション間の時間差に基づいて、このグラフのエッジを重み付ける。 この導出グラフから、元のネットワークのエッジ表現を効率的な古典的手法で計算することができる。 このアプローチの単純さは、明示的な理論的分析を促進する:我々は、時間的ネットワークの自然な合成モデルに対する、この手法の表現の有効性を構築的に示すことができる。 実世界のネットワークにおける実験結果は,エッジ分類と時間的リンク予測の両方において,提案手法の有効性と効率を示す。

Temporal networks model a variety of important phenomena involving timed interactions between entities. Existing methods for machine learning on temporal networks generally exhibit at least one of two limitations. First, time is assumed to be discretized, so if the time data is continuous, the user must determine the discretization and discard precise time information. Second, edge representations can only be calculated indirectly from the nodes, which may be suboptimal for tasks like edge classification. We present a simple method that avoids both shortcomings: construct the line graph of the network, which includes a node for each interaction, and weigh the edges of this graph based on the difference in time between interactions. From this derived graph, edge representations for the original network can be computed with efficient classical methods. The simplicity of this approach facilitates explicit theoretical analysis: we can constructively show the effectiveness of our method's representations for a natural synthetic model of temporal networks. Empirical results on real-world networks demonstrate our method's efficacy and efficiency on both edge classification and temporal link prediction.
翻訳日:2022-10-04 17:11:26 公開日:2022-09-30
# 岩盤・波動物理学インフォームドニューラルネットワーク(rw-pinn)による地震データからの気孔率の直接推定

Direct Estimation of Porosity from Seismic Data using Rock and Wave Physics Informed Neural Networks (RW-PINN) ( http://arxiv.org/abs/2210.00042v1 )

ライセンス: Link先を確認
Divakar Vashisth and Tapan Mukerji(参考訳) 石油物理インバージョンは貯水池モデリングの重要な側面である。 しかし、地震の痕跡と岩石の性質の間には、ユニークで直接的な関係がないため、地震データから直接岩石学的性質を予測することは複雑な作業である。 多くの研究は、教師付き機械学習技術を用いてエンドツーエンドの直接リンクを特定することを試みたが、大規模な岩石物理トレーニングデータセットの欠如や、岩石の物理や堆積履歴に適合しない可能性のある推定といったさまざまな課題に直面している。 岩盤物理や堆積の地質学的知識と整合した予測を行い,地震画像からポーシティを直接推定できる岩盤・波動物理情報ニューラルネットワーク(RW-PINN)モデルを提案する。 例えば,不連続砂岩の物理モデルと通常の入射波物理を用いて,RW-PINNの学習を導くことで,通常の入射地震跡と限られた井戸データからポロシティの優れた推定値を得る。 井戸の少ないrwピン(weakly supervised)での訓練は、異なるポロシティログが同じような地震の痕跡を与える可能性があるため、非特異性の問題に取り組むのに役立つ。 重み付き正規化根平均二乗損失関数を用いて弱教師付きネットワークを訓練し,多孔性予測に対する重みの影響を示す。 RW-PINNの推定ポロシティと地震の痕跡は、完全に監督されたモデルによる予測と比較される。 本稿では,自監督あるいは弱教師付き岩石物理情報ニューラルネットワークを用いて,地震データの石油物理インバージョンを実行するための完全なワークフローを実証する。

Petrophysical inversion is an important aspect of reservoir modeling. However due to the lack of a unique and straightforward relationship between seismic traces and rock properties, predicting petrophysical properties directly from seismic data is a complex task. Many studies have attempted to identify the direct end-to-end link using supervised machine learning techniques, but face different challenges such as a lack of large petrophysical training dataset or estimates that may not conform with physics or depositional history of the rocks. We present a rock and wave physics informed neural network (RW-PINN) model that can estimate porosity directly from seismic image traces with no or limited number of wells, with predictions that are consistent with rock physics and geologic knowledge of deposition. As an example, we use the uncemented sand rock physics model and normal-incidence wave physics to guide the learning of RW-PINN to eventually get good estimates of porosities from normal-incidence seismic traces and limited well data. Training RW-PINN with few wells (weakly supervised) helps in tackling the problem of non-uniqueness as different porosity logs can give similar seismic traces. We use weighted normalized root mean square error loss function to train the weakly supervised network and demonstrate the impact of different weights on porosity predictions. The RW-PINN estimated porosities and seismic traces are compared to predictions from a completely supervised model, which gives slightly better porosity estimates but poorly matches the seismic traces, in addition to requiring a large amount of labeled training data. In this paper, we demonstrate the complete workflow for executing petrophysical inversion of seismic data using self-supervised or weakly supervised rock physics informed neural networks.
翻訳日:2022-10-04 17:11:11 公開日:2022-09-30
# プライバシ保存機械学習のためのカーネル正規化畳み込みネットワーク

Kernel Normalized Convolutional Networks for Privacy-Preserving Machine Learning ( http://arxiv.org/abs/2210.00053v1 )

ライセンス: Link先を確認
Reza Nasirigerdeh, Javad Torkzadehmahani, Daniel Rueckert, Georgios Kaissis(参考訳) 正規化は、フェデレートラーニング(FL)やディファレンシャルプライバシ(DP)といった、プライバシ関連のアプリケーションドメインにおいて重要な課題である。 fl と dp のバッチ正規化の不適合性はすでに示されているが、他の正規化手法がフェデレートモデルや微分プライベートモデルの性能に与える影響は知られていない。 そこで本研究では,レイヤ正規化(LayerNorm),グループ正規化(GroupNorm),最近提案されたカーネル正規化(KernelNorm)の性能比較を行った。 以上の結果から,LayerNormとGroupNormは浅層モデルのベースライン(正規化なし)に比べて性能が向上しないが,より深層モデルの性能は著しく向上することがわかった。 一方、kernelnormは、浅層モデルと深層モデルの両方において、精度と収束率(または通信効率)の点でライバルを著しく上回っている。 そこで本研究では,KNResNet-13と呼ばれるカーネル正規化されたResNetアーキテクチャを提案する。 提案するアーキテクチャを用いて,cifar-10およびimagenetteデータセットに最先端の精度値を提供する。

Normalization is an important but understudied challenge in privacy-related application domains such as federated learning (FL) and differential privacy (DP). While the unsuitability of batch normalization for FL and DP has already been shown, the impact of the other normalization methods on the performance of federated or differentially private models is not well-known. To address this, we draw a performance comparison among layer normalization (LayerNorm), group normalization (GroupNorm), and the recently proposed kernel normalization (KernelNorm) in FL and DP settings. Our results indicate LayerNorm and GroupNorm provide no performance gain compared to the baseline (i.e. no normalization) for shallow models, but they considerably enhance performance of deeper models. KernelNorm, on the other hand, significantly outperforms its competitors in terms of accuracy and convergence rate (or communication efficiency) for both shallow and deeper models. Given these key observations, we propose a kernel normalized ResNet architecture called KNResNet-13 for differentially private learning environments. Using the proposed architecture, we provide new state-of-the-art accuracy values on the CIFAR-10 and Imagenette datasets.
翻訳日:2022-10-04 17:10:38 公開日:2022-09-30
# 自己適応システムにおける安全臨界適応

Safety-Critical Adaptation in Self-Adaptive Systems ( http://arxiv.org/abs/2210.00095v1 )

ライセンス: Link先を確認
Simon Diemert, Jens H. Weber(参考訳) 現代のシステムは、ますます変動し、不確実な環境で動くように設計されている。 これらの環境は、非常に多くの変数を含むという意味で複雑なだけでなく、時間とともに変化します。 システムはこれらの不確実性を管理するために、実行時に動作を調整する必要があります。 これらの自己適応システムは広く研究されている。 本稿では,安全クリティカルな自己適応システムの定義を提案し,システムの安全性とシステム安全ケースに対する影響に基づいて,適応を異なるタイプに分類する分類法を提案する。 分類学は分類の基準を表現し、実行された適応の種類に応じて、自己適応システムの安全性ケースが満たさなければならない特定の基準を記述する。 分類学の各タイプは、安全クリティカルな自己適応型給湯システムの例を用いて示される。

Modern systems are designed to operate in increasingly variable and uncertain environments. Not only are these environments complex, in the sense that they contain a tremendous number of variables, but they also change over time. Systems must be able to adjust their behaviour at run-time to manage these uncertainties. These self-adaptive systems have been studied extensively. This paper proposes a definition of a safety-critical self-adaptive system and then describes a taxonomy for classifying adaptations into different types based on their impact on the system's safety and the system's safety case. The taxonomy expresses criteria for classification and then describes specific criteria that the safety case for a self-adaptive system must satisfy, depending on the type of adaptations performed. Each type in the taxonomy is illustrated using the example of a safety-critical self-adaptive water heating system.
翻訳日:2022-10-04 17:01:51 公開日:2022-09-30
# ダイナミックリレーショナルデータのためのファクトリー型核融合収縮

Factorized Fusion Shrinkage for Dynamic Relational Data ( http://arxiv.org/abs/2210.00091v1 )

ライセンス: Link先を確認
Peng Zhao, Anirban Bhattacharya, Debdeep Pati and Bani K. Mallick(参考訳) 現代のデータサイエンスアプリケーションは、しばしば動的構造を持つ複雑な関係データを含む。 このような動的関係データの急激な変化は、通常、介入によって体制変化を起こすシステムで観察される。 このような場合、分解されたすべての因子がグループ単位の融合構造に対して動的に縮小される分解された融合収縮モデルを考え、分解された行列の行ベクトルの連続的な違いに先立って、グローバル局所的な収縮を適用して収縮を得る。 提案手法は, 推定動的潜在因子の比較およびクラスタリングにおいて, 好適な特性を多数有する。 推定潜在因子の比較には、隣接および長期の比較の両方があり、比較の時間範囲は変数と見なされる。 ある条件下では、後方分布が対数因子まで最小の最適速度に達することを実証する。 計算量の観点からは、最適後部推論と計算スケーラビリティのバランスを保ち、コンポーネント間の依存性と時間的依存性を両立させる構造的平均場変動推論フレームワークを提案する。 このフレームワークは、動的行列分解、ネットワークの潜在空間モデル、低ランクテンソルなど、様々なモデルに対応できる。 本手法の有効性は,広範囲なシミュレーションと実世界のデータ解析によって実証される。

Modern data science applications often involve complex relational data with dynamic structures. An abrupt change in such dynamic relational data is typically observed in systems that undergo regime changes due to interventions. In such a case, we consider a factorized fusion shrinkage model in which all decomposed factors are dynamically shrunk towards group-wise fusion structures, where the shrinkage is obtained by applying global-local shrinkage priors to the successive differences of the row vectors of the factorized matrices. The proposed priors enjoy many favorable properties in comparison and clustering of the estimated dynamic latent factors. Comparing estimated latent factors involves both adjacent and long-term comparisons, with the time range of comparison considered as a variable. Under certain conditions, we demonstrate that the posterior distribution attains the minimax optimal rate up to logarithmic factors. In terms of computation, we present a structured mean-field variational inference framework that balances optimal posterior inference with computational scalability, exploiting both the dependence among components and across time. The framework can accommodate a wide variety of models, including dynamic matrix factorization, latent space models for networks and low-rank tensors. The effectiveness of our methodology is demonstrated through extensive simulations and real-world data analysis.
翻訳日:2022-10-04 16:44:52 公開日:2022-09-30
# 機械音声認識のためのブラインド信号の除去

Blind Signal Dereverberation for Machine Speech Recognition ( http://arxiv.org/abs/2210.00117v1 )

ライセンス: Link先を確認
Samik Sadhu, Hynek Hermansky(参考訳) 本稿では,録音環境の残響によって音声に入力される未知の畳み込み雑音を除去し,残響環境からある程度の訓練音声データと非残響音声データを活用する手法を提案する。 室内インパルス応答全体を理想的にカバーする長周期窓上で計算されたフーリエ変換を用いて,対数スペクトル領域の加算に部屋誘起畳み込みを変換する。 次に,残響上およびログスペクトル領域のクリーン音声上で収集した統計値からスペクトル正規化ベクトルを計算する。 動作中、この正規化ベクトルは、同じ残響条件下で記録された複素音声スペクトルの残響を軽減するために使用される。 このような難解な複素音声スペクトルは、自動音声認識に用いる複雑なFDLP-スペクトログラムの計算に使用される。

We present a method to remove unknown convolutive noise introduced to speech by reverberations of recording environments, utilizing some amount of training speech data from the reverberant environment, and any available non-reverberant speech data. Using Fourier transform computed over long temporal windows, which ideally cover the entire room impulse response, we convert room induced convolution to additions in the log spectral domain. Next, we compute a spectral normalization vector from statistics gathered over reverberated as well as over clean speech in the log spectral domain. During operation, this normalization vectors are used to alleviate reverberations from complex speech spectra recorded under the same reverberant conditions . Such dereverberated complex speech spectra are used to compute complex FDLP-spectrograms for use in automatic speech recognition.
翻訳日:2022-10-04 16:43:42 公開日:2022-09-30
# 偽物同定と推定のための神経因果モデル

Neural Causal Models for Counterfactual Identification and Estimation ( http://arxiv.org/abs/2210.00035v1 )

ライセンス: Link先を確認
Kevin Xia, Yushu Pan, Elias Bareinboim(参考訳) 現代のAIシステムから期待される重要な能力の1つは、世界がどのように異なる行動の過程を取るかという仮説的な主張を評価することである。 事実的推論は、公平性、責任と責任の決定、信用の割り当て、後悔の議論の基盤となる。 本稿では,神経モデルによる偽文の評価について検討する。 具体的には,観測データと実験データの任意の組み合わせから,その評価に必要な2つの因果問題,すなわち反事実同定と推定に取り組む。 まず,ニューラル因果モデル (NCM) が十分表現可能であることを示し,反実的推論を行うために必要な構造的制約を符号化する。 次に,反事実分布の同時同定と推定を行うアルゴリズムを開発した。 本アルゴリズムは, 一般の設定において, 反事実識別を行うために, 健全かつ完全であることを示す。 第3に,これらの結果の実際的意義を考慮し,生成型逆ネットワークを用いたncmsモデリングのための新しい戦略を提案する。 シミュレーションは提案手法と相関する。

Evaluating hypothetical statements about how the world would be had a different course of action been taken is arguably one key capability expected from modern AI systems. Counterfactual reasoning underpins discussions in fairness, the determination of blame and responsibility, credit assignment, and regret. In this paper, we study the evaluation of counterfactual statements through neural models. Specifically, we tackle two causal problems required to make such evaluations, i.e., counterfactual identification and estimation from an arbitrary combination of observational and experimental data. First, we show that neural causal models (NCMs) are expressive enough and encode the structural constraints necessary for performing counterfactual reasoning. Second, we develop an algorithm for simultaneously identifying and estimating counterfactual distributions. We show that this algorithm is sound and complete for deciding counterfactual identification in general settings. Third, considering the practical implications of these results, we introduce a new strategy for modeling NCMs using generative adversarial networks. Simulations corroborate with the proposed methodology.
翻訳日:2022-10-04 16:10:59 公開日:2022-09-30
# 連続学習における課題定式化 : 視覚的質問応答を事例として

Task Formulation Matters When Learning Continually: A Case Study in Visual Question Answering ( http://arxiv.org/abs/2210.00044v1 )

ライセンス: Link先を確認
Mavina Nikandrou, Lu Yu, Alessandro Suglia, Ioannis Konstas, Verena Rieser(参考訳) 継続的学習は、前の知識を忘れずに、一連のタスクで段階的にモデルを訓練することを目的としている。 連続学習はコンピュータビジョンで広く研究されているが、Vision+Languageタスクへの応用は、入力モダリティに応じて複数の方法でパラメータ化できるため、それほど単純ではない。 本稿では,視覚質問応答の性能に異なる設定がどのように影響するかを詳細に検討する。 まず,3つのタスクの定式化を提案し,連続学習アルゴリズムの性能への影響を実証する。 タスクの類似性のいくつかの要因を分解し、タスクの順序に対するパフォーマンスと感度が出力分布のシフトに大きく依存することを示した。 また,事前学習モデルの可能性を調査し,トランスフォーマーモデルのロバスト性と異なる視覚埋め込みとの比較を行った。 最後に,モデル表現を解釈する解析と,その記憶への影響について述べる。 より深い層における視覚的表現の安定化の重要性を強調した。

Continual learning aims to train a model incrementally on a sequence of tasks without forgetting previous knowledge. Although continual learning has been widely studied in computer vision, its application to Vision+Language tasks is not that straightforward, as settings can be parameterized in multiple ways according to their input modalities. In this paper, we present a detailed study of how different settings affect performance for Visual Question Answering. We first propose three plausible task formulations and demonstrate their impact on the performance of continual learning algorithms. We break down several factors of task similarity, showing that performance and sensitivity to task order highly depend on the shift of the output distribution. We also investigate the potential of pretrained models and compare the robustness of transformer models with different visual embeddings. Finally, we provide an analysis interpreting model representations and their impact on forgetting. Our results highlight the importance of stabilizing visual representations in deeper layers.
翻訳日:2022-10-04 16:10:43 公開日:2022-09-30
# fedtrees:スマートグリッドを用いた新しい計算通信効率のよいフェデレーション学習フレームワーク

FedTrees: A Novel Computation-Communication Efficient Federated Learning Framework Investigated in Smart Grids ( http://arxiv.org/abs/2210.00060v1 )

ライセンス: Link先を確認
Mohammad Al-Quraan, Ahsan Khan, Anthony Centeno, Ahmed Zoha, Muhammad Ali Imran, Lina Mohjazi(参考訳) スマートエネルギーのパフォーマンス監視とサプライヤーや消費者レベルの最適化は、スマートシティを実現する上で不可欠である。 より持続可能なエネルギー管理計画を実現するためには、より良いエネルギー予測を行うことが不可欠である。 次世代のスマートメーターは、エネルギー消費データを計測、記録、報告するためにも使用することができ、エネルギーニーズを予測する機械学習モデル(ML)のトレーニングに使用することができる。 しかし、きめ細かいエネルギーデータの共有と集中学習はユーザーのプライバシーを侵害し、いくつかの攻撃に弱い。 本研究では,データが存在するユーザレベルでMLモデルトレーニングを行う新たな技術であるフェデレートラーニング(FL)を活用することで,この問題に対処する。 我々は、アンサンブル学習の際立った特徴の恩恵を受ける新しい軽量なFLフレームワークであるFedTreesを紹介します。 さらに,デルタベースの早期停止アルゴリズムを開発し,flトレーニングをモニタし,継続する必要のない場合には停止する。 シミュレーションの結果,FedTreesはFedAvgと比較して計算時間の2%と通信ラウンドの13%しか取らず,正確なエネルギー予測パターンを提供する上で,最も一般的なフェデレーション平均化(FedAvg)フレームワークとベースラインパーシステンスモデルよりも優れており,膨大な計算と通信資源を節約していることがわかった。

Smart energy performance monitoring and optimisation at the supplier and consumer levels is essential to realising smart cities. In order to implement a more sustainable energy management plan, it is crucial to conduct a better energy forecast. The next-generation smart meters can also be used to measure, record, and report energy consumption data, which can be used to train machine learning (ML) models for predicting energy needs. However, sharing fine-grained energy data and performing centralised learning may compromise users' privacy and leave them vulnerable to several attacks. This study addresses this issue by utilising federated learning (FL), an emerging technique that performs ML model training at the user level, where data resides. We introduce FedTrees, a new, lightweight FL framework that benefits from the outstanding features of ensemble learning. Furthermore, we developed a delta-based early stopping algorithm to monitor FL training and stop it when it does not need to continue. The simulation results demonstrate that FedTrees outperforms the most popular federated averaging (FedAvg) framework and the baseline Persistence model for providing accurate energy forecasting patterns while taking only 2% of the computation time and 13% of the communication rounds compared to FedAvg, saving considerable amounts of computation and communication resources.
翻訳日:2022-10-04 16:10:30 公開日:2022-09-30
# CEREAL: サンプルクラスタリングの評価

CEREAL: Few-Sample Clustering Evaluation ( http://arxiv.org/abs/2210.00064v1 )

ライセンス: Link先を確認
Nihal V. Nayak, Ethan R. Elenberg, Clemens Rosenbaum(参考訳) 正規化相互情報(NMI)のような信頼性の高い評価指標でクラスタリングの品質を評価するには、アノテートに費用がかかるラベル付きデータが必要である。 限られたラベルでクラスタリング品質を推定する,未熟な問題に着目する。 提案手法は,いくつかのサンプルモデル評価文献からの既存のアプローチを,学習された代理モデルを用いて積極的にサブサンプルに適応させる。 しかし、それらの推定は偏りがあり、ラベル付きデータにのみ依存することがわかった。 そこで我々は,アクティブサンプリングアプローチを3つの重要な方法で拡張する,少数のサンプルクラスタリング評価のための包括的なフレームワークCEREALを紹介した。 まず,学習した代理モデルからクラスタリングと不確実性を特徴付ける新しいNMIベースの獲得関数を提案する。 次に、半教師付き学習のアイデアを用いて、ラベル付きデータとラベルなしデータの両方で代理モデルを訓練する。 最後に、ラベルのないデータをsurrogateモデルで擬似ラベルします。 視覚と言語にまたがる3つのデータセット上で,NMIをアクティブサンプリングパイプラインで推定する実験を実施している。 その結果,CEREALはサンプリング基準値と比較して絶対誤差曲線下での面積を最大57%削減できることがわかった。 我々は,クラスタリングアルゴリズムと評価指標の選択に依存しないことを示すため,広範なアブレーション研究を行う。 また、CEREALをクラスタワイズアノテーションからペアワイズアノテーションに拡張します。 全体として、CEREALは制限された人間のアノテーションでクラスタリングを効率的に評価できる。

Evaluating clustering quality with reliable evaluation metrics like normalized mutual information (NMI) requires labeled data that can be expensive to annotate. We focus on the underexplored problem of estimating clustering quality with limited labels. We adapt existing approaches from the few-sample model evaluation literature to actively sub-sample, with a learned surrogate model, the most informative data points for annotation to estimate the evaluation metric. However, we find that their estimation can be biased and only relies on the labeled data. To that end, we introduce CEREAL, a comprehensive framework for few-sample clustering evaluation that extends active sampling approaches in three key ways. First, we propose novel NMI-based acquisition functions that account for the distinctive properties of clustering and uncertainties from a learned surrogate model. Next, we use ideas from semi-supervised learning and train the surrogate model with both the labeled and unlabeled data. Finally, we pseudo-label the unlabeled data with the surrogate model. We run experiments to estimate NMI in an active sampling pipeline on three datasets across vision and language. Our results show that CEREAL reduces the area under the absolute error curve by up to 57% compared to the best sampling baseline. We perform an extensive ablation study to show that our framework is agnostic to the choice of clustering algorithm and evaluation metric. We also extend CEREAL from clusterwise annotations to pairwise annotations. Overall, CEREAL can efficiently evaluate clustering with limited human annotations.
翻訳日:2022-10-04 16:10:03 公開日:2022-09-30
# コントラストグラフ マイトショット学習

Contrastive Graph Few-Shot Learning ( http://arxiv.org/abs/2210.00084v1 )

ライセンス: Link先を確認
Chunhui Zhang, Hongfu Liu, Jundong Li, Yanfang Ye, Chuxu Zhang(参考訳) ディープグラフ学習モデルは、しばしばラベル空間の問題に悩まされる。 限られたアノテートデータに対する性能劣化を回避するために多くのグラフスショットラーニング(GFL)法が開発されているが、テストフェーズにおける分布シフトが一般化能力を損なう可能性があるラベル付きデータに過度に依存している。 さらに、設計とタスクやデータ固有の特徴が結合されているため、汎用的な目的が欠如している。 そこで本研究では,汎用かつ効果的なコントラストグラフ・マイノショット学習フレームワーク(cgfl)を提案する。 CGFLは自己蒸留型コントラスト学習法を利用してGFLを強化する。 具体的には,ラベルなしデータを用いたコントラスト学習を用いて,まずグラフエンコーダを事前学習する。 その後、訓練されたエンコーダを教師モデルとして凍結し、対照的な損失で生徒モデルを蒸留する。 蒸留されたモデルは最終的にGFLに供給される。 cgflは自己教師方式でデータ表現を学習し、分散シフトの影響を緩和し、より一般化し、汎用グラフマイニングのためにモデルタスクとデータ独立性を持たせる。 さらに,cgflの能力を定量的に測定するための情報ベース手法を提案する。 包括的な実験により、cgflがいくつかのグラフマイニングタスクで最先端のベースラインを上回ることが証明された。 また,CGFLの成功を定量的に測定する。

Prevailing deep graph learning models often suffer from label sparsity issue. Although many graph few-shot learning (GFL) methods have been developed to avoid performance degradation in face of limited annotated data, they excessively rely on labeled data, where the distribution shift in the test phase might result in impaired generalization ability. Additionally, they lack a general purpose as their designs are coupled with task or data-specific characteristics. To this end, we propose a general and effective Contrastive Graph Few-shot Learning framework (CGFL). CGFL leverages a self-distilled contrastive learning procedure to boost GFL. Specifically, our model firstly pre-trains a graph encoder with contrastive learning using unlabeled data. Later, the trained encoder is frozen as a teacher model to distill a student model with a contrastive loss. The distilled model is finally fed to GFL. CGFL learns data representation in a self-supervised manner, thus mitigating the distribution shift impact for better generalization and making model task and data-independent for a general graph mining purpose. Furthermore, we introduce an information-based method to quantitatively measure the capability of CGFL. Comprehensive experiments demonstrate that CGFL outperforms state-of-the-art baselines on several graph mining tasks in the few-shot scenario. We also provide quantitative measurement of CGFL's success.
翻訳日:2022-10-04 16:09:44 公開日:2022-09-30
# 非侵入型水量モニタリングのためのマルチラベル時系列分類手法

A Multi-label Time Series Classification Approach for Non-intrusive Water End-Use Monitoring ( http://arxiv.org/abs/2210.00089v1 )

ライセンス: Link先を確認
Dimitris Papatheodoulou, Pavlos Pavlou, Stelios G. Vrachimis, Kleanthis Malialis, Demetrios G. Eliades, Theocharis Theocharides(参考訳) 時間的依存関係を示すさまざまなアプリケーション領域の現実的な問題が数多く存在する。 本稿では,時系列分類を集約時系列分類と呼ぶ特定の種類の時系列分類に着目する。 本稿では,多変量時系列の集約シーケンスを考察し,集約された情報のみに基づいて予測を行う手法を提案する。 本研究は,本研究の方法論を,非侵入型水モニタリングにおける家庭用水エンドユース分離の課題に応用する。 当社の方法論はイベントのプリオリ識別を必要とせず,私たちの知る限り,初めて検討される。 本研究では, 各種機械学習分類器, マルチラベル分類手法を含む住宅用水利用シミュレータを用いた広範囲な実験を行い, 提案手法の有効性を実証した。

Numerous real-world problems from a diverse set of application areas exist that exhibit temporal dependencies. We focus on a specific type of time series classification which we refer to as aggregated time series classification. We consider an aggregated sequence of a multi-variate time series, and propose a methodology to make predictions based solely on the aggregated information. As a case study, we apply our methodology to the challenging problem of household water end-use dissagregation when using non-intrusive water monitoring. Our methodology does not require a-priori identification of events, and to our knowledge, it is considered for the first time. We conduct an extensive experimental study using a residential water-use simulator, involving different machine learning classifiers, multi-label classification methods, and successfully demonstrate the effectiveness of our methodology.
翻訳日:2022-10-04 16:09:23 公開日:2022-09-30
# 非ユークリッドハミルトニアン学習による非ニュートン天文学の発見

Data-driven discovery of non-Newtonian astronomy via learning non-Euclidean Hamiltonian ( http://arxiv.org/abs/2210.00090v1 )

ライセンス: Link先を確認
Oswin So, Gongjie Li, Evangelos A. Theodorou and Molei Tao(参考訳) 物理力学のハミルトン構造をディープラーニングモデルに組み込むことで、解釈可能性と予測精度を向上させることができる。 以前の研究は主にユークリッド空間に限られるが、回転がN体の天体相互作用のための単純な点質量力学を超えた高次物理学のような力学の重要な構成要素を形成するとき、リー群多様体への拡張が必要である。 さらに、これらのプロセスの多スケール性は、長期間の地平線を必要とするため、既存の方法に挑戦を与える。 シンプレクティックリー群保存積分器を利用して、非ニュートン天文学のデータ駆動発見法を提案する。 予備結果は,これらの特性がトレーニング安定性と予測精度において重要であることを示した。

Incorporating the Hamiltonian structure of physical dynamics into deep learning models provides a powerful way to improve the interpretability and prediction accuracy. While previous works are mostly limited to the Euclidean spaces, their extension to the Lie group manifold is needed when rotations form a key component of the dynamics, such as the higher-order physics beyond simple point-mass dynamics for N-body celestial interactions. Moreover, the multiscale nature of these processes presents a challenge to existing methods as a long time horizon is required. By leveraging a symplectic Lie-group manifold preserving integrator, we present a method for data-driven discovery of non-Newtonian astronomy. Preliminary results show the importance of both these properties in training stability and prediction accuracy.
翻訳日:2022-10-04 16:09:12 公開日:2022-09-30
# 効率的な手話認識と精密手話認識を組み合わせる: 良いポーズ推定ライブラリは必要なだけ

Combining Efficient and Precise Sign Language Recognition: Good pose estimation library is all you need ( http://arxiv.org/abs/2210.00893v1 )

ライセンス: Link先を確認
Maty\'a\v{s} Boh\'a\v{c}ek, Zhuo Cao, Marek Hr\'uz(参考訳) サイン言語認識は、IoTデバイスやビデオ会議といった一般消費者技術を持つd/deafのユーザエクスペリエンスを大幅に改善する可能性がある。 しかし、現在の手話認識アーキテクチャは通常計算量が多いため、リアルタイムに動くには堅牢なGPU装備のハードウェアが必要である。 一部のモデルは、そのサイズと複雑さを最小化し、より精度の悪いローエンドデバイス(スマートフォンなど)を目指している。 このことは、Wild の正確な応用を精査する。 我々は、このタスクに採用される大規模モデルのパフォーマンスに近づいているため、後者のlightメソッドに属するspoterアーキテクチャを構築しました。 元のサードパーティのポーズ推定モジュールをMediaPipeライブラリに置き換えることで、WLASL100データセットの全体的な最先端結果が得られる。 重要な点は,従来の大規模アーキテクチャを上回っても計算効率は2倍で,関連するベンチマークと比較した場合の推論速度は11ドルに近いことだ。 提案手法の効率性と精度の両立を実証するため,ユーザによる手話のサインレマをブラウザ上で翻訳するオンラインデモを構築した。 これは私たちの知る限り、このタスクを実証する初めての公開オンラインアプリケーションです。

Sign language recognition could significantly improve the user experience for d/Deaf people with the general consumer technology, such as IoT devices or videoconferencing. However, current sign language recognition architectures are usually computationally heavy and require robust GPU-equipped hardware to run in real-time. Some models aim for lower-end devices (such as smartphones) by minimizing their size and complexity, which leads to worse accuracy. This highly scrutinizes accurate in-the-wild applications. We build upon the SPOTER architecture, which belongs to the latter group of light methods, as it came close to the performance of large models employed for this task. By substituting its original third-party pose estimation module with the MediaPipe library, we achieve an overall state-of-the-art result on the WLASL100 dataset. Significantly, our method beats previous larger architectures while still being twice as computationally efficient and almost $11$ times faster on inference when compared to a relevant benchmark. To demonstrate our method's combined efficiency and precision, we built an online demo that enables users to translate sign lemmas of American sign language in their browsers. This is the first publicly available online application demonstrating this task to the best of our knowledge.
翻訳日:2022-10-04 15:52:55 公開日:2022-09-30
# D-Align:マルチフレームポイントクラウドシーケンスに基づく3次元オブジェクト検出のためのデュアルクエリコアテンションネットワーク

D-Align: Dual Query Co-attention Network for 3D Object Detection Based on Multi-frame Point Cloud Sequence ( http://arxiv.org/abs/2210.00087v1 )

ライセンス: Link先を確認
Junhyung Lee, Junho Koh, Youngwoo Lee, Jun Won Choi(参考訳) LiDARセンサーは、様々な移動ロボットアプリケーションにおける3Dオブジェクト検出に広く利用されている。 LiDARセンサーは、リアルタイムで点雲データを連続的に生成する。 従来の3Dオブジェクト検出器は一定期間に取得した一連の点を用いて物体を検出する。 しかし,近年の研究では,点雲列から得られた時空間情報を利用することで,物体検出の性能をさらに向上できることが示された。 本稿では,複数の点集合から得られた特徴を整理・集約することにより,強力な鳥眼視(bev)特徴を効果的に生成できるd-alignと呼ばれる新しい3次元物体検出器を提案する。 提案手法は、ターゲットクエリセット(T-QS)とサポートクエリセット(S-QS)の2種類のクエリを使用して、ターゲットとサポートフレームの特徴をそれぞれ更新する新しいデュアルクエリコアテンションネットワークを含む。 D−Alignは、隣接する特徴マップから抽出された時間的文脈特徴に基づいてS−QSをT−QSにアライメントし、ゲートアテンション機構を用いてS−QSをT−QSに集約する。 二重クエリは、複数の注意層を通じて更新され、検出結果を生成するために使用されるターゲットフレーム機能を徐々に強化する。 nuScenesデータセットを用いた実験により,提案手法は単一フレームベースベースライン法の性能を大幅に向上し,最新の3Dオブジェクト検出器よりも優れていた。

LiDAR sensors are widely used for 3D object detection in various mobile robotics applications. LiDAR sensors continuously generate point cloud data in real-time. Conventional 3D object detectors detect objects using a set of points acquired over a fixed duration. However, recent studies have shown that the performance of object detection can be further enhanced by utilizing spatio-temporal information obtained from point cloud sequences. In this paper, we propose a new 3D object detector, named D-Align, which can effectively produce strong bird's-eye-view (BEV) features by aligning and aggregating the features obtained from a sequence of point sets. The proposed method includes a novel dual-query co-attention network that uses two types of queries, including target query set (T-QS) and support query set (S-QS), to update the features of target and support frames, respectively. D-Align aligns S-QS to T-QS based on the temporal context features extracted from the adjacent feature maps and then aggregates S-QS with T-QS using a gated attention mechanism. The dual queries are updated through multiple attention layers to progressively enhance the target frame features used to produce the detection results. Our experiments on the nuScenes dataset show that the proposed D-Align method greatly improved the performance of a single frame-based baseline method and significantly outperformed the latest 3D object detectors.
翻訳日:2022-10-04 15:16:11 公開日:2022-09-30
# 確率的バックプロパゲーションの深い研究

An In-depth Study of Stochastic Backpropagation ( http://arxiv.org/abs/2210.00129v1 )

ライセンス: Link先を確認
Jun Fang, Mingze Xu, Hao Chen, Bing Shuai, Zhuowen Tu, Joseph Tighe(参考訳) 本稿では,標準的な画像分類と物体検出タスクのためにディープニューラルネットワークを訓練する場合の確率的バックプロパゲーション(sbp)の詳細な研究を行う。 後方伝播中、SBPはGPUメモリと計算コストを節約するために機能マップのサブセットのみを使用することで勾配を計算する。 我々は,SBPをバックプロパゲーション・ドロップアウトによって確率勾配を適切に実装する効率的な方法として解釈し,メモリ節約とトレーニングプロセスの高速化を実現し,全体のモデル精度に最小限の影響を及ぼした。 画像認識モデルのトレーニングにsbpを適用するための優れたプラクティスをいくつか提供し,幅広い深層ニューラルネットワークの学習に活用する。 画像分類とオブジェクト検出の実験は、SBPが最大40%のGPUメモリを1%未満の精度で保存できることを示している。

In this paper, we provide an in-depth study of Stochastic Backpropagation (SBP) when training deep neural networks for standard image classification and object detection tasks. During backward propagation, SBP calculates the gradients by only using a subset of feature maps to save the GPU memory and computational cost. We interpret SBP as an efficient way to implement stochastic gradient decent by performing backpropagation dropout, which leads to considerable memory saving and training process speedup, with a minimal impact on the overall model accuracy. We offer some good practices to apply SBP in training image recognition models, which can be adopted in learning a wide range of deep neural networks. Experiments on image classification and object detection show that SBP can save up to 40% of GPU memory with less than 1% accuracy degradation.
翻訳日:2022-10-04 15:15:45 公開日:2022-09-30
# 映像動作認識のためのアライメント誘導時間注意

Alignment-guided Temporal Attention for Video Action Recognition ( http://arxiv.org/abs/2210.00132v1 )

ライセンス: Link先を確認
Yizhou Zhao, Zhenyang Li, Xun Guo, Yan Lu(参考訳) 時間モデリングは様々なビデオ学習タスクに不可欠である。 最近のアプローチでは、入力フレームから時間コンテキストを抽出するために、分解(2D+1D)または結合(3D)時空間演算を用いる。 前者は計算効率が良いが、後者は性能が良くなることが多い。 本稿では,異なるフレームにおける様々な位置間の相互作用の効率と充足率のジレンマに起因する。 これらの相互作用は、フレーム間で共有されるタスク関連情報の抽出に影響を及ぼす。 この問題を解決するために,フレーム単位のアライメントがフレーム表現間の相互情報を増加させる可能性を持つことを実証し,その効果を高めるためのタスク関連情報を含める。 そこで我々は,隣接フレーム間のパラメータフリーパッチレベルアライメントで1次元時間的注意を延長するためのアライメント誘導時間注意(ATA)を提案する。 イメージバックボーンのための一般的なプラグインとして機能し、モデル固有の設計なしでアクション認識タスクを実行することができる。 複数のベンチマークでの大規模な実験は、モジュールの優越性と一般性を示している。

Temporal modeling is crucial for various video learning tasks. Most recent approaches employ either factorized (2D+1D) or joint (3D) spatial-temporal operations to extract temporal contexts from the input frames. While the former is more efficient in computation, the latter often obtains better performance. In this paper, we attribute this to a dilemma between the sufficiency and the efficiency of interactions among various positions in different frames. These interactions affect the extraction of task-relevant information shared among frames. To resolve this issue, we prove that frame-by-frame alignments have the potential to increase the mutual information between frame representations, thereby including more task-relevant information to boost effectiveness. Then we propose Alignment-guided Temporal Attention (ATA) to extend 1-dimensional temporal attention with parameter-free patch-level alignments between neighboring frames. It can act as a general plug-in for image backbones to conduct the action recognition task without any model-specific design. Extensive experiments on multiple benchmarks demonstrate the superiority and generality of our module.
翻訳日:2022-10-04 15:15:30 公開日:2022-09-30
# 非パラメトリックマルチアーマバンドにおける固定予算付きベストアーム同定について

On Best-Arm Identification with a Fixed Budget in Non-Parametric Multi-Armed Bandits ( http://arxiv.org/abs/2210.00895v1 )

ライセンス: Link先を確認
Antoine Barrier (UMPA-ENSL, LMO, CELESTE), Aur\'elien Garivier (UMPA-ENSL, LIP), Gilles Stoltz (LMO, CELESTE)(参考訳) 我々は、腕上の分布に対する一般的な、おそらく非パラメトリックなモデル d を考える。 包括的な例として、[0,1] 上のすべての確率分布のモデル d = p(0,1) が挙げられる。 そこで本稿では,D の分布と与えられた分布との間に存在するクルバック・リーブラーの不等式に対応する情報理論量に基づいて,最適アームを誤同定する平均対数確率の上限を提案する。 これは Audibert, Bubeck, Munos (2010) の連続再帰戦略の洗練された解析によって可能となった。 我々は最終的に、同じ平均対数確率に対する下限を、同じ新しい情報理論量の観点からも提供し、これらの下限は、検討された戦略に対する(自然な)仮定がより強いときに大きい。 これらの新しい上界と下界は、例えば分布間のギャップに基づいて既存の境界を一般化する。

We lay the foundations of a non-parametric theory of best-arm identification in multi-armed bandits with a fixed budget T. We consider general, possibly non-parametric, models D for distributions over the arms; an overarching example is the model D = P(0,1) of all probability distributions over [0,1]. We propose upper bounds on the average log-probability of misidentifying the optimal arm based on information-theoretic quantities that correspond to infima over Kullback-Leibler divergences between some distributions in D and a given distribution. This is made possible by a refined analysis of the successive-rejects strategy of Audibert, Bubeck, and Munos (2010). We finally provide lower bounds on the same average log-probability, also in terms of the same new information-theoretic quantities; these lower bounds are larger when the (natural) assumptions on the considered strategies are stronger. All these new upper and lower bounds generalize existing bounds based, e.g., on gaps between distributions.
翻訳日:2022-10-04 14:59:12 公開日:2022-09-30
# 条件付き言語生成を改善するシーケンスラピッドのキャリブレーション

Calibrating Sequence likelihood Improves Conditional Language Generation ( http://arxiv.org/abs/2210.00045v1 )

ライセンス: Link先を確認
Yao Zhao, Misha Khalman, Rishabh Joshi, Shashi Narayan, Mohammad Saleh, Peter J. Liu(参考訳) 条件付き言語モデルは主に最大確率推定 (mle) で訓練され、観測されたターゲットシーケンスに確率質量を与える。 MLEの訓練されたモデルは、文脈が与えられた場合、高い確率を可算列に割り当てるが、モデル確率は品質によって正確にランク順生成シーケンスを割り当てないことが多い。 これは、ビーム探索復号法において、大きなビームサイズで出力品質を劣化させ、長さ正規化や繰り返しブロッキングのようなヒューリスティックな手法による復号戦略として実証的に観察されている。 本研究では,モデルの潜在空間における参照シーケンスとの整合性を高めるために,モデル生成シーケンスのキャリブレーションを行うシーケンスキャリブレーション(SLiC)を導入する。 SLiCでは、復号法は不要になり、復号法にかかわらず、候補の品質が大幅に向上する。 さらに、SLiCはモデルスケールでリターンが低下する兆候がなく、限られたトレーニングと推論予算で品質を改善する方法を示している。 SLiCでは, 抽象的な要約, 質問生成, 抽象的な質問応答, テキスト生成にまたがる幅広いタスクにおいて, モデストサイズのモデルであってもSOTA結果を上回るか一致させる。

Conditional language models are predominantly trained with maximum likelihood estimation (MLE), giving probability mass to sparsely observed target sequences. While MLE trained models assign high probability to plausible sequences given the context, the model probabilities often do not accurately rank-order generated sequences by quality. This has been empirically observed in beam search decoding as output quality degrading with large beam sizes, and decoding strategies benefiting from heuristics such as length normalization and repetition-blocking. In this work, we introduce sequence likelihood calibration (SLiC) where the likelihood of model generated sequences are calibrated to better align with reference sequences in the model's latent space. With SLiC, decoding heuristics become unnecessary and decoding candidates' quality significantly improves regardless of the decoding method. Furthermore, SLiC shows no sign of diminishing returns with model scale, and presents alternative ways to improve quality with limited training and inference budgets. With SLiC, we exceed or match SOTA results on a wide range of generation tasks spanning abstractive summarization, question generation, abstractive question answering and data-to-text generation, even with modest-sized models.
翻訳日:2022-10-04 14:58:55 公開日:2022-09-30
# ModelAngelo: Cryo-EMマップの自動モデル構築

ModelAngelo: Automated Model Building in Cryo-EM Maps ( http://arxiv.org/abs/2210.00006v1 )

ライセンス: Link先を確認
Kiarash Jamali, Dari Kimanius and Sjors Scheres(参考訳) 電子顕微鏡(cryo-EM)は、タンパク質を含む生体高分子の静電電位の3次元マップを生成する。 十分な解像度で、Cryo-EMマップは、撮像された分子に関する知識とともに、デノボ原子モデリングを可能にする。 通常、これは手間のかかる手動プロセスによって行われる。 タンパク質構造予測への機械学習応用の最近の進歩は、このプロセスの自動化の可能性を示している。 これらの技術からインスピレーションを得て、Cryo-EMマップ内のタンパク質の自動モデル構築のためのModelAngeloを開発した。 ModelAngeloは、まず残留畳み込みニューラルネットワーク(CNN)を使用して、タンパク質の個々のアミノ酸に割り当てられたノードと、タンパク質鎖を表すエッジでグラフ表現を初期化する。 グラフは、Cryo-EMデータ、アミノ酸配列データ、タンパク質のジオメトリに関する事前知識を組み合わせたグラフニューラルネットワーク(GNN)によって洗練される。 GNNはタンパク質鎖の幾何学を洗練し、各ノードのアミノ酸を分類する。 最終グラフは隠れマルコフモデル (HMM) で後処理され、各タンパク質鎖をユーザが提供するシーケンスファイルのエントリにマッピングする。 28のテストケースに適用すると、ModelAngeloは最先端の手法よりも優れており、3.5 \r{A} よりも解像度が良いCryo-EMマップのための手動構築を近似している。

Electron cryo-microscopy (cryo-EM) produces three-dimensional (3D) maps of the electrostatic potential of biological macromolecules, including proteins. At sufficient resolution, the cryo-EM maps, along with some knowledge about the imaged molecules, allow de novo atomic modelling. Typically, this is done through a laborious manual process. Recent advances in machine learning applications to protein structure prediction show potential for automating this process. Taking inspiration from these techniques, we have built ModelAngelo for automated model building of proteins in cryo-EM maps. ModelAngelo first uses a residual convolutional neural network (CNN) to initialize a graph representation with nodes assigned to individual amino acids of the proteins in the map and edges representing the protein chain. The graph is then refined with a graph neural network (GNN) that combines the cryo-EM data, the amino acid sequence data and prior knowledge about protein geometries. The GNN refines the geometry of the protein chain and classifies the amino acids for each of its nodes. The final graph is post-processed with a hidden Markov model (HMM) search to map each protein chain to entries in a user provided sequence file. Application to 28 test cases shows that ModelAngelo outperforms the state-of-the-art and approximates manual building for cryo-EM maps with resolutions better than 3.5 \r{A}.
翻訳日:2022-10-04 14:24:44 公開日:2022-09-30
# 刺激結果を用いた深部Q学習のエレベータ最適化への応用

Application of Deep Q Learning with Stimulation Results for Elevator Optimization ( http://arxiv.org/abs/2210.00065v1 )

ライセンス: Link先を確認
Zheng Cao, Raymond Guo, Caesar M. Tuguinay, Mark Pock, Jiayi Gao, Ziyu Wang(参考訳) 本稿では,エレベータ待ち時間を最適化するために,プログラミングと数学を組み合わせる手法を提案する。 エレベータトラフィックの標準3ピークモデルに基づいて生成されたシミュレーションユーザデータに基づいて,エレベータの背後にある論理の直感的な理解から,まずナイーブモデルを開発する。 実環境を適切にモデル化するために,キャパシティ,アクセラレーション,最大待ち時間しきい値などの一般的な特徴を考慮した。 同じ評価フレームワークを用いて,エレベータ制御のためのハードコードナイーブアプローチに適合するため,Deep Q Learningモデルの開発を進めた。 論文の大部分を通して、マルコフ決定プロセス(MDP)のスキーマの下で作業するが、後にその仮定が、非常に確率的な全体エレベータ群制御システム(EGCS)の特徴をどう特徴づけるかを考察する。

This paper presents a methodology for combining programming and mathematics to optimize elevator wait times. Based on simulated user data generated according to the canonical three-peak model of elevator traffic, we first develop a naive model from an intuitive understanding of the logic behind elevators. We take into consideration a general array of features including capacity, acceleration, and maximum wait time thresholds to adequately model realistic circumstances. Using the same evaluation framework, we proceed to develop a Deep Q Learning model in an attempt to match the hard-coded naive approach for elevator control. Throughout the majority of the paper, we work under a Markov Decision Process (MDP) schema, but later explore how the assumption fails to characterize the highly stochastic overall Elevator Group Control System (EGCS).
翻訳日:2022-10-04 14:24:06 公開日:2022-09-30
# 確率経路計画のためのマルチタスクオプション学習と発見

Multi-Task Option Learning and Discovery for Stochastic Path Planning ( http://arxiv.org/abs/2210.00068v1 )

ライセンス: Link先を確認
Naman Shah, Siddharth Srivastava(参考訳) 本稿では,長軸確率経路計画問題の幅広いクラスを確実かつ効率的に解決する問題に対処する。 確率力学シミュレータと環境の占有行列を用いたバニラRLの定式化から始めると,提案手法は,提案した選択肢を構成する高レベルパスだけでなく,ポリシーを用いた有用な選択肢を計算できる。 提案手法は,(1)有用オプションのエンドポイントとして機能する抽象状態生成のためのデータ駆動手法,(2)高密度擬似ワード関数による自動生成オプションガイドを用いたオプションポリシーの計算方法,(3)計算されたオプションを構成する包括的アルゴリズムである。 比較的一般的な条件下では、計算されたオプションガイドは構成可能なオプションポリシーをもたらし、結果として下方修正性を保証する。 様々なロボット、環境、タスクに対する実証的な評価は、このアプローチが関連するタスク間で知識を効果的に伝達し、既存のアプローチを著しく上回っていることを示している。

This paper addresses the problem of reliably and efficiently solving broad classes of long-horizon stochastic path planning problems. Starting with a vanilla RL formulation with a stochastic dynamics simulator and an occupancy matrix of the environment, our approach computes useful options with policies as well as high-level paths that compose the discovered options. Our main contributions are (1) data-driven methods for creating abstract states that serve as endpoints for helpful options, (2) methods for computing option policies using auto-generated option guides in the form of dense pseudo-reward functions, and (3) an overarching algorithm for composing the computed options. We show that this approach yields strong guarantees of executability and solvability: under fairly general conditions, the computed option guides lead to composable option policies and consequently ensure downward refinability. Empirical evaluation on a range of robots, environments, and tasks shows that this approach effectively transfers knowledge across related tasks and that it outperforms existing approaches by a significant margin.
翻訳日:2022-10-04 14:23:50 公開日:2022-09-30
# IMB-NAS:不均衡データセットのニューラルネットワーク探索

IMB-NAS: Neural Architecture Search for Imbalanced Datasets ( http://arxiv.org/abs/2210.00136v1 )

ライセンス: Link先を確認
Rahul Duggal, Shengyun Peng, Hao Zhou, Duen Horng Chau(参考訳) クラス不均衡は、実世界のデータ分布で発生するユビキタスな現象である。 正確な分類器の訓練における有害な効果を克服するために、既存の研究は、クラス再バランス、情報伝達、表現学習の3つの主要な方向に従っている。 本稿では、ニューラルネットワーク探索(NAS)によるバックボーンアーキテクチャの最適化により、長い尾のデータセットの性能を改善するための新しい補完的な方向を提案する。 バランスの取れたデータセット上で得られたアーキテクチャの精度は、バランスの取れていないデータセットの性能を示すものではない。 これにより、長い尾のデータセット上で完全なNASを実行する必要が生じる。 この計算負担を軽減するため、バランスの取れたソースデータセットから非バランスのターゲットデータセットにNASスーパーネットワークを効率的に適用することを目指している。 いくつかの適応戦略の中で、最も効果的なのは、バランスの取れたソースデータセットでトレーニングされたバックボーンNASスーパーネットワークを凍結しながら、線形分類ヘッドを再重み付き損失で再訓練することである。 複数のデータセットについて広範な実験を行い、長い尾のデータセットのアーキテクチャを最適化するための具体的な洞察を提供する。

Class imbalance is a ubiquitous phenomenon occurring in real world data distributions. To overcome its detrimental effect on training accurate classifiers, existing work follows three major directions: class re-balancing, information transfer, and representation learning. In this paper, we propose a new and complementary direction for improving performance on long tailed datasets - optimizing the backbone architecture through neural architecture search (NAS). We find that an architecture's accuracy obtained on a balanced dataset is not indicative of good performance on imbalanced ones. This poses the need for a full NAS run on long tailed datasets which can quickly become prohibitively compute intensive. To alleviate this compute burden, we aim to efficiently adapt a NAS super-network from a balanced source dataset to an imbalanced target one. Among several adaptation strategies, we find that the most effective one is to retrain the linear classification head with reweighted loss, while freezing the backbone NAS super-network trained on a balanced source dataset. We perform extensive experiments on multiple datasets and provide concrete insights to optimize architectures for long tailed datasets.
翻訳日:2022-10-04 14:16:07 公開日:2022-09-30
# MaskTune$: 探索を強制して偽りの相関を緩和

$MaskTune$: Mitigating Spurious Correlations by Forcing to Explore ( http://arxiv.org/abs/2210.00055v1 )

ライセンス: Link先を確認
Saeid Asgari Taghanaki, Aliasghar Khani, Fereshte Khani, Ali Gholami, Linh Tran, Ali Mahdavi-Amiri, Ghassan Hamarneh(参考訳) 過剰パラメータのディープラーニングモデルの基本的な課題は、重要な入力機能をオーバーフィットすることなく、下流タスクで優れたパフォーマンスをもたらす有意義なデータ表現を学習することである。 この研究はマスキング戦略であるMaskTuneを提案し、刺激的な(あるいは限られた数の)特徴への過度な依存を防ぐ。 MaskTuneはトレーニングされたモデルに、以前に発見された特徴をマスキングすることで、単一のエポックな微調整の間、新しい機能を探索するよう強制する。 masktuneは、ショートカット学習を緩和する以前のアプローチとは異なり、データセット内のサブグループサンプルにスプリアス機能やラベルをアノテートするなど、いかなる監督も必要としない。 バイアス付きMNIST,CelebA,Waterbirds,ImagenNet-9Lデータセットに対する実験結果から,MaskTuneはスプリアス相関の存在に苦しむタスクに有効であることが示された。 最後に,選択分類(拒否オプションによる分類)タスクに適用される場合,マスクチューンが競合手法と同等の性能を発揮するか,達成することを示す。 masktuneのコードはhttps://github.com/aliasgharkhani/masktuneで入手できる。

A fundamental challenge of over-parameterized deep learning models is learning meaningful data representations that yield good performance on a downstream task without over-fitting spurious input features. This work proposes MaskTune, a masking strategy that prevents over-reliance on spurious (or a limited number of) features. MaskTune forces the trained model to explore new features during a single epoch finetuning by masking previously discovered features. MaskTune, unlike earlier approaches for mitigating shortcut learning, does not require any supervision, such as annotating spurious features or labels for subgroup samples in a dataset. Our empirical results on biased MNIST, CelebA, Waterbirds, and ImagenNet-9L datasets show that MaskTune is effective on tasks that often suffer from the existence of spurious correlations. Finally, we show that MaskTune outperforms or achieves similar performance to the competing methods when applied to the selective classification (classification with rejection option) task. Code for MaskTune is available at https://github.com/aliasgharkhani/Masktune.
翻訳日:2022-10-04 14:04:49 公開日:2022-09-30
# 小型非iidクライアントデータセット上でのデュアルエンコーディングモデルのフェデレーショントレーニング

Federated Training of Dual Encoding Models on Small Non-IID Client Datasets ( http://arxiv.org/abs/2210.00092v1 )

ライセンス: Link先を確認
Raviteja Vemulapalli, Warren Richard Morningstar, Philip Andrew Mansfield, Hubert Eichner, Karan Singhal, Arash Afkanpour, Bradley Green(参考訳) 一対の入力を符号化するデュアルエンコーディングモデルは、表現学習に広く使われている。 多くのアプローチは、集中的なトレーニングデータ上のペアのエンコーディングの一致を最大化することで、デュアルエンコーディングモデルを訓練する。 しかし、多くのシナリオでは、データセットは本質的に多くのクライアント(ユーザデバイスや組織)で分散化されています。 本研究では,非IID(非独立かつ同一の分散)クライアントデータセットを多数含む分散データに対して,二重符号化モデルのフェデレーショントレーニングを行う。 我々は,この設定に対して,フェデレート平均化を用いて鼻で適応した場合,集中型設定でうまく機能する既存のアプローチが不十分であることを示す。 我々は,エンコーディング統計に基づく損失関数に対して,個々のクライアントに対する大きなバッチ損失計算をシミュレートできることを示す。 そこで本研究では,データサンプルを個別に共有することなく,クライアント間で集約された符号化統計量を用いて二重符号化モデルを訓練する分散相互相関最適化(DCCO)を提案する。 2つのデータセットに対する実験結果から,提案手法が既存手法のフェデレーション変動を大きなマージンで上回ることを示した。

Dual encoding models that encode a pair of inputs are widely used for representation learning. Many approaches train dual encoding models by maximizing agreement between pairs of encodings on centralized training data. However, in many scenarios, datasets are inherently decentralized across many clients (user devices or organizations) due to privacy concerns, motivating federated learning. In this work, we focus on federated training of dual encoding models on decentralized data composed of many small, non-IID (independent and identically distributed) client datasets. We show that existing approaches that work well in centralized settings perform poorly when naively adapted to this setting using federated averaging. We observe that, we can simulate large-batch loss computation on individual clients for loss functions that are based on encoding statistics. Based on this insight, we propose a novel federated training approach, Distributed Cross Correlation Optimization (DCCO), which trains dual encoding models using encoding statistics aggregated across clients, without sharing individual data samples. Our experimental results on two datasets demonstrate that the proposed DCCO approach outperforms federated variants of existing approaches by a large margin.
翻訳日:2022-10-04 14:04:29 公開日:2022-09-30
# 適応的重量減衰:ロバスト性向上のためのフライ重量減衰チューニングについて

Adaptive Weight Decay: On The Fly Weight Decay Tuning for Improving Robustness ( http://arxiv.org/abs/2210.00094v1 )

ライセンス: Link先を確認
Amin Ghiasi, Ali Shafahi, Reza Ardekani(参考訳) 適応的な重み減衰を導入し、トレーニングイテレーション毎にハイパーパラメーターを自動的に調整する。 分類問題については,分類損失(クロスエントロピーの勾配)と正規化損失(重量の$\ell_2$-norm)からの更新の強さに基づいて,フライ上の重み崩壊ハイパーパラメータの値を変更することを提案する。 この単純な修正は、余分なデータを必要とすることなく、敵の堅牢性、すなわち頑強なオーバーフィッティングに苦しむ領域を大きく改善する可能性があることを示す。 具体的には,CIFAR-100では20%の相対ロバスト性改善,CIFAR-10では10%の相対ロバスト性改善が達成された。 また, 学習速度に対する感度の低下, 重量ノルムの低下など, ラベルノイズへの過度な適応, プルーニングなど, その他の望ましい特性も備えている。

We introduce adaptive weight decay, which automatically tunes the hyper-parameter for weight decay during each training iteration. For classification problems, we propose changing the value of the weight decay hyper-parameter on the fly based on the strength of updates from the classification loss (i.e., gradient of cross-entropy), and the regularization loss (i.e., $\ell_2$-norm of the weights). We show that this simple modification can result in large improvements in adversarial robustness -- an area which suffers from robust overfitting -- without requiring extra data. Specifically, our reformulation results in 20% relative robustness improvement for CIFAR-100, and 10% relative robustness improvement on CIFAR-10 comparing to traditional weight decay. In addition, this method has other desirable properties, such as less sensitivity to learning rate, and smaller weight norms, which the latter contributes to robustness to overfitting to label noise, and pruning.
翻訳日:2022-10-04 14:04:08 公開日:2022-09-30
# 人為的リプレイ: バンディットの履歴データを活用するメタアルゴリズム

Artificial Replay: A Meta-Algorithm for Harnessing Historical Data in Bandits ( http://arxiv.org/abs/2210.00025v1 )

ライセンス: Link先を確認
Siddhartha Banerjee, Sean R. Sinclair, Milind Tambe, Lily Xu, Christina Lee Yu(参考訳) 標準的なバンディットアルゴリズムは時に後悔を招くことがあるが、その性能は歴史的データで「ウォームスタート」することで大幅に改善される。 因果的にすべての過去のサンプルを使って報酬の見積を初期化することは、急激なデータと不均衡なデータカバレッジに悩まされ、特に連続的なアクション空間において、計算とストレージの問題を引き起こします。 この2つの課題を,任意のベースバンディットアルゴリズムに履歴データを組み込むメタアルゴリズムであるartificial replayを提案することで解決する。 Artificial Replayは、計算とストレージの削減に必要な履歴データのサブセットのみを使用する。 提案手法は,無関係データ(iidata)の独立性を満足する幅広い基本アルゴリズムのクラスに対して,過去のデータのうちほんの一部しか使用せず,完全なウォームスタートアプローチとして同等の後悔を達成できることを示す。 そこで,本研究では,実演データを用いたグリーンセキュリティ領域を含む,k$-arm と連続的コンビネート型バンディットアルゴリズムのケーススタディを用いて,計算コストとストレージコストの低さとともに最適な後悔を達成するための人工再生の実用的効果を示す。

While standard bandit algorithms sometimes incur high regret, their performance can be greatly improved by "warm starting" with historical data. Unfortunately, how best to incorporate historical data is unclear: naively initializing reward estimates using all historical samples can suffer from spurious data and imbalanced data coverage, leading to computational and storage issues - particularly in continuous action spaces. We address these two challenges by proposing Artificial Replay, a meta-algorithm for incorporating historical data into any arbitrary base bandit algorithm. Artificial Replay uses only a subset of the historical data as needed to reduce computation and storage. We show that for a broad class of base algorithms that satisfy independence of irrelevant data (IIData), a novel property that we introduce, our method achieves equal regret as a full warm-start approach while potentially using only a fraction of the historical data. We complement these theoretical results with a case study of $K$-armed and continuous combinatorial bandit algorithms, including on a green security domain using real poaching data, to show the practical benefits of Artificial Replay in achieving optimal regret alongside low computational and storage costs.
翻訳日:2022-10-04 13:57:41 公開日:2022-09-30
# 重なり違反を伴うテキストデータの因果推定

Causal Estimation for Text Data with (Apparent) Overlap Violations ( http://arxiv.org/abs/2210.00079v1 )

ライセンス: Link先を確認
Lin Gui, Victor Veitch(参考訳) テキスト文書の属性の因果効果を推定する問題を考える:例えば: 丁寧なメールと無礼なメールを書くことは応答時間にどんな影響を及ぼすか? 観察データから因果効果を推定するには、処理と結果の両方に影響を及ぼすテキストの側面(例えば、テキストのトピックや書き込みレベル)を結合するために調整する必要があります。 これらの相違する側面は先入観として未知であるため、テキスト全体の調整(例えば、トランスフォーマー)は自然に行われるように思われる。 しかし、因果同定と推定手順は重なり合いの仮定に依存しており、調整変数の全てのレベルにおいて、全てのユニットが(受け取らない)治療を受けられるようにランダムな残差が存在する。 ここでの処理はそれ自体がテキストの属性であるため、完全に決定され、オーバーラップは明らかに違反している。 本研究の目的は,明らかに重複する違反が存在する場合に,因果同定の処理方法を示し,因果推定の堅牢性を示すことである。 簡単に言えば、教師付き表現学習を用いて、治療の予測のみ可能な情報を取り除きながら、相反する情報を保存するデータ表現を作成する。 この表現は調整のために十分であり、重複を満足することができる。 非パラメトリック推定に適応して、この手順は条件付き結果の誤推定に頑健であり、弱い条件下での妥当な不確実性定量化を伴う低バイアス推定器が得られる。 実験の結果,自然ベースラインに対するバイアスと不確かさの定量化が強く改善した。

Consider the problem of estimating the causal effect of some attribute of a text document; for example: what effect does writing a polite vs. rude email have on response time? To estimate a causal effect from observational data, we need to adjust for confounding aspects of the text that affect both the treatment and outcome -- e.g., the topic or writing level of the text. These confounding aspects are unknown a priori, so it seems natural to adjust for the entirety of the text (e.g., using a transformer). However, causal identification and estimation procedures rely on the assumption of overlap: for all levels of the adjustment variables, there is randomness leftover so that every unit could have (not) received treatment. Since the treatment here is itself an attribute of the text, it is perfectly determined, and overlap is apparently violated. The purpose of this paper is to show how to handle causal identification and obtain robust causal estimation in the presence of apparent overlap violations. In brief, the idea is to use supervised representation learning to produce a data representation that preserves confounding information while eliminating information that is only predictive of the treatment. This representation then suffices for adjustment and can satisfy overlap. Adapting results on non-parametric estimation, we find that this procedure is robust to conditional outcome misestimation, yielding a low-bias estimator with valid uncertainty quantification under weak conditions. Empirical results show strong improvements in bias and uncertainty quantification relative to the natural baseline.
翻訳日:2022-10-04 13:57:19 公開日:2022-09-30
# ディープニューラルネットワークのボトルネックにおける情報除去

Information Removal at the bottleneck in Deep Neural Networks ( http://arxiv.org/abs/2210.00891v1 )

ライセンス: Link先を確認
Enzo Tartaglione(参考訳) ディープラーニングモデルは現在、驚くほど多くのタスクを解決するために広くデプロイされています。 一般的には、"ビッグデータ"の可用性を活用することで、ディープニューラルネットワークはブラックボックスとしてトレーニングされ、出力の目的関数を最小化する。 しかしこれは、非相関なタスクを解決するために、性別や人種といったモデルを通じて特定の特徴の伝播を制御できない。 これはプライバシ領域(不要な情報の伝播を考慮)とバイアス(これらの機能が与えられたタスクの解決に潜在的に使用されていることを考慮)のどちらにも問題を引き起こす。 In this work, we propose IRENE, a method to achieve information removal at the scar of Deep Neural Network, which is clearly minimal the estimated mutual information between the role to keep '`private' and the target。 合成データセットとCelebAの実験は、提案手法の有効性を検証し、ディープニューラルネットワークにおける情報除去を保証するアプローチの開発に向けた道を開く。

Deep learning models are nowadays broadly deployed to solve an incredibly large variety of tasks. Commonly, leveraging over the availability of "big data", deep neural networks are trained as black-boxes, minimizing an objective function at its output. This however does not allow control over the propagation of some specific features through the model, like gender or race, for solving some an uncorrelated task. This raises issues either in the privacy domain (considering the propagation of unwanted information) and of bias (considering that these features are potentially used to solve the given task). In this work we propose IRENE, a method to achieve information removal at the bottleneck of deep neural networks, which explicitly minimizes the estimated mutual information between the features to be kept ``private'' and the target. Experiments on a synthetic dataset and on CelebA validate the effectiveness of the proposed approach, and open the road towards the development of approaches guaranteeing information removal in deep neural networks.
翻訳日:2022-10-04 13:46:46 公開日:2022-09-30
# 適応計画の制度的基礎:テキサス州リオグランデ・バレー下流域における洪水計画の探索

Institutional Foundations of Adaptive Planning: Exploration of Flood Planning in the Lower Rio Grande Valley, Texas, USA ( http://arxiv.org/abs/2210.00113v1 )

ライセンス: Link先を確認
Ashley D. Ross, Ali Nejat, Virgie Greb(参考訳) 適応計画は、気候変動によって提示される深い不確実性に理想的に適している。 適応的計画の理論や手法には堅実な奨学金があるが、これは、既存の計画機関による適応的計画の影響や、従来の計画組織の制約の中で前進する方法を無視している。 既存の計画立案機関は適応計画をどのようにサポートするのか? アメリカ合衆国テキサス州のリオグランデ渓谷下流で、洪水計画のためにこれを調査します。 我々は,これらの制度的アウトプットの創発的話題を探求するために,地域洪水計画会議の振り返りとともに,郡ハザード計画と地域洪水計画文書について考察する。 自然言語処理を用いてこの大量のテキストを分析すると、これらの計画のハザード計画や議論には適応的なアプローチがほとんど欠けていることが分かる。

Adaptive planning is ideally suited for the deep uncertainties presented by climate change. While there is a robust scholarship on the theory and methods of adaptive planning, this has largely neglected how adaptive planning is affected by existing planning institutions and how to move forward within the constraints of traditional planning organizations. This study asks: How do existing traditional planning institutions support adaptive planning? We explore this for flood planning in the Lower Rio Grande Valley of Texas, United States. We draw on county hazard plan and regional flood plan documents as well as transcripts of regional flood planning meetings to explore the emergent topics of these institutional outputs. Using Natural Language Processing to analyze this large amount of text, we find that hazard plans and discussions developing these plans are largely lacking an adaptive approach.
翻訳日:2022-10-04 13:38:52 公開日:2022-09-30
# ハイブリッド・サステナブルエネルギーシステムのためのサロゲートモデリングを取り入れたディジタルツインと人工知能

Digital Twin and Artificial Intelligence Incorporated With Surrogate Modeling for Hybrid and Sustainable Energy Systems ( http://arxiv.org/abs/2210.00073v1 )

ライセンス: Link先を確認
Abid Hossain Khan, Salauddin Omar, Nadia Mushtary, Richa Verma, Dinesh Kumar, Syed Alam(参考訳) 代理モデリングは科学と工学の分野における計算に革命をもたらした。 人工知能によって支えられたサーロゲートモデルは、実際のモデルのコンピュータシミュレーションよりも計算時間を大幅に削減し、高精度な結果を得ることができる。 サーロゲートモデリング技術は科学と工学の多くの分野で使われており、エネルギーシステムのモデリングもその1つとなっている。 ハイブリッド・サステナブルエネルギーシステムのアイデアは、スマートエネルギーシフトのパラダイムとして現代世界で急速に広まっているため、研究者たちはハイブリッドエネルギーシステムの分析と最適化における人工知能ベースのサロゲートモデリングの今後の応用を模索している。 エネルギーシステムへの適用性を評価するための有望な技術の1つは、代理モデルを活用するデジタルツインである。 本稿では,人工知能駆動のサロゲートモデリングとその応用に関する包括的なフレームワーク・レビューを行い,デジタルツインフレームワークとエネルギーシステムに着目した。 効果的な代理モデル構築における機械学習と人工知能の役割を解説する。 その後、異なる持続可能エネルギー源向けに開発された異なるサロゲートモデルが提示される。 最後に,デジタルツインサロゲートモデルと関連する不確実性について述べる。

Surrogate modeling has brought about a revolution in computation in the branches of science and engineering. Backed by Artificial Intelligence, a surrogate model can present highly accurate results with a significant reduction in computation time than computer simulation of actual models. Surrogate modeling techniques have found their use in numerous branches of science and engineering, energy system modeling being one of them. Since the idea of hybrid and sustainable energy systems is spreading rapidly in the modern world for the paradigm of the smart energy shift, researchers are exploring the future application of artificial intelligence-based surrogate modeling in analyzing and optimizing hybrid energy systems. One of the promising technologies for assessing applicability for the energy system is the digital twin, which can leverage surrogate modeling. This work presents a comprehensive framework/review on Artificial Intelligence-driven surrogate modeling and its applications with a focus on the digital twin framework and energy systems. The role of machine learning and artificial intelligence in constructing an effective surrogate model is explained. After that, different surrogate models developed for different sustainable energy sources are presented. Finally, digital twin surrogate models and associated uncertainties are described.
翻訳日:2022-10-04 13:38:36 公開日:2022-09-30
# 変分因果推論と補間関係情報を用いた細胞応答の予測

Predicting Cellular Responses with Variational Causal Inference and Refined Relational Information ( http://arxiv.org/abs/2210.00116v1 )

ライセンス: Link先を確認
Yulun Wu, Robert A. Barton, Zichen Wang, Vassilis N. Ioannidis, Carlo De Donno, Layne C. Price, Luis F. Voloch, George Karypis(参考訳) 摂動下で細胞の反応を予測することは、薬物発見やパーソナライズされた治療に重要な利益をもたらす可能性がある。 本研究では,遺伝子制御ネットワーク(GRN)の形で生物学的知識を表す情報を活用し,個々の細胞応答予測を支援するため,非現実的摂動(この細胞が実際に受け取らなかった摂動)下での細胞遺伝子発現を予測するための新しいグラフ変異型ベイズ因果推論フレームワークを提案する。 データ適応型GRNを目標とし、グラフ畳み込みネットワークのアジャケーシ行列更新手法を開発し、事前学習中にGRNを洗練するために使用し、遺伝子関係やモデル性能の向上についてより深い知見を得た。 さらに, 先行研究ではまだ実施されていない限界摂動効果の漸近的に効率的な推定のために, 枠組み内のロバスト推定器を提案する。 広範な実験により,個々の応答予測に対する最先端のディープラーニングモデルよりも,このアプローチの利点を示した。

Predicting the responses of a cell under perturbations may bring important benefits to drug discovery and personalized therapeutics. In this work, we propose a novel graph variational Bayesian causal inference framework to predict a cell's gene expressions under counterfactual perturbations (perturbations that this cell did not factually receive), leveraging information representing biological knowledge in the form of gene regulatory networks (GRNs) to aid individualized cellular response predictions. Aiming at a data-adaptive GRN, we also developed an adjacency matrix updating technique for graph convolutional networks and used it to refine GRNs during pre-training, which generated more insights on gene relations and enhanced model performance. Additionally, we propose a robust estimator within our framework for the asymptotically efficient estimation of marginal perturbation effect, which is yet to be carried out in previous works. With extensive experiments, we exhibited the advantage of our approach over state-of-the-art deep learning models for individual response prediction.
翻訳日:2022-10-04 13:31:20 公開日:2022-09-30
# Wasserstein不確かさ下でのマルコフ決定過程のロバスト$Q$学習アルゴリズム

Robust $Q$-learning Algorithm for Markov Decision Processes under Wasserstein Uncertainty ( http://arxiv.org/abs/2210.00898v1 )

ライセンス: Link先を確認
Ariel Neufeld, Julian Sester(参考訳) マルコフ決定過程における遷移確率の曖昧性セットが、(おそらく推定される)基準測度の周りのワッサースタイン球である分布的ロバストなマルコフ決定問題を解くために、新しいq$-learningアルゴリズムを提案する。 本稿では,提案アルゴリズムの収束を証明し,実データを用いて,確率的最適制御問題を解く際の分布的ロバスト性,特に推定分布が実際には不特定化されている場合の分布的ロバスト性について考察する。

We present a novel $Q$-learning algorithm to solve distributionally robust Markov decision problems, where the corresponding ambiguity set of transition probabilities for the underlying Markov decision process is a Wasserstein ball around a (possibly estimated) reference measure. We prove convergence of the presented algorithm and provide several examples also using real data to illustrate both the tractability of our algorithm as well as the benefits of considering distributional robustness when solving stochastic optimal control problems, in particular when the estimated distributions turn out to be misspecified in practice.
翻訳日:2022-10-04 13:31:03 公開日:2022-09-30
# 自然言語処理における10年間の知識グラフ--調査

A Decade of Knowledge Graphs in Natural Language Processing: A Survey ( http://arxiv.org/abs/2210.00105v1 )

ライセンス: Link先を確認
Phillip Schneider, Tim Schopf, Juraj Vladika, Mikhail Galkin, Elena Simperl and Florian Matthes(参考訳) 人工知能の研究分野の発展に伴い、知識グラフ(KG)は学術と産業の両方から関心を集めている。 実体間の意味関係の表現として、KGは自然言語処理(NLP)に特に関係があることが証明されており、近年は急速に普及し広く採用されている。 この分野の研究が増えていることから、NLP研究コミュニティではいくつかのKG関連のアプローチが調査されている。 しかし、確立したトピックを分類し、個々の研究の流れの成熟度をレビューする総合的な研究は、現在でも残っていない。 このギャップを埋めるために,NLPのKGに関する文献から507論文を体系的に分析した。 本調査は,タスク,研究タイプ,コントリビューションの多面的レビューを含む。 その結果,研究現場の構造化された概観,課題の分類,知見の要約,今後の課題の方向性を強調する。

In pace with developments in the research field of artificial intelligence, knowledge graphs (KGs) have attracted a surge of interest from both academia and industry. As a representation of semantic relations between entities, KGs have proven to be particularly relevant for natural language processing (NLP), experiencing a rapid spread and wide adoption within recent years. Given the increasing amount of research work in this area, several KG-related approaches have been surveyed in the NLP research community. However, a comprehensive study that categorizes established topics and reviews the maturity of individual research streams remains absent to this day. Contributing to closing this gap, we systematically analyzed 507 papers from the literature on KGs in NLP. Our survey encompasses a multifaceted review of tasks, research types, and contributions. As a result, we present a structured overview of the research landscape, provide a taxonomy of tasks, summarize our findings, and highlight directions for future work.
翻訳日:2022-10-04 13:29:36 公開日:2022-09-30
# 大規模言語モデルにおける不特定課題の選択バイアスの活用

Exploiting Selection Bias on Underspecified Tasks in Large Language Models ( http://arxiv.org/abs/2210.00131v1 )

ライセンス: Link先を確認
Emily McMilin(参考訳) 本稿では,サンプル選択誘導コライダーバイアス(選択コライダーバイアス)の背景にある因果的メカニズムを動機付け,Large Language Models (LLMs) が実世界で無条件に独立なエンティティ間の非条件依存を学習できるようにする。 我々は,選択コライダーバイアスが未特定学習タスクにおいて増幅されることを示し,克服が困難であるにもかかわらず,モデルが予測に不確実であるかどうかを判断するために,結果の素早い相関を利用する方法について述べる。 我々は,winogenderスキーマ評価セットの拡張版において,タスクにおけるヒューマン不確実性と,性別代名詞の不特定さに適合する不確実性指標を示し,ユーザがスプリアス相関を評価し,その不確実性指標を自身のテキストやモデルに適用できるオンラインデモを提供する。 最後に,幅広い予測タスクに対応するためのアプローチを一般化する。

In this paper we motivate the causal mechanisms behind sample selection induced collider bias (selection collider bias) that can cause Large Language Models (LLMs) to learn unconditional dependence between entities that are unconditionally independent in the real world. We show that selection collider bias can become amplified in underspecified learning tasks, and although difficult to overcome, we describe a method to exploit the resulting spurious correlations for determination of when a model may be uncertain about its prediction. We demonstrate an uncertainty metric that matches human uncertainty in tasks with gender pronoun underspecification on an extended version of the Winogender Schemas evaluation set, and we provide online demos where users can evaluate spurious correlations and apply our uncertainty metric to their own texts and models. Finally, we generalize our approach to address a wider range of prediction tasks.
翻訳日:2022-10-04 13:29:21 公開日:2022-09-30
# VIP:Value-Implicit Pre-Trainingによるユニバーサルビジュアルリワードと表現を目指して

VIP: Towards Universal Visual Reward and Representation via Value-Implicit Pre-Training ( http://arxiv.org/abs/2210.00030v1 )

ライセンス: Link先を確認
Yecheng Jason Ma, Shagun Sodhani, Dinesh Jayaraman, Osbert Bastani, Vikash Kumar, Amy Zhang(参考訳) 報酬と表現学習は、感覚観察からロボット操作スキルの拡張を学ぶための2つの長年の課題である。 ドメイン内のコストとタスク固有のロボットデータの不足を考えると、大規模で多様なオフラインの人的ビデオから学ぶことは、一般的に有用な視覚的表現を得るための有望な道のりとして現れてきたが、これらの人的ビデオが汎用的な報酬学習にどのように使用できるかは、未解決の課題である。 ロボットのタスクに対して、密集したスムーズな報酬関数を生成できる自己教師付き視覚表現である、$\textbf{v}$alue-$\textbf{i}$mplicit $\textbf{p}$re-training (vip)を導入する。 VIPは、人間のビデオからの表現学習をオフラインのゴール条件強化学習問題とみなし、アクションに依存しない自己教師付きデュアルゴール条件値関数目的を導出し、ラベルなしの人間のビデオの事前トレーニングを可能にする。 理論的には、vipは時間的に滑らかな埋め込みを生成し、値関数を埋め込み距離を通じて暗黙的に定義できる新しい暗黙の時間対比目的として理解することができ、任意の目標画像指定下流タスクに対する報酬を構築するのに使うことができる。 大規模なEgo4D人間のビデオで訓練され、ドメイン内、タスク固有のデータを微調整することなく、VIPの凍結表現は、広範囲のシミュレーションと$\textbf{real-robot}$タスクに対して密度の高い視覚報酬を与えることができる。 特に、VIPは、簡単な$\textbf{few-shot}$ offline RLを現実世界のロボットタスクのスイートで、20の軌道しか持たない。

Reward and representation learning are two long-standing challenges for learning an expanding set of robot manipulation skills from sensory observations. Given the inherent cost and scarcity of in-domain, task-specific robot data, learning from large, diverse, offline human videos has emerged as a promising path towards acquiring a generally useful visual representation for control; however, how these human videos can be used for general-purpose reward learning remains an open question. We introduce $\textbf{V}$alue-$\textbf{I}$mplicit $\textbf{P}$re-training (VIP), a self-supervised pre-trained visual representation capable of generating dense and smooth reward functions for unseen robotic tasks. VIP casts representation learning from human videos as an offline goal-conditioned reinforcement learning problem and derives a self-supervised dual goal-conditioned value-function objective that does not depend on actions, enabling pre-training on unlabeled human videos. Theoretically, VIP can be understood as a novel implicit time contrastive objective that generates a temporally smooth embedding, enabling the value function to be implicitly defined via the embedding distance, which can then be used to construct the reward for any goal-image specified downstream task. Trained on large-scale Ego4D human videos and without any fine-tuning on in-domain, task-specific data, VIP's frozen representation can provide dense visual reward for an extensive set of simulated and $\textbf{real-robot}$ tasks, enabling diverse reward-based visual control methods and significantly outperforming all prior pre-trained representations. Notably, VIP can enable simple, $\textbf{few-shot}$ offline RL on a suite of real-world robot tasks with as few as 20 trajectories.
翻訳日:2022-10-04 13:23:28 公開日:2022-09-30
# 深部畳み込みオートエンコーダを用いたガスポンプPCBの修正画像検出

Image-Based Detection of Modifications in Gas Pump PCBs with Deep Convolutional Autoencoders ( http://arxiv.org/abs/2210.00100v1 )

ライセンス: Link先を確認
Diulhio Candido de Oliveira, Bogdan Tomoyuki Nassu, Marco Aurelio Wehrmeister(参考訳) 本稿では,撮影された写真に基づくプリント基板の修正を,視点や照明条件を厳しく制御することなく検出する手法を提案する。 この問題の一例は、ガスポンプpcbの視覚的検査であり、装束人をだましたり、税金を逃れようとする詐欺師によって修正することができる。 制御不能な環境と膨大な数の修正を考慮に入れれば,この問題を異常検出のケースとして解決し,そのシナリオの特性を指向したアプローチを提案するとともに,他の類似アプリケーションにも適している。 提案手法は,未修正板の画像を再構成するために訓練された深い畳み込みオートエンコーダを用いるが,修正板のイメージに対しても同様にできない。 入力画像とその再構成を比較することで、異常や修正を画素単位でセグメント化することができる。 実世界の状況を表すために構築されたデータセット上で実施された実験では、我々のアプローチは、考慮されたシナリオにおける異常セグメンテーションの他の最先端アプローチよりも優れており、より一般的なオブジェクト異常検出タスクのために一般的なMVTec-ADデータセットに匹敵する結果を生成する。

In this paper, we introduce an approach for detecting modifications in assembled printed circuit boards based on photographs taken without tight control over perspective and illumination conditions. One instance of this problem is the visual inspection of gas pumps PCBs, which can be modified by fraudsters wishing to deceive costumers or evade taxes. Given the uncontrolled environment and the huge number of possible modifications, we address the problem as a case of anomaly detection, proposing an approach that is directed towards the characteristics of that scenario, while being well-suited for other similar applications. The proposed approach employs a deep convolutional autoencoder trained to reconstruct images of an unmodified board, but which remains unable to do the same for images showing modifications. By comparing the input image with its reconstruction, it is possible to segment anomalies and modifications in a pixel-wise manner. Experiments performed on a dataset built to represent real-world situations (and which we will make publicly available) show that our approach outperforms other state-of-the-art approaches for anomaly segmentation in the considered scenario, while producing comparable results on the popular MVTec-AD dataset for a more general object anomaly detection task.
翻訳日:2022-10-04 13:22:49 公開日:2022-09-30
# 説明表現に対するコントラストコーパスの寄与

Contrastive Corpus Attribution for Explaining Representations ( http://arxiv.org/abs/2210.00107v1 )

ライセンス: Link先を確認
Chris Lin, Hugh Chen, Chanwoo Kim, Su-In Lee(参考訳) 教師なしモデルが広く使われているにもかかわらず、それらを説明するために設計された手法はほとんどない。 ほとんどの説明方法はスカラーモデルの出力を説明する。 しかし、教師なしモデルは表現ベクトルを出力し、それら要素は意味的な意味が欠けているため、説明に適さない。 このギャップを埋めるために、最近の研究はスカラーの説明出力を定義した: 説明対象のサンプルに対する表現空間におけるドット積ベースの類似性(つまり、説明)。 これは教師なしモデルの説明を可能にするが、エクスリカンドの表現と類似性は人間には意味がないため、このアプローチの解釈はいまだ不透明である。 そこで本研究では,コントラストコーパスの類似性,参照コーパスとコントラストフォイル集合に基づく,新しく意味的に意味のあるスカラー説明出力を提案する。 コントラスト的なコーパス類似性は、コーパスに重要な特徴が同定されるかどうかを定量的に検証し、Contrastive COrpus Attributions(COCOA)を生成するために、多くのポストホック特徴属性と互換性があることを実証する。 我々はCOCOAの有用性を2つの方法で紹介する。 一 対照的な学習環境(SimCLR)において同じ画像の増補を説明することにより洞察を導き、 (ii)共同学習テキスト表現(clip)と画像表現の類似性を説明することにより,ゼロショットオブジェクトのローカライズを行う。

Despite the widespread use of unsupervised models, very few methods are designed to explain them. Most explanation methods explain a scalar model output. However, unsupervised models output representation vectors, the elements of which are not good candidates to explain because they lack semantic meaning. To bridge this gap, recent works defined a scalar explanation output: a dot product-based similarity in the representation space to the sample being explained (i.e., an explicand). Although this enabled explanations of unsupervised models, the interpretation of this approach can still be opaque because similarity to the explicand's representation may not be meaningful to humans. To address this, we propose contrastive corpus similarity, a novel and semantically meaningful scalar explanation output based on a reference corpus and a contrasting foil set of samples. We demonstrate that contrastive corpus similarity is compatible with many post-hoc feature attribution methods to generate COntrastive COrpus Attributions (COCOA) and quantitatively verify that features important to the corpus are identified. We showcase the utility of COCOA in two ways: (i) we draw insights by explaining augmentations of the same image in a contrastive learning setting (SimCLR); and (ii) we perform zero-shot object localization by explaining the similarity of image representations to jointly learned text representations (CLIP).
翻訳日:2022-10-04 13:22:26 公開日:2022-09-30
# 微分プライベートバイアス項のみの基礎モデルの微調整

Differentially Private Bias-Term only Fine-tuning of Foundation Models ( http://arxiv.org/abs/2210.00036v1 )

ライセンス: Link先を確認
Zhiqi Bu, Yu-Xiang Wang, Sheng Zha, George Karypis(参考訳) 我々は、大規模な事前訓練されたモデルの差分プライベート(DP)微調整(differentially private)の問題について検討する。 既存の研究は、高いプライバシー制約の下で高い精度が可能であることを示したが、ネットワークアーキテクチャへの大幅な計算オーバーヘッドや修正が必要である。 DPアルゴリズムの最先端精度と標準BiTFiTの効率とを一致させる差分プライベートバイアス項微調整(DP-BiTFiT)を提案する。 DP-BiTFiTは、モデル非依存(ネットワークアーキテクチャを変更しない)、パラメータ効率(パラメータの約0.1セントのトレーニングのみ)、計算効率(時間と空間の複雑さの両方でDPによって引き起こされるオーバーヘッドを取り除く)である。 幅広いタスクにおいて、dp-bitfitは$2\sim 30\times$高速で、$2\sim 8\times$ dp full fine-tuningよりもメモリ使用量が少ない。 この驚くべき効率により,従来の手法では計算が困難であった長文および高解像度画像を用いて,言語および視覚タスクのDP微調整を行うことができる。

We study the problem of differentially private (DP) fine-tuning of large pre-trained models -- a recent privacy-preserving approach suitable for solving downstream tasks with sensitive data. Existing work has demonstrated that high accuracy is possible under strong privacy constraint, yet requires significant computational overhead or modifications to the network architecture. We propose differentially private bias-term fine-tuning (DP-BiTFiT), which matches the state-of-the-art accuracy for DP algorithms and the efficiency of the standard BiTFiT. DP-BiTFiT is model agnostic (not modifying the network architecture), parameter efficient (only training about $0.1\%$ of the parameters), and computation efficient (almost removing the overhead caused by DP, in both the time and space complexity). On a wide range of tasks, DP-BiTFiT is $2\sim 30\times$ faster and uses $2\sim 8\times$ less memory than DP full fine-tuning, even faster than the standard full fine-tuning. This amazing efficiency enables us to conduct DP fine-tuning on language and vision tasks with long-sequence texts and high-resolution images, which were computationally difficult using existing methods.
翻訳日:2022-10-04 13:11:22 公開日:2022-09-30
# 小型大型モデルにおける微分プライベート最適化

Differentially Private Optimization on Large Model at Small Cost ( http://arxiv.org/abs/2210.00038v1 )

ライセンス: Link先を確認
Zhiqi Bu, Yu-Xiang Wang, Sheng Zha, George Karypis(参考訳) 差分プライベート(DP)最適化は、正確でプライバシ保護の大きいニューラルネットワークを学ぶための標準パラダイムである。 しかし、DPディープラーニングの計算コストは、サンプルごとの勾配クリッピングのため、非常に重い。 既存のdp実装は、標準の(非プライベートな)トレーニングよりも時間と空間の複雑さで2-1000\times$である。 本研究では,既存のDPオプティマイザ(同じ精度を実現するため)を実装したブックキーピング(BK)技術を開発し,計算コストを大幅に改善する。 具体的には、BKは大規模モデルと高次元データのDPトレーニングを標準トレーニングと同程度の効率で行うのに対して、以前のDPアルゴリズムはメモリエラーによるトレーニングを非効率または不可能にすることができる。 BKの計算上の利点は、複雑性解析とビジョンと言語タスクに関する広範な実験によって支えられている。 gpt2と同じメモリコストで、bkは標準トレーニングの時間複雑性を1.0$\times$(実際には0.75$\times$トレーニングスピード)、0.6$\times$は最も効率的なdp実装の時間複雑性(実際には1.24$\times$トレーニングスピード)を持つ。 BKアルゴリズムのコードベースをオープンソース化します。

Differentially private (DP) optimization is the standard paradigm to learn large neural networks that are accurate and privacy-preserving. The computational cost for DP deep learning, however, is notoriously heavy due to the per-sample gradient clipping. Existing DP implementations are $2-1000\times$ more costly in time and space complexity than the standard (non-private) training. In this work, we develop a novel Book-Keeping (BK) technique that implements existing DP optimizers (thus achieving the same accuracy), with a substantial improvement on the computational cost. Specifically, BK enables DP training on large models and high dimensional data to be roughly as efficient as the standard training, whereas previous DP algorithms can be inefficient or incapable of training due to memory error. The computational advantage of BK is supported by the complexity analysis as well as extensive experiments on vision and language tasks. Our implementation achieves state-of-the-art (SOTA) accuracy with very small extra cost: on GPT2 and at the same memory cost, BK has 1.0$\times$ the time complexity of the standard training (0.75$\times$ training speed in practice), and 0.6$\times$ the time complexity of the most efficient DP implementation (1.24$\times$ training speed in practice). We will open-source the codebase for the BK algorithm.
翻訳日:2022-10-04 13:11:01 公開日:2022-09-30
# カーネル平均プールによるロバストカーネルのアンサンブル学習

Learning Robust Kernel Ensembles with Kernel Average Pooling ( http://arxiv.org/abs/2210.00062v1 )

ライセンス: Link先を確認
Pouya Bashivan, Adam Ibrahim, Amirozhan Dehghani, Yifei Ren(参考訳) モデルアンサンブルは、個々のモデル予測のばらつきを減らし、入力摂動をより堅牢にするために、機械学習で長い間使われてきた。 dropoutのような疑似センスブルメソッドは、一般化を改善するためにディープラーニングモデルでも一般的に使われている。 しかし、これらの技術の入力摂動に対するニューラルネットワークの頑健性向上への応用は未検討のままである。 本稿では,階層活性化テンソルのカーネル次元に沿って平均フィルタを適用するニューラルネットワーク構築ブロックであるKernel Average Pool(KAP)を紹介する。 同様の機能を持つカーネルのアンサンブルは、kapを搭載した畳み込みニューラルネットワークに自然に出現し、バックプロパゲーションで訓練される。 さらに, アクティベーションノイズと組み合わせることで, KAPモデルは様々な形態の敵攻撃に対して極めて堅牢であることを示す。 CIFAR10、CIFAR100、TinyImagenet、Imagenetデータセットに対する実証的な評価は、敵の訓練を受けたネットワークと同等だが、敵の例をトレーニングすることなく得られるAutoAttackのような強力な敵攻撃に対する堅牢性を大幅に改善したことを示している。

Model ensembles have long been used in machine learning to reduce the variance in individual model predictions, making them more robust to input perturbations. Pseudo-ensemble methods like dropout have also been commonly used in deep learning models to improve generalization. However, the application of these techniques to improve neural networks' robustness against input perturbations remains underexplored. We introduce Kernel Average Pool (KAP), a new neural network building block that applies the mean filter along the kernel dimension of the layer activation tensor. We show that ensembles of kernels with similar functionality naturally emerge in convolutional neural networks equipped with KAP and trained with backpropagation. Moreover, we show that when combined with activation noise, KAP models are remarkably robust against various forms of adversarial attacks. Empirical evaluations on CIFAR10, CIFAR100, TinyImagenet, and Imagenet datasets show substantial improvements in robustness against strong adversarial attacks such as AutoAttack that are on par with adversarially trained networks but are importantly obtained without training on any adversarial examples.
翻訳日:2022-10-04 13:04:47 公開日:2022-09-30
# スパイクニューラルネットワークのための新しい説明可能な分布外検出手法

A Novel Explainable Out-of-Distribution Detection Approach for Spiking Neural Networks ( http://arxiv.org/abs/2210.00894v1 )

ライセンス: Link先を確認
Aitor Martinez Seras, Javier Del Ser, Jesus L. Lobo, Pablo Garcia-Bringas, Nikola Kasabov(参考訳) スパイキングニューラルネットワークに関する研究は、従来のニューラルネットワークと比較して、効率的な処理と複雑な時間的ダイナミクスをモデル化する固有の能力を含む利点から、ここ数年で着火している。 これらの違いにもかかわらず、Spike Neural Networksは、現実世界にデプロイする他のニューラルネットワークと同じような問題に直面している。 この研究は、トレーニングデータの分布から遠く離れたサンプルでトレーニングされたモデルをクエリできる可能性(Out-of-DistributionまたはOoDデータとも呼ばれる)という、このモデルの信頼性を阻害する現実的な状況の1つに対処する。 具体的には、スパイキングニューラルネットワークに入力されたテストサンプルが、トレーニングされたデータの分布に属するかどうかを識別する新しいood検出器を提案する。 この目的のために、テストインスタンスによって誘導されるアクティベーションが非典型的であるかどうかを決定するための基礎となるスパイクカウントパターンの形で、ネットワークの隠蔽層の内部アクティベーションを特徴付ける。 さらに,入力インスタンスのどの部分がoodサンプルとしてサンプルの検出に最も向くかを示す帰属マップを作成するために,局所的な説明法が考案された。 複数の画像分類データセットを用いて実験を行い,提案手法と他のood検出手法との比較を行った。 得られた結果から, 提案する検出器は, これらの代替手法に対して競合的に動作し, 合成OoDインスタンスの期待に合致した関連属性マップを生成する。

Research around Spiking Neural Networks has ignited during the last years due to their advantages when compared to traditional neural networks, including their efficient processing and inherent ability to model complex temporal dynamics. Despite these differences, Spiking Neural Networks face similar issues than other neural computation counterparts when deployed in real-world settings. This work addresses one of the practical circumstances that can hinder the trustworthiness of this family of models: the possibility of querying a trained model with samples far from the distribution of its training data (also referred to as Out-of-Distribution or OoD data). Specifically, this work presents a novel OoD detector that can identify whether test examples input to a Spiking Neural Network belong to the distribution of the data over which it was trained. For this purpose, we characterize the internal activations of the hidden layers of the network in the form of spike count patterns, which lay a basis for determining when the activations induced by a test instance is atypical. Furthermore, a local explanation method is devised to produce attribution maps revealing which parts of the input instance push most towards the detection of an example as an OoD sample. Experimental results are performed over several image classification datasets to compare the proposed detector to other OoD detection schemes from the literature. As the obtained results clearly show, the proposed detector performs competitively against such alternative schemes, and produces relevance attribution maps that conform to expectations for synthetically created OoD instances.
翻訳日:2022-10-04 13:04:26 公開日:2022-09-30
# decaf: 知識ベースによる質問応答のための解答と論理形式の共同復号

DecAF: Joint Decoding of Answers and Logical Forms for Question Answering over Knowledge Bases ( http://arxiv.org/abs/2210.00063v1 )

ライセンス: Link先を確認
Donghan Yu, Sheng Zhang, Patrick Ng, Henghui Zhu, Alexander Hanbo Li, Jun Wang, Yiqun Hu, William Wang, Zhiguo Wang, Bing Xiang(参考訳) 知識ベース(KB)に対する質問応答は、KBにおける実体や関係などの事実情報を用いて自然言語の質問に答えることを目的としている。 従来の手法では、最終回答を得るためにkb以上の論理形式を生成したり、直接回答を予測したりする。 経験的な結果から、前者はより正確な答えを出すことが多いが、生成された論理形式の構文的誤りと意味的誤りによって非実行的問題に苦しむ。 本研究では,論理形式と直接回答の両方を共同で生成し,それらのメリットを組み合わせて最終回答を得る,新たなフレームワークdecafを提案する。 さらに、以前のほとんどの方法とは異なり、DecAFはエンティティリンクツールに頼ることなく、単純な自由テキスト検索に基づいている。 DecAFは、WebQSP、FreebaseQA、GrailQAベンチマークで新しい最先端の精度を実現し、ComplexWebQuestionsベンチマークで競合する結果を得た。

Question answering over knowledge bases (KBs) aims to answer natural language questions with factual information such as entities and relations in KBs. Previous methods either generate logical forms that can be executed over KBs to obtain final answers or predict answers directly. Empirical results show that the former often produces more accurate answers, but it suffers from non-execution issues due to potential syntactic and semantic errors in the generated logical forms. In this work, we propose a novel framework DecAF that jointly generates both logical forms and direct answers, and then combines the merits of them to get the final answers. Moreover, different from most of the previous methods, DecAF is based on simple free-text retrieval without relying on any entity linking tools -- this simplification eases its adaptation to different datasets. DecAF achieves new state-of-the-art accuracy on WebQSP, FreebaseQA, and GrailQA benchmarks, while getting competitive results on the ComplexWebQuestions benchmark.
翻訳日:2022-10-04 13:04:01 公開日:2022-09-30
# 言語ダイナミクス蒸留による政策学習の改善

Improving Policy Learning via Language Dynamics Distillation ( http://arxiv.org/abs/2210.00066v1 )

ライセンス: Link先を確認
Victor Zhong, Jesse Mu, Luke Zettlemoyer, Edward Grefenstette, Tim Rockt\"aschel(参考訳) 近年の研究では、言語記述による強化環境が政策学習を改善することが示されている。 しかし,複雑な言語を抽象化した環境では,言語を観察する方法について学ぶことは困難である。 本稿では,言語記述を用いた実演による環境動態予測モデルを事前学習し,強化学習(RL)によるこれらの言語対応事前学習表現を微調整するLanguage Dynamics Distillation(LDD)を提案する。 このようにして、モデルは、期待される報酬を最大化し、言語が環境ダイナミクスとどのように関係するかに関する知識を保持するように訓練される。 言語記述を伴う5つのタスク(NetHack、ALFWorld、RTFM、Messenger、Touchdown)のベンチマークでは、LDDはタブララザRL、VAE事前トレーニング、逆RLにおけるラベルなしのデモンストレーションから学習し、事前訓練された専門家との報酬形成方法よりも優れています。 本分析では,実演中の言語記述がサンプル効率と環境横断の一般化を改善できること,また,実演による動的モデリングが非熟練者よりも効果的であることを示す。

Recent work has shown that augmenting environments with language descriptions improves policy learning. However, for environments with complex language abstractions, learning how to ground language to observations is difficult due to sparse, delayed rewards. We propose Language Dynamics Distillation (LDD), which pretrains a model to predict environment dynamics given demonstrations with language descriptions, and then fine-tunes these language-aware pretrained representations via reinforcement learning (RL). In this way, the model is trained to both maximize expected reward and retain knowledge about how language relates to environment dynamics. On SILG, a benchmark of five tasks with language descriptions that evaluate distinct generalization challenges on unseen environments (NetHack, ALFWorld, RTFM, Messenger, and Touchdown), LDD outperforms tabula-rasa RL, VAE pretraining, and methods that learn from unlabeled demonstrations in inverse RL and reward shaping with pretrained experts. In our analyses, we show that language descriptions in demonstrations improve sample-efficiency and generalization across environments, and that dynamics modelling with expert demonstrations is more effective than with non-experts.
翻訳日:2022-10-04 13:03:43 公開日:2022-09-30
# 知識グラフにおける表現学習の逆ロバスト性

Adversarial Robustness of Representation Learning for Knowledge Graphs ( http://arxiv.org/abs/2210.00122v1 )

ライセンス: Link先を確認
Peru Bhardwaj(参考訳) 知識グラフは、概念間の関係として世界に関する事実的知識を表し、エンタープライズアプリケーションにおけるインテリジェントな意思決定に不可欠である。 新しい知識は、概念と関係を低次元の特徴ベクトル表現にエンコードすることで、知識グラフの既存の事実から推測される。 このタスクの最も効果的な表現は、KGE(Knowledge Graph Embeddings)と呼ばれ、ニューラルネットワークアーキテクチャを通じて学習される。 優れた予測性能のため、医療、金融、教育といった高影響領域での利用が増えている。 しかし、ブラックボックスのKGEモデルは高利得の領域で使用するために逆向きに堅牢か? この論文は、最先端のKGEモデルはデータ中毒攻撃に弱い、すなわち、トレーニング知識グラフに対する体系的な摂動によって予測性能を低下させることができると主張している。 この議論を支持するために, 学習モデルの推論時の性能を低下させるために, 学習時の入力削除や追加を巧みに行う, 新たなデータ中毒攻撃が2つ提案されている。 これらの敵対的攻撃はkgeモデルを用いて知識グラフの欠落した事実を予測するタスクをターゲットとし、より単純な攻撃が計算コストの高い攻撃と競合しているか、または比較可能であることを示す。 この論文は、KGEモデルのセキュリティ脆弱性をハイライトし、修正する機会を提供するだけでなく、KGEモデルのブラックボックス予測動作を理解するのに役立つ。

Knowledge graphs represent factual knowledge about the world as relationships between concepts and are critical for intelligent decision making in enterprise applications. New knowledge is inferred from the existing facts in the knowledge graphs by encoding the concepts and relations into low-dimensional feature vector representations. The most effective representations for this task, called Knowledge Graph Embeddings (KGE), are learned through neural network architectures. Due to their impressive predictive performance, they are increasingly used in high-impact domains like healthcare, finance and education. However, are the black-box KGE models adversarially robust for use in domains with high stakes? This thesis argues that state-of-the-art KGE models are vulnerable to data poisoning attacks, that is, their predictive performance can be degraded by systematically crafted perturbations to the training knowledge graph. To support this argument, two novel data poisoning attacks are proposed that craft input deletions or additions at training time to subvert the learned model's performance at inference time. These adversarial attacks target the task of predicting the missing facts in knowledge graphs using KGE models, and the evaluation shows that the simpler attacks are competitive with or outperform the computationally expensive ones. The thesis contributions not only highlight and provide an opportunity to fix the security vulnerabilities of KGE models, but also help to understand the black-box predictive behaviour of KGE models.
翻訳日:2022-10-04 13:03:21 公開日:2022-09-30
# TOAST:特異性追跡のためのトポロジ的アルゴリズム

TOAST: Topological Algorithm for Singularity Tracking ( http://arxiv.org/abs/2210.00069v1 )

ライセンス: Link先を確認
Julius von Rohrscheidt and Bastian Rieck(参考訳) データが低内在次元の未知多様体上またはその近くにあると仮定する多様体仮説は、現代の機械学習研究の出発点である。 しかし、近年の研究では、実世界のデータは異なる非多様体構造を示しており、それがデータに関する誤った結論につながる特異点をもたらすことが示されている。 このような特異点の検出は補間および推論タスクの前駆体として重要である。 特異点の検出を 開発することで (i)永続的局所ホモロジー、データセットの固有次元を局所的に定量化するための新しいトポロジー駆動フレームワーク、および (ii)ユークリッド(euclidicity)とは、個々の点の「多様体性」を評価するためのトポロジーベースの多スケール測度である。 提案手法は複素空間の特異点を確実に同定し,実世界のデータセットにおける特異構造を捉える。

The manifold hypothesis, which assumes that data lie on or close to an unknown manifold of low intrinsic dimensionality, is a staple of modern machine learning research. However, recent work has shown that real-world data exhibit distinct non-manifold structures, which result in singularities that can lead to erroneous conclusions about the data. Detecting such singularities is therefore crucial as a precursor to interpolation and inference tasks. We address detecting singularities by developing (i) persistent local homology, a new topology-driven framework for quantifying the intrinsic dimension of a data set locally, and (ii) Euclidicity, a topology-based multi-scale measure for assessing the 'manifoldness' of individual points. We show that our approach can reliably identify singularities of complex spaces, while also capturing singular structures in real-world data sets.
翻訳日:2022-10-04 13:02:02 公開日:2022-09-30
# 神経積分方程式

Neural Integral Equations ( http://arxiv.org/abs/2209.15190v1 )

ライセンス: Link先を確認
Emanuele Zappala, Antonio Henrique de Oliveira Fonseca, Josue Ortega Caro and David van Dijk(参考訳) 積分方程式 (ies) は積分作用素を通じて定義される関数方程式であり、未知関数は多次元空間上で積分される。 iesの重要な応用は、物理学、化学、生物学、工学、しばしば逆問題という形で、理論および応用科学の至るところで発見されている。 IEは、通常微分方程式(ODE)や偏微分方程式(PDE)といった微分方程式が、しばしば解くのに便利な積分バージョンで定式化できるため、特に有用である。 さらに、ODEやPDEとは異なり、IEは本質的に非局所的な力学系をモデル化することができる。 与えられたIEを解くための効率的なアルゴリズムはあるが、積分方程式とその関連するダイナミクスをデータだけで学習できる手法は存在しない。 本稿では,未知の積分演算子を解法から学習する手法であるNeural Integral Equations (NIE)を紹介する。 NIE の注意バージョンである Attentional Neural Integral Equations (ANIE) を導入し、その積分を自己注意に置き換え、拡張性を改善し、解釈可能性を提供する。 積分方程式による学習はニューラルODEのような他の連続的な手法よりも高速であることを示す。 最後に、ANIEは、ODE、PDE、IEシステムにおける複数のベンチマークタスクにおいて、合成および実世界のデータにおいて、他の手法よりも優れていることを示す。

Integral equations (IEs) are functional equations defined through integral operators, where the unknown function is integrated over a possibly multidimensional space. Important applications of IEs have been found throughout theoretical and applied sciences, including in physics, chemistry, biology, and engineering; often in the form of inverse problems. IEs are especially useful since differential equations, e.g. ordinary differential equations (ODEs), and partial differential equations (PDEs) can be formulated in an integral version which is often more convenient to solve. Moreover, unlike ODEs and PDEs, IEs can model inherently non-local dynamical systems, such as ones with long distance spatiotemporal relations. While efficient algorithms exist for solving given IEs, no method exists that can learn an integral equation and its associated dynamics from data alone. In this article, we introduce Neural Integral Equations (NIE), a method that learns an unknown integral operator from data through a solver. We also introduce an attentional version of NIE, called Attentional Neural Integral Equations (ANIE), where the integral is replaced by self-attention, which improves scalability and provides interpretability. We show that learning dynamics via integral equations is faster than doing so via other continuous methods, such as Neural ODEs. Finally, we show that ANIE outperforms other methods on several benchmark tasks in ODE, PDE, and IE systems of synthetic and real-world data.
翻訳日:2022-10-03 17:06:36 公開日:2022-09-30
# 弱SINDYサロゲートモデルの収束性

Convergence of weak-SINDy Surrogate Models ( http://arxiv.org/abs/2209.15573v1 )

ライセンス: Link先を確認
Benjamin Russo and M. Paul Laiu(参考訳) 本稿では,非線形ダイナミクス(sindy)法のスパース同定の変種によって生成されたサロゲートモデルの深い誤差解析を行う。 まず,非線形システム同定手法であるsindy, weak-sindy, and the occupation kernel法の概要について述べる。 力学が基底関数の集合の有限線型結合であるという仮定の下で、これらの方法は係数を回復する行列方程式を確立する。 これらの手法の構造的類似性を照らし,弱シンディ技法の射影特性を確立する。 次に,弱シンディの簡易版で生成されたサロゲートモデルの誤差を解析する。 特に、解によって与えられる合成作用素の有界性(boundedness)の仮定の下で、 (i)代理ダイナミクスは真のダイナミクスに向かって収束し、 (ii) 代理モデルの解は真の解に十分近い。 最後に、偏微分方程式(PDE)の代理モデルを構築するために、弱SINDyサロゲートモデリングと適切な直交分解(POD)の組み合わせについて論じる。

In this paper, we give an in-depth error analysis for surrogate models generated by a variant of the Sparse Identification of Nonlinear Dynamics (SINDy) method. We start with an overview of a variety of non-linear system identification techniques, namely, SINDy, weak-SINDy, and the occupation kernel method. Under the assumption that the dynamics are a finite linear combination of a set of basis functions, these methods establish a matrix equation to recover coefficients. We illuminate the structural similarities between these techniques and establish a projection property for the weak-SINDy technique. Following the overview, we analyze the error of surrogate models generated by a simplified version of weak-SINDy. In particular, under the assumption of boundedness of a composition operator given by the solution, we show that (i) the surrogate dynamics converges towards the true dynamics and (ii) the solution of the surrogate model is reasonably close to the true solution. Finally, as an application, we discuss the use of a combination of weak-SINDy surrogate modeling and proper orthogonal decomposition (POD) to build a surrogate model for partial differential equations (PDEs).
翻訳日:2022-10-03 17:06:13 公開日:2022-09-30
# バッチ多価共形予測

Batch Multivalid Conformal Prediction ( http://arxiv.org/abs/2209.15145v1 )

ライセンス: Link先を確認
Christopher Jung and Georgy Noarov and Ramya Ramalingam and Aaron Roth(参考訳) バッチ設定における交換可能なデータの多値カバレッジを得るために,高速な分布自由共形予測アルゴリズムを開発した。 1) グループメンバシップに条件付きでも保持する -- すなわち、ターゲットカバレッジレベル1-\alpha$は、機能空間内の領域の有限コレクション$\mathcal{G}$内の任意の(潜在的に交差する)グループのメンバシップに条件付きで保持する。 2) 所定の例の予測セットを生成するために用いられる閾値の値について条件付きでも保持する。 実際、多値カバレッジは、グループメンバーシップと閾値を同時に条件付けしても保証される。 2つのアルゴリズムを与える: どちらも任意の非整合点とおそらく交差する群 $\mathcal{G}$ の任意の集合を入力として取り、それから任意のブラックボックス予測器に予測セットを割り当てる。 最初のアルゴリズム(BatchGCP)は量子レグレッションの直接拡張であり、単一の凸最小化問題のみを解く必要があり、各群に対して$\mathcal{G}$の群条件保証を持つ推定器を生成する。 第2のアルゴリズム (BatchMVP) は反復的であり、多値共形予測の完全な保証を与える: グループメンバシップと非整合しきい値の両方で条件付きで有効である予測セット。 我々は,両アルゴリズムの性能を広範囲な実験で評価する。 すべての実験を複製するコードはhttps://github.com/ProgBelarus/BatchMultivalidConformalにある。

We develop fast distribution-free conformal prediction algorithms for obtaining multivalid coverage on exchangeable data in the batch setting. Multivalid coverage guarantees are stronger than marginal coverage guarantees in two ways: (1) They hold even conditional on group membership -- that is, the target coverage level $1-\alpha$ holds conditionally on membership in each of an arbitrary (potentially intersecting) group in a finite collection $\mathcal{G}$ of regions in the feature space. (2) They hold even conditional on the value of the threshold used to produce the prediction set on a given example. In fact multivalid coverage guarantees hold even when conditioning on group membership and threshold value simultaneously. We give two algorithms: both take as input an arbitrary non-conformity score and an arbitrary collection of possibly intersecting groups $\mathcal{G}$, and then can equip arbitrary black-box predictors with prediction sets. Our first algorithm (BatchGCP) is a direct extension of quantile regression, needs to solve only a single convex minimization problem, and produces an estimator which has group-conditional guarantees for each group in $\mathcal{G}$. Our second algorithm (BatchMVP) is iterative, and gives the full guarantees of multivalid conformal prediction: prediction sets that are valid conditionally both on group membership and non-conformity threshold. We evaluate the performance of both of our algorithms in an extensive set of experiments. Code to replicate all of our experiments can be found at https://github.com/ProgBelarus/BatchMultivalidConformal
翻訳日:2022-10-03 17:03:38 公開日:2022-09-30
# 帯域分割RNNを用いた音源分離

Music Source Separation with Band-split RNN ( http://arxiv.org/abs/2209.15174v1 )

ライセンス: Link先を確認
Yi Luo, Jianwei Yu(参考訳) 近年,新たなニューラルネットワークアーキテクチャとトレーニングパイプラインの開発により,音楽音源分離(MSS)モデルの性能が大幅に向上している。 しかし、近年のMSSのモデル設計は、主に他のオーディオ処理タスクや他の研究分野によって動機付けられているが、音楽信号の固有の特徴やパターンは完全には発見されなかった。 本稿では,周波数領域モデルであるバンド分割RNN(BSRNN)を提案する。 サブバンドの帯域幅の選択は、特定の種類のターゲット楽器の性能を最適化するために、対象音源の特性に関する事前知識または専門家知識によって決定することができる。 ラベルのないデータをよりよく活用するために、モデルの性能をさらに向上させる半教師付きモデル微調整パイプラインについても記述する。 実験結果から,BSRNNはMUSDB18-HQデータセットのみをトレーニングし,音楽デミキシング(MDX)チャレンジ2021においていくつかの上位モデルを上回る性能を示した。

The performance of music source separation (MSS) models has been greatly improved in recent years thanks to the development of novel neural network architectures and training pipelines. However, recent model designs for MSS were mainly motivated by other audio processing tasks or other research fields, while the intrinsic characteristics and patterns of the music signals were not fully discovered. In this paper, we propose band-split RNN (BSRNN), a frequency-domain model that explictly splits the spectrogram of the mixture into subbands and perform interleaved band-level and sequence-level modeling. The choices of the bandwidths of the subbands can be determined by a priori knowledge or expert knowledge on the characteristics of the target source in order to optimize the performance on a certain type of target musical instrument. To better make use of unlabeled data, we also describe a semi-supervised model finetuning pipeline that can further improve the performance of the model. Experiment results show that BSRNN trained only on MUSDB18-HQ dataset significantly outperforms several top-ranking models in Music Demixing (MDX) Challenge 2021, and the semi-supervised finetuning stage further improves the performance on all four instrument tracks.
翻訳日:2022-10-03 17:03:10 公開日:2022-09-30
# 音声分離のためのトップダウン注目を用いた効率的なエンコーダデコーダアーキテクチャ

An efficient encoder-decoder architecture with top-down attention for speech separation ( http://arxiv.org/abs/2209.15200v1 )

ライセンス: Link先を確認
Kai Li, Runxuan Yang, Xiaolin Hu(参考訳) ディープニューラルネットワークは、音声分離タスクにおいて優れた将来性を示している。 しかし、実際のアプリケーションでは、モデルの複雑さを低く保ちながら良い結果を得るのは難しい。 本稿では,TDANetと呼ばれる脳のトップダウンの注意を模倣して,バイオインスパイアされた効率的なエンコーダデコーダアーキテクチャを提案する。 TDANetにおけるトップダウンアテンションは、グローバルアテンション(GA)モジュールとカスケードローカルアテンション(LA)レイヤによって抽出される。 GAモジュールはマルチスケール音響特徴を入力としてグローバルアテンション信号を抽出し、直接トップダウン接続によって異なるスケールの特徴を変調する。 LA層は、隣接層の特徴を入力として、局所的な注意信号を抽出し、トップダウン方式で横方向の入力を変調する。 3つのベンチマークデータセットでは、TDANetは従来型のSOTA(State-of-the-art)メソッドとの競合分離性能を高い効率で継続的に達成した。 特に、tdanet の multiply-accumulate operations (mac) は、以前の sota モデルの 1 つである sepformer の 5\% であり、cpu の推論時間は sepformer の 10\% である。 さらに、tdanetの大規模バージョンでは、3つのデータセットでsomaの結果が得られ、macはsepformerの10\%、cpu推論時間はsepformerの24\%であった。 本研究は,トップダウン注意が音声分離のより効率的な戦略であることを示す。

Deep neural networks have shown excellent prospects in speech separation tasks. However, obtaining good results while keeping a low model complexity remains challenging in real-world applications. In this paper, we provide a bio-inspired efficient encoder-decoder architecture by mimicking the brain's top-down attention, called TDANet, with decreased model complexity without sacrificing performance. The top-down attention in TDANet is extracted by the global attention (GA) module and the cascaded local attention (LA) layers. The GA module takes multi-scale acoustic features as input to extract global attention signal, which then modulates features of different scales by direct top-down connections. The LA layers use features of adjacent layers as input to extract the local attention signal, which is used to modulate the lateral input in a top-down manner. On three benchmark datasets, TDANet consistently achieved competitive separation performance to previous state-of-the-art (SOTA) methods with higher efficiency. Specifically, TDANet's multiply-accumulate operations (MACs) are only 5\% of Sepformer, one of the previous SOTA models, and CPU inference time is only 10\% of Sepformer. In addition, a large-size version of TDANet obtained SOTA results on three datasets, with MACs still only 10\% of Sepformer and the CPU inference time only 24\% of Sepformer. Our study suggests that top-down attention can be a more efficient strategy for speech separation.
翻訳日:2022-10-03 17:02:49 公開日:2022-09-30
# Metro:リアクションツリーによる再合成計画のためのメモリ拡張トランス

Metro: Memory-Enhanced Transformer for Retrosynthetic Planning via Reaction Tree ( http://arxiv.org/abs/2209.15315v1 )

ライセンス: Link先を確認
Songtao Liu, Rex Ying, Zuobai Zhang, Peilin Zhao, Jian Tang, Lu Lin, Dinghao Wu(参考訳) 再合成計画は、薬物発見と有機化学において重要な役割を果たす。 対象分子を根ノードとして出発し、全ての葉ノードが始点の集合に属するという制約の下で完全な反応木を見つけることを目的としている。 多段階反応は有機化学工業の生産におけるフローチャートを決定するために重要である。 しかし、既存のデータセットは木構造による多段階反応のキュレーションを欠き、そのような反応木を提供できず、モデルによる有機分子変換の理解を制限している。 本研究では,USPTO-fullデータセットから抽出した124,869個の反応木からなる,逆合成計画タスクのためのベンチマークを最初に開発した。 その上で、RetrOsynthetic PlanningのためのMetro: Memory-Enhanced Transformerを提案する。 具体的には、リアクションツリー内の分子間の依存性を、メモリモジュールを備えたトランスフォーマによる多段階の逆合成予測のコンテキスト情報として捉える。 大規模な実験により、Metroは既存の1段階のレトロシンセシスモデルを少なくとも10.7%上回った。 実験は, 再合成計画課題における文脈情報の利用の優位性を実証した。 さらに, 合成アクセシビリティ解析において, 最深度が短い反応木を訓練することにより, 直接的に利用することができる。 我々の研究は、データ構築、モデル設計、評価の面において、再合成計画のための新しい定式化への第一歩です。 コードはhttps://github.com/songtaoliu0823/metroで入手できる。

Retrosynthetic planning plays a critical role in drug discovery and organic chemistry. Starting from a target molecule as the root node, it aims to find a complete reaction tree subject to the constraint that all leaf nodes belong to a set of starting materials. The multi-step reactions are crucial because they determine the flow chart in the production of the Organic Chemical Industry. However, existing datasets lack curation of tree-structured multi-step reactions, and fail to provide such reaction trees, limiting models' understanding of organic molecule transformations. In this work, we first develop a benchmark curated for the retrosynthetic planning task, which consists of 124,869 reaction trees retrieved from the public USPTO-full dataset. On top of that, we propose Metro: Memory-Enhanced Transformer for RetrOsynthetic planning. Specifically, the dependency among molecules in the reaction tree is captured as context information for multi-step retrosynthesis predictions through transformers with a memory module. Extensive experiments show that Metro dramatically outperforms existing single-step retrosynthesis models by at least 10.7% in top-1 accuracy. The experiments demonstrate the superiority of exploiting context information in the retrosynthetic planning task. Moreover, the proposed model can be directly used for synthetic accessibility analysis, as it is trained on reaction trees with the shortest depths. Our work is the first step towards a brand new formulation for retrosynthetic planning in the aspects of data construction, model design, and evaluation. Code is available at https://github.com/SongtaoLiu0823/metro.
翻訳日:2022-10-03 17:02:21 公開日:2022-09-30
# 対数線形政策パラメトリゼーションによる自然政策勾配の線形収束

Linear Convergence for Natural Policy Gradient with Log-linear Policy Parametrization ( http://arxiv.org/abs/2209.15382v1 )

ライセンス: Link先を確認
Carlo Alfano and Patrick Rebeschini(参考訳) 無限ホリゾンディスカウントマルコフ決定過程における非正規化自然政策勾配アルゴリズムと対数線形政策パラメトリゼーションの収束率を解析した。 決定論的な場合、q値が知られ、既知の特徴関数のバイアス誤差までの線形結合によって近似できる場合には、幾何学的に増大するステップサイズが最適なポリシーに向かって線形収束率をもたらすことを示す。 次に、既知の特徴関数の線形結合におけるQ値関数の最良の表現が推定誤差まで知られている場合、サンプルベースの場合を考える。 この設定では,推定誤差,バイアス誤差,特徴共分散行列の条件数に依存する誤差項まで,決定論的の場合と同じ線形保証をアルゴリズムが享受していることを示す。 本研究は,政策ミラー降下の一般的な枠組みを基盤とし,ソフトマックス表状パラメトリゼーションのこれまでの知見を対数線形政策クラスに拡張した。

We analyze the convergence rate of the unregularized natural policy gradient algorithm with log-linear policy parametrizations in infinite-horizon discounted Markov decision processes. In the deterministic case, when the Q-value is known and can be approximated by a linear combination of a known feature function up to a bias error, we show that a geometrically-increasing step size yields a linear convergence rate towards an optimal policy. We then consider the sample-based case, when the best representation of the Q- value function among linear combinations of a known feature function is known up to an estimation error. In this setting, we show that the algorithm enjoys the same linear guarantees as in the deterministic case up to an error term that depends on the estimation error, the bias error, and the condition number of the feature covariance matrix. Our results build upon the general framework of policy mirror descent and extend previous findings for the softmax tabular parametrization to the log-linear policy class.
翻訳日:2022-10-03 17:01:58 公開日:2022-09-30
# 逆分子設計のための等変エネルギー誘導SDE

Equivariant Energy-Guided SDE for Inverse Molecular Design ( http://arxiv.org/abs/2209.15408v1 )

ライセンス: Link先を確認
Fan Bao, Min Zhao, Zhongkai Hao, Peiyao Li, Chongxuan Li, Jun Zhu(参考訳) 逆分子設計は物質科学や創薬において重要であり、生成した分子は特定の望ましい性質を満たすべきである。 本稿では,拡散モデルにおけるエネルギー関数の指導の下で制御可能な3次元分子生成のための柔軟な枠組みである等変エネルギー誘導確率微分方程式(eegsde)を提案する。 形式的には、EEGSDEは直交変換にエネルギー関数が不変である限り、自然に3次元分子配座の幾何学対称性を利用する。 実験的に、設計エネルギー関数の指導の下で、EEGSDEは量子特性や分子構造を標的とした逆分子設計においてQM9の基底線を著しく改善する。 さらに、EEGSDEは対応するエネルギー関数を線形に組み合わせることで、複数の標的特性を持つ分子を生成することができる。

Inverse molecular design is critical in material science and drug discovery, where the generated molecules should satisfy certain desirable properties. In this paper, we propose equivariant energy-guided stochastic differential equations (EEGSDE), a flexible framework for controllable 3D molecule generation under the guidance of an energy function in diffusion models. Formally, we show that EEGSDE naturally exploits the geometric symmetry in 3D molecular conformation, as long as the energy function is invariant to orthogonal transformations. Empirically, under the guidance of designed energy functions, EEGSDE significantly improves the baseline on QM9, in inverse molecular design targeted to quantum properties and molecular structures. Furthermore, EEGSDE is able to generate molecules with multiple target properties by combining the corresponding energy functions linearly.
翻訳日:2022-10-03 17:01:44 公開日:2022-09-30
# アンサンブル学習による粒子加速器パワーエレクトロニクスの故障予後

Fault Prognosis in Particle Accelerator Power Electronics Using Ensemble Learning ( http://arxiv.org/abs/2209.15570v1 )

ライセンス: Link先を確認
Majdi I. Radaideh, Chris Pappas, Mark Wezensky, Pradeep Ramuhalli, Sarah Cousineau(参考訳) 早期故障検出と故障の予後は、スペンレーション中性子源(SNS)やパワーエレクトロニクス(高電圧コンバータ変調器)のような複雑なエンジニアリングシステムの効率と安全性を確保するために重要である。 SNSの動作条件を模倣する先進的な実験施設の整備に続いて、著者らは21の故障予後実験を成功させ、そこでは、波形信号の劣化を引き起こすのに十分な程度に障害前駆体がシステムに導入されるが、実際の故障に到達するには不十分である。 故障前兆を検出するために,アンサンブルツリー,畳み込みニューラルネットワーク,サポートベクターマシン,階層的投票アンサンブルに基づく9つの機械学習手法を提案する。 トレーニングとテストのフェーズでは、すべての9モデルが完璧で同一のパフォーマンスを示したが、21の実験から実世界のデータに触れると、ほとんどのモデルのパフォーマンスは、予後のフェーズで低下した。 多様なモデルの複数層を特徴とする階層的投票アンサンブルは、95%の成功率(20/21テスト)で障害前兆を早期に検出し、次いで52%と48%の成功率でアダブーストと極端にランダム化された木が続いた。 サポートベクターマシンモデルは24%の成功率(5/21テスト)で最悪だった。 この研究は、SNSや粒子加速器システムにおける機械学習の実装が成功すれば、機械学習モデルのビッグデータのストリーミングと処理を容易にするために、コントローラとデータ取得システムに大きなアップグレードが必要になると結論付けた。 さらに本研究は,個々のモデルのバイアスとハイパーパラメータの感度を低減させるアンサンブルの概念に基づいて,最善のモデルが多様であることを示した。

Early fault detection and fault prognosis are crucial to ensure efficient and safe operations of complex engineering systems such as the Spallation Neutron Source (SNS) and its power electronics (high voltage converter modulators). Following an advanced experimental facility setup that mimics SNS operating conditions, the authors successfully conducted 21 fault prognosis experiments, where fault precursors are introduced in the system to a degree enough to cause degradation in the waveform signals, but not enough to reach a real fault. Nine different machine learning techniques based on ensemble trees, convolutional neural networks, support vector machines, and hierarchical voting ensembles are proposed to detect the fault precursors. Although all 9 models have shown a perfect and identical performance during the training and testing phase, the performance of most models has decreased in the prognosis phase once they got exposed to real-world data from the 21 experiments. The hierarchical voting ensemble, which features multiple layers of diverse models, maintains a distinguished performance in early detection of the fault precursors with 95% success rate (20/21 tests), followed by adaboost and extremely randomized trees with 52% and 48% success rates, respectively. The support vector machine models were the worst with only 24% success rate (5/21 tests). The study concluded that a successful implementation of machine learning in the SNS or particle accelerator power systems would require a major upgrade in the controller and the data acquisition system to facilitate streaming and handling big data for the machine learning models. In addition, this study shows that the best performing models were diverse and based on the ensemble concept to reduce the bias and hyperparameter sensitivity of individual models.
翻訳日:2022-10-03 17:01:18 公開日:2022-09-30
# match to win: 音声と音声の効率的な自己教師付き学習のためのシーケンス長の分析

Match to Win: Analysing Sequences Lengths for Efficient Self-supervised Learning in Speech and Audio ( http://arxiv.org/abs/2209.15575v1 )

ライセンス: Link先を確認
Yan Gao, Javier Fernandez-Marques, Titouan Parcollet, Pedro P. B. de Gusmao, Nicholas D. Lane(参考訳) 自己教師付き学習(SSL)は、音声および音声関連アプリケーションにおいて不可欠であることが証明されている。 このパラダイムはラベルのないデータの一般的なモデルをトレーニングし、後に特定のダウンストリームタスクの解決に使用できる。 このタイプのモデルは、強力な集中型サーバでしか処理できない長い入力シーケンスを操作する必要があるため、トレーニングにコストがかかる。 驚くべきことに、モデル圧縮によるトレーニング効率向上の試みは多いが、計算量を削減するために入力シーケンス長の切り詰めの影響は研究されていない。 本稿では,特定シーケンス長の異なるsslプリトレーニングに関する最初の実証研究を行い,これをダウンストリームタスクにリンクする。 ショートシーケンスでのトレーニングは、すべてのタスクで満足なパフォーマンスを維持しながら、リソースコストを劇的に削減できることがわかった。 この単純なワンライン変更は、より現実的でパーソナライズされたアプリケーションのために、データセンターからエンドユーザのエッジデバイスへのSSLトレーニングの移行を促進する。

Self-supervised learning (SSL) has proven vital in speech and audio-related applications. The paradigm trains a general model on unlabeled data that can later be used to solve specific downstream tasks. This type of model is costly to train as it requires manipulating long input sequences that can only be handled by powerful centralised servers. Surprisingly, despite many attempts to increase training efficiency through model compression, the effects of truncating input sequence lengths to reduce computation have not been studied. In this paper, we provide the first empirical study of SSL pre-training for different specified sequence lengths and link this to various downstream tasks. We find that training on short sequences can dramatically reduce resource costs while retaining a satisfactory performance for all tasks. This simple one-line change would promote the migration of SSL training from data centres to user-end edge devices for more realistic and personalised applications.
翻訳日:2022-10-03 17:00:47 公開日:2022-09-30
# TinyTurbo: Edge上の効率的なターボデコーダ

TinyTurbo: Efficient Turbo Decoders on Edge ( http://arxiv.org/abs/2209.15614v1 )

ライセンス: Link先を確認
S Ashwin Hebbar, Rajesh K Mishra, Sravan Kumar Ankireddy, Ashok V Makkuva, Hyeji Kim, Pramod Viswanath(参考訳) 本稿では,TINYTURBOと呼ばれるターボ符号のためのニューラルネットワークデコーダを提案する。 TINYTURBOは、従来のmax-log-MAPアルゴリズムに匹敵する複雑さを持つが、max-log-MAPベースラインよりも信頼性が高く、MAPアルゴリズムに近い性能を持つ。 TINYTURBO は EPA や EVA など,LTE 規格に含まれる様々な実用チャネルに対して強い堅牢性を示すことを示す。 また、TINYTURBOは、異なる速度、ブロック長、トレライズを強く一般化することを示した。 地上実験により,tinyturboの信頼性と効率を検証した。

In this paper, we introduce a neural-augmented decoder for Turbo codes called TINYTURBO . TINYTURBO has complexity comparable to the classical max-log-MAP algorithm but has much better reliability than the max-log-MAP baseline and performs close to the MAP algorithm. We show that TINYTURBO exhibits strong robustness on a variety of practical channels of interest, such as EPA and EVA channels, which are included in the LTE standards. We also show that TINYTURBO strongly generalizes across different rate, blocklengths, and trellises. We verify the reliability and efficiency of TINYTURBO via over-the-air experiments.
翻訳日:2022-10-03 17:00:34 公開日:2022-09-30
# 教師なしディープラーニングによるクラウド分類

Cloud Classification with Unsupervised Deep Learning ( http://arxiv.org/abs/2209.15585v1 )

ライセンス: Link先を確認
Takuya Kurihana, Ian Foster, Rebecca Willett, Sydney Jenkins, Kathryn Koenig, Ruby Werman, Ricardo Barros Lourenco, Casper Neo, Elisabeth Moyer(参考訳) 最新の教師なしディープラーニング技術を活用したクラウドキャラクタリゼーションのためのフレームワークを提案する。 従来のニューラルネットワークベースのクラウド分類モデルでは教師付き学習手法が用いられてきたが、教師なし学習では、過去のクラウド分類スキームに基づく人工カテゴリへのモデル制限を回避でき、より詳細な分類の発見が可能になる。 我々のフレームワークは、NASAのMODIS(Moderate Resolution Imaging Spectroradiometer)衛星機器によって生成された放射データから直接雲の特徴を学習し、トレーニングプロセス中に予め定義された雲の種類に頼ることなく、何百万もの画像から雲の特徴を導き出す。 本手法は,放射光データから物理的に関連のある情報を抽出し,有意義なクラウドクラスを生成する。

We present a framework for cloud characterization that leverages modern unsupervised deep learning technologies. While previous neural network-based cloud classification models have used supervised learning methods, unsupervised learning allows us to avoid restricting the model to artificial categories based on historical cloud classification schemes and enables the discovery of novel, more detailed classifications. Our framework learns cloud features directly from radiance data produced by NASA's Moderate Resolution Imaging Spectroradiometer (MODIS) satellite instrument, deriving cloud characteristics from millions of images without relying on pre-defined cloud types during the training process. We present preliminary results showing that our method extracts physically relevant information from radiance data and produces meaningful cloud classes.
翻訳日:2022-10-03 16:54:44 公開日:2022-09-30
# 自然科学のための機械学習における測定誤差を含む新しい計量公式

New Metric Formulas that Include Measurement Errors in Machine Learning for Natural Sciences ( http://arxiv.org/abs/2209.15588v1 )

ライセンス: Link先を確認
Umberto Michelucci and Francesca Venturini(参考訳) 機械学習の物理学問題への応用は、科学文献に広く見られる。 回帰問題と分類問題は、学習アルゴリズムを含む多数のテクニックによって対処される。 残念ながら、機械学習モデルのトレーニングに使用されるデータの計測エラーはほとんど無視されている。 これは、対象変数(予測したいもの)が正しいと常に仮定されているため、あまりに楽観的すぎるモデル(そしてそれらの一般化力)のパフォーマンスの推定に繋がる。 物理学では、これは劇的な不足であり、理論やパターンが実在し、実際にはそうではないという信念に繋がる可能性がある。 本稿では,対象変数の測定誤差を考慮した一般的なメトリクス(回帰問題と分類問題の両方)の公式を導出することにより,この不足に対処する。 この新しい公式は、測定誤差を考慮せず、古典的手法で得られるものよりも常に悲観的であるメトリクスの推定を与える。 ここで与えられる公式は一般に有効であり、完全にモデル非依存であり、制限なく適用できる。 したがって、統計的信頼性により、あらゆる種類の誤差で測定を行う際に、関係の存在を分析することができる。 公式は物理学以外でも広く適用可能であり、測定誤差が研究の結論に関係しているすべての問題に利用できる。

The application of machine learning to physics problems is widely found in the scientific literature. Both regression and classification problems are addressed by a large array of techniques that involve learning algorithms. Unfortunately, the measurement errors of the data used to train machine learning models are almost always neglected. This leads to estimations of the performance of the models (and thus their generalisation power) that is too optimistic since it is always assumed that the target variables (what one wants to predict) are correct. In physics, this is a dramatic deficiency as it can lead to the belief that theories or patterns exist where, in reality, they do not. This paper addresses this deficiency by deriving formulas for commonly used metrics (both for regression and classification problems) that take into account measurement errors of target variables. The new formulas give an estimation of the metrics which is always more pessimistic than what is obtained with the classical ones, not taking into account measurement errors. The formulas given here are of general validity, completely model-independent, and can be applied without limitations. Thus, with statistical confidence, one can analyze the existence of relationships when dealing with measurements with errors of any kind. The formulas have wide applicability outside physics and can be used in all problems where measurement errors are relevant to the conclusions of studies.
翻訳日:2022-10-03 16:54:30 公開日:2022-09-30
# 漸進凸緩和によるシャッフル線形回帰

Shuffled linear regression through graduated convex relaxation ( http://arxiv.org/abs/2209.15608v1 )

ライセンス: Link先を確認
Efe Onaran, Soledad Villar(参考訳) シャッフル線形回帰問題は、入力と出力の対応が不明なデータセットにおける線形関係を回復することを目的としている。 この問題は、調査データを含む幅広いアプリケーションで発生し、重要な統計接続を解明しながら、応答の匿名性を維持することができるかどうかを判断する必要がある。 そこで本研究では,ガウス雑音を前提とした後方最大目的関数に基づくシャッフル線形回帰のための新しい最適化アルゴリズムを提案する。 我々は、既存の合成データと実データを比較して比較する。 実験的な実行時間改善を実現しながら,本手法が競争力を発揮することを示す。 さらに,本アルゴリズムは,近頃問題に注目されるようになった種子の形で,その側情報を活用できることを実証する。

The shuffled linear regression problem aims to recover linear relationships in datasets where the correspondence between input and output is unknown. This problem arises in a wide range of applications including survey data, in which one needs to decide whether the anonymity of the responses can be preserved while uncovering significant statistical connections. In this work, we propose a novel optimization algorithm for shuffled linear regression based on a posterior-maximizing objective function assuming Gaussian noise prior. We compare and contrast our approach with existing methods on synthetic and real data. We show that our approach performs competitively while achieving empirical running-time improvements. Furthermore, we demonstrate that our algorithm is able to utilize the side information in the form of seeds, which recently came to prominence in related problems.
翻訳日:2022-10-03 16:54:14 公開日:2022-09-30
# サイクル一貫性半結合によるニューラルアンバランス最適輸送

Neural Unbalanced Optimal Transport via Cycle-Consistent Semi-Couplings ( http://arxiv.org/abs/2209.15621v1 )

ライセンス: Link先を確認
Frederike L\"ubeck, Charlotte Bunne, Gabriele Gut, Jacobo Sarabia del Castillo, Lucas Pelkmans, David Alvarez-Melis(参考訳) 異なる時点から取られた分布や個体数を比較することは、多くの応用領域において基本的な課題であり、個体数を測定することは破壊的であり、単細胞生物学のような同じサンプルでは繰り返し実行できない。 最適な輸送(ot)は、非ペアデータから分布をまたいだサンプルの最適な結合を学習することで、この課題を解決できる。 しかし、OTの通常の定式化は、集団の大きさが測定間で変化する(細胞増殖や死など)不均衡なシナリオに違反する質量の保存を前提としている。 本研究では, 半カップリングの形式に依拠し, 質量の生成と破壊を考慮に入れたニューラルアンバランスOTの定式化であるNubOTを紹介する。 このような半カップリングを推定し,アウト・オブ・サンプルを一般化するために,ニューラル最適輸送マップに基づく効率的なパラメータ化を導出し,サイクル一貫性学習手法による新しいアルゴリズムスキームを提案する。 本手法は,複数の癌細胞株の異種応答を様々な薬物に予測する困難な課題に応用し,細胞増殖と死を正確にモデル化することにより,従来の神経最適輸送法よりも顕著な改善が得られた。

Comparing unpaired samples of a distribution or population taken at different points in time is a fundamental task in many application domains where measuring populations is destructive and cannot be done repeatedly on the same sample, such as in single-cell biology. Optimal transport (OT) can solve this challenge by learning an optimal coupling of samples across distributions from unpaired data. However, the usual formulation of OT assumes conservation of mass, which is violated in unbalanced scenarios in which the population size changes (e.g., cell proliferation or death) between measurements. In this work, we introduce NubOT, a neural unbalanced OT formulation that relies on the formalism of semi-couplings to account for creation and destruction of mass. To estimate such semi-couplings and generalize out-of-sample, we derive an efficient parameterization based on neural optimal transport maps and propose a novel algorithmic scheme through a cycle-consistent training procedure. We apply our method to the challenging task of forecasting heterogeneous responses of multiple cancer cell lines to various drugs, where we observe that by accurately modeling cell proliferation and death, our method yields notable improvements over previous neural optimal transport methods.
翻訳日:2022-10-03 16:54:02 公開日:2022-09-30
# 効果的なオンライン広告のための垂直セミフェデレーション学習

Vertical Semi-Federated Learning for Efficient Online Advertising ( http://arxiv.org/abs/2209.15635v1 )

ライセンス: Link先を確認
Wenjie Li, Qiaolin Xia, Hao Cheng, Kouyin Xue, Shu-Tao Xia(参考訳) クロスサイロプライベートデータを活用するための新たなセキュアな学習パラダイムとして,広告主とパブリッシャーの個人所有による補完的ユーザ属性の学習を可能にすることで,広告モデルの改善が期待されている。 しかし... 1)重複試料に対する適用範囲の制限及び 2)リアルタイムフェデレートサービスにおけるハイシステムチャレンジは,広告システムへの適用を制限している。 本稿では,フェデレーションのないすべての利用可能なデータ(重複データと非重複データの両方)を利用する軽量なソリューションとして,新たな学習環境であるSemi-VFL(Vertical Semi-Federated Learning)を提案する。 semi-vflはシングルパーティモデルよりもパフォーマンスが良く、低い推論コストを維持することが期待されている。 それは特に重要です 一 受動的当事者の特徴の欠如を緩和し、かつ、 二 サンプル空間全体に適応して、Semi-VFLの優れたソリューションを実装すること。 そこで本稿では,Semi-VFLの効率的な実装として,JPL(Joint privileged learning framework)を提案する。 具体的には、サンプル空間全体に適用可能な推論効率の高いシングルパーティの学生モデルを構築し、その一方で、フェデレーション機能拡張の利点を保ちます。 オーバーラップデータと非オーバーラップデータの両方に対して,クロスパーティ特徴相関を抽出し,クロスサンプル空間一貫性を維持するために,新しい特徴模倣法とランキング一貫性制限法を提案する。 実世界の広告データセットについて広範な実験を行った。 その結果,本手法はベースライン法よりも優れた性能を達成し,クロスビュー特徴相関の維持効果を検証できることがわかった。

As an emerging secure learning paradigm in leveraging cross-silo private data, vertical federated learning (VFL) is expected to improve advertising models by enabling the joint learning of complementary user attributes privately owned by the advertiser and the publisher. However, the 1) restricted applicable scope to overlapped samples and 2) high system challenge of real-time federated serving have limited its application to advertising systems. In this paper, we advocate new learning setting Semi-VFL (Vertical Semi-Federated Learning) as a lightweight solution to utilize all available data (both the overlapped and non-overlapped data) that is free from federated serving. Semi-VFL is expected to perform better than single-party models and maintain a low inference cost. It's notably important to i) alleviate the absence of the passive party's feature and ii) adapt to the whole sample space to implement a good solution for Semi-VFL. Thus, we propose a carefully designed joint privileged learning framework (JPL) as an efficient implementation of Semi-VFL. Specifically, we build an inference-efficient single-party student model applicable to the whole sample space and meanwhile maintain the advantage of the federated feature extension. Novel feature imitation and ranking consistency restriction methods are proposed to extract cross-party feature correlations and maintain cross-sample-space consistency for both the overlapped and non-overlapped data. We conducted extensive experiments on real-world advertising datasets. The results show that our method achieves the best performance over baseline methods and validate its effectiveness in maintaining cross-view feature correlation.
翻訳日:2022-10-03 16:53:41 公開日:2022-09-30
# Downlink CompressionがTopKスパシフィケーションを改善

Downlink Compression Improves TopK Sparsification ( http://arxiv.org/abs/2209.15203v1 )

ライセンス: Link先を確認
William Zou, Hans De Sterck, Jun Liu(参考訳) 大きなニューラルネットワークのトレーニングには時間がかかる。 プロセスのスピードアップには、分散トレーニングが頻繁に使用される。 分散トレーニングにおける最大のボトルネックのひとつは、異なるノード間の通信勾配だ。 通信ボトルネックを軽減するために異なる勾配圧縮手法が提案されている。例えば、他のノードに送信する前に最大のKコンポーネントへの勾配を乱すトポK勾配スペーシフィケーションである。 幾人かの著者が、ワーカー間(アップリンク)とサーバ間(ダウンリンク)の両方の方向にtopk圧縮を適用することで、パラメータ-サーバフレームワークにおけるtopk勾配のスパーシフィケーションを調査しているが、現在受け入れられている考え方では、追加の圧縮を加えるとモデルの収束が低下する。 それとは対照的に、ダウンリンク圧縮を加えることで、topkスパーシフィケーションのパフォーマンスが向上する可能性があることを実証する: ステップ毎の通信量を減少させるだけでなく、直観上、収束解析の上限を改善できる。 これを示すために,topk確率勾配降下(sgd)の非凸収束解析を再検討し,一方向から二方向へ拡張する。 我々は、一方向トップK SGDに対して双方向トップK SGDを実験的に評価し、双方向トップK SGDで訓練されたモデルだけでなく、一方向トップK SGDで訓練されたモデルも、多数の作業者に対して重要なコミュニケーション効果を得られることを示す。

Training large neural networks is time consuming. To speed up the process, distributed training is often used. One of the largest bottlenecks in distributed training is communicating gradients across different nodes. Different gradient compression techniques have been proposed to alleviate the communication bottleneck, including topK gradient sparsification, which truncates the gradient to the largest K components before sending it to other nodes. While some authors have investigated topK gradient sparsification in the parameter-server framework by applying topK compression in both the worker-to-server (uplink) and server-to-worker (downlink) direction, the currently accepted belief says that adding extra compression degrades the convergence of the model. We demonstrate, on the contrary, that adding downlink compression can potentially improve the performance of topK sparsification: not only does it reduce the amount of communication per step, but also, counter-intuitively, can improve the upper bound in the convergence analysis. To show this, we revisit non-convex convergence analysis of topK stochastic gradient descent (SGD) and extend it from the unidirectional to the bidirectional setting. We also remove a restriction of the previous analysis that requires unrealistically large values of K. We experimentally evaluate bidirectional topK SGD against unidirectional topK SGD and show that models trained with bidirectional topK SGD will perform as well as models trained with unidirectional topK SGD while yielding significant communication benefits for large numbers of workers.
翻訳日:2022-10-03 16:46:54 公開日:2022-09-30
# 動的トレース推定のための最適クエリ複雑性

Optimal Query Complexities for Dynamic Trace Estimation ( http://arxiv.org/abs/2209.15219v1 )

ライセンス: Link先を確認
David P. Woodruff, Fred Zhang, Qiuyi Zhang(参考訳) 最適化プロセスのように,行列がゆっくりと変化している動的環境において,正確なトレース推定に必要な行列ベクトルクエリ数を最小化する問題を考える。 具体的には、任意の$m$行列に対して、$A_1, ..., A_m$ を Schatten-$1$ norm by $\alpha$ で有界な連続的な差がある場合、$\epsilon$エラーと$\delta$失敗確率を$\widetilde{O}\left(m \alpha\sqrt{\log(1/\delta)}/\epsilon + m\log(1/\delta)\right)$ を同時に推定し、$\alpha$ と $\delta$ を Dharangutte と Musco (NeurIPS, 2021) からの依存度を改善するような、新しいバイナリツリー和法を提供する。 この手順は$a_i$ に対する追加のノルム境界なしで動作し、$p$-th schatten norm for $p \in [1,2]$ のバウンドに一般化でき、$\widetilde{o}\left(m \alpha\left(\sqrt{\log(1/\delta)}/\epsilon\right)^p +m \log(1/\delta)\right)$ の複雑さを与える。 ガウス行列の通信複雑性に対する新しい還元と情報理論的解析を用いることにより、故障確率を含むすべての関連するパラメータにおける静的および動的トレース推定のためのマッチング下限を提供する。 我々の下限(1)は,フロベニウスノルム誤差を伴う行列-ベクトル積モデルにおけるhutchinsonの推定子に対する最初の厳密な境界を与え,(2)動的トレース推定のための最初の無条件下限であり,事前の解法である。

We consider the problem of minimizing the number of matrix-vector queries needed for accurate trace estimation in the dynamic setting where our underlying matrix is changing slowly, such as during an optimization process. Specifically, for any $m$ matrices $A_1,...,A_m$ with consecutive differences bounded in Schatten-$1$ norm by $\alpha$, we provide a novel binary tree summation procedure that simultaneously estimates all $m$ traces up to $\epsilon$ error with $\delta$ failure probability with an optimal query complexity of $\widetilde{O}\left(m \alpha\sqrt{\log(1/\delta)}/\epsilon + m\log(1/\delta)\right)$, improving the dependence on both $\alpha$ and $\delta$ from Dharangutte and Musco (NeurIPS, 2021). Our procedure works without additional norm bounds on $A_i$ and can be generalized to a bound for the $p$-th Schatten norm for $p \in [1,2]$, giving a complexity of $\widetilde{O}\left(m \alpha\left(\sqrt{\log(1/\delta)}/\epsilon\right)^p +m \log(1/\delta)\right)$. By using novel reductions to communication complexity and information-theoretic analyses of Gaussian matrices, we provide matching lower bounds for static and dynamic trace estimation in all relevant parameters, including the failure probability. Our lower bounds (1) give the first tight bounds for Hutchinson's estimator in the matrix-vector product model with Frobenius norm error even in the static setting, and (2) are the first unconditional lower bounds for dynamic trace estimation, resolving open questions of prior work.
翻訳日:2022-10-03 16:46:22 公開日:2022-09-30
# レプリケータダイナミック、チェーンコンポーネント、応答グラフ

The Replicator Dynamic, Chain Components and the Response Graph ( http://arxiv.org/abs/2209.15230v1 )

ライセンス: Link先を確認
Oliver Biggar and Iman Shames(参考訳) 本稿では,レプリケータの動的流れ,乗法重みの連続限界,ゲームの応答グラフとの関係について検討する。 リプリケータの下では、動的システムの長期実行結果のトポロジカルな概念であるシンクチェーンコンポーネントが常に存在し、ゲームの応答グラフのシンク接続コンポーネントによって近似されるという、オープンな課題が解決される。 より具体的には、各シンクチェーンコンポーネントには、レスポンスグラフのシンク接続されたコンポーネントと、同じ接続されたコンポーネント内の純粋なプロファイルで構成されるすべての混合戦略プロファイルが含まれています。 結果として、すべてのプロファイルは、強く接続されたレスポンスグラフを持つゲームにおいてチェーンリカレントである。 ゼロサムゲームと応答グラフを共有する任意の2プレイヤーゲームにおいて、シンクチェーン成分はユニークである。 二プレーヤゼロサムゲームとポテンシャルゲームでは、シンクチェーン成分とシンク連結成分は1対1対応であり、全てのゲームでこれが成り立つと推測する。

In this paper we examine the relationship between the flow of the replicator dynamic, the continuum limit of Multiplicative Weights Update, and a game's response graph. We settle an open problem establishing that under the replicator, sink chain components -- a topological notion of long-run outcome of a dynamical system -- always exist and are approximated by the sink connected components of the game's response graph. More specifically, each sink chain component contains a sink connected component of the response graph, as well as all mixed strategy profiles whose support consists of pure profiles in the same connected component, a set we call the content of the connected component. As a corollary, all profiles are chain recurrent in games with strongly connected response graphs. In any two-player game sharing a response graph with a zero-sum game, the sink chain component is unique. In two-player zero-sum and potential games the sink chain components and sink connected components are in a one-to-one correspondence, and we conjecture that this holds in all games.
翻訳日:2022-10-03 16:45:32 公開日:2022-09-30
# マルチモーダルエンコーダに対するデータ中毒攻撃

Data Poisoning Attacks Against Multimodal Encoders ( http://arxiv.org/abs/2209.15266v1 )

ライセンス: Link先を確認
Ziqing Yang and Xinlei He and Zheng Li and Michael Backes and Mathias Humbert and Pascal Berrang and Yang Zhang(参考訳) 従来の機械学習(ML)モデルは通常、強力なパフォーマンスを達成するために、大規模なラベル付きデータセットに依存する。 しかし、このようなラベル付きデータセットは、しばしば困難かつ費用がかかる。 また、事前定義されたカテゴリは、追加のラベル付きデータを必要とするため、モデルが他の視覚概念に一般化する能力を制限する。 それとは対照的に、新たに現れたマルチモーダルモデルは、視覚と言語の両方のモダリティを含み、原文から画像の概念を学ぶ。 トレーニングデータセットを構築するために画像とテキストのペアを簡単に作成できるので、上記の問題を解決するには有望な方法であり、生テキストはセマンティクスに応じてほぼ無限のカテゴリを含む。 しかし、大規模なラベルのないデータセットから学習することで、モデルが潜在的な中毒攻撃のリスクに晒される可能性があるため、敵はモデルのトレーニングデータセットを混乱させ、悪意のある行動を引き起こすことを目指している。 以前の作品は、主に視覚モダリティに焦点を当てていた。 本論では,(1) 言語的モダリティは毒殺攻撃にも弱いか,という2つの疑問に答えることに集中する。 そして、(2)どのモダリティが最も脆弱か? この2つの問いに答えるために、最も代表的なマルチモーダルコントラスト学習フレームワークであるCLIPに対する3種類の毒殺攻撃を行う。 異なるデータセットとモデルアーキテクチャに関する広範囲な評価から、3つの攻撃はすべて、比較的低い中毒率と限られたエポックしか持たない言語的モダリティでうまく機能することが示された。 また,kが言語的モダリティにおいて小さい場合,視覚的モダリティにおいてミンクが低く,hit@kが高い場合,中毒効果は異なるモダリティ間で異なることが観察された。 攻撃を緩和するため,前訓練と後訓練の両方の防御策を提案する。 いずれの防御も,モデルの実用性を維持しつつ攻撃性能を著しく低下させることを実証的に示す。

Traditional machine learning (ML) models usually rely on large-scale labeled datasets to achieve strong performance. However, such labeled datasets are often challenging and expensive to obtain. Also, the predefined categories limit the model's ability to generalize to other visual concepts as additional labeled data is required. On the contrary, the newly emerged multimodal model, which contains both visual and linguistic modalities, learns the concept of images from the raw text. It is a promising way to solve the above problems as it can use easy-to-collect image-text pairs to construct the training dataset and the raw texts contain almost unlimited categories according to their semantics. However, learning from a large-scale unlabeled dataset also exposes the model to the risk of potential poisoning attacks, whereby the adversary aims to perturb the model's training dataset to trigger malicious behaviors in it. Previous work mainly focuses on the visual modality. In this paper, we instead focus on answering two questions: (1) Is the linguistic modality also vulnerable to poisoning attacks? and (2) Which modality is most vulnerable? To answer the two questions, we conduct three types of poisoning attacks against CLIP, the most representative multimodal contrastive learning framework. Extensive evaluations on different datasets and model architectures show that all three attacks can perform well on the linguistic modality with only a relatively low poisoning rate and limited epochs. Also, we observe that the poisoning effect differs between different modalities, i.e., with lower MinRank in the visual modality and with higher Hit@K when K is small in the linguistic modality. To mitigate the attacks, we propose both pre-training and post-training defenses. We empirically show that both defenses can significantly reduce the attack performance while preserving the model's utility.
翻訳日:2022-10-03 16:45:13 公開日:2022-09-30
# マイノリティ問題:多様性を促進する共同メトリクス学習アルゴリズム

The Minority Matters: A Diversity-Promoting Collaborative Metric Learning Algorithm ( http://arxiv.org/abs/2209.15292v1 )

ライセンス: Link先を確認
Shilong Bao, Qianqian Xu, Zhiyong Yang, Yuan He, Xiaochun Cao, Qingming Huang(参考訳) CML(Collaborative Metric Learning)は近年,メトリクス学習と協調フィルタリングのギャップを埋めるレコメンデーションシステム(RS)において,一般的な手法として登場した。 RSの慣例に従い、既存のメソッドはモデル設計においてユニークなユーザー表現を利用する。 本稿では,ユーザが複数カテゴリの興味を持つという困難なシナリオに焦点を当てる。 この設定では、特にアイテムカテゴリの分布が不均衡な場合に、ユニークなユーザ表現が嗜好バイアスを引き起こす可能性があると論じる。 この問題に対処するため,本稿では,ユーザの少数派の関心を概ね無視する目的で,‘textit{Diversity-Promoting Collaborative Metric Learning}’ (DPCML) と呼ばれる新しい手法を提案する。 DPCMLの背後にある重要なアイデアは、システム内の各ユーザのための複数の表現セットを含めることである。 この組込みパラダイムに基づいて、ユーザ組込み集合のうち、最小の項目-ユーザ距離を取ることにより、アイテムに対するユーザ嗜好を異なる組込みから集約する。 さらに,同一ユーザに対する埋め込みの多様性がモデルにおいて重要な役割を担っていることも観察する。 そこで本稿では,マルチベクタ表現戦略をよりよく適合させるために,textit{diversity control regularization} という用語を提案する。 理論的には、DPCMLは最小値から得られる煩わしい操作の課題に対処することで、見つからないテストデータに対してうまく一般化できることを示す。 さまざまなベンチマークデータセットの実験では、DPCMLの有効性が語られる。

Collaborative Metric Learning (CML) has recently emerged as a popular method in recommendation systems (RS), closing the gap between metric learning and Collaborative Filtering. Following the convention of RS, existing methods exploit unique user representation in their model design. This paper focuses on a challenging scenario where a user has multiple categories of interests. Under this setting, we argue that the unique user representation might induce preference bias, especially when the item category distribution is imbalanced. To address this issue, we propose a novel method called \textit{Diversity-Promoting Collaborative Metric Learning} (DPCML), with the hope of considering the commonly ignored minority interest of the user. The key idea behind DPCML is to include a multiple set of representations for each user in the system. Based on this embedding paradigm, user preference toward an item is aggregated from different embeddings by taking the minimum item-user distance among the user embedding set. Furthermore, we observe that the diversity of the embeddings for the same user also plays an essential role in the model. To this end, we propose a \textit{diversity control regularization} term to accommodate the multi-vector representation strategy better. Theoretically, we show that DPCML could generalize well to unseen test data by tackling the challenge of the annoying operation that comes from the minimum value. Experiments over a range of benchmark datasets speak to the efficacy of DPCML.
翻訳日:2022-10-03 16:44:45 公開日:2022-09-30
# エンジニアリング活動によるMLベースクリティカルシステムの信頼性向上

Empowering the trustworthiness of ML-based critical systems through engineering activities ( http://arxiv.org/abs/2209.15438v1 )

ライセンス: Link先を確認
Juliette Mattioli, Agnes Delaborde, Souhaiel Khalfaoui, Freddy Lecue, Henri Sohier and Frederic Jurie(参考訳) 本稿では、重要なシステムと高度な分析と決定機能を備えるために設計された、信頼性の高い機械学習(ml)アルゴリズムのエンジニアリングプロセス全体についてレビューする。 MLの基本原則から始まり、特にその設計、すなわちドメイン仕様、データエンジニアリング、MLアルゴリズムの設計、実装、評価、デプロイメントを通じて、その信頼性を規定する中核要素を説明します。 後者のコンポーネントは、信頼できるMLシステムの設計のためのユニークなフレームワークとして構成されている。

This paper reviews the entire engineering process of trustworthy Machine Learning (ML) algorithms designed to equip critical systems with advanced analytics and decision functions. We start from the fundamental principles of ML and describe the core elements conditioning its trust, particularly through its design: namely domain specification, data engineering, design of the ML algorithms, their implementation, evaluation and deployment. The latter components are organized in an unique framework for the design of trusted ML systems.
翻訳日:2022-10-03 16:44:19 公開日:2022-09-30
# ベイジアンニューラルネットワークとラベル分布学習を用いた音声認識における終端ラベルの不確かさのモデル化

End-to-End Label Uncertainty Modeling in Speech Emotion Recognition using Bayesian Neural Networks and Label Distribution Learning ( http://arxiv.org/abs/2209.15449v1 )

ライセンス: Link先を確認
Navin Raj Prabhu, Nale Lehmann-Willenbrock and Timo Gerkman(参考訳) 覚醒とヴァレンスの観点から感情表現を予測するために機械学習アルゴリズムをトレーニングするには、注釈付きデータセットが必要である。 しかし、異なる人々が他者の感情表現を異なる形で知覚するので、その注釈は主観的である。 このため、アノテーションは通常複数のアノテーションから収集され、接地木ラベルを得るために平均化される。 しかし、この平均的な基盤上でのみ訓練された場合、訓練されたネットワークは感情表現に固有の主観性に無関係である。 そこで本研究では,ラベルの分布を訓練し,主観性に基づくラベルの不確かさを捉えることができるエンドツーエンドベイズ型ニューラルネットワークを提案する。 ガウス型ではなく、アノテーションの数も考慮した学生のt分布を用いてラベル分布をモデル化する。 我々は、対応するKullback-Leibler分散損失を導出し、それを用いて、平均と不確実性を推定できるラベル分布の推定器を訓練する。 提案手法は,2つのアプリ内データセットを用いて検証する。 提案手法は,音声感情認識において最先端の不確実性モデリング結果を達成し,企業間評価においても一貫した結果が得られることを示す。 さらに, ガウス群に対するt分布の利点は, アノテーション間相関の増大とアノテータ数の減少とともに増大することが明らかとなった。

To train machine learning algorithms to predict emotional expressions in terms of arousal and valence, annotated datasets are needed. However, as different people perceive others' emotional expressions differently, their annotations are per se subjective. For this, annotations are typically collected from multiple annotators and averaged to obtain ground-truth labels. However, when exclusively trained on this averaged ground-truth, the trained network is agnostic to the inherent subjectivity in emotional expressions. In this work, we therefore propose an end-to-end Bayesian neural network capable of being trained on a distribution of labels to also capture the subjectivity-based label uncertainty. Instead of a Gaussian, we model the label distribution using Student's t-distribution, which also accounts for the number of annotations. We derive the corresponding Kullback-Leibler divergence loss and use it to train an estimator for the distribution of labels, from which the mean and uncertainty can be inferred. We validate the proposed method using two in-the-wild datasets. We show that the proposed t-distribution based approach achieves state-of-the-art uncertainty modeling results in speech emotion recognition, and also consistent results in cross-corpora evaluations. Furthermore, analyses reveal that the advantage of a t-distribution over a Gaussian grows with increasing inter-annotator correlation and a decreasing number of annotators.
翻訳日:2022-10-03 16:44:12 公開日:2022-09-30
# グラフスケッチによるリンク予測のためのグラフニューラルネットワーク

Graph Neural Networks for Link Prediction with Subgraph Sketching ( http://arxiv.org/abs/2209.15486v1 )

ライセンス: Link先を確認
Benjamin Paul Chamberlain, Sergey Shirobokov, Emanuele Ross, Fabrizio Frasca, Thomas Markovich, Nils Hammerla, Michael M. Bronstein and Max Hansmire(参考訳) 多くのグラフニューラルネットワーク(GNN)は、リンク予測(LP)タスクの単純なヒューリスティックスと比較して性能が劣る。 これは、三角形(ほとんどのLPヒューリスティックスのバックボーン)を数えられないことや、正則ノードを区別できないこと(それらが同じ構造的役割を持つ)など、表現力の制限によるものである。 両方の表現性の問題は、(ノードではなく)リンクの表現を学習し、三角数のような構造的特徴を取り入れることで緩和できる。 明示的なリンク表現は、しばしば違法に高価であるため、最近の研究は、LPの最先端性能を達成したサブグラフベースの手法に頼っているが、サブグラフ間の高い冗長性のために効率が悪くなっている。 リンク予測のためのサブグラフGNN(SGNN)手法の構成要素を解析する。 そこで本研究では,sgnnの重要なコンポーネントを明示的なサブグラフ構成なしで近似するために,サブグラフのスケッチをメッセージとして渡す,elph ( efficient link prediction with hashing) と呼ばれる新しいフルグラフgnnを提案する。 ELPHはMessage Passing GNN(MPNN)よりも明らかに表現力が高い。 多くの標準LPベンチマークで既存のSGNNモデルより優れ、桁違いに高速である。 しかし、データセットがGPUメモリに収まる場合にのみ効率が良いという一般的なGNN制限を共有している。 そこで,予測性能を犠牲にすることなく,機能プリ計算を用いてこの制限を回避する,BUDDYと呼ばれる高度にスケーラブルなモデルを開発した。 実験の結果, BUDDYは標準LPベンチマークではSGNNよりも高い性能を示し, ELPHよりも高速かつスケーラブルであることがわかった。

Many Graph Neural Networks (GNNs) perform poorly compared to simple heuristics on Link Prediction (LP) tasks. This is due to limitations in expressive power such as the inability to count triangles (the backbone of most LP heuristics) and because they can not distinguish automorphic nodes (those having identical structural roles). Both expressiveness issues can be alleviated by learning link (rather than node) representations and incorporating structural features such as triangle counts. Since explicit link representations are often prohibitively expensive, recent works resorted to subgraph-based methods, which have achieved state-of-the-art performance for LP, but suffer from poor efficiency due to high levels of redundancy between subgraphs. We analyze the components of subgraph GNN (SGNN) methods for link prediction. Based on our analysis, we propose a novel full-graph GNN called ELPH (Efficient Link Prediction with Hashing) that passes subgraph sketches as messages to approximate the key components of SGNNs without explicit subgraph construction. ELPH is provably more expressive than Message Passing GNNs (MPNNs). It outperforms existing SGNN models on many standard LP benchmarks while being orders of magnitude faster. However, it shares the common GNN limitation that it is only efficient when the dataset fits in GPU memory. Accordingly, we develop a highly scalable model, called BUDDY, which uses feature precomputation to circumvent this limitation without sacrificing predictive performance. Our experiments show that BUDDY also outperforms SGNNs on standard LP benchmarks while being highly scalable and faster than ELPH.
翻訳日:2022-10-03 16:43:47 公開日:2022-09-30
# 地熱資源評価のためのベイズニューラルネットワーク:不確かさによる予測

Bayesian Neural Networks for Geothermal Resource Assessment: Prediction with Uncertainty ( http://arxiv.org/abs/2209.15543v1 )

ライセンス: Link先を確認
Stephen Brown, William L. Rodi, Chen Gu, Michael Fehler, James Faulds, Connor M. Smith, and Sven Treitel(参考訳) 地熱資源ポテンシャル評価への機械学習の適用について考察する。 教師付き学習問題は、アメリカ合衆国ネバダ州内の10の地質学的・物理的特徴の地図を用いて、広い地域にわたって地熱ポテンシャルを定義することで定義される。 我々は、比較的小さな正のトレーニングサイト(既知の資源や活性発電所)と負のトレーニングサイト(不適切な地熱条件を持つ既知のドリルサイト)を入手し、この分類タスクのために人工ニューラルネットワークの制約と最適化に使用しました。 主な目的は, 決定的特徴が知られている広い地域において, 未知の場所での地熱資源ポテンシャルの予測である。 これらの予測は、さらなる詳細な調査のために有望な分野を標的にすることができる。 特定のニューラルネットワークアーキテクチャの定義から、トレーニングと最適化トライアルまで、私たちの作業の進化について説明する。 解析すると、モデル変数の避けられない問題と予測の不確実性が明らかになる。 最後に,ネットワークトレーニングにおける正規化に対するヒューリスティックアプローチであるベイズニューラルネットワークの概念を適用し,それらが提供する形式的不確実性対策の実践的解釈を利用する。

We consider the application of machine learning to the evaluation of geothermal resource potential. A supervised learning problem is defined where maps of 10 geological and geophysical features within the state of Nevada, USA are used to define geothermal potential across a broad region. We have available a relatively small set of positive training sites (known resources or active power plants) and negative training sites (known drill sites with unsuitable geothermal conditions) and use these to constrain and optimize artificial neural networks for this classification task. The main objective is to predict the geothermal resource potential at unknown sites within a large geographic area where the defining features are known. These predictions could be used to target promising areas for further detailed investigations. We describe the evolution of our work from defining a specific neural network architecture to training and optimization trials. Upon analysis we expose the inevitable problems of model variability and resulting prediction uncertainty. Finally, to address these problems we apply the concept of Bayesian neural networks, a heuristic approach to regularization in network training, and make use of the practical interpretation of the formal uncertainty measures they provide.
翻訳日:2022-10-03 16:43:21 公開日:2022-09-30
# ホログラフィ(V)AE:フーリエ空間におけるSO(3)-同変(可変)オートエンコーダ

Holographic-(V)AE: an end-to-end SO(3)-Equivariant (Variational) Autoencoder in Fourier Space ( http://arxiv.org/abs/2209.15567v1 )

ライセンス: Link先を確認
Gian Marco Visani, Michael N. Pun, Armita Nourmohammad(参考訳) グループ同変ニューラルネットワークは、データの関連する対称性を尊重しながら、分類と回帰タスクを解決するためのデータ効率のアプローチとして登場した。 しかし、このパラダイムを教師なしかつジェネレーティブなドメインに拡張する作業はほとんど行われていない。 本稿では,フーリエ空間における完全エンドツーエンドso(3)同変オートエンコーダである holographic-(v)ae (h-(v)ae) について述べる。 h-(v)ae はデータの球面フーリエ符号化を再構築するために訓練され、データの向きを記述する同変フレームと共に最大に有意な不変埋め込みを持つ潜在空間をプロセスで学習する。 我々はh-(v)aeの性能を多種多様なデータセット上で広範囲に検証し,その潜在空間が球面画像の分類学的特徴とタンパク質原子環境の構造的特徴を効率的にエンコードすることを示した。 我々の研究は、フーリエ符号化を再構築することで、データ分布の同変モデリングのケーススタディと見ることもできる。

Group-equivariant neural networks have emerged as a data-efficient approach to solve classification and regression tasks, while respecting the relevant symmetries of the data. However, little work has been done to extend this paradigm to the unsupervised and generative domains. Here, we present Holographic-(V)AE (H-(V)AE), a fully end-to-end SO(3)-equivariant (variational) autoencoder in Fourier space, suitable for unsupervised learning and generation of data distributed around a specified origin. H-(V)AE is trained to reconstruct the spherical Fourier encoding of data, learning in the process a latent space with a maximally informative invariant embedding alongside an equivariant frame describing the orientation of the data. We extensively test the performance of H-(V)AE on diverse datasets and show that its latent space efficiently encodes the categorical features of spherical images and structural features of protein atomic environments. Our work can further be seen as a case study for equivariant modeling of a data distribution by reconstructing its Fourier encoding.
翻訳日:2022-10-03 16:43:06 公開日:2022-09-30
# 3次元塩分マップによるポイントクラウド品質評価

Point Cloud Quality Assessment using 3D Saliency Maps ( http://arxiv.org/abs/2209.15475v1 )

ライセンス: Link先を確認
Zhengyu Wang, Yujie Zhang, Qi Yang, Yiling Xu, Jun Sun, and Shan Liu(参考訳) ポイントクラウド品質評価(pcqa)は近年、魅力的な研究分野となっている。 品質評価におけるサリエンシー検出の重要性を考慮し,3次元サリエンシーマップ (pqsm) を用いたポイントクラウド品質評価法 (point cloud quality assessment) という,サリエンシー情報の利用を初めて試みた,効果的なpcqa指標を提案する。 具体的には,まず,地点雲の幾何学的特徴をよりよく反映するために,深度情報を導入するプロジェクションベースポイントクラウドサリエンシーマップ生成法を提案する。 次に,3つの構造記述子を導出するために点クラウドローカル近傍を構築し,幾何学的,色的,塩分的不一致を示す。 最後に,最終品質スコアを生成するために,塩分ベースのプーリング戦略を提案する。 4つの独立したPCQAデータベース上で大規模な実験を行う。 提案したPQSMは,複数のPCQA測定値と比較して,競合性能を示すことを示した。

Point cloud quality assessment (PCQA) has become an appealing research field in recent days. Considering the importance of saliency detection in quality assessment, we propose an effective full-reference PCQA metric which makes the first attempt to utilize the saliency information to facilitate quality prediction, called point cloud quality assessment using 3D saliency maps (PQSM). Specifically, we first propose a projection-based point cloud saliency map generation method, in which depth information is introduced to better reflect the geometric characteristics of point clouds. Then, we construct point cloud local neighborhoods to derive three structural descriptors to indicate the geometry, color and saliency discrepancies. Finally, a saliency-based pooling strategy is proposed to generate the final quality score. Extensive experiments are performed on four independent PCQA databases. The results demonstrate that the proposed PQSM shows competitive performances compared to multiple state-of-the-art PCQA metrics.
翻訳日:2022-10-03 16:37:25 公開日:2022-09-30
# 球誘導型ニューラルインシシット表面の訓練

Sphere-Guided Training of Neural Implicit Surfaces ( http://arxiv.org/abs/2209.15511v1 )

ライセンス: Link先を確認
Andreea Dogaru, Andrei Timotei Ardelean, Savva Ignatyev, Evgeny Burnaev, Egor Zakharov(参考訳) 近年,ニューラル暗黙関数による表面モデリングが多視点3D再構成の主要な技術の一つとなっている。 しかし、最先端の手法はシーン全体の体積をモデル化する暗黙の関数に依存しており、薄い物体や高周波の細部を持つ領域の再現精度が低下する。 そこで本研究では,表面ガイドとして機能する補助的明示的形状表現とともに,ニューラルな暗黙表面を共同訓練する手法を提案する。 提案手法では,この表現はシーンの表面領域をカプセル化し,その領域のボリュームをモデル化するだけで,暗黙的機能トレーニングの効率を高めることができる。 本稿では,学習可能な球面プリミティブの集合を学習可能な表面ガイダンスとして用いることを提案する。 私たちのトレーニングパイプラインは、暗黙関数の勾配を使用して球の中心を反復的に更新し、後者をシーンの更新された表面領域に微調整する。 学習手順の修正はいくつかの一般的な暗黙的再構成手法に組み込むことができ,複数の3次元再構築ベンチマークにおける結果の質が向上する。

In recent years, surface modeling via neural implicit functions has become one of the main techniques for multi-view 3D reconstruction. However, the state-of-the-art methods rely on the implicit functions to model an entire volume of the scene, leading to reduced reconstruction fidelity in the areas with thin objects or high-frequency details. To address that, we present a method for jointly training neural implicit surfaces alongside an auxiliary explicit shape representation, which acts as surface guide. In our approach, this representation encapsulates the surface region of the scene and enables us to boost the efficiency of the implicit function training by only modeling the volume in that region. We propose using a set of learnable spherical primitives as a learnable surface guidance since they can be efficiently trained alongside the neural surface function using its gradients. Our training pipeline consists of iterative updates of the spheres' centers using the gradients of the implicit function and then fine-tuning the latter to the updated surface region of the scene. We show that such modification to the training procedure can be plugged into several popular implicit reconstruction methods, improving the quality of the results over multiple 3D reconstruction benchmarks.
翻訳日:2022-10-03 16:37:08 公開日:2022-09-30
# バイオテクノロジースクリーニングシステムにおける触媒活性包接体生産の自動キャラクタリゼーション

Automated Characterization of Catalytically Active Inclusion Body Production in Biotechnological Screening Systems ( http://arxiv.org/abs/2209.15584v1 )

ライセンス: Link先を確認
Karina Ruzaeva, Kira K\"usters, Wolfgang Wiechert, Benjamin Berkels, Marco Oldiges, Katharina N\"oh(参考訳) 本稿では,多目的微生物細胞セグメンテーションのためのハイブリッドアプローチと組み合わされた完全自動実験高スループットワークフローを含む,触媒活性包接体(catibs)の顕微鏡画像に基づく自動解析パイプラインを提案する。 自動顕微鏡では, マイクロバイオリアクターを用いてCatIB産生株を培養し, 試料をフローチャンバーに注入した。 フローチャンバーは顕微鏡で固定され、統合カメラはサンプルごとに一連の画像を撮影した。 培養中のCatIBの均一性を探索し,CatIBのサイズと量を経時的に追跡するために,MLに基づくインフォーカス細胞検出とモデルベースセグメンテーションを組み合わせたハイブリッド画像処理パイプライン手法を開発した。 自動画像解析と組み合わせた実験装置は、CatIBの生産、保存時間、資源の高スループットスクリーニングを可能にする。 バイオテクノジカルな関連性 - カチブは合成化学や生体触媒に広く応用されているが、治療などの将来的な生物医学的応用も可能である。 提案したハイブリッド自動画像処理パイプラインは、トレーニングデータの欠如により、完全にデータ駆動のMLベースのセグメンテーションアプローチが実現不可能な、同等の生物学的微生物を治療するために調整することができる。 私たちの研究は、画像ベースのバイオプロセス制御への第一歩です。

We here propose an automated pipeline for the microscopy image-based characterization of catalytically active inclusion bodies (CatIBs), which includes a fully automatic experimental high-throughput workflow combined with a hybrid approach for multi-object microbial cell segmentation. For automated microscopy, a CatIB producer strain was cultivated in a microbioreactor from which samples were injected into a flow chamber. The flow chamber was fixed under a microscope and an integrated camera took a series of images per sample. To explore heterogeneity of CatIB development during the cultivation and track the size and quantity of CatIBs over time, a hybrid image processing pipeline approach was developed, which combines an ML-based detection of in-focus cells with model-based segmentation. The experimental setup in combination with an automated image analysis unlocks high-throughput screening of CatIB production, saving time and resources. Biotechnological relevance - CatIBs have wide application in synthetic chemistry and biocatalysis, but also could have future biomedical applications such as therapeutics. The proposed hybrid automatic image processing pipeline can be adjusted to treat comparable biological microorganisms, where fully data-driven ML-based segmentation approaches are not feasible due to the lack of training data. Our work is the first step towards image-based bioprocess control.
翻訳日:2022-10-03 16:36:49 公開日:2022-09-30
# ポアソン方程式に等値制約を組み込んだ点正規化と表面再構成

Point Normal Orientation and Surface Reconstruction by Incorporating Isovalue Constraints to Poisson Equation ( http://arxiv.org/abs/2209.15619v1 )

ライセンス: Link先を確認
Dong Xiao, Zuoqiang Shi, Siyu Li, Bailin Deng, Bin Wang(参考訳) 配向正規化はポアソン面再構成のような点雲に基づく多くの幾何学的アルゴリズムの一般的な前提条件である。 しかし、一貫した方向を得ることは自明ではない。 本研究では、暗黙空間における配向と再構成を橋渡しし、ポアソン方程式に等値制約を組み込むことにより、配向点雲に対する新しいアプローチを提案する。 適切に配向された点雲を再構成アプローチに投入すると、サンプル点の指標関数値は同値に近いものとなる。 この観測とポアソン方程式に基づき、等値制約と正規値の局所的一貫性要件を組み合わせた最適化定式化を提案する。 正規関数と暗黙関数を同時に最適化し,グローバルに一貫した向きを求める。 線形システムの幅が広いため、平均的なラップトップでメソッドを合理的な時間で実行することができる。 実験により,非一様でノイズの多いデータに対して高い性能を達成し,サンプリング密度,アーティファクト,複数の連結コンポーネント,ネスト面を管理することができた。

Oriented normals are common pre-requisites for many geometric algorithms based on point clouds, such as Poisson surface reconstruction. However, it is not trivial to obtain a consistent orientation. In this work, we bridge orientation and reconstruction in implicit space and propose a novel approach to orient point clouds by incorporating isovalue constraints to the Poisson equation. Feeding a well-oriented point cloud into a reconstruction approach, the indicator function values of the sample points should be close to the isovalue. Based on this observation and the Poisson equation, we propose an optimization formulation that combines isovalue constraints with local consistency requirements for normals. We optimize normals and implicit functions simultaneously and solve for a globally consistent orientation. Owing to the sparsity of the linear system, an average laptop can be used to run our method within reasonable time. Experiments show that our method can achieve high performance in non-uniform and noisy data and manage varying sampling densities, artifacts, multiple connected components, and nested surfaces.
翻訳日:2022-10-03 16:36:26 公開日:2022-09-30
# extrudenet: 形状解析のための教師なし逆スケッチと拡張

ExtrudeNet: Unsupervised Inverse Sketch-and-Extrude for Shape Parsing ( http://arxiv.org/abs/2209.15632v1 )

ライセンス: Link先を確認
Daxuan Ren, Jianmin Zheng, Jianfei Cai, Jiatong Li, and Junzhe Zhang(参考訳) Sketch-and-extrudeはコンピュータ支援設計における一般的な直感的なモデリングプロセスである。 本稿では,逆スケッチ・アンド・エクスクルードによる点雲形状の学習問題について検討する。 ポイントクラウドからスケッチやエクストルードを発見するための,教師なしのエンドツーエンドネットワークであるextrudenetを提案する。 ExtrudeNetの背後には2つの新しい技術コンポーネントがある。 1)フリーフォームスケッチや従来のシリンダ,箱プリミティブを用いた押出成形をモデル化可能なスケッチ及び押出成形の効果的な表現 2)ネットワーク学習に使用される符号付き距離場を計算する数値解法。 これは、機械学習を使用して、教師なしの方法で形状のスケッチ・アンド・エクスプロートモデリングプロセスをリバースエンジニアリングする最初の試みである。 ExtrudeNetは、現代CADソフトウェアにシームレスに統合できる形状のコンパクトで編集可能で解釈可能な表現を出力するだけでなく、様々な編集アプリケーションを容易にする標準的なCADモデリングプロセスと整合し、既存の形状解析研究と区別する。 コードはhttps://github.com/kimren227/extrudenetでリリースされる。

Sketch-and-extrude is a common and intuitive modeling process in computer aided design. This paper studies the problem of learning the shape given in the form of point clouds by inverse sketch-and-extrude. We present ExtrudeNet, an unsupervised end-to-end network for discovering sketch and extrude from point clouds. Behind ExtrudeNet are two new technical components: 1) an effective representation for sketch and extrude, which can model extrusion with freeform sketches and conventional cylinder and box primitives as well; and 2) a numerical method for computing the signed distance field which is used in the network learning. This is the first attempt that uses machine learning to reverse engineer the sketch-and-extrude modeling process of a shape in an unsupervised fashion. ExtrudeNet not only outputs a compact, editable and interpretable representation of the shape that can be seamlessly integrated into modern CAD software, but also aligns with the standard CAD modeling process facilitating various editing applications, which distinguishes our work from existing shape parsing research. Code is released at https://github.com/kimren227/ExtrudeNet.
翻訳日:2022-10-03 16:36:08 公開日:2022-09-30
# 多変量拡散モデルを用いた動的バックボーンタンパク質リガンド構造予測

Dynamic-Backbone Protein-Ligand Structure Prediction with Multiscale Generative Diffusion Models ( http://arxiv.org/abs/2209.15171v1 )

ライセンス: Link先を確認
Zhuoran Qiao, Weili Nie, Arash Vahdat, Thomas F. Miller III, Anima Anandkumar(参考訳) タンパク質と小分子配位子によって形成される分子複合体はユビキタスであり、それらの3d構造の予測は生物学的な発見と新しい酵素や薬物分子の設計の両方を促進できる。 本稿では,タンパク質-リガンド複合体構造とそのゆらぎを,タンパク質のバックボーンテンプレートと分子グラフ入力を用いて迅速に予測するモデルフレームワークであるNeuralPLexerを提案する。 neuralplexerは、生物物理学的な制約と推定された近接情報を時間軸拡散プロセスに組み込んだ生成モデルを通じて、タンパク質と小分子の3d座標を原子分解能で共同でサンプリングする。 逆時間生成拡散過程は、タンパク質-リガンド複合体の全ての重原子に対して効率よく同時勾配場予測を可能にする、新しい立体化学対応同変グラフ変換器によって学習される。 NeuralPLexerは、固定バックボーンブラインドタンパク質-リガンドドッキングやリガンド結合サイト再パッケージといった、既存の物理ベースおよび学習ベースの手法よりも優れている。 さらに,タンパク質の折りたたみ構造がリガンドの存在によって著しく変化するシステムに適用すると,ニューロプレクサが結合状態様タンパク質構造を富むという予備的証拠が明らかにされる。 以上の結果から,データ駆動アプローチはタンパク質と小分子間の構造的協調性を捉えることができ,新しい薬物標的の計算的同定や,機能的小分子とリガンド結合タンパク質のエンドツーエンドの微分可能設計が期待できることが明らかとなった。

Molecular complexes formed by proteins and small-molecule ligands are ubiquitous, and predicting their 3D structures can facilitate both biological discoveries and the design of novel enzymes or drug molecules. Here we propose NeuralPLexer, a deep generative model framework to rapidly predict protein-ligand complex structures and their fluctuations using protein backbone template and molecular graph inputs. NeuralPLexer jointly samples protein and small-molecule 3D coordinates at an atomistic resolution through a generative model that incorporates biophysical constraints and inferred proximity information into a time-truncated diffusion process. The reverse-time generative diffusion process is learned by a novel stereochemistry-aware equivariant graph transformer that enables efficient, concurrent gradient field prediction for all heavy atoms in the protein-ligand complex. NeuralPLexer outperforms existing physics-based and learning-based methods on benchmarking problems including fixed-backbone blind protein-ligand docking and ligand-coupled binding site repacking. Moreover, we identify preliminary evidence that NeuralPLexer enriches bound-state-like protein structures when applied to systems where protein folding landscapes are significantly altered by the presence of ligands. Our results reveal that a data-driven approach can capture the structural cooperativity among protein and small-molecule entities, showing promise for the computational identification of novel drug targets and the end-to-end differentiable design of functional small-molecules and ligand-binding proteins.
翻訳日:2022-10-03 16:34:20 公開日:2022-09-30
# ドライバの可搬性眠気検出システム実装のための組込みシステム性能解析

Embedded System Performance Analysis for Implementing a Portable Drowsiness Detection System for Drivers ( http://arxiv.org/abs/2209.15148v1 )

ライセンス: Link先を確認
Minjeong Kim, Jimin Koo(参考訳) 道路での眠気は致命的な結果をもたらす広範な問題であり、機械学習技術を実装する多数のソリューションが研究者によって提案されている。 既存の方法の中で、Ghoddoosianらは、時間的点滅パターンを用いて、早期の眠気の兆候を検出する。 この手法は有望な結果を報告したが、ghoddoosian et al.のアルゴリズムは強力なデスクトップコンピュータ上でのみ開発され、テストされた。 本稿では,GhoddoosianのDrowsiness検出アルゴリズムを小型のミニコンピュータ上で処理し,ユーザと電話で対話する組込みシステムを提案する。 我々はGitHub上のAioRTCプロトコルを用いて,クライアントからサーバへの映像フレームのリアルタイム伝送を行い,各種プラットフォーム上でのプログラムの通信速度と処理時間を評価した。 その結果,Mini PCが提案システムに最も適していることが判明した。 さらに,特定性よりも感度が重要であること,特に眠気検出アルゴリズムについて検討するアルゴリズムを提案する。 本アルゴリズムは, 失語検出モデルの偽陽性, 偽陰性率を調整するために閾値を最適化する。 提案するプラットフォームは,多くの研究者が組込みシステム環境における眠気検出ソリューションの研究を進めるのに役立つと期待する。

Drowsiness on the road is a widespread problem with fatal consequences; thus, a multitude of solutions implementing machine learning techniques have been proposed by researchers. Among existing methods, Ghoddoosian et al.'s drowsiness detection method utilizes temporal blinking patterns to detect early signs of drowsiness. Although the method reported promising results, Ghoddoosian et al.'s algorithm was developed and tested only on a powerful desktop computer, which is not practical to apply in a moving vehicle setting. In this paper, we propose an embedded system that can process Ghoddoosian's drowsiness detection algorithm on a small minicomputer and interact with the user by phone; combined, the devices are powerful enough to run a web server and our drowsiness detection server. We used the AioRTC protocol on GitHub to conduct real-time transmission of video frames from the client to the server and evaluated the communication speed and processing times of the program on various platforms. Based on our results, we found that a Mini PC was most suitable for our proposed system. Furthermore, we proposed an algorithm that considers the importance of sensitivity over specificity, specifically regarding drowsiness detection algorithms. Our algorithm optimizes the threshold to adjust the false positive and false negative rates of the drowsiness detection models. We anticipate our proposed platform can help many researchers to advance their research on drowsiness detection solutions in embedded system settings.
翻訳日:2022-10-03 16:27:42 公開日:2022-09-30
# SCI : バイオメディカルデータのためのスペクトル集中型暗黙的ニューラル圧縮

SCI: A spectrum concentrated implicit neural compression for biomedical data ( http://arxiv.org/abs/2209.15180v1 )

ライセンス: Link先を確認
Runzhao Yang, Tingxiong Xiao, Yuxiao Cheng, Qianni Cao, Jinyuan Qu, Jinli Suo, Qionghai Dai(参考訳) 大量の医療データの大量収集と爆発的な成長は、効率的な保管、送信、共有のために効果的な圧縮を要求する。 可読性のあるビジュアルデータ圧縮技術は広く研究されているが、自然画像やビデオに特化しており、異なる特徴を持つ医療データに対して限られた性能を示す。 暗黙的神経表現(INR)の出現は勢いを増しており、ターゲットデータ固有の方法で多様な視覚データを適合させるという高い期待を示しているが、様々な医療データを包含する一般的な圧縮スキームは今のところ存在しない。 この問題に対処するため,まず,INRのスペクトル集中特性に関する数学的説明と,圧縮指向INRアーキテクチャの設計に関する解析的考察を導出する。 さらに,複雑な医療データの広いスペクトルをカバーし,高い圧縮率を達成することができるファンネル型ニューラルネットワークの設計を行う。 この設計に基づき、与えられた予算の下で最適化により圧縮を行い、ターゲットデータを、選択したinrの集中スペクトル包絡に適合するブロックに適応的に分割し、所定の圧縮比で高い表現精度でパラメータを割り当てる適応圧縮アプローチsciを提案する。 実験の結果,SCIは従来の技術よりも優れた性能を示し,様々な医療データに適用可能であることがわかった。

Massive collection and explosive growth of the huge amount of medical data, demands effective compression for efficient storage, transmission and sharing. Readily available visual data compression techniques have been studied extensively but tailored for nature images/videos, and thus show limited performance on medical data which are of different characteristics. Emerging implicit neural representation (INR) is gaining momentum and demonstrates high promise for fitting diverse visual data in target-data-specific manner, but a general compression scheme covering diverse medical data is so far absent. To address this issue, we firstly derive a mathematical explanation for INR's spectrum concentration property and an analytical insight on the design of compression-oriented INR architecture. Further, we design a funnel shaped neural network capable of covering broad spectrum of complex medical data and achieving high compression ratio. Based on this design, we conduct compression via optimization under given budget and propose an adaptive compression approach SCI, which adaptively partitions the target data into blocks matching the concentrated spectrum envelop of the adopted INR, and allocates parameter with high representation accuracy under given compression ratio. The experiments show SCI's superior performance over conventional techniques and wide applicability across diverse medical data.
翻訳日:2022-10-03 16:27:18 公開日:2022-09-30
# 高速かつ高精度なLiDARオブジェクト検出のためのPointPillars Backbone型選択

PointPillars Backbone Type Selection For Fast and Accurate LiDAR Object Detection ( http://arxiv.org/abs/2209.15252v1 )

ライセンス: Link先を確認
Konrad Lis, Tomasz Kryjak(参考訳) lidarセンサーデータからの3dオブジェクト検出は、自動運転車やドローンのコンテキストにおいて重要なトピックである。 本稿では,深層畳み込みニューラルネットワークのバックボーン選択が検出精度と計算速度に与える影響に関する実験結果を示す。 私たちはPointPillarsネットワークを選択しました。これは単純なアーキテクチャ、高速、モジュール性が特徴で、簡単に拡張できます。 実験中,検出効率の変化(マップメトリックによる測定)と,1つのポイントクラウドを処理するために必要な乗算演算の総数に特に注意を払った。 画像に基づく検出問題に広く用いられている10種類の畳み込みニューラルネットワークアーキテクチャをテストした。 MobilenetV1のようなバックボーンでは、mAPが1.13%減少するというコストで、ほぼ4倍のスピードアップを得た。 一方,CSPDarknetでは,mAPが0.33%増加すると1.5倍以上の加速が得られた。 その結果,LiDAR点雲における3次元物体検出器の高速化は,検出効率を低下させることなく実現可能であることがわかった。 この結果は、PointPillarsや類似のアルゴリズムがSoC FPGAなどの組み込みシステムに実装されている場合に利用できる。 コードはhttps://github.com/vision-agh/pointpillars\_backboneで入手できる。

3D object detection from LiDAR sensor data is an important topic in the context of autonomous cars and drones. In this paper, we present the results of experiments on the impact of backbone selection of a deep convolutional neural network on detection accuracy and computation speed. We chose the PointPillars network, which is characterised by a simple architecture, high speed, and modularity that allows for easy expansion. During the experiments, we paid particular attention to the change in detection efficiency (measured by the mAP metric) and the total number of multiply-addition operations needed to process one point cloud. We tested 10 different convolutional neural network architectures that are widely used in image-based detection problems. For a backbone like MobilenetV1, we obtained an almost 4x speedup at the cost of a 1.13% decrease in mAP. On the other hand, for CSPDarknet we got an acceleration of more than 1.5x at an increase in mAP of 0.33%. We have thus demonstrated that it is possible to significantly speed up a 3D object detector in LiDAR point clouds with a small decrease in detection efficiency. This result can be used when PointPillars or similar algorithms are implemented in embedded systems, including SoC FPGAs. The code is available at https://github.com/vision-agh/pointpillars\_backbone.
翻訳日:2022-10-03 16:26:55 公開日:2022-09-30
# 人間の視覚システムに基づく生成モデル透かし

Generative Model Watermarking Based on Human Visual System ( http://arxiv.org/abs/2209.15268v1 )

ライセンス: Link先を確認
Li Zhang, Yong Liu, Shaoteng Liu, Tianshu Yang, Yexin Wang, Xinpeng Zhang and Hanzhou Wu(参考訳) ディープニューラルネットワークの知的財産保護は、ますます多くの研究者から注目を集めており、最新の研究は画像処理のための生成モデルにモデルウォーターマークを適用する。 しかしながら、生成モデル用に設計された既存の透かし法は、サンプル画像の異なるチャネルが透かしに与える影響を考慮していない。 その結果、透かし性能はまだ限られている。 この問題に対処するために,本稿ではまず,異なるチャネルに透かし情報を埋め込む効果を解析する。 次に,人間の視覚システム(hvs)の特性に基づいて,rgb色空間とyuv色空間でそれぞれ実現される2つのhvsに基づく生成モデル透かし手法を提案する。 RGB色空間では、HVSがGチャネルに対してより敏感であるという事実に基づいて、透かしをRとBチャネルに埋め込む。 YUV色空間では、HVSが明るさ変化に敏感であるという事実に基づき、透かしはUチャネルとVチャネルのDCT領域に埋め込まれる。 実験の結果,提案手法の有効性が示され,保護すべきモデルの忠実性が向上し,従来手法に比べて普遍性が向上した。

Intellectual property protection of deep neural networks is receiving attention from more and more researchers, and the latest research applies model watermarking to generative models for image processing. However, the existing watermarking methods designed for generative models do not take into account the effects of different channels of sample images on watermarking. As a result, the watermarking performance is still limited. To tackle this problem, in this paper, we first analyze the effects of embedding watermark information on different channels. Then, based on the characteristics of human visual system (HVS), we introduce two HVS-based generative model watermarking methods, which are realized in RGB color space and YUV color space respectively. In RGB color space, the watermark is embedded into the R and B channels based on the fact that HVS is more sensitive to G channel. In YUV color space, the watermark is embedded into the DCT domain of U and V channels based on the fact that HVS is more sensitive to brightness changes. Experimental results demonstrate the effectiveness of the proposed work, which improves the fidelity of the model to be protected and has good universality compared with previous methods.
翻訳日:2022-10-03 16:26:36 公開日:2022-09-30
# 果樹マッピングと再構成のための形状補完に基づく視点計画

Viewpoint Planning based on Shape Completion for Fruit Mapping and Reconstruction ( http://arxiv.org/abs/2209.15376v1 )

ライセンス: Link先を確認
Rohit Menon and Tobias Zaenker and Maren Bennewitz(参考訳) 農業におけるロボットシステムは、農業活動の自動化を可能にするだけでなく、非構造環境や作物の非剛体構造によるロボット工学の新たな課題も示している。 特に, 果実マッピングと収穫の能動的認識は, 咬合が頻発し, イメージセグメンテーションが果実の実際の形状に限られた精度しか与えないため, 難しい課題である。 本稿では,収集したデータから形状予測を用いて,果実の未観察部分としてセンサを誘導する視点計画手法を提案する。 我々は,サツマイモ果実の情報収集を最大化するために,予測と観察の連続的な相互作用のための新しいパイプラインを開発した。 我々は,パラメトリック超楕円型フィッティングとモデルベース非剛性潜在空間登録という2つの異なる形状予測手法を適用し,これらを関心領域(roi)視点プランナーに統合した。 さらに,視点の相違という新たな概念を用いて,適切な視点の選択と計画時間の短縮を支援する。 realsense l515センサを搭載したur5eアームを用いたシミュレーション実験により,反復形状完了による視点計画の有効性を定量的に検証した。 最先端の視点プランナーを用いた比較実験では,果実の大きさの推定だけでなく,その再構成にも改善が見られた。 最後に,サツマイモを市販のガラス室で本物のロボットシステムでマッピングする手法の実現可能性を示す。

Robotic systems in agriculture do not only enable increasing automation of farming activities but also represent new challenges for robotics due to the unstructured environment and the non-rigid structures of crops. Especially, active perception for fruit mapping and harvesting is a difficult task since occlusions frequently occur and image segmentation provides only limited accuracy on the actual shape of the fruits. In this paper, we present a viewpoint planning approach that explictly uses the shape prediction from collected data to guide the sensor to view as yet unobserved parts of the fruits. We developed a novel pipeline for continuous interaction between prediction and observation to maximize the information gain about sweet pepper fruits. We adapted two different shape prediction approaches, namely parametric superellipsoid fitting and model based non-rigid latent space registration, and integrated them into our Region of Interest (RoI) viewpoint planner. Additionally, we used a new concept of viewpoint dissimilarity to aid the planner to select good viewpoints and for shortening the planning times. Our simulation experiments with a UR5e arm equipped with a Realsense L515 sensor provide a quantitative demonstration of the efficacy of our iterative shape completion based viewpoint planning. In comparative experiments with a state-of-the-art viewpoint planner, we demonstrate improvement not only in the estimation of the fruit sizes, but also in their reconstruction. Finally, we show the viability of our approach for mapping sweet peppers with a real robotic system in a commercial glasshouse.
翻訳日:2022-10-03 16:26:20 公開日:2022-09-30
# delad: hessian と sparse prior による deep landweber-guided deconvolution

DELAD: Deep Landweber-guided deconvolution with Hessian and sparse prior ( http://arxiv.org/abs/2209.15377v1 )

ライセンス: Link先を確認
Tomas Chobola, Anton Theileis, Jan Taucher, Tingying Peng(参考訳) 本稿では,従来の反復的手法を深層学習アプリケーションに組み込んだ非盲検画像分解モデルを提案する。 大規模な過パラメータ生成ネットワークを駆使してシャープな画像表現を生成する代わりに、トレーニング可能な畳み込み層と統合された反復的ランドウェブデコンボリューションアルゴリズムを用いて、復元された画像構造と詳細性を高めるネットワークを構築する。 データ忠実度項に加えて、画像再構成品質を改善するために、正規化項としてヘッセン制約とスパース制約を加える。 提案するモデルは \textit{self-supervised} であり、入力されたぼかし画像と各ぼやけカーネルに基づいて、事前学習を必要とせずに解に収束する。 本手法は, 標準コンピュータビジョンベンチマークデータセットと, 改良深視野顕微鏡(edof)によって得られた実顕微鏡画像を用いて評価し, 実世界応用におけるモデルの有用性を実証する。 提案手法は,パラメータのごく一部を持ち,事前訓練を受けていないにもかかわらず,最先端の非盲検画像復調法と競合し,従来のデコンボリューション手法を深層ネットワークに組み込むことの有効性と有効性を示す。

We present a model for non-blind image deconvolution that incorporates the classic iterative method into a deep learning application. Instead of using large over-parameterised generative networks to create sharp picture representations, we build our network based on the iterative Landweber deconvolution algorithm, which is integrated with trainable convolutional layers to enhance the recovered image structures and details. Additional to the data fidelity term, we also add Hessian and sparse constraints as regularization terms to improve the image reconstruction quality. Our proposed model is \textit{self-supervised} and converges to a solution based purely on the input blurred image and respective blur kernel without the requirement of any pre-training. We evaluate our technique using standard computer vision benchmarking datasets as well as real microscope images obtained by our enhanced depth-of-field (EDOF) underwater microscope, demonstrating the capabilities of our model in a real-world application. The quantitative results demonstrate that our approach is competitive with state-of-the-art non-blind image deblurring methods despite having a fraction of the parameters and not being pre-trained, demonstrating the efficiency and efficacy of embedding a classic deconvolution approach inside a deep network.
翻訳日:2022-10-03 16:25:56 公開日:2022-09-30
# 高画質擬似ラベルを用いた心臓磁気共鳴画像分割のための半監督領域一般化

Semi-Supervised Domain Generalization for Cardiac Magnetic Resonance Image Segmentation with High Quality Pseudo Labels ( http://arxiv.org/abs/2209.15451v1 )

ライセンス: Link先を確認
Wanqin Ma, Huifeng Yao, Yiqun Lin, Jiarong Guo, and Xiaomeng Li(参考訳) 医療セグメンテーションタスクのための深層学習手法の開発は、大量のラベル付きデータに大きく依存している。 しかし、アノテーションには専門知識が必要であり、数に制限がある。 近年,半教師付き学習は医学的セグメンテーションタスクにおいて大きな可能性を秘めている。 心臓磁気共鳴画像に関する既存の方法のほとんどは、類似領域と高画質の正規画像にのみ焦点を合わせている。 種々のデータセット上で擬似ラベルの品質を高める半教師付き領域一般化法が [2] で開発された。 本稿では, [2]の戦略に従い, 半教師付き医学セグメント化のためのドメイン一般化法を提案する。 本研究の主な目的は,各種領域を用いた極端なMRI解析による擬似ラベルの品質向上である。 入力画像上でフーリエ変換を行い、低レベル統計とクロスドメイン情報を学ぶ。 次に、擬似ラベル間のばらつきを計算するために、二重交差疑似監視ネットワークに入力として拡張画像をフィードする。 CMRxMotion データセット [1] で本手法の評価を行った。 部分的ラベル付きデータとドメインラベルなしデータのみを用いて,呼吸運動の異なる心臓磁気共鳴画像の精度の高いセグメンテーション結果を生成する。 コードはカンファレンスの後に提供される。

Developing a deep learning method for medical segmentation tasks heavily relies on a large amount of labeled data. However, the annotations require professional knowledge and are limited in number. Recently, semi-supervised learning has demonstrated great potential in medical segmentation tasks. Most existing methods related to cardiac magnetic resonance images only focus on regular images with similar domains and high image quality. A semi-supervised domain generalization method was developed in [2], which enhances the quality of pseudo labels on varied datasets. In this paper, we follow the strategy in [2] and present a domain generalization method for semi-supervised medical segmentation. Our main goal is to improve the quality of pseudo labels under extreme MRI Analysis with various domains. We perform Fourier transformation on input images to learn low-level statistics and cross-domain information. Then we feed the augmented images as input to the double cross pseudo supervision networks to calculate the variance among pseudo labels. We evaluate our method on the CMRxMotion dataset [1]. With only partially labeled data and without domain labels, our approach consistently generates accurate segmentation results of cardiac magnetic resonance images with different respiratory motions. Code will be available after the conference.
翻訳日:2022-10-03 16:25:32 公開日:2022-09-30
# 航空画像とコンピュータビジョンを用いた道路網劣化モニタリング

Road Network Deterioration Monitoring Using Aerial Images and Computer Vision ( http://arxiv.org/abs/2209.15455v1 )

ライセンス: Link先を確認
Nicolas Parra-A and Vladimir Vargas-Calder\'on and Herbert Vinck-Posada and Nicanor Vinck(参考訳) 道路整備は、どの都市でも交通の質を保証するための重要なプロセスである。 効率的な道路整備に向けた重要なステップは、道路網の在庫を更新する能力である。 そこで本研究では, 無人航空機を用いて, ポットホールとその重大度を自動的に識別するコンピュータビジョンプログラムによって処理された画像を自動的に収集するプロトコルのコンセプト実証を行う。 本プロトコルは,道路ネットワーク整備予算を優先する情報を自治体に提供し,整備費を最小化するために,道路の早期劣化を検出することを目的とする。

Road maintenance is an essential process for guaranteeing the quality of transportation in any city. A crucial step towards effective road maintenance is the ability to update the inventory of the road network. We present a proof of concept of a protocol for maintaining said inventory based on the use of unmanned aerial vehicles to quickly collect images which are processed by a computer vision program that automatically identifies potholes and their severity. Our protocol aims to provide information to local governments to prioritise the road network maintenance budget, and to be able to detect early stages of road deterioration so as to minimise maintenance expenditure.
翻訳日:2022-10-03 16:25:16 公開日:2022-09-30
# 良性トレースを用いた効率的なLSTMトレーニング

Efficient LSTM Training with Eligibility Traces ( http://arxiv.org/abs/2209.15502v1 )

ライセンス: Link先を確認
Michael Hoyer, Shahram Eivazi, Sebastian Otte(参考訳) リカレントニューラルネットワークのトレーニングは、主に時間によるバックプロパゲーション(BPTT)を通じて行われる。 しかし、このアルゴリズムは生物学的および計算的観点からの最適解ではない。 BPTTのより効率的で生物学的に有望な代替手段はe-propである。 本稿では,長期記憶へのe-prop to long short-term memorys(LSTM)の適用性について検討する。 教師あり学習のための2つのベンチマークでBPTTと比較することにより,e-propはLSTMに適した最適化アルゴリズムであることを示す。 これは、数百の時間ステップの長いシーケンスを持つ問題であっても、e-propが学習を実現できることを証明している。 我々は,他のネットワークアーキテクチャにも部分的に適用可能なe-propの性能を向上させる拡張を導入する。 これらの拡張の助けを借りて、ある条件下では、e-propは教師付き学習のための2つのベンチマークのうちの1つにおいてBPTTよりも優れていることを示す。 最後に,e-prop と rl を深く再帰的な q-learning の領域に統合するための概念実証を行う。

Training recurrent neural networks is predominantly achieved via backpropagation through time (BPTT). However, this algorithm is not an optimal solution from both a biological and computational perspective. A more efficient and biologically plausible alternative for BPTT is e-prop. We investigate the applicability of e-prop to long short-term memorys (LSTMs), for both supervised and reinforcement learning (RL) tasks. We show that e-prop is a suitable optimization algorithm for LSTMs by comparing it to BPTT on two benchmarks for supervised learning. This proves that e-prop can achieve learning even for problems with long sequences of several hundred timesteps. We introduce extensions that improve the performance of e-prop, which can partially be applied to other network architectures. With the help of these extensions we show that, under certain conditions, e-prop can outperform BPTT for one of the two benchmarks for supervised learning. Finally, we deliver a proof of concept for the integration of e-prop to RL in the domain of deep recurrent Q-learning.
翻訳日:2022-10-03 16:19:46 公開日:2022-09-30
# Momentum Tracking:不均一データに基づく分散ディープラーニングのためのMomentumAcceleration

Momentum Tracking: Momentum Acceleration for Decentralized Deep Learning on Heterogeneous Data ( http://arxiv.org/abs/2209.15505v1 )

ライセンス: Link先を確認
Yuki Takezawa, Han Bao, Kenta Niwa, Ryoma Sato, Makoto Yamada(参考訳) 運動量加速度を持つSGDは、ニューラルネットワークの性能向上の鍵となる要素の1つである。 分散学習において、運動量加速度を用いた簡単なアプローチは、運動量加速度(DSGDm)を備えた分散SGD(DSGD)である。 しかし、DSGDmは統計学的に不均一な場合、DSGDよりも悪い。 近年,DSGDmよりもデータの不均一性に強い運動量加速度を持つ手法が提案されているが,データ分布が不均一である場合,その収束速度はデータ不均一性や減少に依存している。 本研究では,データの不均質性に依存しない収束速度が証明される運動量加速度法である運動量追跡法を提案する。 具体的には,目的関数が非凸であり,確率勾配が用いられる,標準的なディープラーニング環境におけるMomentum Trackingの収束率を分析する。 すると、それは任意の運動量係数$\beta\in [0, 1)$に対するデータ不均一性とは独立である。 画像分類タスクを通じて、モーメントムトラッキングは、運動量加速度を持つ既存の分散学習法よりもデータ均一性が高いことを示し、データ分布が不均一である場合に、これらの既存手法を一貫して上回ることを示す。

SGD with momentum acceleration is one of the key components for improving the performance of neural networks. For decentralized learning, a straightforward approach using momentum acceleration is Distributed SGD (DSGD) with momentum acceleration (DSGDm). However, DSGDm performs worse than DSGD when the data distributions are statistically heterogeneous. Recently, several studies have addressed this issue and proposed methods with momentum acceleration that are more robust to data heterogeneity than DSGDm, although their convergence rates remain dependent on data heterogeneity and decrease when the data distributions are heterogeneous. In this study, we propose Momentum Tracking, which is a method with momentum acceleration whose convergence rate is proven to be independent of data heterogeneity. More specifically, we analyze the convergence rate of Momentum Tracking in the standard deep learning setting, where the objective function is non-convex and the stochastic gradient is used. Then, we identify that it is independent of data heterogeneity for any momentum coefficient $\beta\in [0, 1)$. Through image classification tasks, we demonstrate that Momentum Tracking is more robust to data heterogeneity than the existing decentralized learning methods with momentum acceleration and can consistently outperform these existing methods when the data distributions are heterogeneous.
翻訳日:2022-10-03 16:19:31 公開日:2022-09-30
# 確率型タービンパワーカーブモデルにおける物理的に意味のある不確かさの定量化

Physically Meaningful Uncertainty Quantification in Probabilistic Wind Turbine Power Curve Models as a Damage Sensitive Feature ( http://arxiv.org/abs/2209.15579v1 )

ライセンス: Link先を確認
J.H. Mclean, M.R. Jones, B.J. O'Connell, A.E Maguire, T.J. Rogers(参考訳) 風力タービンの動力曲線は、損傷に敏感なデータに容易にアクセスでき、風力タービンの構造的健康モニタリングの鍵となる部分である。 パワーカーブモデルは様々な方法で構築できるが、確率的手法は不確かさの定量化や不確かさの伝播解析など、このユースケースに固有の利点をもたらすと主張している。 多くの確率的パワーカーブモデルは、物理的に意味がないという重要な制限があり、物理的に可能なもの(風力タービンの最大出力と最小出力)の外で平均と不確実な予測を返す。 本稿では,物理的に有意な確率的パワー曲線モデルを作成するために,二つの有界ガウス過程の利用について検討する。 調査された最初のモデルは、異質なガウス過程であり、ガウス過程の特定の欠点とワーピング関数の関係のため効果がないことが判明した。 第2のモデル - ベータ確率を近似したガウス過程は成功し、動作する有界確率モデルが予測精度に有意な損失を伴わずに対応する非有界モデルよりも予測の不確実性を向上させることを示した。 このようなバウンドモデルにより、パフォーマンス監視の精度が向上し、物理的妥当性が保証されたため、モデルのオペレータの信頼性が向上する。

A wind turbines' power curve is easily accessible damage sensitive data, and as such is a key part of structural health monitoring in wind turbines. Power curve models can be constructed in a number of ways, but the authors argue that probabilistic methods carry inherent benefits in this use case, such as uncertainty quantification and allowing uncertainty propagation analysis. Many probabilistic power curve models have a key limitation in that they are not physically meaningful - they return mean and uncertainty predictions outside of what is physically possible (the maximum and minimum power outputs of the wind turbine). This paper investigates the use of two bounded Gaussian Processes in order to produce physically meaningful probabilistic power curve models. The first model investigated was a warped heteroscedastic Gaussian process, and was found to be ineffective due to specific shortcomings of the Gaussian Process in relation to the warping function. The second model - an approximated Gaussian Process with a Beta likelihood was highly successful and demonstrated that a working bounded probabilistic model results in better predictive uncertainty than a corresponding unbounded one without meaningful loss in predictive accuracy. Such a bounded model thus offers increased accuracy for performance monitoring and increased operator confidence in the model due to guaranteed physical plausibility.
翻訳日:2022-10-03 16:19:10 公開日:2022-09-30
# B2RL: バッチ強化学習を構築するためのオープンソースのデータセット

B2RL: An open-source Dataset for Building Batch Reinforcement Learning ( http://arxiv.org/abs/2209.15626v1 )

ライセンス: Link先を確認
Hsin-Yu Liu (1), Xiaohan Fu (1), Bharathan Balaji (2), Rajesh Gupta (1), and Dezhi Hong (2) ((1) University of California, San Diego, (2) Amazon)(参考訳) バッチ強化学習(BRL)は、RLコミュニティにおける新興研究分野である。 環境と対話することなく、静的なデータセット(すなわちバッファを再生する)からのみ学習する。 オフライン設定では、既存のリプレイ体験がBRLモデルの事前知識として使われ、最適なポリシーが見つかる。 したがって、BRLモデルベンチマークではリプレイバッファの生成が重要である。 B2RL(Building Batch RL)データセットでは、ビル管理システムから実際のデータと、シミュレーション環境におけるいくつかの行動ポリシーによって生成されたバッファを収集しました。 BRL研究の専門家の育成に役立つとわれわれは考えている。 私たちの知る限りでは、BRL学習のために構築データセットをオープンソースにしたのは、私たちが初めてです。

Batch reinforcement learning (BRL) is an emerging research area in the RL community. It learns exclusively from static datasets (i.e. replay buffers) without interaction with the environment. In the offline settings, existing replay experiences are used as prior knowledge for BRL models to find the optimal policy. Thus, generating replay buffers is crucial for BRL model benchmark. In our B2RL (Building Batch RL) dataset, we collected real-world data from our building management systems, as well as buffers generated by several behavioral policies in simulation environments. We believe it could help building experts on BRL research. To the best of our knowledge, we are the first to open-source building datasets for the purpose of BRL learning.
翻訳日:2022-10-03 16:18:44 公開日:2022-09-30
# smpモデルにおける不確実性除去のための多重基準決定分析法

A Multiple Criteria Decision Analysis based Approach to Remove Uncertainty in SMP Models ( http://arxiv.org/abs/2209.15260v1 )

ライセンス: Link先を確認
Gokul Yenduri, Thippa Reddy Gadekallu(参考訳) 高度なAI技術は、医療から製造まで、さまざまな方法で人間に役立っている。 高度な自動化マシンは非常に高価だが、最終的な出力は最高品質のはずである。 要求のアジリティによって、これらの自動化技術は劇的に変化します。 自動化ソフトウェアの変更の可能性は非常に高いため、定期的に更新する必要がある。 保守性を考慮していない場合は、システム全体に影響を与え、メンテナンスコストを増大させます。 多くの企業は、クライアント要求に基づいた高度な自動機械の開発に異なるプログラミングパラダイムを使用している。 したがって、異種ソフトウェアの保守性を推定することが不可欠である。 ソフトウェア保守可能性予測(Software maintainability prediction, SPM)方法論に対する広範なコンセンサスが欠如していることから, ソフトウェア保守可能性推定の適切なモデルを決定する上で, 個人やビジネスは混乱している。 構造化された方法論が設計され、データセットが前処理され、UIMSとQUESに期待されるすべてのデータセットに対して、メンテナンス可能性指標(MI)の範囲が見つかった。 上記の手法の不確実性を取り除くため,本研究では,最適解(TOPSIS)と類似性による順序選好の手法として,複数の基準決定モデルを用いる。 TOPSISは、GARFが異種自動ソフトウェアの保守性を予測する他の手法よりも優れていることを明らかにした。

Advanced AI technologies are serving humankind in a number of ways, from healthcare to manufacturing. Advanced automated machines are quite expensive, but the end output is supposed to be of the highest possible quality. Depending on the agility of requirements, these automation technologies can change dramatically. The likelihood of making changes to automation software is extremely high, so it must be updated regularly. If maintainability is not taken into account, it will have an impact on the entire system and increase maintenance costs. Many companies use different programming paradigms in developing advanced automated machines based on client requirements. Therefore, it is essential to estimate the maintainability of heterogeneous software. As a result of the lack of widespread consensus on software maintainability prediction (SPM) methodologies, individuals and businesses are left perplexed when it comes to determining the appropriate model for estimating the maintainability of software, which serves as the inspiration for this research. A structured methodology was designed, and the datasets were preprocessed and maintainability index (MI) range was also found for all the datasets expect for UIMS and QUES, the metric CHANGE is used for UIMS and QUES. To remove the uncertainty among the aforementioned techniques, a popular multiple criteria decision-making model, namely the technique for order preference by similarity to ideal solution (TOPSIS), is used in this work. TOPSIS revealed that GARF outperforms the other considered techniques in predicting the maintainability of heterogeneous automated software.
翻訳日:2022-10-03 16:18:34 公開日:2022-09-30
# 質的推論問題の多変量複雑性解析

A Multivariate Complexity Analysis of Qualitative Reasoning Problems ( http://arxiv.org/abs/2209.15275v1 )

ライセンス: Link先を確認
Leif Eriksson, Victor Lagerkvist(参考訳) 定性的推論は、数値ではなく定性的関係を記述する人工知能の重要なサブフィールドである。 例えば、アレンの区間代数(英語版)のような多くの推論タスクは 2^{O(n \cdot \log n)} の時間で解けるが、単指数ランニング時間 2^{O(n)}$ は今のところ到達できない。 本稿では,小粒度パラメータ$n$(変数数など)と粗粒度パラメータ$k$が比較的小さいと期待される粗粒度パラメータ$k$からなる多変量解析による単一指数アルゴリズムを考える。 f(k) \cdot 2^{o(n)}$,それぞれ$f(k)^n$, time で解ける問題のクラス fpe と xe を導入し、これらのクラスの基本特性を証明した。 我々は時間的推論問題を研究し、(1)有効幅$k$の部分順序時間問題が16^{kn}$時間で解け、XEに含まれることを示し、(2)$k$以上で重なり合う間隔を持たないアレンの区間代数のネットワーク整合性問題は、$(2nk)^{2k} \cdot 2^{n}$時間で解け、FPEに含まれることを示す。 我々の多変量アプローチは特定の問題に限らず、単一指数アルゴリズムを得るのに一般的に有用なアプローチである。

Qualitative reasoning is an important subfield of artificial intelligence where one describes relationships with qualitative, rather than numerical, relations. Many such reasoning tasks, e.g., Allen's interval algebra, can be solved in $2^{O(n \cdot \log n)}$ time, but single-exponential running times $2^{O(n)}$ are currently far out of reach. In this paper we consider single-exponential algorithms via a multivariate analysis consisting of a fine-grained parameter $n$ (e.g., the number of variables) and a coarse-grained parameter $k$ expected to be relatively small. We introduce the classes FPE and XE of problems solvable in $f(k) \cdot 2^{O(n)}$, respectively $f(k)^n$, time, and prove several fundamental properties of these classes. We proceed by studying temporal reasoning problems and (1) show that the Partially Ordered Time problem of effective width $k$ is solvable in $16^{kn}$ time and is thus included in XE, and (2) that the network consistency problem for Allen's interval algebra with no interval overlapping with more than $k$ others is solvable in $(2nk)^{2k} \cdot 2^{n}$ time and is included in FPE. Our multivariate approach is in no way limited to these to specific problems and may be a generally useful approach for obtaining single-exponential algorithms.
翻訳日:2022-10-03 16:18:11 公開日:2022-09-30
# 強化学習による超音波Swarmbotのプログラム制御

Programmable Control of Ultrasound Swarmbots through Reinforcement Learning ( http://arxiv.org/abs/2209.15393v1 )

ライセンス: Link先を確認
Matthijs Schrage, Mahmoud Medany, and Daniel Ahmed(参考訳) 音響技術によって、既存の治療と診断の手順はより侵襲的になり、これまで利用できなかった新しい方法が利用可能になるでしょう。 マイクロバブルに基づく音響駆動型マイクロロボットナビゲーションは、ターゲットのドラッグデリバリーに有望なアプローチである。 従来の研究では、マイクロバブルをin vitroおよびin vivoで操作する音響技術を用いて、最小限の侵襲的手順を用いて薬物の配送を行っている。 多くの高度な能力と高度な制御が音響動力のマイクロロボットで達成されているが、解決すべき課題は数多く残っている。 次世代のインテリジェントマイクロ・ナノロボットを開発するためには、マイクロナノロボットの正確な識別を行い、その動的動作を自律的に制御することが極めて望ましい。 ここでは,強化学習制御戦略を用いてマイクロロボットのダイナミクスを学習し,音響力で操作する。 その結果, マイクロ流体環境におけるマイクロバブルの自律音響ナビゲーションが, 初めて実現された。 第2の放射線力の利点を利用して、マイクロバブルは大きな群れを形成し、所望の軌道に沿って駆動する。 マイクロバブルの予期せぬダイナミクスを研究する訓練には、1万枚以上の画像が使用された。 この研究の結果、マイクロロボットは制御可能であることが確認され、優れたロバスト性を示し、コンピュータ知能をマイクロロボットに提供する。

Powered by acoustics, existing therapeutic and diagnostic procedures will become less invasive and new methods will become available that have never been available before. Acoustically driven microrobot navigation based on microbubbles is a promising approach for targeted drug delivery. Previous studies have used acoustic techniques to manipulate microbubbles in vitro and in vivo for the delivery of drugs using minimally invasive procedures. Even though many advanced capabilities and sophisticated control have been achieved for acoustically powered microrobots, there remain many challenges that remain to be solved. In order to develop the next generation of intelligent micro/nanorobots, it is highly desirable to conduct accurate identification of the micro-nanorobots and to control their dynamic motion autonomously. Here we use reinforcement learning control strategies to learn the microrobot dynamics and manipulate them through acoustic forces. The result demonstrated for the first time autonomous acoustic navigation of microbubbles in a microfluidic environment. Taking advantage of the benefit of the second radiation force, microbubbles swarm to form a large swarm, which is then driven along the desired trajectory. More than 100 thousand images were used for the training to study the unexpected dynamics of microbubbles. As a result of this work, the microrobots are validated to be controlled, illustrating a good level of robustness and providing computational intelligence to the microrobots, which enables them to navigate independently in an unstructured environment without requiring outside assistance.
翻訳日:2022-10-03 16:17:39 公開日:2022-09-30
# 折り畳み拡散によるタンパク質構造生成

Protein structure generation via folding diffusion ( http://arxiv.org/abs/2209.15611v1 )

ライセンス: Link先を確認
Kevin E. Wu, Kevin K. Yang, Rianne van den Berg, James Y. Zou, Alex X. Lu, Ava P. Amini(参考訳) 計算によって新しい折り畳み可能なタンパク質構造を生成する能力は、新しい生物学的発見や、不治の病気を標的とした新しい治療法につながる可能性がある。 近年のタンパク質構造予測の進歩にもかかわらず、ニューラルネットワークから新たなタンパク質構造を直接生成することは困難である。 本研究では, タンパク質骨格構造を, ネイティブ折り畳み過程を反映する手法を用いて設計する新しい拡散型生成モデルを提案する。 タンパク質骨格構造を,アミノ酸残基の相対配向を捉えた一連の連続した角度として記述し,ランダムな展開状態から安定な折りたたみ構造へと切り離して新しい構造を生成する。 この説明は、タンパク質がエネルギー的に有利な配座にどのようにねじれるかを反映しているだけでなく、この表現の固有シフトと回転不変性は、複素同変ネットワークの必要性を極めて緩和する。 本研究では, 単純なトランスフォーマーバックボーンを用いた拡散確率モデルを訓練し, 自然発生タンパク質と同様の複雑さと構造パターンを持つ非条件で高現実的なタンパク質構造を生成することを示した。 有用なリソースとして,最初のオープンソースコードベースと,タンパク質構造拡散のためのトレーニングモデルをリリースします。

The ability to computationally generate novel yet physically foldable protein structures could lead to new biological discoveries and new treatments targeting yet incurable diseases. Despite recent advances in protein structure prediction, directly generating diverse, novel protein structures from neural networks remains difficult. In this work, we present a new diffusion-based generative model that designs protein backbone structures via a procedure that mirrors the native folding process. We describe protein backbone structure as a series of consecutive angles capturing the relative orientation of the constituent amino acid residues, and generate new structures by denoising from a random, unfolded state towards a stable folded structure. Not only does this mirror how proteins biologically twist into energetically favorable conformations, the inherent shift and rotational invariance of this representation crucially alleviates the need for complex equivariant networks. We train a denoising diffusion probabilistic model with a simple transformer backbone and demonstrate that our resulting model unconditionally generates highly realistic protein structures with complexity and structural patterns akin to those of naturally-occurring proteins. As a useful resource, we release the first open-source codebase and trained models for protein structure diffusion.
翻訳日:2022-10-03 16:17:15 公開日:2022-09-30
# 高速トポロジカル信号同定と持続的コホモロジーサイクルマッチング

Fast Topological Signal Identification and Persistent Cohomological Cycle Matching ( http://arxiv.org/abs/2209.15446v1 )

ライセンス: Link先を確認
In\'es Garc\'ia-Redondo, Anthea Monod, Anna Song(参考訳) トポロジカルデータ分析の文脈では、多くのアプリケーションにおいて、データセット間のトポロジ的重要性とマッチング信号を特定する問題は重要かつ有用な推論タスクである。 しかし、これらの問題に対する既存の解の制限は計算速度である。 本稿では,コホモロジー手法を用いてトポロジ的有病率とサイクルマッチングの問題を解明し,その実現可能性と適用性を高めることによる,永続的ホモロジー計算のための最先端技術を活用する。 我々は、幅広い実物、大規模、複雑なデータセットでこれを実証する。 我々は、一般的な非モース濾過を含むようなトポロジカル確率とサイクルマッチングの既存の概念を拡張した。 これにより、トポロジカル信号の識別と持続サイクルマッチングの最も汎用的で柔軟な適用が可能となり、標準のHPC CPU施設では、数千個のサンプルポイントに対して10のオーダーを比較することができる。

Within the context of topological data analysis, the problems of identifying topological significance and matching signals across datasets are important and useful inferential tasks in many applications. The limitation of existing solutions to these problems, however, is computational speed. In this paper, we harness the state-of-the-art for persistent homology computation by studying the problem of determining topological prevalence and cycle matching using a cohomological approach, which increases their feasibility and applicability to a wider variety of applications and contexts. We demonstrate this on a wide range of real-life, large-scale, and complex datasets. We extend existing notions of topological prevalence and cycle matching to include general non-Morse filtrations. This provides the most general and flexible state-of-the-art adaptation of topological signal identification and persistent cycle matching, which performs comparisons of orders of ten for thousands of sampled points in a matter of minutes on standard institutional HPC CPU facilities.
翻訳日:2022-10-03 16:16:54 公開日:2022-09-30
# 創発的コミュニケーション:ルイスゲームにおける一般化とオーバーフィッティング

Emergent Communication: Generalization and Overfitting in Lewis Games ( http://arxiv.org/abs/2209.15342v1 )

ライセンス: Link先を確認
Mathieu Rita, Corentin Tallec, Paul Michel, Jean-Bastien Grill, Olivier Pietquin, Emmanuel Dupoux, Florian Strub(参考訳) ルイスシグナリングゲーム(Lewis signaling game)は、言語の出現をシミュレートする単純なコミュニケーションゲームの一種である。 これらのゲームでは、2人のエージェントが協調的なタスクを解決するために通信プロトコルに合意しなければなりません。 以前の研究では、強化学習でこのゲームをする訓練を受けたエージェントは、言語的な観点から望ましくない特性を示す言語を開発する傾向がある(一般化の欠如、構成性の欠如など)。 本稿ではルイスゲームにおける学習問題を解析的に研究することで,この現象の理解を深めることを目的とする。 核となる貢献として,lewisゲームにおける標準的な目的が,共適応損失と情報損失の2つの構成要素に分解できることを実証する。 この分解によって2つの潜在的なオーバーフィッティング源が表面化できるため、構造化通信プロトコルの出現を損なう可能性がある。 特に、共適応損失のオーバーフィットを制御する場合には、創発的言語の望ましい特性を回復します。

Lewis signaling games are a class of simple communication games for simulating the emergence of language. In these games, two agents must agree on a communication protocol in order to solve a cooperative task. Previous work has shown that agents trained to play this game with reinforcement learning tend to develop languages that display undesirable properties from a linguistic point of view (lack of generalization, lack of compositionality, etc). In this paper, we aim to provide better understanding of this phenomenon by analytically studying the learning problem in Lewis games. As a core contribution, we demonstrate that the standard objective in Lewis games can be decomposed in two components: a co-adaptation loss and an information loss. This decomposition enables us to surface two potential sources of overfitting, which we show may undermine the emergence of a structured communication protocol. In particular, when we control for overfitting on the co-adaptation loss, we recover desired properties in the emergent languages: they are more compositional and generalize better.
翻訳日:2022-10-03 16:16:37 公開日:2022-09-30
# 弱共用mdpにおける平均反転オフポリシー制御アルゴリズムの収束について

On Convergence of Average-Reward Off-Policy Control Algorithms in Weakly-Communicating MDPs ( http://arxiv.org/abs/2209.15141v1 )

ライセンス: Link先を確認
Yi Wan, Richard S. Sutton(参考訳) 本稿では,2つの平均逆オフ政治制御アルゴリズム,差分Q学習(Wan, Naik, \& Sutton 2021a)とRVIQ学習(Abounadi Bertsekas \& Borkar 2001)について述べる。 弱いコミュニケーションのMDPは、単一の経験の流れを持つ学習アルゴリズムが最適な報酬率を達成するためのポリシーを得ることを保証できる、最も一般的なMDPのクラスである。 2つのアルゴリズムの元々の収束証明は、全ての最適ポリシーがユニチェーンを誘導することを要求する。 我々の知る限りでは、我々の結果は、弱通信のMDPに平均逆オフ・ポリシー制御アルゴリズムが収束することを示す最初のものである。 直接拡張として、(Wan, Naik, \& Sutton 2021b) によって導入された平均回帰オプションアルゴリズムは、オプションによって誘導されるセミMDPが弱通信である場合に収束することを示す。

We show two average-reward off-policy control algorithms, Differential Q Learning (Wan, Naik, \& Sutton 2021a) and RVI Q Learning (Abounadi Bertsekas \& Borkar 2001), converge in weakly-communicating MDPs. Weakly-communicating MDPs are the most general class of MDPs that a learning algorithm with a single stream of experience can guarantee obtaining a policy achieving optimal reward rate. The original convergence proofs of the two algorithms require that all optimal policies induce unichains, which is not necessarily true for weakly-communicating MDPs. To the best of our knowledge, our results are the first showing average-reward off-policy control algorithms converge in weakly-communicating MDPs. As a direct extension, we show that average-reward options algorithms introduced by (Wan, Naik, \& Sutton 2021b) converge if the Semi-MDP induced by options is weakly-communicating.
翻訳日:2022-10-03 16:10:35 公開日:2022-09-30
# ダブルグラフ正規化マルチビューサブスペースクラスタリング

Double Graphs Regularized Multi-view Subspace Clustering ( http://arxiv.org/abs/2209.15143v1 )

ライセンス: Link先を確認
Longlong Chen, Yulong Wang, Youheng Liu, Yutao Hu, Libin Wang(参考訳) 近年、マルチビューサブスペースクラスタリングへの学術的関心が高まっている。 本稿では,多視点データの大域的および局所的構造情報を統一フレームワークで活用することを目的とした,新しい二重グラフ正規化多視点部分空間クラスタリング(dgrmsc)法を提案する。 具体的には、DGRMSCはまず、複数のビューのグローバル補完情報を利用する潜在表現を学習する。 学習した潜在表現に基づいて、そのグローバルクラスタ構造を探索するための自己表現を学ぶ。 さらに、局所多様体構造を同時に活用するために、潜在表現と自己表現の両方でダブルグラフ正規化(DGR)を行う。 そして,最適化問題を効果的に解くために反復アルゴリズムを設計する。 実世界のデータセットに関する広範な実験結果から,提案手法の有効性が示された。

Recent years have witnessed a growing academic interest in multi-view subspace clustering. In this paper, we propose a novel Double Graphs Regularized Multi-view Subspace Clustering (DGRMSC) method, which aims to harness both global and local structural information of multi-view data in a unified framework. Specifically, DGRMSC firstly learns a latent representation to exploit the global complementary information of multiple views. Based on the learned latent representation, we learn a self-representation to explore its global cluster structure. Further, Double Graphs Regularization (DGR) is performed on both latent representation and self-representation to take advantage of their local manifold structures simultaneously. Then, we design an iterative algorithm to solve the optimization problem effectively. Extensive experimental results on real-world datasets demonstrate the effectiveness of the proposed method.
翻訳日:2022-10-03 16:10:13 公開日:2022-09-30
# 機械学習分類器の可変ベース校正

Variable-Based Calibration for Machine Learning Classifiers ( http://arxiv.org/abs/2209.15154v1 )

ライセンス: Link先を確認
Markelle Kelly and Padhraic Smyth(参考訳) 高度な領域に機械学習分類器を配置するには、モデル予測に十分な信頼性スコアが必要となる。 本稿では,従来のスコアベースのキャリブレーションを一般化し,期待キャリブレーション誤差(ECE)などの指標を一般化し,モデルのキャリブレーション特性を特徴付ける変数ベースのキャリブレーションの概念を提案する。 特に、ECEがほぼ完全であるモデルでは、データの特徴の関数として変数ベースのキャリブレーション誤差が顕著であることがわかった。 この現象を理論上,実際に複数のよく知られたデータセット上で実証し,既存の再校正法の適用後も継続可能であることを示す。 この問題を軽減するため,変数ベースの校正誤差の検出,可視化,定量化のための手法を提案する。 次に,現在のスコアベース再校正法の限界について検討し,潜在的な修正について検討する。 最後に,これらの知見の意義について考察し,公平性やモデル解釈可能性といった努力には,単純な集計尺度以上の校正の理解が不可欠であることを強調する。

The deployment of machine learning classifiers in high-stakes domains requires well-calibrated confidence scores for model predictions. In this paper we introduce the notion of variable-based calibration to characterize calibration properties of a model with respect to a variable of interest, generalizing traditional score-based calibration and metrics such as expected calibration error (ECE). In particular, we find that models with near-perfect ECE can exhibit significant variable-based calibration error as a function of features of the data. We demonstrate this phenomenon both theoretically and in practice on multiple well-known datasets, and show that it can persist after the application of existing recalibration methods. To mitigate this issue, we propose strategies for detection, visualization, and quantification of variable-based calibration error. We then examine the limitations of current score-based recalibration methods and explore potential modifications. Finally, we discuss the implications of these findings, emphasizing that an understanding of calibration beyond simple aggregate measures is crucial for endeavors such as fairness and model interpretability.
翻訳日:2022-10-03 16:10:01 公開日:2022-09-30
# ドメインの一般化 --因果的視点

Domain Generalization -- A Causal Perspective ( http://arxiv.org/abs/2209.15177v1 )

ライセンス: Link先を確認
Paras Sheth, Raha Moraffah, K. Sel\c{c}uk Candan, Adrienne Raglin, Huan Liu(参考訳) 機械学習モデルは、ヘルスケアからパーソナライズされたレコメンデーションまで、広く成功している。 これらのモデルの予備仮定の1つは独立分布と同一分布である。 したがって、この仮定に従って同じ観測結果から列車と試験データをサンプリングする。 しかし、この仮定は分布シフトによって現実世界ではほとんど成り立たない。 モデルはこの仮定に大きく依存しているため、一般化能力は乏しい。 近年,これらのモデルの一般化能力の向上に努力が注がれている。 これらの手法の背景にある基本的な考え方は、異なる分布で不変な安定な特徴やメカニズムを特定することである。 多くの一般化のアプローチでは因果関係と不変性が厳密に絡み合っているため、因果論を用いて不変性を記述する。 しかし、現在の調査は、非常に高いレベルで因果性を認識したドメイン一般化メソッドを扱う。 さらに、既存の調査では、これらの手法が活用する問題や因果理論に基づいて因果領域一般化法を分類していない。 そこで本研究では,問題と因果理論の側面から,因果領域一般化モデルに関する包括的調査を行う。 さらに、この調査には、さまざまなドメインにおけるパブリックアクセス可能なデータセットとドメインの一般化のためのベンチマークに関する詳細な洞察が含まれている。 最後に,今後の研究方向性に関する知見と議論をまとめてまとめる。 最後に,今後の研究方向性に関する知見と議論をまとめてまとめる。

Machine learning models have gained widespread success, from healthcare to personalized recommendations. One of the preliminary assumptions of these models is the independent and identical distribution. Therefore, the train and test data are sampled from the same observation per this assumption. However, this assumption seldom holds in the real world due to distribution shifts. Since the models rely heavily on this assumption, they exhibit poor generalization capabilities. Over the recent years, dedicated efforts have been made to improve the generalization capabilities of these models. The primary idea behind these methods is to identify stable features or mechanisms that remain invariant across the different distributions. Many generalization approaches employ causal theories to describe invariance since causality and invariance are inextricably intertwined. However, current surveys deal with the causality-aware domain generalization methods on a very high-level. Furthermore, none of the existing surveys categorize the causal domain generalization methods based on the problem and causal theories these methods leverage. To this end, we present a comprehensive survey on causal domain generalization models from the aspects of the problem and causal theories. Furthermore, this survey includes in-depth insights into publicly accessible datasets and benchmarks for domain generalization in various domains. Finally, we conclude the survey with insights and discussions on future research directions. Finally, we conclude the survey with insights and discussions on future research directions.
翻訳日:2022-10-03 16:09:44 公開日:2022-09-30
# 重み付き平均メッセージを用いた効率的なグラフベースレコメンダシステム

Efficient Graph based Recommender System with Weighted Averaging of Messages ( http://arxiv.org/abs/2209.15238v1 )

ライセンス: Link先を確認
Faizan Ahemad(参考訳) 我々は,永久にソフトアイテムのコールドスタート問題に直面するレコメンデーションシステム問題に対する新しい解決策を示す。 当社のシステムは,amazonストアに登録する希望販売者に対して,推奨商品を推薦することを目的としています。 これらの製品は常にわずかな相互作用しか持たず、永久にソフトアイテムのコールドスタート状態を引き起こす。 現代の協調フィルタリング手法は、コンテンツ属性を使用してコールドスタートを解決し、ウォームスタートアイテムから既存の暗黙の信号を利用する。 このアプローチは、すべてのアイテムセットが常にコールドスタート問題に直面しているため、ユースケースでは失敗する。 当社の製品グラフには5億のノードと50億のエッジがあり、現代のグラフアルゴリズムを使用したトレーニングと推論は非常に計算集約的です。 これらの課題を克服するため,我々は,データセットサイズを削減し,ストレージを削減し,性能を損なうことなく計算を行うためのモデリング手法を改良したシステムを提案する。 特に、フィルタリング技術を用いてグラフサイズを削減し、この縮小された製品グラフを、層(waml)アルゴリズムによる重み付け平均化を用いて活用する。 WAMLは大きなグラフのトレーニングを単純化し、計算時間を1/7のLightGCNと1/26のGraph Attention Network(GAT)に短縮し、リコールを$$100$を66%、GATを2.3倍増やすことにより、従来の方法よりも改善している。

We showcase a novel solution to a recommendation system problem where we face a perpetual soft item cold start issue. Our system aims to recommend demanded products to prospective sellers for listing in Amazon stores. These products always have only few interactions thereby giving rise to a perpetual soft item cold start situation. Modern collaborative filtering methods solve cold start using content attributes and exploit the existing implicit signals from warm start items. This approach fails in our use-case since our entire item set faces cold start issue always. Our Product Graph has over 500 Million nodes and over 5 Billion edges which makes training and inference using modern graph algorithms very compute intensive. To overcome these challenges we propose a system which reduces the dataset size and employs an improved modelling technique to reduce storage and compute without loss in performance. Particularly, we reduce our graph size using a filtering technique and then exploit this reduced product graph using Weighted Averaging of Messages over Layers (WAML) algorithm. WAML simplifies training on large graphs and improves over previous methods by reducing compute time to 1/7 of LightGCN and 1/26 of Graph Attention Network (GAT) and increasing recall$@100$ by 66% over LightGCN and 2.3x over GAT.
翻訳日:2022-10-03 16:09:30 公開日:2022-09-30
# fed-cbs:クラス不均衡低減によるフェデレーション学習のためのヘテロゲニティアウェアクライアントサンプリング機構

Fed-CBS: A Heterogeneity-Aware Client Sampling Mechanism for Federated Learning via Class-Imbalance Reduction ( http://arxiv.org/abs/2209.15245v1 )

ライセンス: Link先を確認
Jianyi Zhang, Ang Li, Minxue Tang, Jingwei Sun, Xiang Chen, Fan Zhang, Changyou Chen, Yiran Chen, Hai Li(参考訳) エッジデバイスの通信能力が限られているため、既存のフェデレーション学習(FL)手法は、各通信ラウンドのトレーニングに参加する装置のサブセットのみをランダムに選択する。 利用可能なすべてのクライアントと比べ、ランダム選択機構は、非IID(独立かつ同一の分散)データに対して大幅なパフォーマンス劣化を引き起こす可能性がある。 本稿では,このような性能劣化をもたらす重要な理由は,ランダムに選択されたクライアントからのグループデータのクラス不均衡であることを示す。 提案手法では,目的とするクライアントからグループデータセットのクラス不均衡を効果的に低減できる,効率のよいヘテロゲニティ・アウェアクライアントサンプリング機構,すなわちフェデレートクラスバランスサンプリング(fed-cbs)を設計した。 特に,クラス不均衡の尺度を提案し,この尺度をプライバシ保存方式で導出するために準同型暗号を用いる。 この尺度に基づいて,アクティブに選択されたクライアントが,理論的に保証されたよりクラスバランスのよいグループ化データセットを生成するような,計算効率の高いクライアントサンプリング戦略も設計する。 大規模な実験の結果、Fed-CBSは現状のクオアプローチよりも優れていた。 さらに、すべての利用可能なクライアントがFLトレーニングに参加する理想的な設定よりも、同等またはそれ以上のパフォーマンスを達成する。

Due to limited communication capacities of edge devices, most existing federated learning (FL) methods randomly select only a subset of devices to participate in training for each communication round. Compared with engaging all the available clients, the random-selection mechanism can lead to significant performance degradation on non-IID (independent and identically distributed) data. In this paper, we show our key observation that the essential reason resulting in such performance degradation is the class-imbalance of the grouped data from randomly selected clients. Based on our key observation, we design an efficient heterogeneity-aware client sampling mechanism, i.e., Federated Class-balanced Sampling (Fed-CBS), which can effectively reduce class-imbalance of the group dataset from the intentionally selected clients. In particular, we propose a measure of class-imbalance and then employ homomorphic encryption to derive this measure in a privacy-preserving way. Based on this measure, we also design a computation-efficient client sampling strategy, such that the actively selected clients will generate a more class-balanced grouped dataset with theoretical guarantees. Extensive experimental results demonstrate Fed-CBS outperforms the status quo approaches. Furthermore, it achieves comparable or even better performance than the ideal setting where all the available clients participate in the FL training.
翻訳日:2022-10-03 16:09:05 公開日:2022-09-30
# ループのエキスパート:深層学習に基づくシリコン後分析の促進のための条件変数選択

Experts in the Loop: Conditional Variable Selection for Accelerating Post-Silicon Analysis Based on Deep Learning ( http://arxiv.org/abs/2209.15249v1 )

ライセンス: Link先を確認
Yiwen Liao, Rapha\"el Latty, Bin Yang(参考訳) シリコン後検証は、現代の半導体製造において最も重要なプロセスの1つである。 具体的には、製造済みデバイスのテストケースにおける正確かつ深い理解が、ポストシリコンチューニングとデバッグを可能にするための鍵である。 この分析は通常、経験豊富な人間の専門家によって行われる。 しかし、半導体産業の急速な発展により、テストケースは数百の変数を含むことができる。 その結果、高次元性は専門家に大きな課題をもたらします。 これにより、データ駆動型変数選択アルゴリズムを導入してこれらの問題に対処し、顕著な成功を収めた。 しかしながら、これらの手法では、専門家はトレーニングや推論フェーズには関与せず、事前知識の欠如によるバイアスや不正確さにつながる可能性がある。 したがって、これは初めて、専門家をループに留めながら、新しい条件付き変数選択アプローチを設計することを目的としている。 このようにして、我々のアルゴリズムは、特定の専門家の知識の下で最も重要な変数を特定するために、より効率的かつ効果的に訓練されることを期待する。 産業からの合成データセットと実世界のデータセットの併用実験を行い,本手法の有効性を示した。

Post-silicon validation is one of the most critical processes in modern semiconductor manufacturing. Specifically, correct and deep understanding in test cases of manufactured devices is key to enable post-silicon tuning and debugging. This analysis is typically performed by experienced human experts. However, with the fast development in semiconductor industry, test cases can contain hundreds of variables. The resulting high-dimensionality poses enormous challenges to experts. Thereby, some recent prior works have introduced data-driven variable selection algorithms to tackle these problems and achieved notable success. Nevertheless, for these methods, experts are not involved in training and inference phases, which may lead to bias and inaccuracy due to the lack of prior knowledge. Hence, this work for the first time aims to design a novel conditional variable selection approach while keeping experts in the loop. In this way, we expect that our algorithm can be more efficiently and effectively trained to identify the most critical variables under certain expert knowledge. Extensive experiments on both synthetic and real-world datasets from industry have been conducted and shown the effectiveness of our method.
翻訳日:2022-10-03 16:08:42 公開日:2022-09-30
# 高次ニューラル付加モデル:特徴相互作用を持つ解釈可能な機械学習モデル

Higher-order Neural Additive Models: An Interpretable Machine Learning Model with Feature Interactions ( http://arxiv.org/abs/2209.15409v1 )

ライセンス: Link先を確認
Minkyu Kim, Hyun-Soo Choi, Jinho Kim(参考訳) 深層ニューラルネットワークのようなブラックボックスモデルは優れた予測性能を示すが、その振る舞いを理解することは極めて難しい。 多くの説明可能な人工知能手法がブラックボックスモデルの意思決定過程を明らかにするために提案されている。 しかし、高機能ドメインでの応用は限られている。 最近提案されたニューラル加算モデル(NAM)は、最先端の解釈可能な機械学習を実現している。 NAMは、多層パーセプトロンと比較して、わずかな性能犠牲を伴う簡単な解釈を提供することができる。 しかし、NAMは1$^{\text{st}}$-order機能相互作用しかモデル化できないため、入力特徴間のコリレーションをキャプチャすることはできない。 この問題を解決するために,高次ニューラル加算モデル (HONAM) と呼ばれる新しい解釈可能な機械学習手法と高解釈性のための特徴相互作用法を提案する。 HONAMは機能相互作用の任意の順序をモデル化できる。 したがって、高スループットドメインが必要とする高い予測性能と解釈性を提供することができる。 さらに,シャープ形状関数を効果的に学習する新しい隠れ単位を提案する。 我々は,HONAMの有効性を調べるために,実世界の様々なデータセットを用いて実験を行った。 さらに,HONAMがパフォーマンスを犠牲にして公平なAIを実現することを実証した。 HONAMのソースコードは公開されている。

Black-box models, such as deep neural networks, exhibit superior predictive performances, but understanding their behavior is notoriously difficult. Many explainable artificial intelligence methods have been proposed to reveal the decision-making processes of black box models. However, their applications in high-stakes domains remain limited. Recently proposed neural additive models (NAM) have achieved state-of-the-art interpretable machine learning. NAM can provide straightforward interpretations with slight performance sacrifices compared with multi-layer perceptron. However, NAM can only model 1$^{\text{st}}$-order feature interactions; thus, it cannot capture the co-relationships between input features. To overcome this problem, we propose a novel interpretable machine learning method called higher-order neural additive models (HONAM) and a feature interaction method for high interpretability. HONAM can model arbitrary orders of feature interactions. Therefore, it can provide the high predictive performance and interpretability that high-stakes domains need. In addition, we propose a novel hidden unit to effectively learn sharp-shape functions. We conducted experiments using various real-world datasets to examine the effectiveness of HONAM. Furthermore, we demonstrate that HONAM can achieve fair AI with a slight performance sacrifice. The source code for HONAM is publicly available.
翻訳日:2022-10-03 16:08:16 公開日:2022-09-30
# tabddpm: 拡散モデルを用いた表データモデリング

TabDDPM: Modelling Tabular Data with Diffusion Models ( http://arxiv.org/abs/2209.15421v1 )

ライセンス: Link先を確認
Akim Kotelnikov, Dmitry Baranchuk, Ivan Rubachev, Artem Babenko(参考訳) 離散拡散確率モデルは現在、多くの重要なデータモダリティの生成モデリングの主要なパラダイムとなっている。 コンピュータビジョンコミュニティでもっとも普及している拡散モデルは、音声、NLP、グラフのようなデータを含む他の領域でも最近注目を集めている。 本研究では,データポイントを不均質な特徴のベクトルとして表わす一般的な表問題に対して,拡散モデルの枠組みが有利であるかどうかを検討する。 表データの固有の不均一性は、個々の特徴が全く異なる性質、すなわちそれらのいくつかは連続的であり、いくつかの特徴は離散的であるため、正確なモデリングでは極めて困難である。 このようなデータ型に対処するために、タブ形式のデータセットに普遍的に適用でき、あらゆるタイプの機能を扱うことができる拡散モデルであるTabDDPMを紹介します。 我々は,TabDDPMを広範囲なベンチマークで評価し,既存のGAN/VAE代替よりも優れていることを示す。 さらに、TabDDPMは、元のデータポイントを公開できないプライバシー指向のセットアップに適していることを示す。

Denoising diffusion probabilistic models are currently becoming the leading paradigm of generative modeling for many important data modalities. Being the most prevalent in the computer vision community, diffusion models have also recently gained some attention in other domains, including speech, NLP, and graph-like data. In this work, we investigate if the framework of diffusion models can be advantageous for general tabular problems, where datapoints are typically represented by vectors of heterogeneous features. The inherent heterogeneity of tabular data makes it quite challenging for accurate modeling, since the individual features can be of completely different nature, i.e., some of them can be continuous and some of them can be discrete. To address such data types, we introduce TabDDPM -- a diffusion model that can be universally applied to any tabular dataset and handles any type of feature. We extensively evaluate TabDDPM on a wide set of benchmarks and demonstrate its superiority over existing GAN/VAE alternatives, which is consistent with the advantage of diffusion models in other fields. Additionally, we show that TabDDPM is eligible for privacy-oriented setups, where the original datapoints cannot be publicly shared.
翻訳日:2022-10-03 16:07:59 公開日:2022-09-30
# 説明可能な検閲学習--生存予測のための長期予後値を用いた批判的特徴の探索

Explainable Censored Learning: Finding Critical Features with Long Term Prognostic Values for Survival Prediction ( http://arxiv.org/abs/2209.15450v1 )

ライセンス: Link先を確認
Xinxing Wu, Chong Peng, Richard Charnigo, Qiang Cheng(参考訳) 生存時間に関連する複雑な生物学的過程に関わる重要な変数の解釈は、生存モデルからの予測を理解し、治療の有効性を評価し、患者に対する新しい治療を開発するのに役立つ。 現在、ディープラーニング(DL)ベースのモデルの予測結果は、標準的な生存方法よりも優れているか、あるいは優れているが、その透明性の欠如と、臨床応用において重要な解釈可能性の欠如により無視されることが多い。 本稿では,重要な変数を反復的に活用し,これらの変数に基づいた(DL)モデルトレーニングを同時に実施するための,Explainable CEnsored Learning (EXCEL)と呼ばれる,新しいデプロイ可能なアプローチを提案する。 First, on a toy dataset, we illustrate the principle of EXCEL; then, we mathematically analyze our proposed method, and we derive and prove tight generalization error bounds; next, on two semi-synthetic datasets, we show that EXCEL has good anti-noise ability and stability; finally, we apply EXCEL to a variety of real-world survival datasets including clinical data and genetic data, demonstrating that EXCEL can effectively identify critical features and achieve performance on par with or better than the original models. EXCELは、既存のモデルや新興モデルに柔軟に展開され、正しい検閲が存在する場合の生存データを説明できる。

Interpreting critical variables involved in complex biological processes related to survival time can help understand prediction from survival models, evaluate treatment efficacy, and develop new therapies for patients. Currently, the predictive results of deep learning (DL)-based models are better than or as good as standard survival methods, they are often disregarded because of their lack of transparency and little interpretability, which is crucial to their adoption in clinical applications. In this paper, we introduce a novel, easily deployable approach, called EXplainable CEnsored Learning (EXCEL), to iteratively exploit critical variables and simultaneously implement (DL) model training based on these variables. First, on a toy dataset, we illustrate the principle of EXCEL; then, we mathematically analyze our proposed method, and we derive and prove tight generalization error bounds; next, on two semi-synthetic datasets, we show that EXCEL has good anti-noise ability and stability; finally, we apply EXCEL to a variety of real-world survival datasets including clinical data and genetic data, demonstrating that EXCEL can effectively identify critical features and achieve performance on par with or better than the original models. It is worth pointing out that EXCEL is flexibly deployed in existing or emerging models for explainable survival data in the presence of right censoring.
翻訳日:2022-10-03 16:07:40 公開日:2022-09-30
# コントラスト型自己教師型学習のためのスリムネットワーク

Slimmable Networks for Contrastive Self-supervised Learning ( http://arxiv.org/abs/2209.15525v1 )

ライセンス: Link先を確認
Shuai Zhao, Xiaohan Wang, Linchao Zhu, Yi Yang(参考訳) 自己教師型学習は、大きなモデルの事前トレーニングにおいて大きな進歩を遂げるが、小さなモデルのトレーニングに苦しむ。 この問題に対する従来の解決策は、主に知識蒸留に依存しており、実際は2段階の学習手順がある: まず、大きな教師モデルを訓練し、次にそれを蒸留して、小さな教師の一般化能力を向上させる。 そこで本研究では,教師を必要とせずに事前学習した小モデルを得るための,新しい一段階のソリューションを提案する。 スリム化可能なネットワークは、フルネットワークと複数の重み共有サブネットワークを含む。 我々は1回だけ事前訓練を行い、計算コストの低い小さなネットワークを含む様々なネットワークを得ることができる。 しかし、自己監督の場合、重み共有ネットワーク間の干渉は深刻な性能低下につながる。 この干渉の1つの証拠は \emph{gradient imbalance} である: 少数のパラメータがバックプロパゲーション中に支配的な勾配を生成し、メインパラメータが完全に最適化されない可能性がある。 様々なネットワークの勾配方向のばらつきもネットワーク間の干渉を引き起こす可能性がある。 これらの課題を克服するため,本手法は,サブネットワークのスロースタートトレーニング,オンライン蒸留,モデルサイズに応じた損失再重み付けという3つの手法を用いて,主要なパラメータに支配的な勾配を生じさせる。 また、重み付け線形層の干渉を避けるため、線形評価中に切換え可能な線形プローブ層を適用した。 典型的なコントラスト学習フレームワークでSlimCLRをインスタンス化し、パラメータやFLOPが少ない従来の手法よりも優れたパフォーマンスを実現する。

Self-supervised learning makes great progress in large model pre-training but suffers in training small models. Previous solutions to this problem mainly rely on knowledge distillation and indeed have a two-stage learning procedure: first train a large teacher model, then distill it to improve the generalization ability of small ones. In this work, we present a new one-stage solution to obtain pre-trained small models without extra teachers: slimmable networks for contrastive self-supervised learning (\emph{SlimCLR}). A slimmable network contains a full network and several weight-sharing sub-networks. We can pre-train for only one time and obtain various networks including small ones with low computation costs. However, in self-supervised cases, the interference between weight-sharing networks leads to severe performance degradation. One evidence of the interference is \emph{gradient imbalance}: a small proportion of parameters produces dominant gradients during backpropagation, and the main parameters may not be fully optimized. The divergence in gradient directions of various networks may also cause interference between networks. To overcome these problems, we make the main parameters produce dominant gradients and provide consistent guidance for sub-networks via three techniques: slow start training of sub-networks, online distillation, and loss re-weighting according to model sizes. Besides, a switchable linear probe layer is applied during linear evaluation to avoid the interference of weight-sharing linear layers. We instantiate SlimCLR with typical contrastive learning frameworks and achieve better performance than previous arts with fewer parameters and FLOPs.
翻訳日:2022-10-03 16:01:49 公開日:2022-09-30
# より安全で均等でない: セキュリティ閾値に沿った深い顔認識の性別と民族性(un)

The More Secure, The Less Equally Usable: Gender and Ethnicity (Un)fairness of Deep Face Recognition along Security Thresholds ( http://arxiv.org/abs/2209.15550v1 )

ライセンス: Link先を確認
Andrea Atzori, Gianni Fenu, Mirko Marras(参考訳) 顔のバイオメトリックスは、現代のスマートシティアプリケーションをより安全で使いやすいものにする上で重要な役割を担っている。 一般的に、検討されたユースケースのセキュリティの程度に基づいて、顔認識システムの認識しきい値を調整する。 例えば、支払トランザクション検証時に高い閾値を設定することにより、マッチの可能性を低減することができる。 顔認識における以前の研究は、一部の人口集団ではエラー率が通常高いことを示した。 これらの格差は、顔バイオメトリックスで付与されたシステムの公平性に疑問を呈している。 本稿では,異なるセキュリティレベルにおいて,集団間の格差がどの程度変化するかを検討する。 分析には、10種類の顔認識モデル、3つのセキュリティしきい値、性別と民族に基づく6つの人口統計グループが含まれる。 実験により、システムのセキュリティが高いほど、人口集団間のユーザビリティの格差が高くなることが示された。 したがって、不公平な問題に対処し、厳重なセキュリティレベルを必要とする現実世界のハイテイク環境に対策を促す。

Face biometrics are playing a key role in making modern smart city applications more secure and usable. Commonly, the recognition threshold of a face recognition system is adjusted based on the degree of security for the considered use case. The likelihood of a match can be for instance decreased by setting a high threshold in case of a payment transaction verification. Prior work in face recognition has unfortunately showed that error rates are usually higher for certain demographic groups. These disparities have hence brought into question the fairness of systems empowered with face biometrics. In this paper, we investigate the extent to which disparities among demographic groups change under different security levels. Our analysis includes ten face recognition models, three security thresholds, and six demographic groups based on gender and ethnicity. Experiments show that the higher the security of the system is, the higher the disparities in usability among demographic groups are. Compelling unfairness issues hence exist and urge countermeasures in real-world high-stakes environments requiring severe security levels.
翻訳日:2022-10-03 16:01:25 公開日:2022-09-30
# アフィニティに基づく知識蒸留の統一観に向けて

Towards a Unified View of Affinity-Based Knowledge Distillation ( http://arxiv.org/abs/2209.15555v1 )

ライセンス: Link先を確認
Vladimir Li and Atsuto Maki(参考訳) ニューラルネットワーク間の知識伝達は、ディープラーニングにおいて重要なトピックとなっている。 オープンな質問には、転送のためにどのような知識を保存する必要があるか、どのように効果的に達成できるか、などが含まれている。 近年,関係知識を用いた蒸留法の性能が向上している。 これらのアルゴリズムは単純なサンプル間の類似性に基づいており、非常に魅力的である。 それでも、この文脈における親和性とそれの使用の適切な計量はよく理解されていない。 本稿では,知識蒸留をアフィニティ,正規化,損失の3成分からなる枠組みに明示的にモジュール化することにより,これらのアルゴリズムを統一的に処理し,モジュールの未探索な組み合わせについて検討する。 この枠組みにより, 画像分類のための多数の蒸留目標の広範な評価を行い, 設計選択に有効な知見を得た上で, 単純さにもかかわらず, 関係に基づく知識蒸留が技術水準に匹敵する性能を達成できることを実証した。

Knowledge transfer between artificial neural networks has become an important topic in deep learning. Among the open questions are what kind of knowledge needs to be preserved for the transfer, and how it can be effectively achieved. Several recent work have shown good performance of distillation methods using relation-based knowledge. These algorithms are extremely attractive in that they are based on simple inter-sample similarities. Nevertheless, a proper metric of affinity and use of it in this context is far from well understood. In this paper, by explicitly modularising knowledge distillation into a framework of three components, i.e. affinity, normalisation, and loss, we give a unified treatment of these algorithms as well as study a number of unexplored combinations of the modules. With this framework we perform extensive evaluations of numerous distillation objectives for image classification, and obtain a few useful insights for effective design choices while demonstrating how relation-based knowledge distillation could achieve comparable performance to the state of the art in spite of the simplicity.
翻訳日:2022-10-03 16:01:11 公開日:2022-09-30
# Bias Mimicking: Bias緩和のための簡単なサンプリングアプローチ

Bias Mimicking: A Simple Sampling Approach for Bias Mitigation ( http://arxiv.org/abs/2209.15605v1 )

ライセンス: Link先を確認
Maan Qraitem, Kate Saenko, Bryan A. Plummer(参考訳) 以前の研究によると、視覚認識データセットは、カテゴリ (\eg Programmers) 内で、しばしば過小評価されるグループ (\eg Women) である。 このデータセットバイアスは、クラスラベルと年齢、性別、人種などのセンシティブな属性の間の急激な相関を学習するモデルにつながる可能性がある。 この問題に対処する最近の手法のほとんどは、重要なアーキテクチャ変更や高価なハイパーパラメータチューニングを必要とする。 あるいは、クラス不均衡の文献(\eg Undersampling, Upweighting)からのデータ再サンプリングのベースラインは、1行のコードで実装され、ハイパーパラメータを持たないことが多いため、より安価で効率的なソリューションを提供する。 しかし、最近のバイアス緩和ベンチマークでは、これらのベースラインのいくつかが欠落していることがわかった。 本稿では,これらの単純な手法が,多くのデータセットにおける最先端バイアス緩和手法と著しく競合していることを示す。 さらに,新しいクラス条件付きサンプリング手法を導入することで,これらの手法を改良する。 ベースラインデータセットの再サンプリングがうまく機能しない場合、バイアス模倣はパフォーマンスギャップを効果的に橋渡しし、未表示のサブグループの合計平均精度を以前の作業と比較して3〜%以上向上させる。

Prior work has shown that Visual Recognition datasets frequently under-represent sensitive groups (\eg Female) within a category (\eg Programmers). This dataset bias can lead to models that learn spurious correlations between class labels and sensitive attributes such as age, gender, or race. Most of the recent methods that address this problem require significant architectural changes or expensive hyper-parameter tuning. Alternatively, data re-sampling baselines from the class imbalance literature (\eg Undersampling, Upweighting), which can often be implemented in a single line of code and often have no hyperparameters, offer a cheaper and more efficient solution. However, we found that some of these baselines were missing from recent bias mitigation benchmarks. In this paper, we show that these simple methods are strikingly competitive with state-of-the-art bias mitigation methods on many datasets. Furthermore, we improve these methods by introducing a new class conditioned sampling method: Bias Mimicking. In cases where the baseline dataset re-sampling methods do not perform well, Bias Mimicking effectively bridges the performance gap and improves the total averaged accuracy of under-represented subgroups by over $3\%$ compared to prior work.
翻訳日:2022-10-03 16:00:53 公開日:2022-09-30
# 幾何アウェア判別器による3次元アウェア画像合成の改善

Improving 3D-aware Image Synthesis with A Geometry-aware Discriminator ( http://arxiv.org/abs/2209.15637v1 )

ライセンス: Link先を確認
Zifan Shi, Yinghao Xu, Yujun Shen, Deli Zhao, Qifeng Chen, Dit-Yan Yeung(参考訳) 3D対応画像合成は、画像のリアルな2D画像の描画が可能な生成モデルを学ぶことを目的としている。 一般的な解決策は、生成逆数ネットワーク(GAN)を採用し、3Dレンダラーに置き換えることである。 合成品質が向上したにもかかわらず、既存の方法では適度な3次元形状が得られなかった。 GANの定式化における2プレイヤーゲームを考えると、ジェネレータの3D認識だけでは不十分である。 言い換えれば、ジェネレータの監督は、主に判別器から行われるため、生成機構を廃止することは、3D認識画像の生成能力のみを提供するが、保証は提供しない。 この問題に対処するため,幾何学的識別器の学習を通じてGeoDを提案する。 具体的には、2次元画像空間から実検体と偽検体を区別する以外に、識別器に入力から幾何学情報を導出するよう依頼し、生成装置のガイダンスとして適用する。 このようなシンプルで効果的な設計は、より正確な3d形状の学習を容易にする。 さまざまなジェネレータアーキテクチャとトレーニングデータセットに関する広範な実験は、最先端の代替品よりもgeodが優れていることを検証している。 さらに,本手法は,より有能な判別器(ドメイン分類や幾何抽出以外の新しいビュー合成のタスク)が,より優れたマルチビュー整合性を持つジェネレータを補助する,汎用的な枠組みとして登録されている。

3D-aware image synthesis aims at learning a generative model that can render photo-realistic 2D images while capturing decent underlying 3D shapes. A popular solution is to adopt the generative adversarial network (GAN) and replace the generator with a 3D renderer, where volume rendering with neural radiance field (NeRF) is commonly used. Despite the advancement of synthesis quality, existing methods fail to obtain moderate 3D shapes. We argue that, considering the two-player game in the formulation of GANs, only making the generator 3D-aware is not enough. In other words, displacing the generative mechanism only offers the capability, but not the guarantee, of producing 3D-aware images, because the supervision of the generator primarily comes from the discriminator. To address this issue, we propose GeoD through learning a geometry-aware discriminator to improve 3D-aware GANs. Concretely, besides differentiating real and fake samples from the 2D image space, the discriminator is additionally asked to derive the geometry information from the inputs, which is then applied as the guidance of the generator. Such a simple yet effective design facilitates learning substantially more accurate 3D shapes. Extensive experiments on various generator architectures and training datasets verify the superiority of GeoD over state-of-the-art alternatives. Moreover, our approach is registered as a general framework such that a more capable discriminator (i.e., with a third task of novel view synthesis beyond domain classification and geometry extraction) can further assist the generator with a better multi-view consistency.
翻訳日:2022-10-03 16:00:32 公開日:2022-09-30
# F-VLM:凍結視覚と言語モデルを用いた開語彙オブジェクト検出

F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language Models ( http://arxiv.org/abs/2209.15639v1 )

ライセンス: Link先を確認
Weicheng Kuo, Yin Cui, Xiuye Gu, AJ Piergiovanni, Anelia Angelova(参考訳) F-VLMは,凍結視覚と言語モデルに基づくシンプルなオープン語彙オブジェクト検出手法である。 F-VLMは知識蒸留や検出調整事前訓練の必要性を排除し、現在の多段階訓練パイプラインを単純化する。 驚いたことに、私たちは凍結したVLMを観察しました。 1)検出に必要な局所性に敏感な特徴を保持し、 2)は強い領域分類器である。 我々は検出器ヘッドのみを微調整し、各領域のVLM出力を推論時に組み合わせる。 F-VLMは、拡張性のある振る舞いを示し、LVISオープン語彙検出ベンチマークの新たなカテゴリにおいて、従来の技術よりも+6.5マスクAPの改善を実現している。 さらに,coco open-vocabulary detection benchmark とcross-dataset transfer detection で非常に競争力のある結果を示すとともに,大幅なトレーニングスピードアップと計算の節約も示した。 コードはリリースされる。

We present F-VLM, a simple open-vocabulary object detection method built upon Frozen Vision and Language Models. F-VLM simplifies the current multi-stage training pipeline by eliminating the need for knowledge distillation or detection-tailored pretraining. Surprisingly, we observe that a frozen VLM: 1) retains the locality-sensitive features necessary for detection, and 2) is a strong region classifier. We finetune only the detector head and combine the detector and VLM outputs for each region at inference time. F-VLM shows compelling scaling behavior and achieves +6.5 mask AP improvement over the previous state of the art on novel categories of LVIS open-vocabulary detection benchmark. In addition, we demonstrate very competitive results on COCO open-vocabulary detection benchmark and cross-dataset transfer detection, in addition to significant training speed-up and compute savings. Code will be released.
翻訳日:2022-10-03 16:00:04 公開日:2022-09-30
# 拡大領域差による不調和領域の局在

Inharmonious Region Localization by Magnifying Domain Discrepancy ( http://arxiv.org/abs/2209.15368v1 )

ライセンス: Link先を確認
Jing Liang, Li Niu, Penghao Wu, Fengjun Guo, Teng Long(参考訳) 不調和な領域局在は、周囲の背景と相容れない合成画像に領域を局在化することを目的としている。 この不調和問題は、主に画像編集技術による色と照明の不整合に起因する。 本研究では,入力画像から別の色空間へ変換し,非調和領域と背景の領域差を拡大し,不調和領域をより容易に識別する手法を提案する。 そこで本研究では,カラーマッピングモジュールと非調和領域局在化ネットワークからなる新しい枠組みを提案する。 画像調和データセットに関する大規模な実験は、我々の設計したフレームワークの優位性を示している。 私たちのコードはhttps://github.com/bcmi/MadisNet-Inharmonious-Region-Localizationで利用可能です。

Inharmonious region localization aims to localize the region in a synthetic image which is incompatible with surrounding background. The inharmony issue is mainly attributed to the color and illumination inconsistency produced by image editing techniques. In this work, we tend to transform the input image to another color space to magnify the domain discrepancy between inharmonious region and background, so that the model can identify the inharmonious region more easily. To this end, we present a novel framework consisting of a color mapping module and an inharmonious region localization network, in which the former is equipped with a novel domain discrepancy magnification loss and the latter could be an arbitrary localization network. Extensive experiments on image harmonization dataset show the superiority of our designed framework. Our code is available at https://github.com/bcmi/MadisNet-Inharmonious-Region-Localization.
翻訳日:2022-10-03 15:52:31 公開日:2022-09-30
# プロトタイプ形状による半教師付き単眼3次元再構成

Semi-Supervised Single-View 3D Reconstruction via Prototype Shape Priors ( http://arxiv.org/abs/2209.15383v1 )

ライセンス: Link先を確認
Zhen Xing and Hengduo Li and Zuxuan Wu and Yu-Gang Jiang(参考訳) 既存の単一ビュー3D再構成手法の性能は大規模3Dアノテーションに大きく依存している。 しかし、こうした注釈は退屈で収集に費用がかかる。 半教師付き学習は手動ラベルの必要性を軽減する代替手段として機能するが、3D再構成では未検討である。 半教師付き画像分類タスクの成功に触発されて, 半教師付き3次元再構成フレームワークSSP3Dを提案する。 特に,現実的物体再構成を導くための注意誘導型形状先行モジュールを提案する。 さらに,より優れた形状生成のインセンティブを与える識別器誘導モジュールと,ノイズのトレーニングサンプルを許容する正規化器についても紹介する。 シェープネットのベンチマークでは、提案手法は様々なラベル付け比率(1%、5%、10%、20%)で従来の監督手法よりも優れていた。 さらに,実世界のPix3Dデータセットに10%のラベリング比で転送する場合も良好に動作する。 また,本手法は教師付きデータが少ない新しいカテゴリに移行可能であることを示す。 人気のShapeNetデータセットの実験から,本手法はゼロショットベースラインを12%以上上回り,厳密な改善と分析を行い,アプローチの妥当性を検証した。

The performance of existing single-view 3D reconstruction methods heavily relies on large-scale 3D annotations. However, such annotations are tedious and expensive to collect. Semi-supervised learning serves as an alternative way to mitigate the need for manual labels, but remains unexplored in 3D reconstruction. Inspired by the recent success of semi-supervised image classification tasks, we propose SSP3D, a semi-supervised framework for 3D reconstruction. In particular, we introduce an attention-guided prototype shape prior module for guiding realistic object reconstruction. We further introduce a discriminator-guided module to incentivize better shape generation, as well as a regularizer to tolerate noisy training samples. On the ShapeNet benchmark, the proposed approach outperforms previous supervised methods by clear margins under various labeling ratios, (i.e., 1%, 5% , 10% and 20%). Moreover, our approach also performs well when transferring to real-world Pix3D datasets under labeling ratios of 10%. We also demonstrate our method could transfer to novel categories with few novel supervised data. Experiments on the popular ShapeNet dataset show that our method outperforms the zero-shot baseline by over 12% and we also perform rigorous ablations and analysis to validate our approach.
翻訳日:2022-10-03 15:52:19 公開日:2022-09-30
# 表情認識のための学習パラダイムの再考

Rethinking the Learning Paradigm for Facial Expression Recognition ( http://arxiv.org/abs/2209.15402v1 )

ライセンス: Link先を確認
Weijie Wang, Nicu Sebe and Bruno Lepri(参考訳) 顔表情の主観的なクラウドソーシングアノテーションとクラス間類似性のため、実世界の顔表情認識(FER)データセットは通常曖昧なアノテーションを示す。 学習パラダイムを単純化するために、従来のほとんどの手法は曖昧なアノテーション結果を正確に1ホットのアノテーションに変換し、エンドツーエンドでFERモデルを訓練する。 本稿では,既存の学習パラダイムを再考し,弱い教師付き戦略を用いてオリジナルのあいまいなアノテーションでferモデルを訓練する方がよいと提案する。

Due to the subjective crowdsourcing annotations and the inherent inter-class similarity of facial expressions, the real-world Facial Expression Recognition (FER) datasets usually exhibit ambiguous annotation. To simplify the learning paradigm, most previous methods convert ambiguous annotation results into precise one-hot annotations and train FER models in an end-to-end supervised manner. In this paper, we rethink the existing training paradigm and propose that it is better to use weakly supervised strategies to train FER models with original ambiguous annotation.
翻訳日:2022-10-03 15:51:58 公開日:2022-09-30
# 畳み込みニューラルネットワークを用いた強度値推定によるメラノーマ皮膚癌とNevus Mole分類

Melanoma Skin Cancer and Nevus Mole Classification using Intensity Value Estimation with Convolutional Neural Network ( http://arxiv.org/abs/2209.15465v1 )

ライセンス: Link先を確認
N. I. Md. Ashafuddula, Rafiqul Islam(参考訳) メラノーマ皮膚がんは最も危険で生命を脅かすがんの1つである。 紫外線への曝露は皮膚細胞のDNAを損傷し、メラノーマ皮膚がんを引き起こす。 しかし未熟な段階で黒色腫と母斑を検出・分類することは困難である。 本研究では, 畳み込みニューラルネットワークモデル(CNN)を用いて, 強度値推定に基づいて自動深層学習システムを開発し, メラノーマとネバスモールをより正確に検出・分類する。 強度レベルは被写体や興味識別領域の最も特徴的な特徴であるため、抽出された病変画像から高強度画素値を選択する。 これらの高強度特徴をCNNに組み込むことで、メラノーマ皮膚がんを検出する最先端の方法よりも、提案モデル全体の性能を向上させることができる。 システムの評価には5倍のクロスバリデーションを用いた。 実験の結果,精度 (92.58%), 感度 (93.76%), 特異性 (91.56%), 精度 (90.68%) が得られた。

Melanoma skin cancer is one of the most dangerous and life-threatening cancer. Exposure to ultraviolet rays may damage the skin cell's DNA, which causes melanoma skin cancer. However, it is difficult to detect and classify melanoma and nevus mole at the immature stages. In this work, an automatic deep learning system is developed based on the intensity value estimation with a convolutional neural network model (CNN) to detect and classify melanoma and nevus mole more accurately. Since intensity levels are the most distinctive features for object or region of interest identification, the high-intensity pixel values are selected from the extracted lesion images. Incorporating those high-intensity features into the CNN improves the overall performance of the proposed model than the state-of-the-art methods for detecting melanoma skin cancer. To evaluate the system, we used 5-fold cross-validation. Experimental results show that a superior percentage of accuracy (92.58%), sensitivity (93.76%), specificity (91.56%), and precision (90.68%) are achieved.
翻訳日:2022-10-03 15:51:26 公開日:2022-09-30
# 画像解像度とキャプチャ距離の変化を考慮したオンザフライ境界制御シナリオにおける信頼顔形態検出

Reliable Face Morphing Attack Detection in On-The-Fly Border Control Scenario with Variation in Image Resolution and Capture Distance ( http://arxiv.org/abs/2209.15474v1 )

ライセンス: Link先を確認
Jag Mohan Singh, Raghavendra Ramachandra(参考訳) 顔認識システム(FRS)は、直接間接的に実行される様々な攻撃に対して脆弱である。 これらの攻撃のうち、顔のモーフィング攻撃は自動frsと人間のオブザーバーを欺き、特に国境管理シナリオにおいて深刻なセキュリティの脅威を示す可能性がある。 本研究は,特にOTF(On-The-Fly)自動境界制御(ABC)シナリオにおける顔変形攻撃検出について述べる。 本稿では,6種類の事前学習深部畳み込みニューラルネットワーク(CNN)から計算した球面補間と階層的な深部特徴の融合に基づく新しい微分MADアルゴリズムを提案する。 abcゲート(automatic border control)の実生活シナリオを考慮し,scfaceデータセットに基づく新たな顔形態データセット(scface-morph)について広範な実験を行った。 実験プロトコルは、提案および最先端(SOTA)D-MAD技術を用いて、様々なカメラ解像度と撮影距離をベンチマークするために設計されている。 得られた結果から,提案手法は既存手法に比べて優れた性能を示した。

Face Recognition Systems (FRS) are vulnerable to various attacks performed directly and indirectly. Among these attacks, face morphing attacks are highly potential in deceiving automatic FRS and human observers and indicate a severe security threat, especially in the border control scenario. This work presents a face morphing attack detection, especially in the On-The-Fly (OTF) Automatic Border Control (ABC) scenario. We present a novel Differential-MAD (D-MAD) algorithm based on the spherical interpolation and hierarchical fusion of deep features computed from six different pre-trained deep Convolutional Neural Networks (CNNs). Extensive experiments are carried out on the newly generated face morphing dataset (SCFace-Morph) based on the publicly available SCFace dataset by considering the real-life scenario of Automatic Border Control (ABC) gates. Experimental protocols are designed to benchmark the proposed and state-of-the-art (SOTA) D-MAD techniques for different camera resolutions and capture distances. Obtained results have indicated the superior performance of the proposed D-MAD method compared to the existing methods.
翻訳日:2022-10-03 15:51:08 公開日:2022-09-30
# 顔画像品質推定がプレゼンテーションアタック検出に及ぼす影響

Impact of Face Image Quality Estimation on Presentation Attack Detection ( http://arxiv.org/abs/2209.15489v1 )

ライセンス: Link先を確認
Carlos Aravena, Diego Pasmino, Juan E. Tapia, and Christoph Busch(参考訳) 非参照顔画像品質評価法は、顔認識システムにおける事前フィルタリングステップとして人気を集めている。 たいていの場合、品質スコアは顔の一致を念頭に置いて設計されている。 しかし, 提示攻撃検出(PAD)における影響と有用性を評価するために, 少数の研究がなされている。 本稿では,ボナファイドおよび攻撃サンプルのフィルタリングに対する品質評価手法の効果,PADシステムへの影響,および,フィルタリングされた(品質による)データセットのトレーニングにおいて,そのようなシステムの性能が向上するかを検討する。 Vision Transformer PADアルゴリズムでは、低品質のサンプルを除去することでトレーニングデータセットの20%を削減し、クロスデータセットテストでBPCERを3%改善することができた。

Non-referential face image quality assessment methods have gained popularity as a pre-filtering step on face recognition systems. In most of them, the quality score is usually designed with face matching in mind. However, a small amount of work has been done on measuring their impact and usefulness on Presentation Attack Detection (PAD). In this paper, we study the effect of quality assessment methods on filtering bona fide and attack samples, their impact on PAD systems, and how the performance of such systems is improved when training on a filtered (by quality) dataset. On a Vision Transformer PAD algorithm, a reduction of 20% of the training dataset by removing lower quality samples allowed us to improve the BPCER by 3% in a cross-dataset test.
翻訳日:2022-10-03 15:50:52 公開日:2022-09-30
# 顔偽検出のための第2次局所異常学習

Learning Second Order Local Anomaly for General Face Forgery Detection ( http://arxiv.org/abs/2209.15490v1 )

ライセンス: Link先を確認
Jianwei Fei, Yunshu Dai, Peipeng Yu, Tianrun Shen, Zhihua Xia, Jian Weng(参考訳) 本研究では,cnnベースの顔偽造検出器の一般化能力を向上させる新しい手法を提案する。 本手法は,顔偽造アルゴリズムのブレンディング操作によって生じる偽造顔の特徴的異常を考察する。 具体的には,深層特徴マップを用いて局所的な異常をマイニングするための,弱教師付き2次局所異常学習モジュールを提案する。 SOLAはまず、異なる方向と距離で局所特徴の近傍を分解し、次に分類器のより一般的な偽トレースを提供する第1および第2の局所異常写像を計算する。 また,実領域と鍛造領域の局所特徴の識別を改善し,異常の計算精度を確保するための局所拡張モジュール(lem)を提案する。 さらに、学習可能なハイパスフィルタによる微妙なノイズ特徴のマイニングを支援するために、改良された適応空間リッチモデル(ASRM)が導入された。 画素レベルのアノテーションも外部合成データも使用せず、単純なResNet18バックボーンを用いた手法は、見えない偽造品で評価した場合の最先端処理と比較して、競争性能が向上する。

In this work, we propose a novel method to improve the generalization ability of CNN-based face forgery detectors. Our method considers the feature anomalies of forged faces caused by the prevalent blending operations in face forgery algorithms. Specifically, we propose a weakly supervised Second Order Local Anomaly (SOLA) learning module to mine anomalies in local regions using deep feature maps. SOLA first decomposes the neighborhood of local features by different directions and distances and then calculates the first and second order local anomaly maps which provide more general forgery traces for the classifier. We also propose a Local Enhancement Module (LEM) to improve the discrimination between local features of real and forged regions, so as to ensure accuracy in calculating anomalies. Besides, an improved Adaptive Spatial Rich Model (ASRM) is introduced to help mine subtle noise features via learnable high pass filters. With neither pixel level annotations nor external synthetic data, our method using a simple ResNet18 backbone achieves competitive performances compared with state-of-the-art works when evaluated on unseen forgeries.
翻訳日:2022-10-03 15:50:40 公開日:2022-09-30
# 授業映像のセグメンテーションにおける時間順のクローズアップ

A Closer Look at Temporal Ordering in the Segmentation of Instructional Videos ( http://arxiv.org/abs/2209.15501v1 )

ライセンス: Link先を確認
Anil Batra, Shreyank Gowda, Laura Sevilla-Lara, Frank Keller(参考訳) タスクを実行するために必要なステップを理解することは、AIシステムにとって重要なスキルである。 授業ビデオからこれらのステップを学ぶには、以下の2つのサブプロブレムがある。 (i)順次発生するセグメントの時間的境界を特定すること、及び (ii)これらのステップを自然言語で要約する。 我々は、このタスクをプロシージャセグメンテーションと要約(PSS)と呼ぶ。 本稿では,pssを詳細に検討し,現在の手法に対する3つの基本的な改善を提案する。 正しい要約を生成するには、最初に識別するステップが必要であるため、セグメンテーションタスクは重要です。 しかしながら、現在のセグメンテーション指標は、しばしばセグメントの時間順序を含まないため、セグメンテーションの品質を過大評価する。 本稿では,セグメントの順序を考慮した動的プログラミングに基づく新しいセグメンテーションメトリックを提案する。 現在のPSS法は一般的にセグメントを提案し、それらを基礎的な真実とマッチングし、損失を計算することによって訓練される。 しかし、セグメンテーションメトリクスと同様に、既存のマッチングアルゴリズムは候補セグメントと基底真理の間のマッピングの時間順序を考慮しない。 本稿では,セグメントマッピングの時間順序を制約し,微分可能なマッチングアルゴリズムを提案する。 最後に,pssのマルチモーダル機能トレーニングを導入し,セグメンテーションをさらに改善する。 我々は,2つの指導ビデオデータセット(YouCook2とTasty)に対するアプローチを評価し,プロシージャセグメンテーションとサマリゼーションのマージンを$\sim7\%$と$\sim2.5\%$で改善した。

Understanding the steps required to perform a task is an important skill for AI systems. Learning these steps from instructional videos involves two subproblems: (i) identifying the temporal boundary of sequentially occurring segments and (ii) summarizing these steps in natural language. We refer to this task as Procedure Segmentation and Summarization (PSS). In this paper, we take a closer look at PSS and propose three fundamental improvements over current methods. The segmentation task is critical, as generating a correct summary requires the step to be identified first. However, current segmentation metrics often overestimate the segmentation quality because they do not incorporate the temporal order of segments. We propose a new segmentation metric based on dynamic programming that takes into account the order of segments. Current PSS methods are typically trained by proposing segments, matching them with the ground truth and computing a loss. However, much like segmentation metrics, existing matching algorithms do not consider the temporal order of the mapping between candidate segments and the ground truth. We propose a matching algorithm that constrains the temporal order of segment mapping, and is also differentiable. Lastly, we introduce multi-modal feature training for PSS, which further improves segmentation. We evaluate our approach on two instructional video datasets (YouCook2 and Tasty) and improve the state of the art by a margin of $\sim7\%$ and $\sim2.5\%$ for procedure segmentation and summarization, respectively.
翻訳日:2022-10-03 15:50:23 公開日:2022-09-30
# 事前学習型視覚言語モデルを用いた医用画像理解 : 総合的研究

Medical Image Understanding with Pretrained Vision Language Models: A Comprehensive Study ( http://arxiv.org/abs/2209.15517v1 )

ライセンス: Link先を確認
Ziyuan Qin, Huahui Yi, Qicheng Lao, Kang Li(参考訳) vlm(large-scale pre-trained vision language models)は自然画像上でのドメイン転送能力を示す。 しかし、この能力が医用画像領域にも適用できるかどうかは不明である。 本稿では,事前訓練VLMの医用領域への知識伝達可能性について,十分に設計された医用プロンプトが,事前訓練VLMから知識を引き出す鍵であることを示す。 本稿では,ドメイン間で共有される表現的属性によって,VLMがドメイン間の知識を伝達し,その一般化を改善することを実証する。 このメカニズムにより、VLMは画像サンプルが少なくても新しいオブジェクトを認識することができる。 さらに, 精巧な手動設計プロセスを避けるために, 専門家レベルの医療知識と画像特異的情報を微粒な接地プロンプトに注入する医療プロンプトの自動生成のための3つのアプローチを開発した。 我々は,13種類の医療用データセットを様々なモードにまたがって広範な実験を行い,我々の設計したプロンプトが,デフォルトプロンプトに比べてゼロショット性能を大幅に改善し,微調整されたモデルが教師ありモデルを大幅に上回ったことを示した。

The large-scale pre-trained vision language models (VLM) have shown remarkable domain transfer capability on natural images. However, it remains unknown whether this capability can also apply to the medical image domain. This paper thoroughly studies the knowledge transferability of pre-trained VLMs to the medical domain, where we show that well-designed medical prompts are the key to elicit knowledge from pre-trained VLMs. We demonstrate that by prompting with expressive attributes that are shared between domains, the VLM can carry the knowledge across domains and improve its generalization. This mechanism empowers VLMs to recognize novel objects with fewer or without image samples. Furthermore, to avoid the laborious manual designing process, we develop three approaches for automatic generation of medical prompts, which can inject expert-level medical knowledge and image-specific information into the prompts for fine-grained grounding. We conduct extensive experiments on thirteen different medical datasets across various modalities, showing that our well-designed prompts greatly improve the zero-shot performance compared to the default prompts, and our fine-tuned models surpass the supervised models by a significant margin.
翻訳日:2022-10-03 15:49:56 公開日:2022-09-30
# コンピュータービジョンを覆す物理的な敵の攻撃:10年間の調査

Physical Adversarial Attack meets Computer Vision: A Decade Survey ( http://arxiv.org/abs/2209.15179v1 )

ライセンス: Link先を確認
Hui Wei, Hao Tang, Xuemei Jia, Hanxun Yu, Zhubo Li, Zhixiang Wang, Shin'ichi Satoh, Zheng Wang(参考訳) Deep Neural Networks(DNN)はコンピュータビジョンにおいて印象的な成果を上げているが、敵の攻撃に対する脆弱性は依然として深刻な懸念である。 一連の研究により、画像に精巧な摂動を加えることで、DNNはパフォーマンス指標の破滅的な劣化を引き起こす可能性があることが示されている。 この現象はデジタル空間だけでなく、物理空間にも存在している。 したがって、これらのdnnsベースのシステムのセキュリティを推定することは、特に自動運転車、ビデオ監視、医療診断のようなセキュリティクリティカルなアプリケーションにおいて、現実世界に安全に配置するために重要である。 本稿では,身体的敵意攻撃に着目し,既存の150以上の論文を総合的に調査する。 まず,身体的敵意攻撃の概念を明らかにし,その特性を分析する。 次に、物理的な世界で攻撃を行うのに不可欠な敵媒体を定義する。 次に,物理的な敵対的攻撃手法である分類,検出,再同定をタスク順に提示し,その効果をトリレンマ(有効性,ステルス性,堅牢性)で紹介する。 最後に,現在の課題と今後の方向性について論じる。

Although Deep Neural Networks (DNNs) have achieved impressive results in computer vision, their exposed vulnerability to adversarial attacks remains a serious concern. A series of works has shown that by adding elaborate perturbations to images, DNNs could have catastrophic degradation in performance metrics. And this phenomenon does not only exist in the digital space but also in the physical space. Therefore, estimating the security of these DNNs-based systems is critical for safely deploying them in the real world, especially for security-critical applications, e.g., autonomous cars, video surveillance, and medical diagnosis. In this paper, we focus on physical adversarial attacks and provide a comprehensive survey of over 150 existing papers. We first clarify the concept of the physical adversarial attack and analyze its characteristics. Then, we define the adversarial medium, essential to perform attacks in the physical world. Next, we present the physical adversarial attack methods in task order: classification, detection, and re-identification, and introduce their performance in solving the trilemma: effectiveness, stealthiness, and robustness. In the end, we discuss the current challenges and potential future directions.
翻訳日:2022-10-03 15:44:14 公開日:2022-09-30
# マルチプロンプトアライメントによるマルチソース非教師なしドメイン適応

Multi-Prompt Alignment for Multi-source Unsupervised Domain Adaptation ( http://arxiv.org/abs/2209.15210v1 )

ライセンス: Link先を確認
Haoran Chen, Zuxuan Wu, Yu-Gang Jiang(参考訳) 既存のUDA(Multi-source unsupervised domain adaptation)の手法は、共通機能エンコーダを使ってドメイン不変の特徴を抽出する。 しかし、そのようなエンコーダを学習するにはネットワーク全体のパラメータを更新することが必要であり、特にmin-maxの目的と組み合わせると最適化は計算コストが高くなる。 計算的経済的な方法で下流タスクに高容量の深層モデルを適用する、近年の学習の進歩に触発され、マルチプロンプトアライメント(MPA)を導入し、マルチソースUDAのためのシンプルで効率的な2段階フレームワークを提案する。 ソースとターゲットのドメインペアが与えられた後、MPAはまず個々のプロンプトをトレーニングし、対照的な損失によってドメインギャップを最小限に抑える。 そして、MPAは、複数の学習プロンプトの一致を最大化する自動符号化プロセスを通じて、低次元の潜在空間を導出する。 この埋め込みにより、目に見えない領域への一般化がさらに促進される。 広範囲な実験により,本手法は一般的なベンチマークデータセットで最先端の結果を得ると同時に,パラメータをかなり少なくできることを示した。 我々の知る限り、我々はまず、マルチソースのUDA問題に即時学習を適用し、我々の手法は、これまでで最も難しいUDAデータセットであるDomainNet上で54.1%の平均精度を、たった15.9万のパラメータで達成した。 さらに重要なことに、学習された埋め込み空間が、新しい未知の領域に容易に適応できることを実証する。

Most existing methods for multi-source unsupervised domain adaptation (UDA) rely on a common feature encoder to extract domain-invariant features. However, learning such an encoder involves updating the parameters of the entire network, which makes the optimization computationally expensive, particularly when coupled with min-max objectives. Inspired by recent advances in prompt learning that adapts high-capacity deep models for downstream tasks in a computationally economic way, we introduce Multi-Prompt Alignment (MPA), a simple yet efficient two-stage framework for multi-source UDA. Given a source and target domain pair, MPA first trains an individual prompt to minimize the domain gap through a contrastive loss, while tuning only a small set of parameters. Then, MPA derives a low-dimensional latent space through an auto-encoding process that maximizes the agreement of multiple learned prompts. The resulting embedding further facilitates generalization to unseen domains. Extensive experiments show that our method achieves state-of-the-art results on popular benchmark datasets while requiring substantially fewer tunable parameters. To the best of our knowledge, we are the first to apply prompt learning to the multi-source UDA problem and our method achieves the highest reported average accuracy of 54.1% on DomainNet, the most challenging UDA dataset to date, with only 15.9M parameters trained. More importantly, we demonstrate that the learned embedding space can be easily adapted to novel unseen domains.
翻訳日:2022-10-03 15:43:54 公開日:2022-09-30
# 弱教師付きセマンティックセグメンテーションのためのデュアルプログレッシブトランスフォーメーション

Dual Progressive Transformations for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2209.15211v1 )

ライセンス: Link先を確認
Dongjian Huo, Yukun Su and Qingyao Wu(参考訳) クラスレベルのラベルだけでオブジェクト領域をマイニングすることを目的としたweakly supervised semantic segmentation(wsss)は、コンピュータビジョンにおいて難しい課題である。 現在の最先端のCNNベースのメソッドは、通常、オブジェクトの潜在的な領域を強調するためにクラスアクティベーションマップ(CAM)を採用しています。 この目的のために,WSSSタスクにおける視覚変換器のグローバルな特徴注意機構の探索を試みた。 しかし、変換器はCNNモデルのように誘導バイアスを欠いているため、直接的に性能を向上することができず、過剰に作動する問題を引き起こす可能性がある。 これらの欠点に対処するため,我々はCRT (Convolutional Neural Networks Refined Transformer) を提案し,グローバルに完全かつ局所的に正確なクラスアクティベーションマップをマイニングする。 提案手法の有効性を検証するため,PASCAL VOC 2012 と CUB-200-2011 のデータセットについて広範な実験を行った。 実験により,提案するcrtは,弱い教師付き意味セグメンテーションタスクと弱い教師付きオブジェクトローカライゼーションタスクの両方において,新たな最先端性能を達成し,他を圧倒することを示した。

Weakly supervised semantic segmentation (WSSS), which aims to mine the object regions by merely using class-level labels, is a challenging task in computer vision. The current state-of-the-art CNN-based methods usually adopt Class-Activation-Maps (CAMs) to highlight the potential areas of the object, however, they may suffer from the part-activated issues. To this end, we try an early attempt to explore the global feature attention mechanism of vision transformer in WSSS task. However, since the transformer lacks the inductive bias as in CNN models, it can not boost the performance directly and may yield the over-activated problems. To tackle these drawbacks, we propose a Convolutional Neural Networks Refined Transformer (CRT) to mine a globally complete and locally accurate class activation maps in this paper. To validate the effectiveness of our proposed method, extensive experiments are conducted on PASCAL VOC 2012 and CUB-200-2011 datasets. Experimental evaluations show that our proposed CRT achieves the new state-of-the-art performance on both the weakly supervised semantic segmentation task the weakly supervised object localization task, which outperform others by a large margin.
翻訳日:2022-10-03 15:43:27 公開日:2022-09-30
# INT:効率的なフレームワークによる無限フレーム3D検出を目指して

INT: Towards Infinite-frames 3D Detection with An Efficient Framework ( http://arxiv.org/abs/2209.15215v1 )

ライセンス: Link先を確認
Jianyun Xu, Zhenwei Miao, Da Zhang, Hongyu Pan, Kaixuan Liu, Peihan Hao, Jun Zhu, Zhengyang Sun, Hongmin Li, and Xin Zhan(参考訳) 連続時間ストリーム用のシングルフレーム3d検出器の代わりにマルチフレームを構築するのは自然である。 フレーム数を増やすことで性能が向上する可能性があるが、以前のマルチフレーム研究では計算コストとメモリコストが劇的に増加するため、システム構築に非常に限られたフレームしか使用していなかった。 これらの問題に対処するために,理論上は,単一フレーム検出器と同じ計算量を維持しながら無限のフレームを使用できる,新しいオンストリームトレーニングおよび予測フレームワークを提案する。 この無限フレームワーク(int)は、既存のほとんどの検出器で使用できるが、例えば、人気のあるセンターポイントで活用され、大幅なレイテンシ削減とパフォーマンス向上が図られている。 我々はまた、このスキームの有効性と効率を実証するために、2つの大規模なデータセットであるnuScenesとWaymo Open Datasetについて広範な実験を行った。 CenterPointにINTを採用することで、約7%(Waymo)と15%(nuScenes)のパフォーマンスが向上し、レイテンシはわずか2~4msで、現在はWaymo 3D DetectionのリーダボードでSOTAされています。

It is natural to construct a multi-frame instead of a single-frame 3D detector for a continuous-time stream. Although increasing the number of frames might improve performance, previous multi-frame studies only used very limited frames to build their systems due to the dramatically increased computational and memory cost. To address these issues, we propose a novel on-stream training and prediction framework that, in theory, can employ an infinite number of frames while keeping the same amount of computation as a single-frame detector. This infinite framework (INT), which can be used with most existing detectors, is utilized, for example, on the popular CenterPoint, with significant latency reductions and performance improvements. We've also conducted extensive experiments on two large-scale datasets, nuScenes and Waymo Open Dataset, to demonstrate the scheme's effectiveness and efficiency. By employing INT on CenterPoint, we can get around 7% (Waymo) and 15% (nuScenes) performance boost with only 2~4ms latency overhead, and currently SOTA on the Waymo 3D Detection leaderboard.
翻訳日:2022-10-03 15:42:59 公開日:2022-09-30
# 樹種・体積・バイオマスの機械学習による予測のためのハイパースペクトル・LiDARデータ : 森林管理計画の更新に寄与する可能性

Hyperspectral and LiDAR data for the prediction via machine learning of tree species, volume and biomass: a possible contribution for updating forest management plans ( http://arxiv.org/abs/2209.15248v1 )

ライセンス: Link先を確認
Daniele Michelini, Michele Dalponte, Angelo Carriero, Erico Kutchart, Salvatore Eugenio Pappalardo, Massimo De Marchi, Francesco Pirotti(参考訳) 本研究は,現在利用可能なリモートセンシングソリューションを用いて,トレント自治州(PAT)の私有林の森林タイプと森林単位の脱線を同定する基盤を構築することを目的としている。 特に、2014年のLiDARとPATによるハイパースペクトル調査のデータを取得し、処理した。 このような研究は森林管理のシナリオにおいて非常に重要である。 本発明の方法は、単一の樹冠をポリゴンでアウトラインし、ラベル付けすることにより、接地木を定義することを含む。 K-Nearest Neighborhood と Support Vector Machine (SVM) の2つの教師付き機械学習分類器が使用された。 その結果、SVM法は、特定のハイパーパラメータを設定することにより、木種の分類において最良の結果をもたらすことが示された。 地中バイオマス (AGB) とスクリッチ (Scrinzi) の関税量について, キャノピーパラメータとジュッカー式を用いてバイオマスを推定した。 予測値は、2017年に体積とバイオマスが推定された固定半径の11のフィールドプロットと比較された。 その結果, 茎体積0.94, 地上木バイオマス0.90の相関係数が有意であった。

This work intends to lay the foundations for identifying the prevailing forest types and the delineation of forest units within private forest inventories in the Autonomous Province of Trento (PAT), using currently available remote sensing solutions. In particular, data from LiDAR and hyperspectral surveys of 2014 made available by PAT were acquired and processed. Such studies are very important in the context of forest management scenarios. The method includes defining tree species ground-truth by outlining single tree crowns with polygons and labeling them. Successively two supervised machine learning classifiers, K-Nearest Neighborhood and Support Vector Machine (SVM) were used. The results show that, by setting specific hyperparameters, the SVM methodology gave the best results in classification of tree species. Biomass was estimated using canopy parameters and the Jucker equation for the above ground biomass (AGB) and that of Scrinzi for the tariff volume. Predicted values were compared with 11 field plots of fixed radius where volume and biomass were field-estimated in 2017. Results show significant coefficients of correlation: 0.94 for stem volume and 0.90 for total aboveground tree biomass.
翻訳日:2022-10-03 15:42:39 公開日:2022-09-30
# ディープニューラルネットワークと量子ニューラルネットワークを用いた交通標識分類

Traffic Sign Classification Using Deep and Quantum Neural Networks ( http://arxiv.org/abs/2209.15251v1 )

ライセンス: Link先を確認
Sylwia Kuros, Tomasz Kryjak(参考訳) 量子ニューラルネットワーク(QNN)は、コンピュータビジョンを含む多くのアプリケーションで使用できる新興技術である。 本稿では,ハイブリッド量子古典畳み込みニューラルネットワークを用いた交通信号分類システムを提案する。 ドイツのトラヒックサイン認識ベンチマークデータセットにおける実験によると、qnnは従来のdcnn(deep convolutuional neural networks)を上回ってはいないが、90%以上の精度を提供し、高度なコンピュータビジョンにとって間違いなく有望なソリューションである。

Quantum Neural Networks (QNNs) are an emerging technology that can be used in many applications including computer vision. In this paper, we presented a traffic sign classification system implemented using a hybrid quantum-classical convolutional neural network. Experiments on the German Traffic Sign Recognition Benchmark dataset indicate that currently QNN do not outperform classical DCNN (Deep Convolutuional Neural Networks), yet still provide an accuracy of over 90% and are a definitely promising solution for advanced computer vision.
翻訳日:2022-10-03 15:42:17 公開日:2022-09-30
# ERNIE-ViL 2.0:画像テキスト事前学習のためのマルチビューコントラスト学習

ERNIE-ViL 2.0: Multi-view Contrastive Learning for Image-Text Pre-training ( http://arxiv.org/abs/2209.15270v1 )

ライセンス: Link先を確認
Bin Shan, Weichong Yin, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang(参考訳) デュアルエンコーダに基づく近年の視覚言語事前学習モデル(vlp)は,様々なクロスモーダルタスクにおける優れた性能と計算効率により,学界や業界から注目を集めている。 彼らは、画像とテキストのペアで対比学習を使って、クロスモーダル表現を学ぼうとしているが、構築されたモーダル間相関は、各モーダルに対して単一のビューのみに依存している。 実際、画像やテキストには、人間がさまざまな説明や写真を通して現実世界のシーンを捉えられるように、さまざまな潜在的なビューが含まれている。 本稿では,マルチビューのコントラスト学習フレームワークであるernie-vil 2.0を提案し,より堅牢なクロスモーダル表現の学習を目指して,多様なビュー間のイントラモーダル相関とインターモーダル相関を同時に構築する。 具体的には、各モダリティ内に複数のビューを構築し、モダリティ内相関を学習し、単一モダリティ表現を強化する。 固有な視覚/テキストビューの他に、ノイズの多い画像-テキストペアの相互の意味的ギャップを狭めるために、オブジェクトタグのシーケンスを特別なテキストビューとして構築する。 29万の公開データセットで事前トレーニングされたERNIE-ViL 2.0は、英語のクロスモーダル検索において競合する結果を得る。 さらに,本手法を中国のクロスモーダルタスクに一般化するために,事前学習データセットを1.5Bの中国語画像テキストペアにスケールアップすることにより,ERNIE-ViL 2.0をトレーニングする。 トレーニング済みのモデルをhttps://github.com/paddlepaddle/ernieでリリースします。

Recent Vision-Language Pre-trained (VLP) models based on dual encoder have attracted extensive attention from academia and industry due to their superior performance on various cross-modal tasks and high computational efficiency. They attempt to learn cross-modal representation using contrastive learning on image-text pairs, however, the built inter-modal correlations only rely on a single view for each modality. Actually, an image or a text contains various potential views, just as humans could capture a real-world scene via diverse descriptions or photos. In this paper, we propose ERNIE-ViL 2.0, a Multi-View Contrastive learning framework to build intra-modal and inter-modal correlations between diverse views simultaneously, aiming at learning a more robust cross-modal representation. Specifically, we construct multiple views within each modality to learn the intra-modal correlation for enhancing the single-modal representation. Besides the inherent visual/textual views, we construct sequences of object tags as a special textual view to narrow the cross-modal semantic gap on noisy image-text pairs. Pre-trained with 29M publicly available datasets, ERNIE-ViL 2.0 achieves competitive results on English cross-modal retrieval. Additionally, to generalize our method to Chinese cross-modal tasks, we train ERNIE-ViL 2.0 through scaling up the pre-training datasets to 1.5B Chinese image-text pairs, resulting in significant improvements compared to previous SOTA results on Chinese cross-modal retrieval. We release our pre-trained models in https://github.com/PaddlePaddle/ERNIE.
翻訳日:2022-10-03 15:42:07 公開日:2022-09-30
# タイプI攻撃に基づく視覚的プライバシー保護

Visual Privacy Protection Based on Type-I Adversarial Attack ( http://arxiv.org/abs/2209.15304v1 )

ライセンス: Link先を確認
Zhigang Su and Dawei Zhou and Decheng Liu and Nannan Wang and Zhen Wang and Xinbo Gao(参考訳) オンライン人工知能システムの開発に伴い、多くのディープニューラルネットワーク(DNN)がクラウド環境にデプロイされている。 実践的なアプリケーションでは、開発者やユーザは、顔などのプライベートデータをDNNに提供する必要があります。 しかし、クラウドに送信され、保存されるデータは安全ではなく、プライバシー漏洩のリスクがある。 本稿では,i型攻撃に着想を得て,データの視覚的プライバシーを保護するための攻撃ベース手法を提案する。 具体的には、モデルパラメータを変更することなく、DNNによって正確に予測されながら、プライベートデータの視覚情報を暗号化する。 顔認識タスクにおける実験結果から,提案手法は顔画像の視覚情報を深く隠蔽し,認識モデルの精度にはほとんど影響しないことが示された。 さらに,タスクを分類する手法をさらに拡張し,最先端のパフォーマンスを実現する。

With the development of online artificial intelligence systems, many deep neural networks (DNNs) have been deployed in cloud environments. In practical applications, developers or users need to provide their private data to DNNs, such as faces. However, data transmitted and stored in the cloud is insecure and at risk of privacy leakage. In this work, inspired by Type-I adversarial attack, we propose an adversarial attack-based method to protect visual privacy of data. Specifically, the method encrypts the visual information of private data while maintaining them correctly predicted by DNNs, without modifying the model parameters. The empirical results on face recognition tasks show that the proposed method can deeply hide the visual information in face images and hardly affect the accuracy of the recognition models. In addition, we further extend the method to classification tasks and also achieve state-of-the-art performance.
翻訳日:2022-10-03 15:41:41 公開日:2022-09-30
# 給料はもらったか? 胸部x線写真における深層学習に基づくコンピュータ支援検出のアノテーションコストの再検討

Did You Get What You Paid For? Rethinking Annotation Cost of Deep Learning Based Computer Aided Detection in Chest Radiographs ( http://arxiv.org/abs/2209.15314v1 )

ライセンス: Link先を確認
Tae Soo Kim, Geonwoon Jang, Sanghyup Lee, Thijs Kooi(参考訳) 深層ネットワークは、大量の正確なラベル付きトレーニングデータを必要とするため、十分に大きく正確なアノテーションを集める戦略は、認識方法の革新と同じくらい重要である。 これは、放射線技師の専門知識がX線画像上の異常の存在と位置に注釈を付ける必要がある胸部X線に対するコンピュータ支援検出(CAD)システムの構築に特に当てはまる。 しかし、cadシステムが望ましい性能に達するように、データアノテーションを割り当てるリソースの量に関する具体的な証拠が欠けている。 このような知識がなければ、実践者は可能な限り多くのデータから可能な限り詳細な情報を収集するという、コスト非効率な戦略に陥ることが多い。 本研究では,前頭部X線画像における胸部異常の分類とセグメンテーションにおいて,データアノテーションのコストがCADモデルの性能に与える影響について検討する。 我々は,ラベルの量,品質,粒度という3つの次元に関して,アノテーションのコストを定義する。 そこで本研究では,各次元のCADモデル性能への影響を分離し,X線で10個の胸部異常を検出する。 金標準アノテーションを用いた120K以上のX線画像を用いた大規模トレーニングデータから,金標準アノテーションのみをトレーニングしたモデルと比較して,コスト効率の良いアノテーションが大量に収集された場合に大きな価値を提供することがわかった。 また、大量のコスト効率のよいアノテーションと少量の高価なラベルを組み合わせれば、競争的なCADモデルをはるかに低コストで作成できることがわかった。

As deep networks require large amounts of accurately labeled training data, a strategy to collect sufficiently large and accurate annotations is as important as innovations in recognition methods. This is especially true for building Computer Aided Detection (CAD) systems for chest X-rays where domain expertise of radiologists is required to annotate the presence and location of abnormalities on X-ray images. However, there lacks concrete evidence that provides guidance on how much resource to allocate for data annotation such that the resulting CAD system reaches desired performance. Without this knowledge, practitioners often fall back to the strategy of collecting as much detail as possible on as much data as possible which is cost inefficient. In this work, we investigate how the cost of data annotation ultimately impacts the CAD model performance on classification and segmentation of chest abnormalities in frontal-view X-ray images. We define the cost of annotation with respect to the following three dimensions: quantity, quality and granularity of labels. Throughout this study, we isolate the impact of each dimension on the resulting CAD model performance on detecting 10 chest abnormalities in X-rays. On a large scale training data with over 120K X-ray images with gold-standard annotations, we find that cost-efficient annotations provide great value when collected in large amounts and lead to competitive performance when compared to models trained with only gold-standard annotations. We also find that combining large amounts of cost efficient annotations with only small amounts of expensive labels leads to competitive CAD models at a much lower cost.
翻訳日:2022-10-03 15:41:28 公開日:2022-09-30
# エンドツーエンド手書き文書認識を目指して

Towards End-to-end Handwritten Document Recognition ( http://arxiv.org/abs/2209.15362v1 )

ライセンス: Link先を確認
Denis Coquenet(参考訳) 手書きのテキスト認識は、過去数十年間、多くの応用で広く研究されてきた。 現在、最先端のアプローチは3段階のプロセスから成り立っている。 文書はテキスト行に分割され、順序付けされ、認識される。 しかし、この三段階アプローチには多くの欠点がある。 3つのステップは独立して扱われるが、密接な関係がある。 エラーは、あるステップから別のステップに蓄積します。 順序付けステップは、複雑なレイアウトを持つドキュメントや異種文書での使用を防止するヒューリスティックなルールに基づいている。 セグメンテーションステージをトレーニングするための物理的なセグメンテーションアノテーションの追加は、このアプローチに固有のものだ。 本稿では,文書全体のテキスト認識をエンドツーエンドで行うことで,これらの課題に対処することを提案する。 この目的のために, 認識作業の難しさを徐々に増し, 孤立した行から段落へ移動し, 文書全体へ移行する。 本研究は,手書き認識タスクのための汎用的な特徴抽出ステップを設計するために,完全畳み込みネットワークに基づくラインレベルでのアプローチを提案する。 この予備研究に基づいて,手書き段落認識のための2つのアプローチを検討した。 RIMES 2011, IAM, READ 2016 データセットの段落レベルでの最先端結果に到達し, これらのデータセットのラインレベル状態よりも優れていた。 最終的に、テキストとレイアウトの両方を文書レベルで認識するための最初のエンドツーエンドアプローチを提案しました。 学習した読み順に従って文字とレイアウトトークンを順次予測する。 我々は、このタスクをRIMES 2009とREAD 2016データセットでページレベルとダブルページレベルで評価するために使用した2つの新しい指標を提案した。

Handwritten text recognition has been widely studied in the last decades for its numerous applications. Nowadays, the state-of-the-art approach consists in a three-step process. The document is segmented into text lines, which are then ordered and recognized. However, this three-step approach has many drawbacks. The three steps are treated independently whereas they are closely related. Errors accumulate from one step to the other. The ordering step is based on heuristic rules which prevent its use for documents with a complex layouts or for heterogeneous documents. The need for additional physical segmentation annotations for training the segmentation stage is inherent to this approach. In this thesis, we propose to tackle these issues by performing the handwritten text recognition of whole document in an end-to-end way. To this aim, we gradually increase the difficulty of the recognition task, moving from isolated lines to paragraphs, and then to whole documents. We proposed an approach at the line level, based on a fully convolutional network, in order to design a first generic feature extraction step for the handwriting recognition task. Based on this preliminary work, we studied two different approaches to recognize handwritten paragraphs. We reached state-of-the-art results at paragraph level on the RIMES 2011, IAM and READ 2016 datasets and outperformed the line-level state of the art on these datasets. We finally proposed the first end-to-end approach dedicated to the recognition of both text and layout, at document level. Characters and layout tokens are sequentially predicted following a learned reading order. We proposed two new metrics we used to evaluate this task on the RIMES 2009 and READ 2016 dataset, at page level and double-page level.
翻訳日:2022-10-03 15:41:05 公開日:2022-09-30
# オンラインマルチエージェント分散ビザンチンロバスト勾配推定

Online Multi-Agent Decentralized Byzantine-robust Gradient Estimation ( http://arxiv.org/abs/2209.15274v1 )

ライセンス: Link先を確認
Alexandre Reiffers-Masson (IMT Atlantique - INFO, Lab-STICC_MATHNET), Isabel Amigo (IMT Atlantique - INFO, Lab-STICC_MATHNET)(参考訳) 本稿では,ブラックボックスモデルに付随する勾配の分散ビザンチンレジリエント推定のための反復的な手法を提案する。 本アルゴリズムは,同時摂動,セキュア状態推定,2時間確率近似に基づく。 また,数値実験によりアルゴリズムの性能を示す。

In this paper, we propose an iterative scheme for distributed Byzantineresilient estimation of a gradient associated with a black-box model. Our algorithm is based on simultaneous perturbation, secure state estimation and two-timescale stochastic approximations. We also show the performance of our algorithm through numerical experiments.
翻訳日:2022-10-03 15:32:39 公開日:2022-09-30
# MonoNeuralFusion: 幾何学的事前情報を用いたオンラインモノクラーニューラル3D再構成

MonoNeuralFusion: Online Monocular Neural 3D Reconstruction with Geometric Priors ( http://arxiv.org/abs/2209.15153v1 )

ライセンス: Link先を確認
Zi-Xin Zou, Shi-Sheng Huang, Yan-Pei Cao, Tai-Jiang Mu, Ying Shan, Hongbo Fu(参考訳) モノクルビデオからの高忠実度3Dシーンの再構成は、特に完全かつきめ細かい幾何学的再構成では、引き続き困難である。 ニューラルネットワークによる以前の3次元再構成アプローチは、完全なシーンの再構成に有望な能力を示してきたが、その結果はしばしば誇張され、幾何学的詳細が不十分である。 本稿では,単眼映像からの高忠実度オンライン3dシーン再構成のためのボリュームレンダリングを用いたニューラル暗黙的シーン表現を提案する。 きめ細かい再構成には,神経暗黙的シーン表現と神経容積レンダリングの両方に幾何学的事前情報を取り込むことで,ボリュームレンダリング最適化に基づく効果的な幾何学習機構を実現することが重要となる。 そこで本研究では,モノクロビデオからオンラインのニューラル3D再構成を行うMonoNeuralFusionを紹介し,オンザフライ3Dモノクロスキャンにおいて3次元シーン形状を効率よく生成し,最適化する。 最先端のアプローチと広範囲に比較した結果,我々の単神経流は,定量的かつ質的にも,より完全かつ細粒度の再構成結果を生み出していることがわかった。

High-fidelity 3D scene reconstruction from monocular videos continues to be challenging, especially for complete and fine-grained geometry reconstruction. The previous 3D reconstruction approaches with neural implicit representations have shown a promising ability for complete scene reconstruction, while their results are often over-smooth and lack enough geometric details. This paper introduces a novel neural implicit scene representation with volume rendering for high-fidelity online 3D scene reconstruction from monocular videos. For fine-grained reconstruction, our key insight is to incorporate geometric priors into both the neural implicit scene representation and neural volume rendering, thus leading to an effective geometry learning mechanism based on volume rendering optimization. Benefiting from this, we present MonoNeuralFusion to perform the online neural 3D reconstruction from monocular videos, by which the 3D scene geometry is efficiently generated and optimized during the on-the-fly 3D monocular scanning. The extensive comparisons with state-of-the-art approaches show that our MonoNeuralFusion consistently generates much better complete and fine-grained reconstruction results, both quantitatively and qualitatively.
翻訳日:2022-10-03 15:32:10 公開日:2022-09-30
# グローバルフォワードおよび逆トーンマッピングのための画像対からの蒸留スタイル

Distilling Style from Image Pairs for Global Forward and Inverse Tone Mapping ( http://arxiv.org/abs/2209.15165v1 )

ライセンス: Link先を確認
Aamir Mustafa, Param Hanji and Rafal K. Mantiuk(参考訳) フォワードや逆トーンマッピングやカラーグレーディングといった多くの画像強調や編集操作は、独自のソリューションではなく、それぞれ異なるスタイルを表す様々なソリューションを持っている。 それにもかかわらず、既存の学習ベースの手法はこのスタイルを無視してユニークなマッピングを学習しようとする。 本研究では,このスタイルに関する情報を画像対の集合から蒸留し,2次元あるいは3次元ベクトルに符号化できることを示す。 これにより、効率的な表現だけでなく、画像スタイルを編集するための解釈可能な潜在空間も提供されます。 画素色に基づく多項式条件を条件とした,画像対間のグローバルカラーマッピングをカスタム正規化フローとして表現する。 このようなネットワークは,低次元空間における画像スタイルの符号化においてPCAやVAEよりも有効であることが示され,40dBに近い精度が得られる。

Many image enhancement or editing operations, such as forward and inverse tone mapping or color grading, do not have a unique solution, but instead a range of solutions, each representing a different style. Despite this, existing learning-based methods attempt to learn a unique mapping, disregarding this style. In this work, we show that information about the style can be distilled from collections of image pairs and encoded into a 2- or 3-dimensional vector. This gives us not only an efficient representation but also an interpretable latent space for editing the image style. We represent the global color mapping between a pair of images as a custom normalizing flow, conditioned on a polynomial basis of the pixel color. We show that such a network is more effective than PCA or VAE at encoding image style in low-dimensional space and lets us obtain an accuracy close to 40 dB, which is about 7-10 dB improvement over the state-of-the-art methods.
翻訳日:2022-10-03 15:31:49 公開日:2022-09-30
# 多言語ニューラルマシン翻訳のための言語ファミリーアダプタ

Language-Family Adapters for Multilingual Neural Machine Translation ( http://arxiv.org/abs/2209.15236v1 )

ライセンス: Link先を確認
Alexandra Chronopoulou, Dario Stojanovski, Alexander Fraser(参考訳) 過剰なコーパスに事前学習された多言語モデルと自己スーパービジョンは、幅広い自然言語処理タスクにおいて最先端の成果を達成している。 機械翻訳では、多言語事前訓練されたモデルは、1つまたは複数の言語ペアの並列データに基づいて微調整されることが多い。 マルチ言語ファインチューニングは中低リソース言語のパフォーマンスを向上させるが、モデル全体を変更する必要があるため、極めて高価である。 それぞれの言語ペアに新しいアダプタセットをトレーニングしたり、すべての言語ペアに1つのアダプタセットをトレーニングしたり、事前訓練されたモデルのパラメータを凍結し続けることは、パラメータ効率の代替案として提案されている。 しかし、前者は言語間の共有を許可せず、後者はすべての言語のパラメータを共有し、負の干渉に対処する必要がある。 本稿では,事前学習された多言語モデル上に言語ファミリーアダプタを訓練し,言語間転送を容易にすることを提案する。 私たちのモデルは、他のアダプタベースのアプローチを一貫して上回っています。 また,言語ファミリーアダプタは,事前学習中に認識できない言語に翻訳する効果的な方法であることを示す。

Massively multilingual models pretrained on abundant corpora with self-supervision achieve state-of-the-art results in a wide range of natural language processing tasks. In machine translation, multilingual pretrained models are often fine-tuned on parallel data from one or multiple language pairs. Multilingual fine-tuning improves performance on medium- and low-resource languages but requires modifying the entire model and can be prohibitively expensive. Training a new set of adapters on each language pair or training a single set of adapters on all language pairs while keeping the pretrained model's parameters frozen has been proposed as a parameter-efficient alternative. However, the former do not permit any sharing between languages, while the latter share parameters for all languages and have to deal with negative interference. In this paper, we propose training language-family adapters on top of a pretrained multilingual model to facilitate cross-lingual transfer. Our model consistently outperforms other adapter-based approaches. We also demonstrate that language-family adapters provide an effective method to translate to languages unseen during pretraining.
翻訳日:2022-10-03 15:25:22 公開日:2022-09-30
# QUIK:韓国英語ニューラルマシン翻訳のための合成品質推定データセット

QUAK: A Synthetic Quality Estimation Dataset for Korean-English Neural Machine Translation ( http://arxiv.org/abs/2209.15285v1 )

ライセンス: Link先を確認
Sugyeong Eo, Chanjun Park, Hyeonseok Moon, Jaehyung Seo, Gyeongmin Kim, Jungseob Lee, Heuiseok Lim(参考訳) 近年のニューラルネットワーク翻訳の進歩により、品質推定(QE)の研究は着実に進んでいる。 QEは、参照文なしで機械翻訳(MT)出力の品質を自動的に予測することを目的としている。 実世界では高い実用性があるが、手動のqeデータ作成にはいくつかの制限がある: 必然的に翻訳の専門家の必要性による非自明なコストと、データスケーリングと言語拡張の問題である。 これらの制約に対処するため、韓国英語合成QEデータセットであるQUIKを完全自動生成する。 quak-m、quak-p、quak-hの3つのサブクアックデータセットで構成され、言語制約のない3つの戦略によって生成される。 各戦略は、スケーラビリティを促進する人的労力を必要としないため、quak-Pは1.58M、quak-MはH、6.58Mまでスケールする。 実験として,統計的分析を行いながら,単語レベルのQE結果を様々な方法で定量的に分析する。 さらに,1.58mまでのデータ追加時のquak-m,pの有意義な性能向上を観測することにより,効率的なスケールでデータセットもパフォーマンス向上に寄与することを示した。

With the recent advance in neural machine translation demonstrating its importance, research on quality estimation (QE) has been steadily progressing. QE aims to automatically predict the quality of machine translation (MT) output without reference sentences. Despite its high utility in the real world, there remain several limitations concerning manual QE data creation: inevitably incurred non-trivial costs due to the need for translation experts, and issues with data scaling and language expansion. To tackle these limitations, we present QUAK, a Korean-English synthetic QE dataset generated in a fully automatic manner. This consists of three sub-QUAK datasets QUAK-M, QUAK-P, and QUAK-H, produced through three strategies that are relatively free from language constraints. Since each strategy requires no human effort, which facilitates scalability, we scale our data up to 1.58M for QUAK-P, H and 6.58M for QUAK-M. As an experiment, we quantitatively analyze word-level QE results in various ways while performing statistical analysis. Moreover, we show that datasets scaled in an efficient way also contribute to performance improvements by observing meaningful performance gains in QUAK-M, P when adding data up to 1.58M.
翻訳日:2022-10-03 15:25:03 公開日:2022-09-30
# 知識基盤と意味的自己監督による医療質問理解と回答

Medical Question Understanding and Answering with Knowledge Grounding and Semantic Self-Supervision ( http://arxiv.org/abs/2209.15301v1 )

ライセンス: Link先を確認
Khalil Mrini, Harpreet Singh, Franck Dernoncourt, Seunghyun Yoon, Trung Bui, Walter Chang, Emilia Farcas, Ndapa Nakashole(参考訳) 現在の医療質問応答システムは、consumer health questions (chqs)と呼ばれる患者が提出する長く、詳細で非公式な質問を処理するのが困難である。 この問題に対処するために,知識基盤とセマンティック・セルフスーパービジョンを備えた医療質問理解・回答システムを導入する。 当社のシステムは,教師付き要約損失を用いて,長く,医学的,ユーザによって書かれた質問を最初に要約するパイプラインである。 そこで,本システムは2段階の探索を行い,回答を返す。 システムはまず、信頼された医療知識ベースから要約されたユーザ質問とFAQとをマッチングし、対応する回答文書から一定の数の関連文を検索する。 質問マッチングや回答関連性のためのラベルがない場合、我々は3つの新しい、自己教師付き、意味的に誘導された損失を設計する。 我々は2つの強力な検索に基づく質問応答ベースラインに対するモデルの評価を行った。 評価者は自身の質問をし、ベースラインとシステムによって得られた回答を関連性に応じて評価する。 彼らは、我々のシステムがより関連する答えを検索し、速度を20倍速く達成できることに気付きました。 自己教師付き損失は,人間評価指標と同様に,ルージュにおいて高いスコアを得る上でも有効である。 さらなる研究を促進するためにコードをリリースします。

Current medical question answering systems have difficulty processing long, detailed and informally worded questions submitted by patients, called Consumer Health Questions (CHQs). To address this issue, we introduce a medical question understanding and answering system with knowledge grounding and semantic self-supervision. Our system is a pipeline that first summarizes a long, medical, user-written question, using a supervised summarization loss. Then, our system performs a two-step retrieval to return answers. The system first matches the summarized user question with an FAQ from a trusted medical knowledge base, and then retrieves a fixed number of relevant sentences from the corresponding answer document. In the absence of labels for question matching or answer relevance, we design 3 novel, self-supervised and semantically-guided losses. We evaluate our model against two strong retrieval-based question answering baselines. Evaluators ask their own questions and rate the answers retrieved by our baselines and own system according to their relevance. They find that our system retrieves more relevant answers, while achieving speeds 20 times faster. Our self-supervised losses also help the summarizer achieve higher scores in ROUGE, as well as in human evaluation metrics. We release our code to encourage further research.
翻訳日:2022-10-03 15:24:42 公開日:2022-09-30
# part: 事前学習した著作表現変換器

PART: Pre-trained Authorship Representation Transformer ( http://arxiv.org/abs/2209.15373v1 )

ライセンス: Link先を確認
Javier Huertas-Tato, Alvaro Huertas-Garcia, Alejandro Martin, David Camacho(参考訳) 文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。 これらの詳細を見つけることは、プロファイル作成者にとって非常に関係があり、性別、職業、年齢等に遡る。 しかし、最も重要なことは、繰り返し書くパターンが著者をテキストに導くのに役立つことだ。 以前の作品では、著者モデルのトレーニングに手作りの機能や分類タスクを使用しており、ドメイン外の著者のパフォーマンスが低下している。 この課題に対するより良いアプローチは、スタイロメトリック表現を学ぶことですが、それ自体はオープンリサーチの課題です。 本稿では,セマンティクスの代わりに,<textbf{authorship embeddeds} を学ぶのに適した,コントラスト的に訓練されたモデルを提案する。 同じ著者が書いた文書のペアを比較することで、著者識別に対するゼロショットの一般化である、評価された文書のコサイン類似性を評価することによって、テキストのプロプライエタリを決定できる。 この目的のために、LSTMヘッド付き事前訓練された変換器をコントラスト訓練法で訓練する。 私たちは、文献、匿名のブログポスター、企業メールなど、さまざまな著者のセットでモデルをトレーニングしています。 これらのデータセット上で評価を行い、250の異なる著者から著者名を決定する際、ジョイント評価データセット上でそれぞれゼロショット72.39\%、86.73\%、top-5の精度をそれぞれ達成する。 我々は、利用可能なデータセット、書籍の種類、性別、年齢、著者の職業など、さまざまなデータ視覚化による表現を質的に評価する。

Authors writing documents imprint identifying information within their texts: vocabulary, registry, punctuation, misspellings, or even emoji usage. Finding these details is very relevant to profile authors, relating back to their gender, occupation, age, and so on. But most importantly, repeating writing patterns can help attributing authorship to a text. Previous works use hand-crafted features or classification tasks to train their authorship models, leading to poor performance on out-of-domain authors. A better approach to this task is to learn stylometric representations, but this by itself is an open research challenge. In this paper, we propose PART: a contrastively trained model fit to learn \textbf{authorship embeddings} instead of semantics. By comparing pairs of documents written by the same author, we are able to determine the proprietary of a text by evaluating the cosine similarity of the evaluated documents, a zero-shot generalization to authorship identification. To this end, a pre-trained Transformer with an LSTM head is trained with the contrastive training method. We train our model on a diverse set of authors, from literature, anonymous blog posters and corporate emails; a heterogeneous set with distinct and identifiable writing styles. The model is evaluated on these datasets, achieving zero-shot 72.39\% and 86.73\% accuracy and top-5 accuracy respectively on the joint evaluation dataset when determining authorship from a set of 250 different authors. We qualitatively assess the representations with different data visualizations on the available datasets, profiling features such as book types, gender, age, or occupation of the author.
翻訳日:2022-10-03 15:24:21 公開日:2022-09-30
# 検索エージェントとハイブリッド環境を用いたゼロショット検索

Zero-Shot Retrieval with Search Agents and Hybrid Environments ( http://arxiv.org/abs/2209.15469v1 )

ライセンス: Link先を確認
Michelle Chen Huebscher, Christian Buck, Massimiliano Ciaramita, Sascha Rothe(参考訳) 検索を学ぶことは、自律的に検索ボックスを使って情報を見つけることを学ぶ人工エージェントを構築するタスクです。 これまでのところ、現在の言語モデルは、従来の用語に基づく検索と組み合わせて、象徴的クエリ改革ポリシーを学べるが、ニューラルネットワークのレトリバーよりもパフォーマンスが低いことが示されている。 本稿では,デュアルエンコーダによる第1パス検索ステップの後に,離散的クエリリファインメント操作を受け入れるハイブリッド環境に,先行学習を検索セットアップに拡張する。 BEIRタスクの実験では、動作のクローンによって訓練された検索エージェントが、二重エンコーダレトリバーとクロスエンコーダリランカを組み合わせた検索システムより優れていることが示された。 さらに, 単純ヒューリスティックハイブリッド検索環境(HRE)は, nDCG点数点のベースライン性能を向上させることができることがわかった。 HRE(HARE)に基づく検索エージェントは、ゼロショット評価とドメイン内評価の両方で最先端のパフォーマンスを生成する。 我々はエージェントポリシーに光を当てるために、広範囲な質的分析を行う。

Learning to search is the task of building artificial agents that learn to autonomously use a search box to find information. So far, it has been shown that current language models can learn symbolic query reformulation policies, in combination with traditional term-based retrieval, but fall short of outperforming neural retrievers. We extend the previous learning to search setup to a hybrid environment, which accepts discrete query refinement operations, after a first-pass retrieval step performed by a dual encoder. Experiments on the BEIR task show that search agents, trained via behavioral cloning, outperform the underlying search system based on a combined dual encoder retriever and cross encoder reranker. Furthermore, we find that simple heuristic Hybrid Retrieval Environments (HRE) can improve baseline performance by several nDCG points. The search agent based on HRE (HARE) produces state-of-the-art performance on both zero-shot and in-domain evaluations. We carry out an extensive qualitative analysis to shed light on the agents policies.
翻訳日:2022-10-03 15:23:51 公開日:2022-09-30
# 条件付き言語モデルにおける分布外検出と選択生成

Out-of-Distribution Detection and Selective Generation for Conditional Language Models ( http://arxiv.org/abs/2209.15558v1 )

ライセンス: Link先を確認
Jie Ren, Jiaming Luo, Yao Zhao, Kundan Krishna, Mohammad Saleh, Balaji Lakshminarayanan, Peter J. Liu(参考訳) 機械学習アルゴリズムは通常、トレーニング時とテスト時に独立して同じ分散サンプルを仮定する。 多くの研究により、高パフォーマンスml分類器は著しく劣化し、特にout-of-distribution (ood) 入力に対して、過度に信頼度が高く誤った分類予測を提供できることが示されている。 条件付き言語モデル(CLM)は、出力シーケンスで次のトークンを分類するために主に訓練されており、予測が多くのステップで自動回帰的に実行されるため、OOD入力がさらに悪化する可能性がある。 さらに、任意のテキストを生成することができるため、潜在的な低品質出力の空間は大きくなるため、いつ生成した出力を信頼するかを知ることが重要である。 本稿では,clmの高精度で軽量なood検出法を提案するとともに,要約と翻訳におけるその効果を示す。 また,高品質出力の選択的生成(分類の選択的予測)のための分布シフトの共通かつ現実的な設定下での利用方法を示すとともに,低品質出力から自動的に回避し,より安全な生成言語モデルの展開を可能にする。

Machine learning algorithms typically assume independent and identically distributed samples in training and at test time. Much work has shown that high-performing ML classifiers can degrade significantly and provide overly-confident, wrong classification predictions, particularly for out-of-distribution (OOD) inputs. Conditional language models (CLMs) are predominantly trained to classify the next token in an output sequence, and may suffer even worse degradation on OOD inputs as the prediction is done auto-regressively over many steps. Furthermore, the space of potential low-quality outputs is larger as arbitrary text can be generated and it is important to know when to trust the generated output. We present a highly accurate and lightweight OOD detection method for CLMs, and demonstrate its effectiveness on abstractive summarization and translation. We also show how our method can be used under the common and realistic setting of distribution shift for selective generation (analogous to selective prediction for classification) of high-quality outputs, while automatically abstaining from low-quality ones, enabling safer deployment of generative language models.
翻訳日:2022-10-03 15:23:33 公開日:2022-09-30
# スパイクに基づく局所シナプス可塑性:計算モデルとニューロモルフィック回路に関する調査

Spike-based local synaptic plasticity: A survey of computational models and neuromorphic circuits ( http://arxiv.org/abs/2209.15536v1 )

ライセンス: Link先を確認
Lyes Khacef, Philipp Klein, Matteo Cartiglia, Arianna Rubino, Giacomo Indiveri, Elisabetta Chicca(参考訳) スパイクに基づく局所可塑性機構を用いた学習を生物ニューラルネットがどのように行うかを理解することは、強力でエネルギー効率が高く、適応的なニューロモルフィックな処理システムの開発に繋がる。 最近、スパイクベースの学習モデルが様々なアプローチで提案されている。 しかし、ニューロモルフィックハードウェアにどのようにマッピングできるかを評価することは困難であり、それらの特徴と実装の容易さを比較することは困難である。 そこで本研究では,脳にインスパイアされたシナプス可塑性モデルと混合信号 \acs{CMOS} ニューロモルフィック回路の総合的な概要について述べる。 我々は,synaptic plasticityのモデル化における履歴,ボトムアップ,トップダウンのアプローチを概観し,スパイクベースの学習ルールの低遅延・低消費電力ハードウェア実装をサポートする計算プリミティブを同定する。 シナプス前およびシナプス後ニューロン情報に基づく局所性原理の共通定義を提供し,シナプス可塑性の物理的実装の基本的な要件として提案する。 この原理に基づき、同じフレームワーク内でこれらのモデルの特性を比較し、計算プリミティブを実装する混合信号電子回路を記述し、ニューロモルフィックな処理システムにおいて、これらのビルディングブロックがどのように効率的なオンチップおよびオンライン学習を可能にするかを指摘する。

Understanding how biological neural networks carry out learning using spike-based local plasticity mechanisms can lead to the development of powerful, energy-efficient, and adaptive neuromorphic processing systems. A large number of spike-based learning models have recently been proposed following different approaches. However, it is difficult to assess if and how they could be mapped onto neuromorphic hardware, and to compare their features and ease of implementation. To this end, in this survey, we provide a comprehensive overview of representative brain-inspired synaptic plasticity models and mixed-signal \acs{CMOS} neuromorphic circuits within a unified framework. We review historical, bottom-up, and top-down approaches to modeling synaptic plasticity, and we identify computational primitives that can support low-latency and low-power hardware implementations of spike-based learning rules. We provide a common definition of a locality principle based on pre- and post-synaptic neuron information, which we propose as a fundamental requirement for physical implementations of synaptic plasticity. Based on this principle, we compare the properties of these models within the same framework, and describe the mixed-signal electronic circuits that implement their computing primitives, pointing out how these building blocks enable efficient on-chip and online learning in neuromorphic processing systems.
翻訳日:2022-10-03 15:23:12 公開日:2022-09-30
# $\Phi$-DVAE:非線形フィルタリングによる物理的解釈可能な表現の学習

$\Phi$-DVAE: Learning Physically Interpretable Representations with Nonlinear Filtering ( http://arxiv.org/abs/2209.15609v1 )

ライセンス: Link先を確認
Alex Glyn-Davies, Connor Duffin, \"O. Deniz Akyildiz, Mark Girolami(参考訳) 物理モデルに非構造化データを組み込むことは、データ同化において難しい問題である。 伝統的なアプローチは、機能形式が一般に知られていると仮定されるよく定義された観測作用素に焦点を当てている。 これにより、データ空間からモデル空間へのマッピングが未知な設定で、一貫性のあるモデルデータ合成が達成できない。 本稿では, 微分方程式によって記述される時間発展する物理系に様々なデータストリームを埋め込み, 物理に変形した動的変分オートエンコーダ(\phi$-dvae)を開発した。 我々の手法は、潜在状態空間モデルのための標準(おそらく非線形)フィルタとVAEを組み合わせて、非構造化データストリームを潜在力学系に埋め込む。 変分ベイズフレームワークは、埋め込み状態、潜伏状態、未知のシステムパラメータの合同推定に使用される。 本手法を実証するために, 対流およびコルテヴェーグ・ド・ブリーズ偏微分方程式で生成されたビデオデータセットと, ロレンツ-63系で生成された速度場の3つの例を検討した。 関連するベースラインと比較すると、$\Phi$-DVAEは標準的なアプローチと競合するデータ効率のよいダイナミックス符号化手法を提供し、物理的に解釈可能な潜在空間を組み込むことの利点が示される。

Incorporating unstructured data into physical models is a challenging problem that is emerging in data assimilation. Traditional approaches focus on well-defined observation operators whose functional forms are typically assumed to be known. This prevents these methods from achieving a consistent model-data synthesis in configurations where the mapping from data-space to model-space is unknown. To address these shortcomings, in this paper we develop a physics-informed dynamical variational autoencoder ($\Phi$-DVAE) for embedding diverse data streams into time-evolving physical systems described by differential equations. Our approach combines a standard (possibly nonlinear) filter for the latent state-space model and a VAE, to embed the unstructured data stream into the latent dynamical system. A variational Bayesian framework is used for the joint estimation of the embedding, latent states, and unknown system parameters. To demonstrate the method, we look at three examples: video datasets generated by the advection and Korteweg-de Vries partial differential equations, and a velocity field generated by the Lorenz-63 system. Comparisons with relevant baselines show that the $\Phi$-DVAE provides a data efficient dynamics encoding methodology that is competitive with standard approaches, with the added benefit of incorporating a physically interpretable latent space.
翻訳日:2022-10-03 15:17:00 公開日:2022-09-30
# NEEMoの探索: エネルギー移動距離のニューラル推定による幾何学的フィッティング

Finding NEEMo: Geometric Fitting using Neural Estimation of the Energy Mover's Distance ( http://arxiv.org/abs/2209.15624v1 )

ライセンス: Link先を確認
Ouail Kitouni, Niklas Nolte, Mike Williams(参考訳) モデルにおけるリプシッツ定数の正確な上界を最小限の方法で制限することで、他の手法よりも表現性が高い新しいニューラルアーキテクチャが最近開発された。 我々は、このアーキテクチャの新たな興味深い方向を示す: 幾何フィッティングへの応用のために、カントロヴィチ-ルビンシュタイン双対性を用いて最適な輸送におけるワッサーシュタイン計量(アース・モーバー距離)の推定を行う。 具体的には、高エネルギー粒子物理学の分野に焦点をあて、粒子衝突事象の空間の計量は、エネルギーMover's Distance (EMD)と呼ばれるワッサーシュタイン計量に基づいて定義できることが示されている。 この距離化は、データ駆動型衝突型現象論に革命をもたらす可能性がある。 この研究は、EMDを直接計算する微分可能な方法を提供することによって、この目標を実現するための大きな一歩を示しています。 提案手法の柔軟性が,新しいクラスタリングアルゴリズムの開発にどのように役立つかを示す。

A novel neural architecture was recently developed that enforces an exact upper bound on the Lipschitz constant of the model by constraining the norm of its weights in a minimal way, resulting in higher expressiveness compared to other techniques. We present a new and interesting direction for this architecture: estimation of the Wasserstein metric (Earth Mover's Distance) in optimal transport by employing the Kantorovich-Rubinstein duality to enable its use in geometric fitting applications. Specifically, we focus on the field of high-energy particle physics, where it has been shown that a metric for the space of particle-collider events can be defined based on the Wasserstein metric, referred to as the Energy Mover's Distance (EMD). This metrization has the potential to revolutionize data-driven collider phenomenology. The work presented here represents a major step towards realizing this goal by providing a differentiable way of directly calculating the EMD. We show how the flexibility that our approach enables can be used to develop novel clustering algorithms.
翻訳日:2022-10-03 15:16:36 公開日:2022-09-30
# Voxel Grid NeRFモデルに対する純CLIPガイダンスの理解

Understanding Pure CLIP Guidance for Voxel Grid NeRF Models ( http://arxiv.org/abs/2209.15172v1 )

ライセンス: Link先を確認
Han-Hung Lee, Angel X. Chang(参考訳) CLIPを用いてテキストから3次元オブジェクト生成のタスクを探索する。 具体的には、データセットにアクセスせずにガイダンスにCLIPを使用します。 以前の研究ではこの設定が採用されているが、CLIP内の敵世代を予防するためのメカニズムの体系的な研究はない。 本稿では,画像に基づく拡張が敵生成の問題をいかに防ぎ,結果にどのように影響するかを説明する。 異なるCLIPモデルアーキテクチャをテストし、ガイダンスのための異なるモデルをアンサンブルすることで、より大きなモデル内の敵世代を防止し、よりシャープな結果が得られることを示す。 さらに,暗黙のボクセル格子モデルを実装し,ニューラルネットワークが新たな正規化層をどのように提供し,結果として生成するオブジェクトの幾何学的構造と一貫性が向上するかを示す。 従来の作業と比較すると,メモリ効率が向上し,トレーニング速度の高速化が図られた。

We explore the task of text to 3D object generation using CLIP. Specifically, we use CLIP for guidance without access to any datasets, a setting we refer to as pure CLIP guidance. While prior work has adopted this setting, there is no systematic study of mechanics for preventing adversarial generations within CLIP. We illustrate how different image-based augmentations prevent the adversarial generation problem, and how the generated results are impacted. We test different CLIP model architectures and show that ensembling different models for guidance can prevent adversarial generations within bigger models and generate sharper results. Furthermore, we implement an implicit voxel grid model to show how neural networks provide an additional layer of regularization, resulting in better geometrical structure and coherency of generated objects. Compared to prior work, we achieve more coherent results with higher memory efficiency and faster training speeds.
翻訳日:2022-10-03 15:16:19 公開日:2022-09-30
# S2P:オフライン強化学習におけるデータ強化のための状態条件画像合成

S2P: State-conditioned Image Synthesis for Data Augmentation in Offline Reinforcement Learning ( http://arxiv.org/abs/2209.15256v1 )

ライセンス: Link先を確認
Daesol Cho, Dongseok Shim, H. Jin Kim(参考訳) オフライン強化学習(オフラインrl)は、トレーニング中に物理的環境と相互作用できないため、自然分布シフトに苦しむ。 このような制限を軽減するために、状態ベースのオフラインRLは、ログ化された経験から学習されたダイナミクスモデルを活用し、予測された状態遷移を拡張してデータ分散を拡張する。 このような利益をイメージベースrlにも活用するために,まず,エージェントの生画素を対応する状態から合成する生成モデルs2p(state2pixel)を提案する。 RLアルゴリズムでは、状態と画像領域のギャップを埋めることができ、状態空間のモデルベースの遷移を通じて、事実上見えない画像分布を探索することができる。 実験により、S2Pに基づく画像合成は、画像ベースのオフラインRL性能を改善するだけでなく、目に見えないタスクに対して強力な一般化能力を示すことを確認した。

Offline reinforcement learning (Offline RL) suffers from the innate distributional shift as it cannot interact with the physical environment during training. To alleviate such limitation, state-based offline RL leverages a learned dynamics model from the logged experience and augments the predicted state transition to extend the data distribution. For exploiting such benefit also on the image-based RL, we firstly propose a generative model, S2P (State2Pixel), which synthesizes the raw pixel of the agent from its corresponding state. It enables bridging the gap between the state and the image domain in RL algorithms, and virtually exploring unseen image distribution via model-based transition in the state space. Through experiments, we confirm that our S2P-based image synthesis not only improves the image-based offline RL performance but also shows powerful generalization capability on unseen tasks.
翻訳日:2022-10-03 15:16:05 公開日:2022-09-30
# 2量子化を用いたニューラルネットワークの省エネルギーハードウェアアクセラレーション

Energy Efficient Hardware Acceleration of Neural Networks with Power-of-Two Quantisation ( http://arxiv.org/abs/2209.15257v1 )

ライセンス: Link先を確認
Dominika Przewlocka-Rus, Tomasz Kryjak(参考訳) ディープニューラルネットワーク(Deep Neural Network)は、ほとんどの現代の視覚システムの領域を事実上支配しており、計算複雑性を増大させるコストで高いパフォーマンスを提供する。これらのシステムでは、リアルタイムと最小限のエネルギー消費(例えば、ウェアラブルデバイスや自動運転車、エッジIoT(IoT)、センサーネットワーク)の両方で運用する必要があることが多いため、量子化、プルーニング、専用軽量アーキテクチャなど、様々なネットワーク最適化技術が使用されている。 ニューラルネットワーク層における重みの対数分布のため、計算精度の大幅な低下(4ビット重み以下)を伴うハイパフォーマンスを提供する手法は、パワー・オブ・ツー(ポット)量子化(したがって対数分布も含む)である。 この方法では、一般的なニューラルネットワークのマルチプライとACcumulate(MAC -- performing、例えば畳み込み操作)ユニットをよりエネルギー効率のよいBitshiftとACcumulate(BAC)に置き換える可能性がある。 本稿では、Zynq UltraScale + MPSoC ZCU104 SoC FPGA上に実装されたPoT重み付きハードウェアニューラルネットワークアクセラレータが、均一量子化バージョンよりも少なくとも1.4x$のエネルギー効率を持つことを示す。 ゼロ重みに対する計算の一部を省略することで実際の電力要求をさらに低減するため、対数量子化に適応した新しいプルーニング法を提案する。

Deep neural networks virtually dominate the domain of most modern vision systems, providing high performance at a cost of increased computational complexity.Since for those systems it is often required to operate both in real-time and with minimal energy consumption (e.g., for wearable devices or autonomous vehicles, edge Internet of Things (IoT), sensor networks), various network optimisation techniques are used, e.g., quantisation, pruning, or dedicated lightweight architectures. Due to the logarithmic distribution of weights in neural network layers, a method providing high performance with significant reduction in computational precision (for 4-bit weights and less) is the Power-of-Two (PoT) quantisation (and therefore also with a logarithmic distribution). This method introduces additional possibilities of replacing the typical for neural networks Multiply and ACcumulate (MAC -- performing, e.g., convolution operations) units, with more energy-efficient Bitshift and ACcumulate (BAC). In this paper, we show that a hardware neural network accelerator with PoT weights implemented on the Zynq UltraScale + MPSoC ZCU104 SoC FPGA can be at least $1.4x$ more energy efficient than the uniform quantisation version. To further reduce the actual power requirement by omitting part of the computation for zero weights, we also propose a new pruning method adapted to logarithmic quantisation.
翻訳日:2022-10-03 15:15:49 公開日:2022-09-30
# ガウス混合モデル上の教師なしマルチタスクと転送学習

Unsupervised Multi-task and Transfer Learning on Gaussian Mixture Models ( http://arxiv.org/abs/2209.15224v1 )

ライセンス: Link先を確認
Ye Tian, Haolei Weng, Yang Feng(参考訳) 教師なし学習は多くの現実世界のアプリケーションで広く使われている。 最も単純かつ重要な教師なし学習モデルの1つはガウス混合モデル(GMM)である。 本研究では,GMMにおけるマルチタスク学習問題について検討し,タスク間の類似したGMMパラメータ構造を活用し,シングルタスク学習と比較して学習性能の向上を図る。 そこで本研究では,emアルゴリズムに基づくマルチタスクgmm学習手法を提案する。 提案手法は,パラメータ推定誤差と過剰な誤クラスタリング誤差の両方に対して,幅広い状況下で最小収束率を達成する。 さらに,同様の理論的結果が導出されるGMMにおける移動学習問題へのアプローチを一般化する。 最後に,本手法の有効性をシミュレーションと実データ解析を用いて実証する。 我々の知る限りでは、理論的保証のあるGMM上でマルチタスクとトランスファー学習を研究する最初の研究である。

Unsupervised learning has been widely used in many real-world applications. One of the simplest and most important unsupervised learning models is the Gaussian mixture model (GMM). In this work, we study the multi-task learning problem on GMMs, which aims to leverage potentially similar GMM parameter structures among tasks to obtain improved learning performance compared to single-task learning. We propose a multi-task GMM learning procedure based on the EM algorithm that not only can effectively utilize unknown similarity between related tasks but is also robust against a fraction of outlier tasks from arbitrary sources. The proposed procedure is shown to achieve minimax optimal rate of convergence for both parameter estimation error and the excess mis-clustering error, in a wide range of regimes. Moreover, we generalize our approach to tackle the problem of transfer learning for GMMs, where similar theoretical results are derived. Finally, we demonstrate the effectiveness of our methods through simulations and a real data analysis. To the best of our knowledge, this is the first work studying multi-task and transfer learning on GMMs with theoretical guarantees.
翻訳日:2022-10-03 15:15:04 公開日:2022-09-30
# ReLUニューラルネットワークは最も単純なモデルを学ぶ:ニューラルアイソメトリーとエクササイズリカバリ

ReLU Neural Networks Learn the Simplest Models: Neural Isometry and Exact Recovery ( http://arxiv.org/abs/2209.15265v1 )

ライセンス: Link先を確認
Yifei Wang, Yixuan Hua, Emmanuel Cand\'es, Mert Pilanci(参考訳) ディープラーニングの実践は、極端な数の学習パラメータでもニューラルネットワークが著しく一般化することを示している。 これは、モデルの複雑さとデータへの適合のトレードオフが不可欠である従来の統計知識と矛盾しているように見える。 この不一致を凸最適化とスパースリカバリの観点から解決しようとした。 標準重崩壊正則化をもつ2層ReLUネットワークのトレーニングと一般化特性について考察する。 データ上の一定の規則性仮定の下で、任意の数のパラメータを持つReLUネットワークが、データを説明する単純なモデルのみを学ぶことを示す。 これは圧縮センシングにおける最遠線形モデルの回復に類似している。 ReLUネットワークと、スキップ接続や正規化層を持つ変種に対しては、植えられたニューロンの正確な回復を保証する等尺条件を示す。 ランダムに生成したデータに対して,ニューラルネットワークモデルの回復における相転移の存在を示す。 サンプル数と次元の比率が数値しきい値を超えると、回復は高い確率で成功し、そうでない場合は高い確率で失敗する。 驚いたことに、ReLUネットワークはラベルがうるさい場合でもシンプルでスパースなモデルを学ぶ。 相転移現象は数値実験により確認される。

The practice of deep learning has shown that neural networks generalize remarkably well even with an extreme number of learned parameters. This appears to contradict traditional statistical wisdom, in which a trade-off between model complexity and fit to the data is essential. We set out to resolve this discrepancy from a convex optimization and sparse recovery perspective. We consider the training and generalization properties of two-layer ReLU networks with standard weight decay regularization. Under certain regularity assumptions on the data, we show that ReLU networks with an arbitrary number of parameters learn only simple models that explain the data. This is analogous to the recovery of the sparsest linear model in compressed sensing. For ReLU networks and their variants with skip connections or normalization layers, we present isometry conditions that ensure the exact recovery of planted neurons. For randomly generated data, we show the existence of a phase transition in recovering planted neural network models. The situation is simple: whenever the ratio between the number of samples and the dimension exceeds a numerical threshold, the recovery succeeds with high probability; otherwise, it fails with high probability. Surprisingly, ReLU networks learn simple and sparse models even when the labels are noisy. The phase transition phenomenon is confirmed through numerical experiments.
翻訳日:2022-10-03 15:14:48 公開日:2022-09-30
# 自己安定化:安定の端におけるグラディエント輝きの差し迫ったバイアス

Self-Stabilization: The Implicit Bias of Gradient Descent at the Edge of Stability ( http://arxiv.org/abs/2209.15594v1 )

ライセンス: Link先を確認
Alex Damian, Eshaan Nichani, Jason D. Lee(参考訳) 勾配降下の伝統的な分析によれば、ヘッセンの最大固有値(シャープネス $s(\theta)$)が2/\eta$で境界付けられたとき、トレーニングは「安定」であり、トレーニング損失は単調に減少する。 しかし、最近の研究で、この仮定は、完全バッチまたは大規模なバッチ勾配勾配で現代的なニューラルネットワークをトレーニングする際には成立しない。 最近では Cohen et al. (2021) が2つの重要な現象を観測している。 第一はプログレッシブ・シャープニング(progressive sharpening)と呼ばれ、トレーニング中、不安定なカットオフに達するまで鋭さは着実に増加する。 第二に、安定性の端と呼ばれるシャープネスは、トレーニングの残り期間は2/\eta$でホバリングするが、損失は減少し続けている。 不安定性からHessianの上固有ベクトル方向の反復が分岐するにつれて、損失関数の局所テイラー展開における立方項は、安定性が回復するまで曲率を減少させる。 この性質は自己安定化と呼ばれ、勾配降下の一般的な性質であり、安定性の端での挙動を説明する。 自己安定化の鍵となる結果として、安定性の端における勾配降下は、制約 $S(\theta) \le 2/\eta$ の下で、暗黙的に射影勾配降下 (PGD) に従う。 本分析は, PGD軌道の損失, 鋭さ, 偏差を, 訓練を通して正確に予測し, 多くの標準条件および理論上は温和条件下で実証的に検証する。 本解析は,勾配降下の安定性に対する暗黙のバイアスのメカニズムを明らかにする。

Traditional analyses of gradient descent show that when the largest eigenvalue of the Hessian, also known as the sharpness $S(\theta)$, is bounded by $2/\eta$, training is "stable" and the training loss decreases monotonically. Recent works, however, have observed that this assumption does not hold when training modern neural networks with full batch or large batch gradient descent. Most recently, Cohen et al. (2021) observed two important phenomena. The first, dubbed progressive sharpening, is that the sharpness steadily increases throughout training until it reaches the instability cutoff $2/\eta$. The second, dubbed edge of stability, is that the sharpness hovers at $2/\eta$ for the remainder of training while the loss continues decreasing, albeit non-monotonically. We demonstrate that, far from being chaotic, the dynamics of gradient descent at the edge of stability can be captured by a cubic Taylor expansion: as the iterates diverge in direction of the top eigenvector of the Hessian due to instability, the cubic term in the local Taylor expansion of the loss function causes the curvature to decrease until stability is restored. This property, which we call self-stabilization, is a general property of gradient descent and explains its behavior at the edge of stability. A key consequence of self-stabilization is that gradient descent at the edge of stability implicitly follows projected gradient descent (PGD) under the constraint $S(\theta) \le 2/\eta$. Our analysis provides precise predictions for the loss, sharpness, and deviation from the PGD trajectory throughout training, which we verify both empirically in a number of standard settings and theoretically under mild conditions. Our analysis uncovers the mechanism for gradient descent's implicit bias towards stability.
翻訳日:2022-10-03 15:14:31 公開日:2022-09-30
# RL-MD:DNAモチーフ発見のための新しい強化学習アプローチ

RL-MD: A Novel Reinforcement Learning Approach for DNA Motif Discovery ( http://arxiv.org/abs/2209.15181v1 )

ライセンス: Link先を確認
Wen Wang, Jianzong Wang, Shijing Si, Zhangcheng Huang, Jing Xiao(参考訳) 機能的に連結されていないDNA配列の集合から配列パターンを抽出することは、DNAモチーフ発見(英語版)として知られている。 この問題に対処するために、ディープラーニングベースの技術が最近いくつか紹介されている。 しかし、ラベル付きデータを必要とするため、現実の状況ではこれらのアルゴリズムは使用できない。 本稿では,dnaモチーフ発見タスクのための新しい強化学習手法rl-mdを提案する。 rl-mdはラベルなしデータを入力として、提案する各モチーフを相対的情報ベース方式で評価し、この連続評価結果を報酬として利用する。 実世界のデータからRL-MDが高品質なモチーフを識別できることを示す。

The extraction of sequence patterns from a collection of functionally linked unlabeled DNA sequences is known as DNA motif discovery, and it is a key task in computational biology. Several deep learning-based techniques have recently been introduced to address this issue. However, these algorithms can not be used in real-world situations because of the need for labeled data. Here, we presented RL-MD, a novel reinforcement learning based approach for DNA motif discovery task. RL-MD takes unlabelled data as input, employs a relative information-based method to evaluate each proposed motif, and utilizes these continuous evaluation results as the reward. The experiments show that RL-MD can identify high-quality motifs in real-world data.
翻訳日:2022-10-03 15:08:29 公開日:2022-09-30
# SoK:超大型ファンデーションモデルの不可避なセキュリティについて

SoK: On the Impossible Security of Very Large Foundation Models ( http://arxiv.org/abs/2209.15259v1 )

ライセンス: Link先を確認
El-Mahdi El-Mhamdi, Sadegh Farhadkhani, Rachid Guerraoui, Nirupam Gupta, L\^e-Nguy\^en Hoang, Rafael Pinot, John Stephan(参考訳) 大規模機械学習モデル(いわゆる基盤モデル)は、アプリケーション指向機械学習のベースモデルとして機能することを目指している。 これらのモデルには素晴らしいパフォーマンスがあるが、重大なセキュリティとプライバシーの問題が経験的に報告されている。 しかし、これが現在のモデルの制限なのか、あるいはこれらの問題は基礎モデル学習問題自体の根本的な本質的不合理性に起因するのか疑問である。 本稿では,後者を支える知識を体系化する。 より正確には、敵機械学習の現在の理解から、セキュリティとプライバシの両方で高い精度の互換性を示唆する、今日の基盤モデル学習問題のいくつかの重要な特徴を特定します。 まず,(1)非常に高次元のモデルが必要であり,(2)ユーザが生成したデータセットからのみ取得可能な膨大なデータが必要であることを観察する。 さらに、そのようなデータは基本的に異種であり、ユーザーは一般的に非常に特定の(容易に識別できる)データ生成習慣を持っている。 さらに重要なのは、ユーザーのデータは高度にセンシティブな情報で満たされており、おそらくフェイクユーザーによって大量に汚染されていることだ。 次に,プライバシ保護およびビザンチンレジリエントな異質学習における精度の限界について,安全性とプライバシ保護の高正確性の基礎モデルを設計する可能性に対する説得力のある事例として検討した。 さらに、コンテンツレコメンデーションを含む他の高度な機械学習アプリケーションにも、分析が適用されることを強調する。 我々は、セキュリティとプライバシを優先し、より大規模なモデルの競争を遅らせるための措置を要求することで締めくくります。

Large machine learning models, or so-called foundation models, aim to serve as base-models for application-oriented machine learning. Although these models showcase impressive performance, they have been empirically found to pose serious security and privacy issues. We may however wonder if this is a limitation of the current models, or if these issues stem from a fundamental intrinsic impossibility of the foundation model learning problem itself. This paper aims to systematize our knowledge supporting the latter. More precisely, we identify several key features of today's foundation model learning problem which, given the current understanding in adversarial machine learning, suggest incompatibility of high accuracy with both security and privacy. We begin by observing that high accuracy seems to require (1) very high-dimensional models and (2) huge amounts of data that can only be procured through user-generated datasets. Moreover, such data is fundamentally heterogeneous, as users generally have very specific (easily identifiable) data-generating habits. More importantly, users' data is filled with highly sensitive information, and maybe heavily polluted by fake users. We then survey lower bounds on accuracy in privacy-preserving and Byzantine-resilient heterogeneous learning that, we argue, constitute a compelling case against the possibility of designing a secure and privacy-preserving high-accuracy foundation model. We further stress that our analysis also applies to other high-stake machine learning applications, including content recommendation. We conclude by calling for measures to prioritize security and privacy, and to slow down the race for ever larger models.
翻訳日:2022-10-03 15:08:19 公開日:2022-09-30
# 語彙目標を用いた強化学習における観測的ロバスト性と不変性

Observational Robustness and Invariances in Reinforcement Learning via Lexicographic Objectives ( http://arxiv.org/abs/2209.15320v1 )

ライセンス: Link先を確認
Daniel Jarne Ornia, Licio Romao, Lewis Hammond, Manuel Mazo Jr., Alessandro Abate(参考訳) 強化学習(RL)における政策ロバストネスは、いかなる価格でも望ましいものではなく、そうでなければ最適な政策からのロバストネス要求による変化は説明可能で定量化されるべきである。 強い収束保証を持つポリシー勾配アルゴリズムは通常、アルゴリズムの保証を守らない方法で堅牢なポリシーを得るように修正され、形式的な堅牢性要求の目的を破る。 本研究では,ノイズ誘起確率核によって状態観測が摂動する部分観測可能なmdpにおけるロバスト性の概念について検討する。 このカーネルによってポリシーがどのように変更されるかを分析することで、最大限堅牢なポリシーの集合を特徴づける。 次に、そのようなロバストなポリシーとノイズカーネルの特定の特性と、基礎となるMDPの構造的特性との接続を確立し、ポリシーのロバスト性に十分な条件を構築する。 これらの概念を用いて,任意のポリシー勾配アルゴリズムに適用可能なロバスト性誘導スキームを提案し,元のアルゴリズムの収束特性を保存する辞書最適化を通じて,そのロバスト性レベルのポリシーが達成した報酬を正式にトレードオフする。 安全クリティカルなRL環境に関する数値実験を通じて提案手法を検証し,提案手法がポリシーロールアウトで状態エラーが発生した場合に高い堅牢性を実現する方法を示す。

Policy robustness in Reinforcement Learning (RL) may not be desirable at any price; the alterations caused by robustness requirements from otherwise optimal policies should be explainable and quantifiable. Policy gradient algorithms that have strong convergence guarantees are usually modified to obtain robust policies in ways that do not preserve algorithm guarantees, which defeats the purpose of formal robustness requirements. In this work we study a notion of robustness in partially observable MDPs where state observations are perturbed by a noise-induced stochastic kernel. We characterise the set of policies that are maximally robust by analysing how the policies are altered by this kernel. We then establish a connection between such robust policies and certain properties of the noise kernel, as well as with structural properties of the underlying MDPs, constructing sufficient conditions for policy robustness. We use these notions to propose a robustness-inducing scheme, applicable to any policy gradient algorithm, to formally trade off the reward achieved by a policy with its robustness level through lexicographic optimisation, which preserves convergence properties of the original algorithm. We test the the proposed approach through numerical experiments on safety-critical RL environments, and show how the proposed method helps achieve high robustness when state errors are introduced in the policy roll-out.
翻訳日:2022-10-03 15:07:52 公開日:2022-09-30
# Parea: がんのサブタイプ発見のためのマルチビューアンサンブルクラスタリング

Parea: multi-view ensemble clustering for cancer subtype discovery ( http://arxiv.org/abs/2209.15399v1 )

ライセンス: Link先を確認
Bastian Pfeifer, Marcus D. Bloice, Michael G. Schimek(参考訳) マルチビュークラスタリング法は、患者を同様の分子特性のサブグループに成層するために不可欠である。 近年,この目的のために様々な手法が開発されている。 しかし,癌関連データの多様性が高いため,すべての症例において単一の方法が十分に機能しない場合がある。 本稿では,疾患サブタイプ発見のためのマルチビュー階層型クラスタリング手法pareaを提案する。 いくつかの機械学習ベンチマークデータセットでその性能を示す。 本手法を実世界の多視点がん患者データに適用・検証する。 pareaは、7つの分析されたがんタイプのうち6つで現在の最先端を上回っている。 私たちはpareaメソッドを、開発したpythonパッケージpyrea(https://github.com/mdbloice/pyrea)に統合しました。

Multi-view clustering methods are essential for the stratification of patients into sub-groups of similar molecular characteristics. In recent years, a wide range of methods has been developed for this purpose. However, due to the high diversity of cancer-related data, a single method may not perform sufficiently well in all cases. We present Parea, a multi-view hierarchical ensemble clustering approach for disease subtype discovery. We demonstrate its performance on several machine learning benchmark datasets. We apply and validate our methodology on real-world multi-view cancer patient data. Parea outperforms the current state-of-the-art on six out of seven analysed cancer types. We have integrated the Parea method into our developed Python package Pyrea (https://github.com/mdbloice/Pyrea), which enables the effortless and flexible design of ensemble workflows while incorporating a wide range of fusion and clustering algorithms.
翻訳日:2022-10-03 15:07:27 公開日:2022-09-30
# 知識蒸留を用いた小売銀行コンテキストにおける解釈モデルの改善

Using Knowledge Distillation to improve interpretable models in a retail banking context ( http://arxiv.org/abs/2209.15496v1 )

ライセンス: Link先を確認
Maxime Biehler, Mohamed Guermazi and C\'elim Starck(参考訳) この記事では、小売銀行コンテキストへの適用性に着目した知識蒸留技術のレビューを紹介する。 銀行環境、特にリスクとコントロール機能で使用される予測機械学習アルゴリズムは、一般的に、その複雑さを制限する規制と技術的な制約が課される。 知識蒸留は、通常より複雑でパフォーマンスの良い他のモデルの結果を使用して、アプリケーションに負担をかけることなく、単純なモデルのパフォーマンスを改善する機会を与えます。 この分野での最近の進歩を解析し、ソフトターゲット、サンプル選択、データ拡張という3つの主要なアプローチを強調する。 本研究は、オープンソースデータセットに適用し、小売銀行部門におけるフランスの大手機関であるBPCEのユースケースを検証する前に、これらの手法のサブセットとの関連性を評価する。 そこで本研究では,これらのモデルの性能を向上させるための知識蒸留の可能性を示す。

This article sets forth a review of knowledge distillation techniques with a focus on their applicability to retail banking contexts. Predictive machine learning algorithms used in banking environments, especially in risk and control functions, are generally subject to regulatory and technical constraints limiting their complexity. Knowledge distillation gives the opportunity to improve the performances of simple models without burdening their application, using the results of other - generally more complex and better-performing - models. Parsing recent advances in this field, we highlight three main approaches: Soft Targets, Sample Selection and Data Augmentation. We assess the relevance of a subset of such techniques by applying them to open source datasets, before putting them to the test on the use cases of BPCE, a major French institution in the retail banking sector. As such, we demonstrate the potential of knowledge distillation to improve the performance of these models without altering their form and simplicity.
翻訳日:2022-10-03 15:06:52 公開日:2022-09-30
# コミュニケーション効率のよい連合学習のための分散ランダムネットワーク

Sparse Random Networks for Communication-Efficient Federated Learning ( http://arxiv.org/abs/2209.15328v1 )

ライセンス: Link先を確認
Berivan Isik, Francesco Pase, Deniz Gunduz, Tsachy Weissman, Michele Zorzi(参考訳) 連合学習の1つの大きな課題は、各ラウンドのクライアントからサーバへの重み付け更新を交換する大きな通信コストである。 先行研究は、勾配圧縮法による重み更新の圧縮に大きな進歩をもたらしたが、重みを全く更新しない根本的に異なるアプローチを提案する。 代わりに,本手法は,初期値であるemph{random}値の重みを凍結し,最適な性能を得るためにランダムネットワークのスパース化方法を学ぶ。 この目的のために、クライアントは \emph{stochastic} のバイナリマスクをトレーニングして、元のマスク内で最適なスパースランダムネットワークを見つける。 トレーニングの最後に、最終的なモデルはランダムウェイトのスパースネットワーク、あるいは密集したランダムネットワーク内のサブネットワークである。 我々は,MNIST,EMNIST,CIFAR-10,CIFAR-100データセットの関連ベースライン上での精度,通信(パラメータ当たり1ビット未満),収束速度,最終モデルサイズ(bpp未満)の改善を,様々なシステム構成下で低ビットレート方式で示す。

One main challenge in federated learning is the large communication cost of exchanging weight updates from clients to the server at each round. While prior work has made great progress in compressing the weight updates through gradient compression methods, we propose a radically different approach that does not update the weights at all. Instead, our method freezes the weights at their initial \emph{random} values and learns how to sparsify the random network for the best performance. To this end, the clients collaborate in training a \emph{stochastic} binary mask to find the optimal sparse random network within the original one. At the end of the training, the final model is a sparse network with random weights -- or a subnetwork inside the dense random network. We show improvements in accuracy, communication (less than $1$ bit per parameter (bpp)), convergence speed, and final model size (less than $1$ bpp) over relevant baselines on MNIST, EMNIST, CIFAR-10, and CIFAR-100 datasets, in the low bitrate regime under various system configurations.
翻訳日:2022-10-03 15:06:08 公開日:2022-09-30
# マージン下の重み付けによるクラウドソーシングラベルの統合学習の改善

Improve learning combining crowdsourced labels by weighting Areas Under the Margin ( http://arxiv.org/abs/2209.15380v1 )

ライセンス: Link先を確認
Tanguy Lefort and Benjamin Charlier and Alexis Joly and Joseph Salmon(参考訳) 教師付き学習(例えば画像分類)では、現代の大規模データセットは、一般に労働者の群れによってラベル付けされる。 このクラウドソーシング設定で得られたラベルは、トレーニングのために集約される。 集約ステップは一般的に、労働者ごとの信頼スコアを利用する。 しかし、労働者中心のアプローチは各タスクのあいまいさを捨てる。 本質的に曖昧なタスクの中には、専門家の労働者を騙すようなものもあります。 標準的な教師付き学習設定(タスク毎にひとつのラベルとバランスのとれたクラス)では、マージン(aum)の下の領域は、誤ってラベルされたデータを識別するために調整されます。 我々は、クラウドソーシング学習シナリオにおけるあいまいなタスクを特定するためにAUMを適用し、Weighted AUM (WAUM)を導入した。 WAUMは、労働者とタスク依存スコアによって重み付けされるAUMの平均値である。 WAUMはトレーニングセットから曖昧なタスクを捨てるのに役立ち、一般化や校正性能が向上することを示す。 シミュレーション設定とCIFAR-10Hクラウドソースデータセットの両方を対象として,特徴量集約戦略の改善について報告する。

In supervised learning -- for instance in image classification -- modern massive datasets are commonly labeled by a crowd of workers. The obtained labels in this crowdsourcing setting are then aggregated for training. The aggregation step generally leverages a per worker trust score. Yet, such worker-centric approaches discard each task ambiguity. Some intrinsically ambiguous tasks might even fool expert workers, which could eventually be harmful for the learning step. In a standard supervised learning setting -- with one label per task and balanced classes -- the Area Under the Margin (AUM) statistic is tailored to identify mislabeled data. We adapt the AUM to identify ambiguous tasks in crowdsourced learning scenarios, introducing the Weighted AUM (WAUM). The WAUM is an average of AUMs weighted by worker and task dependent scores. We show that the WAUM can help discarding ambiguous tasks from the training set, leading to better generalization or calibration performance. We report improvements with respect to feature-blind aggregation strategies both for simulated settings and for the CIFAR-10H crowdsourced dataset.
翻訳日:2022-10-03 15:05:46 公開日:2022-09-30
# gaussian differential privacyを用いた個人プライバシー会計

Individual Privacy Accounting with Gaussian Differential Privacy ( http://arxiv.org/abs/2209.15596v1 )

ライセンス: Link先を確認
Antti Koskela, Marlon Tobaben and Antti Honkela(参考訳) 個別のプライバシ会計は、分析に関わる各関係者に対して、差分プライバシー(DP)損失を個別に制限することを可能にする。 これは、個々のプライバシの損失が、各データアクセスの最悪のケース境界を考慮に入れたdpバウンダリよりもかなり小さいため、情報を提供する。 個別のプライバシ損失を原則的に説明するためには,データアクセス時に発生する損失を最悪の損失よりも小さくすることができるランダム化機構の適応的な構成のためのプライバシ会計士が必要である。 この種の分析はフェルドマンとzrnic (2021) によって r\'enyi differential privacy (rdp) に対して行われたが、いわゆる最適プライバシー会計士には未だ行われていない。 我々は,最も汎用的なdp機構の1つであるガウス機構の最適境界を与えるガウス微分プライバシーを用いて,注意深い解析を行うことで,この方向への第一歩を踏み出す。 このアプローチは、ホッケースティックの発散に対する特定のスーパーマーチンゲールの決定と、フェルドマンとzrnicによるr\'enyi発散に基づく完全適応合成結果の拡張に基づいている(2021年)。 また、いわゆるプライバシー損失分布を用いて、個々の$(\varepsilon,\delta)$-privacy損失を測定することを検討する。 ブラックウェルの定理の助けを借りて、RDP解析を用いて近似的個人$(\varepsilon,\delta)$-accountantを構築することができる。

Individual privacy accounting enables bounding differential privacy (DP) loss individually for each participant involved in the analysis. This can be informative as often the individual privacy losses are considerably smaller than those indicated by the DP bounds that are based on considering worst-case bounds at each data access. In order to account for the individual privacy losses in a principled manner, we need a privacy accountant for adaptive compositions of randomised mechanisms, where the loss incurred at a given data access is allowed to be smaller than the worst-case loss. This kind of analysis has been carried out for the R\'enyi differential privacy (RDP) by Feldman and Zrnic (2021), however not yet for the so-called optimal privacy accountants. We make first steps in this direction by providing a careful analysis using the Gaussian differential privacy which gives optimal bounds for the Gaussian mechanism, one of the most versatile DP mechanisms. This approach is based on determining a certain supermartingale for the hockey-stick divergence and on extending the R\'enyi divergence-based fully adaptive composition results by Feldman and Zrnic (2021). We also consider measuring the individual $(\varepsilon,\delta)$-privacy losses using the so-called privacy loss distributions. With the help of the Blackwell theorem, we can then make use of the RDP analysis to construct an approximative individual $(\varepsilon,\delta)$-accountant.
翻訳日:2022-10-03 15:05:30 公開日:2022-09-30
# 教師なしキーポイント表現学習への情報理論的アプローチ

An information-theoretic approach to unsupervised keypoint representation learning ( http://arxiv.org/abs/2209.15404v1 )

ライセンス: Link先を確認
Ali Younes, Simone Schaub-Meyer, Georgia Chalvatzaki(参考訳) 様々な下流タスクの効果的な学習には,映像からの情報表現の抽出が不可欠である。 本稿では,ビデオから有意義な表現を教師なしの方法で発見する新しい情報理論的手法を提案する。 我々は、ピクセル近傍の局所エントロピーとそのビデオストリームにおける進化は、サルエントな特徴を学習するための貴重な内在的監督信号であると主張する。 そこで我々は,動的情報伝達器として機能するキーポイントの簡潔な表現に視覚的特徴を抽象化する。 2つの元の情報理論的損失により、ビデオフレーム間で顕著な情報を運ぶ、教師なしの時空間整合キーポイント表現が発見された。 まず、フレーム内のキーポイントによってカバーされる情報を最大化するロス。 第二に、時間とともにキーポイントの輸送を最適化し、情報フローの一貫性を損なう。 我々は、キーポイントに基づく表現を、オブジェクトダイナミクスの学習など、さまざまな下流タスクにおける最先端のベースラインと比較評価する。 キーポイントの表現性と一貫性を評価するために,新しいメトリクスセットを提案する。 我々の経験的結果は、静的および動的オブジェクトの両方への出席や、突然の入退場といった課題を解決する情報駆動キーポイントの優れたパフォーマンスを示している。

Extracting informative representations from videos is fundamental for the effective learning of various downstream tasks. Inspired by classical works on saliency, we present a novel information-theoretic approach to discover meaningful representations from videos in an unsupervised fashion. We argue that local entropy of pixel neighborhoods and its evolution in a video stream is a valuable intrinsic supervisory signal for learning to attend to salient features. We, thus, abstract visual features into a concise representation of keypoints that serve as dynamic information transporters. We discover in an unsupervised fashion spatio-temporally consistent keypoint representations that carry the prominent information across video frames, thanks to two original information-theoretic losses. First, a loss that maximizes the information covered by the keypoints in a frame. Second, a loss that encourages optimized keypoint transportation over time, thus, imposing consistency of the information flow. We evaluate our keypoint-based representation compared to state-of-the-art baselines in different downstream tasks such as learning object dynamics. To evaluate the expressivity and consistency of the keypoints, we propose a new set of metrics. Our empirical results showcase the superior performance of our information-driven keypoints that resolve challenges like attendance to both static and dynamic objects, and to objects abruptly entering and leaving the scene.
翻訳日:2022-10-03 14:59:18 公開日:2022-09-30
# 生体認証のための2頭部アイセグメンテーションアプローチ

Two-headed eye-segmentation approach for biometric identification ( http://arxiv.org/abs/2209.15471v1 )

ライセンス: Link先を確認
Wiktor Lazarski, Maciej Zieba, Tanguy Jeanneau, Tobias Zillig, Christian Brendel(参考訳) irisベースの識別システムは、個人識別の最も一般的なアプローチの1つである。 このようなシステムは、異なる眼成分の領域を理想的に識別する高品質なセグメンテーションモジュールを必要とする。 本稿では,2つの異なるデコードモジュールを用いて眼球成分とアイラッシュを分割する新しい2つの頭部アーキテクチャを提案する。 さらに,異なるトレーニング損失を取り入れて,様々なトレーニングシナリオを調査した。 また, 2つの頭部のアプローチにより, 分割形状の凸性を強制する凸先行法を用いて, モデルの品質を検証できた。 実生活環境における様々な学習シナリオについて,高分解能近赤外画像を用いた広範囲な評価を行った。

Iris-based identification systems are among the most popular approaches for person identification. Such systems require good-quality segmentation modules that ideally identify the regions for different eye components. This paper introduces the new two-headed architecture, where the eye components and eyelashes are segmented using two separate decoding modules. Moreover, we investigate various training scenarios by adopting different training losses. Thanks to the two-headed approach, we were also able to examine the quality of the model with the convex prior, which enforces the convexity of the segmented shapes. We conducted an extensive evaluation of various learning scenarios on real-life conditions high-resolution near-infrared iris images.
翻訳日:2022-10-03 14:58:57 公開日:2022-09-30
# FLOPSはどこで配るべきか? 視覚前訓練法の効率評価

Where Should I Spend My FLOPS? Efficiency Evaluations of Visual Pre-training Methods ( http://arxiv.org/abs/2209.15589v1 )

ライセンス: Link先を確認
Skanda Koppula, Yazhe Li, Evan Shelhamer, Andrew Jaegle, Nikhil Parthasarathy, Relja Arandjelovic, Jo\~ao Carreira, Olivier H\'enaff(参考訳) 自己教師あり手法は、教師付き事前学習と同等かそれ以上の精度をしばしば達成し、転校学習において顕著な成功を収めている。 以前のほとんどの作業では、複雑なデータ拡張や複数のビュー、あるいは長いトレーニングスケジュールを追加することで、事前トレーニング計算を増加させてきた。 本稿では,関連する,しかし直交的な質問について検討する: \textit{fixed} flop予算を考えると,代表的な視覚タスクにおいて高い精度を得るための最善のデータセット,モデル,および(自己)教師付きトレーニング手法とは何か? 大規模なデータセットが利用可能であることを考えると、この設定は学術と産業の両方のラボにとってより関係があることが多い。 5つの大規模データセット (JFT-300M, ALIGN, ImageNet-1K, ImageNet-21K, COCO) と6つの事前学習手法 (CLIP, DINO, SimCLR, BYOL, Masked Autoencoding, and supervised) について検討した。 類似の方法では、標準画像分割タスクに転送する際の正確さと比較して、フロップとco$_2$フットプリントを特徴付ける。 解析の結果,事前学習法の計算効率とデータセット品質への依存度に強い差が認められた。 特に,本研究の結果は,自己管理手法が本質的に大規模で未計算なデータにスケールする,という一般的な仮定に疑問を投げかけるものである。 したがって,(1)データセットのキュレーションに細心の注意を払うこと,(2)総計算コストの観点からの精度の報告を提唱する。

Self-supervised methods have achieved remarkable success in transfer learning, often achieving the same or better accuracy than supervised pre-training. Most prior work has done so by increasing pre-training computation by adding complex data augmentation, multiple views, or lengthy training schedules. In this work, we investigate a related, but orthogonal question: given a \textit{fixed} FLOP budget, what are the best datasets, models, and (self-)supervised training methods for obtaining high accuracy on representative visual tasks? Given the availability of large datasets, this setting is often more relevant for both academic and industry labs alike. We examine five large-scale datasets (JFT-300M, ALIGN, ImageNet-1K, ImageNet-21K, and COCO) and six pre-training methods (CLIP, DINO, SimCLR, BYOL, Masked Autoencoding, and supervised). In a like-for-like fashion, we characterize their FLOP and CO$_2$ footprints, relative to their accuracy when transferred to a canonical image segmentation task. Our analysis reveals strong disparities in the computational efficiency of pre-training methods and their dependence on dataset quality. In particular, our results call into question the commonly-held assumption that self-supervised methods inherently scale to large, uncurated data. We therefore advocate for (1) paying closer attention to dataset curation and (2) reporting of accuracies in context of the total computational cost.
翻訳日:2022-10-03 14:58:48 公開日:2022-09-30
# マルチspatiotemporal-scale general pde modelingに向けて

Towards Multi-spatiotemporal-scale Generalized PDE Modeling ( http://arxiv.org/abs/2209.15616v1 )

ライセンス: Link先を確認
Jayesh K. Gupta, Johannes Brandstetter(参考訳) 偏微分方程式(PDE)は、複雑な物理系のシミュレーションを記述する中心である。 その高価なソリューション技術は、ディープニューラルネットワークベースのサロゲートへの関心を高めている。 しかし,そのようなサロゲートを訓練する実用性は,複雑なマルチスケールの時空間現象をモデル化する能力に依存している。 特に、異なるフーリエモードのパラメータ化による局所的 \および大域的空間情報に対する自然なハンドルを与えるフーリエニューラルネットワーク(fnos)や、ダウンサンプリングとアップサンプリングパスによる局所的および大域的な情報を扱うu-netなど、様々なニューラルネットワークアーキテクチャが提案されている。 しかし、異なる方程式パラメータや異なる時間スケールの一般化は依然として課題である。 本研究では, 渦流および速度関数形式における流体力学問題に対する様々なFNOとU-Netのようなアプローチを総合的に比較する。 U-Netsでは、コンピュータビジョンから、特にオブジェクトセグメンテーションと生成モデリングから最近のアーキテクチャ改善を転送する。 さらに,計算性能を損なうことなく,u-netアーキテクチャの性能を向上させるためにfno層を用いた設計に関する考察を行った。 最後に、異なるPDEパラメータへの一般化と1つの代理モデルによる時間スケールに関する有望な結果を示す。

Partial differential equations (PDEs) are central to describing complex physical system simulations. Their expensive solution techniques have led to an increased interest in deep neural network based surrogates. However, the practical utility of training such surrogates is contingent on their ability to model complex multi-scale spatio-temporal phenomena. Various neural network architectures have been proposed to target such phenomena, most notably Fourier Neural Operators (FNOs) which give a natural handle over local \& global spatial information via parameterization of different Fourier modes, and U-Nets which treat local and global information via downsampling and upsampling paths. However, generalizing across different equation parameters or different time-scales still remains a challenge. In this work, we make a comprehensive comparison between various FNO and U-Net like approaches on fluid mechanics problems in both vorticity-stream and velocity function form. For U-Nets, we transfer recent architectural improvements from computer vision, most notably from object segmentation and generative modeling. We further analyze the design considerations for using FNO layers to improve performance of U-Net architectures without major degradation of computational performance. Finally, we show promising results on generalization to different PDE parameters and time-scales with a single surrogate model.
翻訳日:2022-10-03 14:58:20 公開日:2022-09-30
# 信用感スコア予測に関する調査

A Survey: Credit Sentiment Score Prediction ( http://arxiv.org/abs/2209.15293v1 )

ライセンス: Link先を確認
A. N. M. Sajedul Alam, Junaid Bin Kibria, Arnob Kumar Dey, Zawad Alam, Shifat Zaman, Motahar Mahtab, Mohammed Julfikar Ali Mahbub, Annajiat Alim Rasel(参考訳) 手動による承認は、銀行や他のNGOが融資の承認に使用している。 時間がかかり、銀行の従業員によって管理されるため、ミスをしがちです。 機械学習マイニング技術のいくつかの分野は、信用格付け予測の様々な分野を強化するために利用されている。 この研究の主な目標は、信用力を生み出すために使われている現在の感情分析技術を検討することである。

Manual approvals are still used by banks and other NGOs to approve loans. It takes time and is prone to mistakes because it is controlled by a bank employee. Several fields of machine learning mining technologies have been utilized to enhance various areas of credit rating forecast. A major goal of this research is to look at current sentiment analysis techniques that are being used to generate creditworthiness.
翻訳日:2022-10-03 14:57:59 公開日:2022-09-30
# AudioGen:テキストガイドによるオーディオ生成

AudioGen: Textually Guided Audio Generation ( http://arxiv.org/abs/2209.15352v1 )

ライセンス: Link先を確認
Felix Kreuk, Gabriel Synnaeve, Adam Polyak, Uriel Singer, Alexandre D\'efossez, Jade Copet, Devi Parikh, Yaniv Taigman, Yossi Adi(参考訳) 記述的テキストキャプションを条件とした音声サンプル生成の問題に取り組む。 本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰生成モデルAaudioGenを提案する。 AudioGenは学習した離散オーディオ表現で動作する。 テキスト音声生成の課題は、複数の課題を引き起こす。 音声が媒体を移動する方法のため、 ` `objects'' の区別は難しい作業である(例えば、複数の人が同時に話すなど)。 これは、実世界の記録条件(例えば、背景ノイズ、残響など)によってさらに複雑になる。 テキストアノテーションは別の制約を課し、モデルをスケールする能力を制限する。 最後に、高忠実度オーディオをモデル化するには、高いサンプリングレートでオーディオを符号化する必要がある。 上記の課題を解決するために,異なるオーディオサンプルを混合し,モデルに複数のソースの分離を内部的に学習させる拡張手法を提案する。 テキストオーディオデータポイントの不足に対処するため,異なるタイプの音声およびテキストアノテーションを含む10のデータセットをキュレートした。 より高速な推論のために、我々は、類似のビットレートと知覚的品質を維持しながら、より短いシーケンスの使用を可能にするマルチストリームモデリングの使用を探求する。 テキストの付着性を改善するために分類器フリーガイダンスを適用する。 評価されたベースラインと比較すると、AudioGenは客観的指標と主観的指標の両方よりも優れています。 最後に,提案手法の条件付き・無条件音声継続生成能力について検討する。 サンプル: https://tinyurl.com/audiogen-text2audio

We tackle the problem of generating audio samples conditioned on descriptive text captions. In this work, we propose AaudioGen, an auto-regressive generative model that generates audio samples conditioned on text inputs. AudioGen operates on a learnt discrete audio representation. The task of text-to-audio generation poses multiple challenges. Due to the way audio travels through a medium, differentiating ``objects'' can be a difficult task (e.g., separating multiple people simultaneously speaking). This is further complicated by real-world recording conditions (e.g., background noise, reverberation, etc.). Scarce text annotations impose another constraint, limiting the ability to scale models. Finally, modeling high-fidelity audio requires encoding audio at high sampling rate, leading to extremely long sequences. To alleviate the aforementioned challenges we propose an augmentation technique that mixes different audio samples, driving the model to internally learn to separate multiple sources. We curated 10 datasets containing different types of audio and text annotations to handle the scarcity of text-audio data points. For faster inference, we explore the use of multi-stream modeling, allowing the use of shorter sequences while maintaining a similar bitrate and perceptual quality. We apply classifier-free guidance to improve adherence to text. Comparing to the evaluated baselines, AudioGen outperforms over both objective and subjective metrics. Finally, we explore the ability of the proposed method to generate audio continuation conditionally and unconditionally. Samples: https://tinyurl.com/audiogen-text2audio
翻訳日:2022-10-03 14:57:52 公開日:2022-09-30
# 音声言語モデリングにおける自己監督表現のロバスト性について

On The Robustness of Self-Supervised Representations for Spoken Language Modeling ( http://arxiv.org/abs/2209.15483v1 )

ライセンス: Link先を確認
Itai Gat, Felix Kreuk, Ann Lee, Jade Copet, Gabriel Synnaeve, Emmanuel Dupoux, Yossi Adi(参考訳) 自己監督的表現は、識別的および生成的タスクのために広く研究されている。 しかし、その堅牢性は広く調査されていない。 本研究は、音声生成言語モデルのための自己教師付き表現に焦点を当てる。 まず,現状の音声表現モデルが,音声情報を変化させない基本信号変動に対する頑健性に欠けることを示す。 これを解決するために,生成言語モデリングのための頑健な自己教師付き音声表現を効果的かつ効率的に学習する手法を提案する。 提案手法は,音声信号に一連の信号変換を適用し,反復的擬似ラベル方式を用いてモデルを最適化することに基づく。 提案手法は,メトリクスを符号化する際の評価基準値を大幅に改善する。 さらに,音声対音声翻訳タスクにおける提案手法の評価を行った。 我々は、スペイン語とフランス語の変換を考察し、提案手法の利点を実証的に示す。

Self-supervised representations have been extensively studied for discriminative and generative tasks. However, their robustness capabilities have not been extensively investigated. This work focuses on self-supervised representations for spoken generative language models. First, we empirically demonstrate how current state-of-the-art speech representation models lack robustness to basic signal variations that do not alter the spoken information. To overcome this, we propose an effective and efficient method to learn robust self-supervised speech representation for generative spoken language modeling. The proposed approach is based on applying a set of signal transformations to the speech signal and optimizing the model using an iterative pseudo-labeling scheme. Our method significantly improves over the evaluated baselines when considering encoding metrics. We additionally evaluate our method on the speech-to-speech translation task. We consider Spanish-English and French-English conversions and empirically demonstrate the benefits of following the proposed approach.
翻訳日:2022-10-03 14:57:23 公開日:2022-09-30
# HMIにおけるエンゲージメントの自動文脈駆動推論:サーベイ

Automatic Context-Driven Inference of Engagement in HMI: A Survey ( http://arxiv.org/abs/2209.15370v1 )

ライセンス: Link先を確認
Hanan Salam, Oya Celiktutan, Hatice Gunes, Mohamed Chetouani(参考訳) シームレスな人間と人間のコミュニケーションの不可欠な部分はエンゲージメントであり、2人以上の参加者が認識されるつながりを確立し、維持し、終わらせるプロセスである。 したがって、人間中心の人間と機械のインタラクションアプリケーションを成功させるためには、自動エンゲージメント推論は人間と機械間の相互作用を達成し、マシンをユーザに合わせて調整し、ユーザの満足度と技術受容を高めるために必要なタスクの1つである。 いくつかの要因は、相互作用コンテキストや相互作用者の振る舞いやアイデンティティを含むエンゲージメント状態の推論に寄与する。 実際、エンゲージメントは多面的かつマルチモーダルな構造であり、文脈的、言語的、非言語的な手がかりの分析と解釈に高い精度を必要とする。 このように、このタスクを達成する自動化されたインテリジェントなシステムの開発は、これまで難しいことが証明されてきた。 本稿では,従来の人間-機械間相互作用の係り受け推論,学際的定義,係り受け要素と要因,公開データセット,地中真理評価,そして最も一般的に使われている機能や方法に関する総合的な調査を行い,今後の人間-機械間相互作用インターフェースと信頼性のあるコンテキスト対応の係り受け推論機能の開発ガイドとして機能する。 具体的および非身体的相互作用モードにまたがる詳細なレビューと、エンゲージメント認知モジュールが一体化されているインタラクションコンテキストの強調は、既存の調査から得られたサーベイを別々にまとめたものである。

An integral part of seamless human-human communication is engagement, the process by which two or more participants establish, maintain, and end their perceived connection. Therefore, to develop successful human-centered human-machine interaction applications, automatic engagement inference is one of the tasks required to achieve engaging interactions between humans and machines, and to make machines attuned to their users, hence enhancing user satisfaction and technology acceptance. Several factors contribute to engagement state inference, which include the interaction context and interactants' behaviours and identity. Indeed, engagement is a multi-faceted and multi-modal construct that requires high accuracy in the analysis and interpretation of contextual, verbal and non-verbal cues. Thus, the development of an automated and intelligent system that accomplishes this task has been proven to be challenging so far. This paper presents a comprehensive survey on previous work in engagement inference for human-machine interaction, entailing interdisciplinary definition, engagement components and factors, publicly available datasets, ground truth assessment, and most commonly used features and methods, serving as a guide for the development of future human-machine interaction interfaces with reliable context-aware engagement inference capability. An in-depth review across embodied and disembodied interaction modes, and an emphasis on the interaction context of which engagement perception modules are integrated sets apart the presented survey from existing surveys.
翻訳日:2022-10-03 14:57:12 公開日:2022-09-30
# 新しい合成データセットを用いたエンサンブル機械学習モデルによるウェアラブルデバイスを用いたストレス予測

Ensemble Machine Learning Model Trained on a New Synthesized Dataset Generalizes Well for Stress Prediction Using Wearable Devices ( http://arxiv.org/abs/2209.15146v1 )

ライセンス: Link先を確認
Gideon Vos, Kelly Trinh, Zoltan Sarnyai, Mostafa Rahimi Azghadi(参考訳) はじめに。 本研究では,少数の被験者を含むデータセット上に構築されたモデルの一般化能力について検討した。 次に,これらのデータセットを1つの大きなデータセットに組み合わせた手法を提案し,評価する。 最後に,新たな未知のデータに対する予測パワーを測定するために,勾配押し上げと人工ニューラルネットワークを組み合わせたアンサンブル手法を提案する。 メソッド。 本研究では,6つの公開データセットのセンサバイオマーカーデータを利用した。 モデルの一般化をテストするために,1つのデータセット(swell)でトレーニングされた勾配ブースティングモデルを開発し,他の研究で使用されていた2つのデータセット(wesad,neuro)でその予測能力をテストした。 次に、4つの小さなデータセット(SWELL, NEURO, WESAD, UBFC-Phys)を統合し、合計99の被験者を提供した。 さらに、ランダムサンプリングと他のデータセット(EXAM)を組み合わせて、200の合成対象からなるより大きなトレーニングデータセットを構築した。 最後に,勾配ブースティングモデルとニューラルネットワークを組み合わせたアンサンブルモデルを開発し,公開されていない2つのストレスデータセット(wesadとtoadstool)でテストした。 結果だ 提案手法は,新しい未確認検証データに対して85%の予測精度を達成し,小さなデータセットでトレーニングした単一モデルに対して25%の性能向上を実現する。 結論だ 小さな単一の研究プロトコルデータセットで訓練されたモデルは、新しい、目に見えないデータでの使用に適せず、統計力に欠ける。 多様な研究対象を含むデータセットに基づいてトレーニングされたマシーン学習モデルは、生理的差異をよりよく捉え、より堅牢なストレス検出をもたらす。

Introduction. We investigate the generalization ability of models built on datasets containing a small number of subjects, recorded in single study protocols. Next, we propose and evaluate methods combining these datasets into a single, large dataset. Finally, we propose and evaluate the use of ensemble techniques by combining gradient boosting with an artificial neural network to measure predictive power on new, unseen data. Methods. Sensor biomarker data from six public datasets were utilized in this study. To test model generalization, we developed a gradient boosting model trained on one dataset (SWELL), and tested its predictive power on two datasets previously used in other studies (WESAD, NEURO). Next, we merged four small datasets, i.e. (SWELL, NEURO, WESAD, UBFC-Phys), to provide a combined total of 99 subjects,. In addition, we utilized random sampling combined with another dataset (EXAM) to build a larger training dataset consisting of 200 synthesized subjects,. Finally, we developed an ensemble model that combines our gradient boosting model with an artificial neural network, and tested it on two additional, unseen publicly available stress datasets (WESAD and Toadstool). Results. Our method delivers a robust stress measurement system capable of achieving 85% predictive accuracy on new, unseen validation data, achieving a 25% performance improvement over single models trained on small datasets. Conclusion. Models trained on small, single study protocol datasets do not generalize well for use on new, unseen data and lack statistical power. Ma-chine learning models trained on a dataset containing a larger number of varied study subjects capture physiological variance better, resulting in more robust stress detection.
翻訳日:2022-10-03 14:56:44 公開日:2022-09-30
# ReINFORCEレコメンダにおけるユーザ満足のためのリワードシェイピング

Reward Shaping for User Satisfaction in a REINFORCE Recommender ( http://arxiv.org/abs/2209.15166v1 )

ライセンス: Link先を確認
Konstantina Christakopoulou, Can Xu, Sai Zhang, Sriraj Badam, Trevor Potter, Daniel Li, Hao Wan, Xinyang Yi, Ya Le, Chris Berg, Eric Bencomo Dixon, Ed H. Chi, Minmin Chen(参考訳) ユーザ満足度とユーザトラジェクトリの整合を奨励するReinforcement Learning(RL)ベースのレコメンデータを設計するにはどうすればよいのか? 3つの研究課題は,(1)満足度の測定,(2)満足度信号の空間性との戦い,(3)満足度を最大化するために推奨エージェントのトレーニングを適応させることである。 調査の結果,消費アイテムの使用経験を明示的に評価することで,利用者の満足度を指標として,エンゲージメント/インタラクションデータに貴重な直交情報を提供できることがわかった。 ユーザの満足度をほんのわずかなユーザストーリインタラクションでしか観察できないsparsityの場合、インプテーションモデルは、ユーザが消費したすべての項目の満足度レベルを予測するのに有用である。 レコメンダポリシを満足する学習には,rlレコメンダエージェントの報酬シェーピングがユーザエクスペリエンスを満足させる上で有効であることを仮定する。 インプテーション・ネットワークの役割は、どのアクションがユーザーに満足しているかを学習することであり、ポリシー・ネットワークは強化の上に構築され、推奨すべき項目を決定し、インプットを利用した報酬を提供する。 オフライン分析とライブ実験の両方を産業用大規模レコメンデーションプラットフォームで使用し,ユーザエクスペリエンスを満たすためのアプローチの可能性を実証する。

How might we design Reinforcement Learning (RL)-based recommenders that encourage aligning user trajectories with the underlying user satisfaction? Three research questions are key: (1) measuring user satisfaction, (2) combatting sparsity of satisfaction signals, and (3) adapting the training of the recommender agent to maximize satisfaction. For measurement, it has been found that surveys explicitly asking users to rate their experience with consumed items can provide valuable orthogonal information to the engagement/interaction data, acting as a proxy to the underlying user satisfaction. For sparsity, i.e, only being able to observe how satisfied users are with a tiny fraction of user-item interactions, imputation models can be useful in predicting satisfaction level for all items users have consumed. For learning satisfying recommender policies, we postulate that reward shaping in RL recommender agents is powerful for driving satisfying user experiences. Putting everything together, we propose to jointly learn a policy network and a satisfaction imputation network: The role of the imputation network is to learn which actions are satisfying to the user; while the policy network, built on top of REINFORCE, decides which items to recommend, with the reward utilizing the imputed satisfaction. We use both offline analysis and live experiments in an industrial large-scale recommendation platform to demonstrate the promise of our approach for satisfying user experiences.
翻訳日:2022-10-03 14:56:14 公開日:2022-09-30
# 複数のデータインプテーションのための変分オートエンコーダの活用

Leveraging variational autoencoders for multiple data imputation ( http://arxiv.org/abs/2209.15321v1 )

ライセンス: Link先を確認
Breeshey Roskams-Hieter, Jude Wells and Sara Wade(参考訳) データの欠落は、多くのアプリケーションにわたるデータ分析の大きな障壁として持続する。 近年,非線形で複雑なデータ関係を捉える能力によって,データ不足の計算に深層生成モデルが用いられている。 本研究では,複数のインプテーション戦略を通じて欠落データの不確かさを考慮に入れた深層モデル,すなわち変分オートエンコーダ(vaes)の能力について検討する。 VAEは、特に極端に欠落したデータ値に対して、過小評価と過信な計算を伴う、欠落したデータの経験的カバレッジを低くする。 これを克服するために、一般的なベイズフレームワークから見た$\beta$-vaesを採用し、モデル誤特定に対する堅牢性を提供します。 適切な値を$\beta$に割り当てることは不確実性校正に不可欠であり、クロスバリデーションを用いてどのように達成できるかを実証する。 ダウンストリームタスクでは、$\beta$-vaesの複数のインプテーションがインプテーションのアーティファクトとして発生する誤った発見をいかに回避できるかを示す。

Missing data persists as a major barrier to data analysis across numerous applications. Recently, deep generative models have been used for imputation of missing data, motivated by their ability to capture highly non-linear and complex relationships in the data. In this work, we investigate the ability of deep models, namely variational autoencoders (VAEs), to account for uncertainty in missing data through multiple imputation strategies. We find that VAEs provide poor empirical coverage of missing data, with underestimation and overconfident imputations, particularly for more extreme missing data values. To overcome this, we employ $\beta$-VAEs, which viewed from a generalized Bayes framework, provide robustness to model misspecification. Assigning a good value of $\beta$ is critical for uncertainty calibration and we demonstrate how this can be achieved using cross-validation. In downstream tasks, we show how multiple imputation with $\beta$-VAEs can avoid false discoveries that arise as artefacts of imputation.
翻訳日:2022-10-03 14:51:02 公開日:2022-09-30
# テンソルの多体近似

Many-Body Approximation for Tensors ( http://arxiv.org/abs/2209.15338v1 )

ライセンス: Link先を確認
Kazu Ghalamkari, Mahito Sugiyama(参考訳) テンソルのモード間の関係に着目した非負のテンソル分解を提案する。 伝統的な分解法は表現の低ランク性を前提としており、大域的な最適化と目標ランクの選択が困難になる。 これらの問題に対処するために,情報幾何定式化に基づくテンソルの多体近似であるテンソルを分解する方法を提案する。 テンソルとそのモードが確率分布と確率変数に対応するエネルギーベースモデルによって処理され、変数間の相互作用を考慮して多体近似を行う。 我々のモデルはKLの発散最小化の観点から多項式時間で大域的に最適化できるが、これは同等の再構成誤差を保持する低ランク近似よりも経験的に高速である。 さらに,モード間の相互作用をテンソルネットワークとして可視化し,多体近似と低ランク近似の非自明な関係を明らかにする。

We propose a nonnegative tensor decomposition with focusing on the relationship between the modes of tensors. Traditional decomposition methods assume low-rankness in the representation, resulting in difficulties in global optimization and target rank selection. To address these problems, we present an alternative way to decompose tensors, a many-body approximation for tensors, based on an information geometric formulation. A tensor is treated via an energy-based model, where the tensor and its mode correspond to a probability distribution and a random variable, respectively, and many-body approximation is performed on it by taking the interaction between variables into account. Our model can be globally optimized in polynomial time in terms of the KL divergence minimization, which is empirically faster than low-rank approximations keeping comparable reconstruction error. Furthermore, we visualize interactions between modes as tensor networks and reveal a nontrivial relationship between many-body approximation and low-rank approximation.
翻訳日:2022-10-03 14:50:43 公開日:2022-09-30
# ベイズ最適化のための知識勾配の効率的な計算

Efficient computation of the Knowledge Gradient for Bayesian Optimization ( http://arxiv.org/abs/2209.15367v1 )

ライセンス: Link先を確認
Juan Ungredda and Michael Pearce and Juergen Branke(参考訳) ベイズ最適化は確率的高価なブラックボックス関数を最適化する強力な手法の集合である。 ベイズ最適化アルゴリズムの重要な要素の1つは、反復ごとにどの解を評価するべきかを決定する取得関数である。 人気があり非常に効果的な選択は知識勾配取得関数であるが、それを計算する方法は存在しない。 いくつかの異なる実装は異なる近似を作る。 本稿では,知識勾配実装のスペクトルをレビュー・比較し,これまで提案してきたいくつかのアイデアを組み合わせて,強力かつ効率的な計算を実現するための新しい手法であるone-shot hybrid kgを提案する。 提案手法は,従来手法の理論的性質を保ちつつ,計算オーバーヘッドの大幅な低減と性能の向上を実証的に示す。 すべての実験はBOTorchで実装され、コードはgithubで利用可能である。

Bayesian optimization is a powerful collection of methods for optimizing stochastic expensive black box functions. One key component of a Bayesian optimization algorithm is the acquisition function that determines which solution should be evaluated in every iteration. A popular and very effective choice is the Knowledge Gradient acquisition function, however there is no analytical way to compute it. Several different implementations make different approximations. In this paper, we review and compare the spectrum of Knowledge Gradient implementations and propose One-shot Hybrid KG, a new approach that combines several of the previously proposed ideas and is cheap to compute as well as powerful and efficient. We prove the new method preserves theoretical properties of previous methods and empirically show the drastically reduced computational overhead with equal or improved performance. All experiments are implemented in BOTorch and code is available on github.
翻訳日:2022-10-03 14:50:28 公開日:2022-09-30
# 空間制約による最適輸送

Sparsity-Constrained Optimal Transport ( http://arxiv.org/abs/2209.15466v1 )

ライセンス: Link先を確認
Tianlin Liu, Joan Puigcerver, Mathieu Blondel(参考訳) 正規化された最適輸送(OT)は、ニューラルネットワークの損失層やマッチング層としてますます利用されている。 エントロピー正規化otはシンクホーンアルゴリズムで計算できるが、完全な輸送計画につながり、すべてのソースが(理論上は)すべてのターゲットと一致している。 この問題に対処するため、いくつかの作品が代わりに二次正則化を研究している。 この正規化はスパーシリティを保ち、非拘束的で滑らかな(半)双対目的へとつながり、既成の勾配法で解ける。 残念なことに、二次正規化は輸送計画の基数(非ゼロ数)を直接制御するものではない。 本稿では,交通計画の基数制約を明示したOTに対する新しいアプローチを提案する。 我々の研究は、画像パッチのような入力トークンとニューラルネットワークのようなエキスパートモデルとのマッチングにOTを使用する、専門家のまばらな混合のアプリケーションによって動機付けられています。 濃度制約は、最大で$k$トークンが専門家と一致していることを保証する。 濃度制約の非凸性にもかかわらず、対応する(セミ)双対問題は扱いやすく、一階勾配法で解くことができる。 本手法は,非正規化OT(極限の場合$k=1$)と二次正規化OT($k$が十分大きいときに回収される)の中間地盤とみなすことができる。 目標の滑らかさは、$k$が増加するにつれて増加し、収束速度と最適計画の間隔の間のトレードオフを引き起こす。

Regularized optimal transport (OT) is now increasingly used as a loss or as a matching layer in neural networks. Entropy-regularized OT can be computed using the Sinkhorn algorithm but it leads to fully-dense transportation plans, meaning that all sources are (fractionally) matched with all targets. To address this issue, several works have investigated quadratic regularization instead. This regularization preserves sparsity and leads to unconstrained and smooth (semi) dual objectives, that can be solved with off-the-shelf gradient methods. Unfortunately, quadratic regularization does not give direct control over the cardinality (number of nonzeros) of the transportation plan. We propose in this paper a new approach for OT with explicit cardinality constraints on the transportation plan. Our work is motivated by an application to sparse mixture of experts, where OT can be used to match input tokens such as image patches with expert models such as neural networks. Cardinality constraints ensure that at most $k$ tokens are matched with an expert, which is crucial for computational performance reasons. Despite the nonconvexity of cardinality constraints, we show that the corresponding (semi) dual problems are tractable and can be solved with first-order gradient methods. Our method can be thought as a middle ground between unregularized OT (recovered in the limit case $k=1$) and quadratically-regularized OT (recovered when $k$ is large enough). The smoothness of the objectives increases as $k$ increases, giving rise to a trade-off between convergence speed and sparsity of the optimal plan.
翻訳日:2022-10-03 14:50:15 公開日:2022-09-30
# miselboで学ぶ: the mixed cookbook

Learning with MISELBO: The Mixture Cookbook ( http://arxiv.org/abs/2209.15514v1 )

ライセンス: Link先を確認
Oskar Kviman, Ricky Mol\'en, Alexandra Hotti, Semih Kurt, V\'ictor Elvira and Jens Lagergren(参考訳) 変分推論(VI)における混合モデルは研究の活発な分野である。 最近の研究は、MISELBOによる多重重要サンプリング(MIS)とのつながりを確立し、大規模な問題に対するアンサンブル近似の利用を推し進めている。 しかし、ここで示すように、アンサンブル成分の独立学習は、準最適多様性をもたらす可能性がある。 そこで我々は,MISELBOを混合学習の目的関数として用いることの効果について検討し,VampPriorとPixelCNNデコーダネットワークによるフローベース階層型変分オートエンコーダ(VAE)の正規化のための変分近似を初めて提案する。 2つの大きな洞察が、この新しい複合モデルの構築につながった。 第一に、混合モデルは、実践者がより柔軟な後部近似をVAEで得るために、市販のツールになる可能性がある。 そのため、4つの一般的なアーキテクチャに適用する方法を示すことで、よりアクセスしやすいものにします。 第2に、混合成分は、ミセルボが目的関数であるとき、その多様性を最大化しつつ、目標分布をカバーするために協調する。 本稿では,viと適応的重要度サンプリングの新たな関係を描き,協調行動を説明する。 最後に,MNISTデータセットとFashionMNISTデータセットの負のログ類似度の観点から,画像データと単一セルトランスクリプトームデータの両方において,Mixture VAEsが学習した特徴表現の優位性を示す。 ここで入手できるコードは、 \url{https://github.com/lagergren-lab/mixturevaes}である。

Mixture models in variational inference (VI) is an active field of research. Recent works have established their connection to multiple importance sampling (MIS) through the MISELBO and advanced the use of ensemble approximations for large-scale problems. However, as we show here, an independent learning of the ensemble components can lead to suboptimal diversity. Hence, we study the effect of instead using MISELBO as an objective function for learning mixtures, and we propose the first ever mixture of variational approximations for a normalizing flow-based hierarchical variational autoencoder (VAE) with VampPrior and a PixelCNN decoder network. Two major insights led to the construction of this novel composite model. First, mixture models have potential to be off-the-shelf tools for practitioners to obtain more flexible posterior approximations in VAEs. Therefore, we make them more accessible by demonstrating how to apply them to four popular architectures. Second, the mixture components cooperate in order to cover the target distribution while trying to maximize their diversity when MISELBO is the objective function. We explain this cooperative behavior by drawing a novel connection between VI and adaptive importance sampling. Finally, we demonstrate the superiority of the Mixture VAEs' learned feature representations on both image and single-cell transcriptome data, and obtain state-of-the-art results among VAE architectures in terms of negative log-likelihood on the MNIST and FashionMNIST datasets. Code available here: \url{https://github.com/Lagergren-Lab/MixtureVAEs}.
翻訳日:2022-10-03 14:49:48 公開日:2022-09-30
# 過パラメータ化暗黙ニューラルネットワークの最適化と一般化について

On the optimization and generalization of overparameterized implicit neural networks ( http://arxiv.org/abs/2209.15562v1 )

ライセンス: Link先を確認
Tianxiang Gao, Hongyang Gao(参考訳) 命令型ニューラルネットワークは、競争力のあるパフォーマンスを達成できるが、計算リソースをはるかに少なくできるため、機械学習コミュニティではますます魅力的になっている。 近年、暗黙のネットワークが過パラメータ化されている場合、勾配降下のような一階法のグローバル収束が確立されている。 しかし、全ての層を一緒に訓練すると、その分析は出力層の進化を研究するのと同等である。 暗黙の層がトレーニングにどのように寄与するかは不明だ。 そこで本論文では,暗黙の層のみをトレーニングすることに限定する。 暗黙の層のみを訓練しても,グローバル収束が保証されることを示す。 一方で、暗黙のニューラルネットワークのトレーニング性能を非知覚データに一般化する方法に関する理論的理解は、まだ未検討のままである。 この問題は標準フィードフォワードネットワークで研究されているが、暗黙のニューラルネットワークは理論的には無限に多くの層を持つため、いまだに興味深い。 そこで本研究では,暗黙的ニューラルネットワークの一般化誤差について検討する。 具体的には、ランダム初期化よりもReLU関数によって活性化される暗黙ネットワークの一般化について検討する。 初期化に敏感な一般化境界を提供する。 その結果、適切なランダム初期化を伴う勾配流は、任意に小さい一般化誤差を達成するために十分な過剰パラメータの暗黙的ネットワークを訓練できることが示される。

Implicit neural networks have become increasingly attractive in the machine learning community since they can achieve competitive performance but use much less computational resources. Recently, a line of theoretical works established the global convergences for first-order methods such as gradient descent if the implicit networks are over-parameterized. However, as they train all layers together, their analyses are equivalent to only studying the evolution of the output layer. It is unclear how the implicit layer contributes to the training. Thus, in this paper, we restrict ourselves to only training the implicit layer. We show that global convergence is guaranteed, even if only the implicit layer is trained. On the other hand, the theoretical understanding of when and how the training performance of an implicit neural network can be generalized to unseen data is still under-explored. Although this problem has been studied in standard feed-forward networks, the case of implicit neural networks is still intriguing since implicit networks theoretically have infinitely many layers. Therefore, this paper investigates the generalization error for implicit neural networks. Specifically, we study the generalization of an implicit network activated by the ReLU function over random initialization. We provide a generalization bound that is initialization sensitive. As a result, we show that gradient flow with proper random initialization can train a sufficient over-parameterized implicit network to achieve arbitrarily small generalization errors.
翻訳日:2022-10-03 14:49:17 公開日:2022-09-30
# 確率補間による正規化流れの構築

Building Normalizing Flows with Stochastic Interpolants ( http://arxiv.org/abs/2209.15571v1 )

ライセンス: Link先を確認
Michael S. Albergo and Eric Vanden-Eijnden(参考訳) 任意の基底分布と対象分布の間の連続時間正規化フローに基づく単純な生成モデルを提案する。 この流れの速度場は、有限時間にベースとターゲットの間を補間する時間依存分布の確率電流から推測される。 従来の正規化フロー推論法とは異なり、ODEソルバによるコストのかかるバックプロパゲーションを必要とする最大極大原理では、補間手法は、経験的推定に容易に対応可能な期待値で表される速度自体の単純な二次的損失をもたらす。 フローはベースまたはターゲットからサンプルを生成するために使用することができ、インターポーラントに沿っていつでも確率を推定するために使用することができる。 このアプローチは拡散との関係で文脈化されている。 特に、ベースがガウス分布である状況において、正規化フローの速度は、ターゲットをサンプリングし、スコアを推定するために拡散モデルを構築するためにも利用できることを示す。 これにより、確率微分方程式に基づく手法を通常の微分方程式の手法にマッピングし、モデルの力学を単純化し、等価ダイナミクスを捉えることができる。 密度推定タスクのベンチマークは、学習フローが従来のodeトレーニングコストのごく一部で最大精度の連続フローと一致し、超過できることを示しています。

A simple generative model based on a continuous-time normalizing flow between any pair of base and target distributions is proposed. The velocity field of this flow is inferred from the probability current of a time-dependent distribution that interpolates between the base and the target in finite time. Unlike conventional normalizing flow inference methods based the maximum likelihood principle, which require costly backpropagation through ODE solvers, our interpolant approach leads to a simple quadratic loss for the velocity itself which is expressed in terms of expectations that are readily amenable to empirical estimation. The flow can be used to generate samples from either the base or target, and can be used to estimate the likelihood at any time along the interpolant. The approach is contextualized in its relation to diffusions. In particular, in situations where the base is a Gaussian distribution, we show that the velocity of our normalizing flow can also be used to construct a diffusion model to sample the target as well as estimating its score. This allows one to map methods based on stochastic differential equations to those of ordinary differential equations, simplifying the mechanics of the model, but capturing equivalent dynamics. Benchmarking on density estimation tasks illustrates that the learned flow can match and surpass maximum likelihood continuous flows at a fraction of the conventional ODE training costs.
翻訳日:2022-10-03 14:48:59 公開日:2022-09-30
# 分散検出手法はロバストではありません!

Your Out-of-Distribution Detection Method is Not Robust! ( http://arxiv.org/abs/2209.15246v1 )

ライセンス: Link先を確認
Mohammad Azizmalayeri, Arshia Soltani Moakhar, Arman Zarei, Reihaneh Zohrabi, Mohammad Taghi Manzuri, Mohammad Hossein Rohban(参考訳) オフ・オブ・ディストリビューション(OOD)検出は,信頼性と安全性において領域外サンプルを特定することの重要性から,近年注目されている。 OOD検出法は大きな進歩を遂げているが, 敵例の影響を受けやすいため, 目的に反する。 この問題を軽減するため、近年、いくつかの防御策が提案されている。 しかしながら、これらの試みは小さな摂動サイズまたは弱い攻撃に基づいて評価され、効果が無かった。 本研究では、CIFAR-10データセットに対して一般的に使用される$\epsilon=8/255$など、大きな摂動サイズを持つイン/アウトデータに対するエンドツーエンドPGD攻撃に対するこれらの防御を再検討する。 驚くべきことに、これらの防御のほとんどが、敵対的な設定下でランダムな検出よりも悪くなる。 次に,ロバストなOOD検出手法を提案する。 理想的な防御策として、訓練は、ほぼすべての敵の摂動にモデルを公開し、敵の訓練によって達成できる。 すなわち、そのようなトレーニングの摂動は、分布内と分布外の両方のサンプルに基づいているべきである。 したがって、標準設定でのOOD検出と異なり、OODへのアクセスは、分布内と同様に、敵の訓練設定に必要なサンプル音が聞こえる。 これらのヒントは,OpenGANなどの生成OOD検出手法をベースラインとして採用することにつながる。 そこで我々は,事前学習されたロバストモデルを用いてロバスト特徴を抽出するAdversarially Trained Discriminator (ATD) と,OODサンプルを生成するジェネレータモデルを提案する。 CIFAR-10 と CIFAR-100 のATD を非分配データとして用いることで、高規格の AUROC と分類精度を維持しつつ、ロバストな AUROC における従来の手法を著しく上回ることができる。 コードリポジトリはhttps://github.com/rohban-lab/atdで入手できる。

Out-of-distribution (OOD) detection has recently gained substantial attention due to the importance of identifying out-of-domain samples in reliability and safety. Although OOD detection methods have advanced by a great deal, they are still susceptible to adversarial examples, which is a violation of their purpose. To mitigate this issue, several defenses have recently been proposed. Nevertheless, these efforts remained ineffective, as their evaluations are based on either small perturbation sizes, or weak attacks. In this work, we re-examine these defenses against an end-to-end PGD attack on in/out data with larger perturbation sizes, e.g. up to commonly used $\epsilon=8/255$ for the CIFAR-10 dataset. Surprisingly, almost all of these defenses perform worse than a random detection under the adversarial setting. Next, we aim to provide a robust OOD detection method. In an ideal defense, the training should expose the model to almost all possible adversarial perturbations, which can be achieved through adversarial training. That is, such training perturbations should based on both in- and out-of-distribution samples. Therefore, unlike OOD detection in the standard setting, access to OOD, as well as in-distribution, samples sounds necessary in the adversarial training setup. These tips lead us to adopt generative OOD detection methods, such as OpenGAN, as a baseline. We subsequently propose the Adversarially Trained Discriminator (ATD), which utilizes a pre-trained robust model to extract robust features, and a generator model to create OOD samples. Using ATD with CIFAR-10 and CIFAR-100 as the in-distribution data, we could significantly outperform all previous methods in the robust AUROC while maintaining high standard AUROC and classification accuracy. The code repository is available at https://github.com/rohban-lab/ATD .
翻訳日:2022-10-03 14:47:55 公開日:2022-09-30
# 大点雲における物体検出用変圧器

Transformers for Object Detection in Large Point Clouds ( http://arxiv.org/abs/2209.15258v1 )

ライセンス: Link先を確認
Felicia Ruppel, Florian Faion, Claudius Gl\"aser, Klaus Dietmayer(参考訳) 本稿では,変圧器アーキテクチャに基づく大点雲の新しい検出モデルであるTransLPCを提案する。 変圧器による物体検出は研究の活発な分野であるが、ライダーやレーダーデータなどの自律走行で一般的なものなど、広い領域にまたがる点雲にそのようなモデルを適用することは困難であることが証明されている。 TransLPCはこれらの問題を解決することができる: トランスフォーマーモデルの構造は、大きな点の雲に十分な入力シーケンス長を許容するように変更されている。 さらに,メモリフレンドリーな変圧器デコーダクエリ数を維持しながら,検出精度を向上させる新しいクエリ改善手法を提案する。 クエリはレイヤ間で再配置され、推定しているバウンディングボックスに効率的に移動されます。 この単純な手法は検出精度に大きな影響を与え、実際のライダーデータ上での挑戦的なnuScenesデータセットで評価される。 さらに,提案手法は,マルチオブジェクト追跡と検出を併用するなど,オブジェクト検出を必要とする既存のトランスフォーマティブソリューションと互換性があり,大点雲と連携して使用することが可能である。

We present TransLPC, a novel detection model for large point clouds that is based on a transformer architecture. While object detection with transformers has been an active field of research, it has proved difficult to apply such models to point clouds that span a large area, e.g. those that are common in autonomous driving, with lidar or radar data. TransLPC is able to remedy these issues: The structure of the transformer model is modified to allow for larger input sequence lengths, which are sufficient for large point clouds. Besides this, we propose a novel query refinement technique to improve detection accuracy, while retaining a memory-friendly number of transformer decoder queries. The queries are repositioned between layers, moving them closer to the bounding box they are estimating, in an efficient manner. This simple technique has a significant effect on detection accuracy, which is evaluated on the challenging nuScenes dataset on real-world lidar data. Besides this, the proposed method is compatible with existing transformer-based solutions that require object detection, e.g. for joint multi-object tracking and detection, and enables them to be used in conjunction with large point clouds.
翻訳日:2022-10-03 14:47:20 公開日:2022-09-30
# 投影残差に基づく機械学習手法

Machine Unlearning Method Based On Projection Residual ( http://arxiv.org/abs/2209.15276v1 )

ライセンス: Link先を確認
Zihao Cao, Jianzong Wang, Shijing Si, Zhangcheng Huang, Jing Xiao(参考訳) 機械学習モデル(主にニューラルネットワーク)は、現実の世界でますます使われている。 ユーザーはトレーニングのためにデータをモデルに供給する。 しかし、これらのプロセスはしばしば一方通行です。 トレーニングが完了すると、モデルはデータを記憶する。 データセットからデータが削除されたとしても、これらのデータの影響はモデルに持続する。 世界中の法律や規制がデータプライバシを保護しているため、モデルに機械学習を通じてこのデータを完全に忘れさせることがますます重要になる。 本稿ではニュートン反復法に基づく投影残差法を採用する。 主な目的は、線形回帰モデルとニューラルネットワークモデルという文脈で機械学習タスクを実装することである。 本手法は主に反復重み付け法を用いてデータとその影響を完全に無視し、その計算コストはデータの特徴次元において線形である。 この方法は、現在の機械学習方法を改善することができる。 同時に、トレーニングセットの大きさとは独立している。 機能注入試験 (FIT) により評価した。 実験により,本手法はモデル再学習に近いデータ削除において,より徹底的であることが示された。

Machine learning models (mainly neural networks) are used more and more in real life. Users feed their data to the model for training. But these processes are often one-way. Once trained, the model remembers the data. Even when data is removed from the dataset, the effects of these data persist in the model. With more and more laws and regulations around the world protecting data privacy, it becomes even more important to make models forget this data completely through machine unlearning. This paper adopts the projection residual method based on Newton iteration method. The main purpose is to implement machine unlearning tasks in the context of linear regression models and neural network models. This method mainly uses the iterative weighting method to completely forget the data and its corresponding influence, and its computational cost is linear in the feature dimension of the data. This method can improve the current machine learning method. At the same time, it is independent of the size of the training set. Results were evaluated by feature injection testing (FIT). Experiments show that this method is more thorough in deleting data, which is close to model retraining.
翻訳日:2022-10-03 14:41:45 公開日:2022-09-30
# 相対表現はゼロショット潜在空間通信を可能にする

Relative representations enable zero-shot latent space communication ( http://arxiv.org/abs/2209.15430v1 )

ライセンス: Link先を確認
Luca Moschella, Valentino Maiorca, Marco Fumero, Antonio Norelli, Francesco Locatello, Emanuele Rodol\`a(参考訳) ニューラルネットワークは、高次元空間に横たわるデータ多様体の幾何学的構造を潜在表現に埋め込む。 理想的には、潜在空間におけるデータポイントの分布は、タスク、データ、損失、その他のアーキテクチャ固有の制約にのみ依存すべきである。 しかしながら、トレーニングフェーズにおけるランダムウェイトの初期化やトレーニングハイパーパラメータ、その他のランダムなソースなどの要因は、いかなる形態の再利用も妨げる一貫性のない潜在空間を誘導する可能性がある。 それにもかかわらず、同じデータとモデリングの選択の下では、異なる潜在空間は一般に未知の準等尺変換によって異なる:すなわち、各空間において、エンコーディング間の距離は変化しない。 本研究では,追加のトレーニングを必要とせず,所望の不変性を実現するための代替データ表現としてペアワイズ類似性を導入することを提案する。 ニューラルネットワークがこれらの相対表現を利用して、実際には潜時等距離不変性を保証し、ゼロショットモデル縫合から様々な設定間の潜時空間比較まで、効果的に潜時空間通信を可能にする方法を示す。 我々は,異なるデータセットに対するアプローチの一般化能力を広く検証し,様々なモダリティ(画像,テキスト,グラフ),タスク(分類,再構築),アーキテクチャ(CNN,GCN,変換器など)にまたがる。

Neural networks embed the geometric structure of a data manifold lying in a high-dimensional space into latent representations. Ideally, the distribution of the data points in the latent space should depend only on the task, the data, the loss, and other architecture-specific constraints. However, factors such as the random weights initialization, training hyperparameters, or other sources of randomness in the training phase may induce incoherent latent spaces that hinder any form of reuse. Nevertheless, we empirically observe that, under the same data and modeling choices, distinct latent spaces typically differ by an unknown quasi-isometric transformation: that is, in each space, the distances between the encodings do not change. In this work, we propose to adopt pairwise similarities as an alternative data representation, that can be used to enforce the desired invariance without any additional training. We show how neural architectures can leverage these relative representations to guarantee, in practice, latent isometry invariance, effectively enabling latent space communication: from zero-shot model stitching to latent space comparison between diverse settings. We extensively validate the generalization capability of our approach on different datasets, spanning various modalities (images, text, graphs), tasks (e.g., classification, reconstruction) and architectures (e.g., CNNs, GCNs, transformers).
翻訳日:2022-10-03 14:41:13 公開日:2022-09-30
# GPNet: 多チャンネル幾何多項式によるグラフニューラルネットワークの簡易化

GPNet: Simplifying Graph Neural Networks via Multi-channel Geometric Polynomials ( http://arxiv.org/abs/2209.15454v1 )

ライセンス: Link先を確認
Xun Liu, Alex Hay-Man Ng, Fangyuan Lei, Yikuan Zhang, Zhengmin Li(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データ上の現実的な問題の多くを回避するための、有望なディープラーニングアプローチである。 しかしながら、これらのモデルは、通常4つの基本的な制限のうちの少なくとも1つ、過剰なスムーシング、過剰フィッティング、訓練が難しい、強いホモフィリー仮定を持つ。 例えば、単純なグラフ畳み込み(sgc)は、第1および第4の制限に苦しむことが知られている。 これらの制約に対処するため, (D1) 拡張畳み込み, (D2) マルチチャネル学習, (D3) 自己注意スコア, (D4) サインファクタなど,異なるタイプの学習(ホモフィリー, ヘテロフィリー) とスケール(小, 中, 大規模) から学習を促進し,それらをグラフニューラルネットワーク, GPNet, シンプルで効率的な1層モデルに結合するキーデザインのセットを同定する。 理論的にモデルを解析し、自己注意スコアと符号係数を調整することにより、様々なグラフフィルタを近似できることを示す。 実験の結果,GPNetは半教師付きタスクにおいて平均ランク,平均精度,複雑性,パラメータの点で一貫してベースラインを上回り,インダクティブ学習タスクを用いた最先端モデルと比較して競争性能が向上していることがわかった。

Graph Neural Networks (GNNs) are a promising deep learning approach for circumventing many real-world problems on graph-structured data. However, these models usually have at least one of four fundamental limitations: over-smoothing, over-fitting, difficult to train, and strong homophily assumption. For example, Simple Graph Convolution (SGC) is known to suffer from the first and fourth limitations. To tackle these limitations, we identify a set of key designs including (D1) dilated convolution, (D2) multi-channel learning, (D3) self-attention score, and (D4) sign factor to boost learning from different types (i.e. homophily and heterophily) and scales (i.e. small, medium, and large) of networks, and combine them into a graph neural network, GPNet, a simple and efficient one-layer model. We theoretically analyze the model and show that it can approximate various graph filters by adjusting the self-attention score and sign factor. Experiments show that GPNet consistently outperforms baselines in terms of average rank, average accuracy, complexity, and parameters on semi-supervised and full-supervised tasks, and achieves competitive performance compared to state-of-the-art model with inductive learning task.
翻訳日:2022-10-03 14:40:48 公開日:2022-09-30
# フェデレーション学習におけるデータ不均一性再考--新しい概念と標準ベンチマークの導入

Rethinking Data Heterogeneity in Federated Learning: Introducing a New Notion and Standard Benchmarks ( http://arxiv.org/abs/2209.15595v1 )

ライセンス: Link先を確認
Mahdi Morafah, Saeed Vahidian, Chen Chen, Mubarak Shah, Bill Lin(参考訳) フェデレーション学習は成功したが、特に非iidデータとして知られるデータの不均一性の問題が発生すると、機械学習に新たな課題をもたらす。 統計的不均一性に対処するため、従来の研究では、局所最適化において近項を組み込んだり、サーバ側のモデルアグリゲーションスキームを変更したり、あるいは、中央サーバグループエージェント集団を、あるレベルのパーソナライズを活かすために、共同で訓練可能なデータ分布を持つクラスタに分類する、クラスタ化された連合学習アプローチを提唱した。 有効ではあるが、どのような種類のデータ不均一性と、そのデータ不均質性が参加者の正確性にどのように影響するかについての深い説明が欠けている。 従来のフェデレーション学習のアプローチとは対照的に、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、実際にFL参加者にとって有益であることを示す。 1) クライアントの異なるラベル(ラベルスキュー)は必ずしもデータ不均一性とはみなされず,(2) エージェントのデータ部分空間間の主角はデータ不均一性のより優れた推定値である。 私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。

Though successful, federated learning presents new challenges for machine learning, especially when the issue of data heterogeneity, also known as Non-IID data, arises. To cope with the statistical heterogeneity, previous works incorporated a proximal term in local optimization or modified the model aggregation scheme at the server side or advocated clustered federated learning approaches where the central server groups agent population into clusters with jointly trainable data distributions to take the advantage of a certain level of personalization. While effective, they lack a deep elaboration on what kind of data heterogeneity and how the data heterogeneity impacts the accuracy performance of the participating clients. In contrast to many of the prior federated learning approaches, we demonstrate not only the issue of data heterogeneity in current setups is not necessarily a problem but also in fact it can be beneficial for the FL participants. Our observations are intuitive: (1) Dissimilar labels of clients (label skew) are not necessarily considered data heterogeneity, and (2) the principal angle between the agents' data subspaces spanned by their corresponding principal vectors of data is a better estimate of the data heterogeneity. Our code is available at https://github.com/MMorafah/FL-SC-NIID.
翻訳日:2022-10-03 14:40:03 公開日:2022-09-30
# MEIM:効率的かつ表現力のあるリンク予測のためのブロック項以外の多部埋め込みインタラクション

MEIM: Multi-partition Embedding Interaction Beyond Block Term Format for Efficient and Expressive Link Prediction ( http://arxiv.org/abs/2209.15597v1 )

ライセンス: Link先を確認
Hung-Nghiep Tran, Atsuhiro Takasu(参考訳) 知識グラフ埋め込みは、知識グラフにおけるエンティティ間の欠落関係を予測することを目的としている。 ComplExのようなテンソル分解ベースのモデルは、実世界の知識グラフの規模が大きいため、効率性と表現性の間に良いトレードオフをもたらす。 最近のマルチパーティション埋め込み相互作用(MEI)モデルはブロック項テンソル形式を用いてこれらのモデルを仮定し、トレードオフのための体系的な解決策を提供する。 しかし、MEIにはいくつかの欠点があり、そのいくつかはその仮定されたテンソル分解モデルから引き継がれている。 本稿では,これらの欠点を取り上げ,ブロック項形式(meim)モデルを超えて改良された多成分埋め込み相互作用を紹介し,アンサンブル効果の独立コアテンソルと最大ランク写像のソフト直交性,および多成分埋め込みについて述べる。 MEIMは、高効率でありながら表現性を向上し、強力なベースラインを上回り、かなり小さな埋め込みサイズを用いて、難しいリンク予測ベンチマークの最先端の結果を得るのに役立ちます。 ソースコードはhttps://github.com/tranhunghiep/MEIM-KGEで公開されている。

Knowledge graph embedding aims to predict the missing relations between entities in knowledge graphs. Tensor-decomposition-based models, such as ComplEx, provide a good trade-off between efficiency and expressiveness, that is crucial because of the large size of real world knowledge graphs. The recent multi-partition embedding interaction (MEI) model subsumes these models by using the block term tensor format and provides a systematic solution for the trade-off. However, MEI has several drawbacks, some of which carried from its subsumed tensor-decomposition-based models. In this paper, we address these drawbacks and introduce the Multi-partition Embedding Interaction iMproved beyond block term format (MEIM) model, with independent core tensor for ensemble effects and soft orthogonality for max-rank mapping, in addition to multi-partition embedding. MEIM improves expressiveness while still being highly efficient, helping it to outperform strong baselines and achieve state-of-the-art results on difficult link prediction benchmarks using fairly small embedding sizes. The source code is released at https://github.com/tranhungnghiep/MEIM-KGE.
翻訳日:2022-10-03 14:39:37 公開日:2022-09-30
# ベイズ最適性を超えて:あなたが知らないことをメタ学習する

Beyond Bayes-optimality: meta-learning what you know you don't know ( http://arxiv.org/abs/2209.15618v1 )

ライセンス: Link先を確認
Jordi Grau-Moya, Gr\'egoire Del\'etang, Markus Kunesch, Tim Genewein, Elliot Catt, Kevin Li, Anian Ruoss, Chris Cundy, Joel Veness, Jane Wang, Marcus Hutter, Christopher Summerfield, Shane Legg, Pedro Ortega(参考訳) メモリを持つメタトレーニングエージェントは、明示的なモデリングの仮定ではなく、数値最適化問題の暗黙の解としてベイズ最適化をキャストするベイズ最適化エージェントで頂点に達することが示されている。 ベイズ・オプティカル・エージェントは、不確実性が分かっているかのように新たな状況で行動するため、単に期待されたリターンに忠実であり、曖昧性中立であるため、リスク中立である。 これは、リターンの高次モーメントを更に活用するリスクに敏感なエージェントや、知識が欠けている状況を認識する際に異なる振舞いをする曖昧さに敏感なエージェントとは対照的である。 人間はまた、あいまいさに逆らって、ベイズ最適でない方法でリスクに敏感であることでも知られており、特に安全クリティカルな状況において、そのような敏感さが利点をもたらすことを示唆している。 メタ学習プロトコルをどのように拡張すればリスクやあいまいさに敏感なエージェントを生成することができるのか? 本研究の目的は,学習者の体験生成過程を制御したメタトレーニングアルゴリズムを用いた最適化問題の結果として,リスクとあいまいさ感が出現することを示し,このギャップを埋めることである。 我々は,提案するメタトレーニングアルゴリズムを,意思決定実験の基礎クラスにさらされたエージェント上で実証的にテストし,リスクや曖昧さに敏感になることを示す。

Meta-training agents with memory has been shown to culminate in Bayes-optimal agents, which casts Bayes-optimality as the implicit solution to a numerical optimization problem rather than an explicit modeling assumption. Bayes-optimal agents are risk-neutral, since they solely attune to the expected return, and ambiguity-neutral, since they act in new situations as if the uncertainty were known. This is in contrast to risk-sensitive agents, which additionally exploit the higher-order moments of the return, and ambiguity-sensitive agents, which act differently when recognizing situations in which they lack knowledge. Humans are also known to be averse to ambiguity and sensitive to risk in ways that aren't Bayes-optimal, indicating that such sensitivity can confer advantages, especially in safety-critical situations. How can we extend the meta-learning protocol to generate risk- and ambiguity-sensitive agents? The goal of this work is to fill this gap in the literature by showing that risk- and ambiguity-sensitivity also emerge as the result of an optimization problem using modified meta-training algorithms, which manipulate the experience-generation process of the learner. We empirically test our proposed meta-training algorithms on agents exposed to foundational classes of decision-making experiments and demonstrate that they become sensitive to risk and ambiguity.
翻訳日:2022-10-03 14:39:18 公開日:2022-09-30
# スパースツリーに基づくニューラルネットワークの初期化

Sparse tree-based initialization for neural networks ( http://arxiv.org/abs/2209.15283v1 )

ライセンス: Link先を確認
Patrick Lutz (BU), Ludovic Arnould (LPSM (UMR\_8001)), Claire Boyer (LPSM (UMR\_8001)), Erwan Scornet (CMAP)(参考訳) 専用ニューラルネットワーク(NN)アーキテクチャは、特定のデータタイプ(画像のCNNやテキストのRNNなど)を扱うように設計されている。 残念なことに、表形式のデータを扱うためのアーキテクチャはまだ見つかっておらず、ツリーアンサンブル法(樹木の隆起、ランダムな森林)は、通常、最高の予測性能を示す。 本研究では,(潜在的に深い)多層パーセプトロン(mlp)のための新しいスパース初期化手法を提案する。我々はまず,特徴的相互作用を検出し,得られた情報を用いてネットワークの初期化を行うツリーベースの手順を訓練する。 いくつかの表付きデータセットの数値実験により、この新しい単純で使いやすい手法は、一般化能力と計算時間の両方において、デフォルトのMPP初期化と既存の複雑なディープラーニングソリューションとの同時並行性を示している。 実際、この賢いMLP初期化は、結果のNNメソッドを表データを扱う際のグラデーションアップに対する有効な競合のレベルまで引き上げる。 さらに、そのような初期化はトレーニングを通じてネットワークの第1層に導入された重みの空間を保存することができる。 この事実は、この新しい初期化子がnnトレーニング中に暗黙の正規化を実行し、最初の層が(cnnの畳み込み層のように)スパースな特徴抽出子として機能することを強調していることを示唆している。

Dedicated neural network (NN) architectures have been designed to handle specific data types (such as CNN for images or RNN for text), which ranks them among state-of-the-art methods for dealing with these data. Unfortunately, no architecture has been found for dealing with tabular data yet, for which tree ensemble methods (tree boosting, random forests) usually show the best predictive performances. In this work, we propose a new sparse initialization technique for (potentially deep) multilayer perceptrons (MLP): we first train a tree-based procedure to detect feature interactions and use the resulting information to initialize the network, which is subsequently trained via standard stochastic gradient strategies. Numerical experiments on several tabular data sets show that this new, simple and easy-to-use method is a solid concurrent, both in terms of generalization capacity and computation time, to default MLP initialization and even to existing complex deep learning solutions. In fact, this wise MLP initialization raises the resulting NN methods to the level of a valid competitor to gradient boosting when dealing with tabular data. Besides, such initializations are able to preserve the sparsity of weights introduced in the first layers of the network through training. This fact suggests that this new initializer operates an implicit regularization during the NN training, and emphasizes that the first layers act as a sparse feature extractor (as for convolutional layers in CNN).
翻訳日:2022-10-03 14:38:33 公開日:2022-09-30
# 自然文字知識による時空間表現の学習

Learning Transferable Spatiotemporal Representations from Natural Script Knowledge ( http://arxiv.org/abs/2209.15280v1 )

ライセンス: Link先を確認
Ziyun Zeng, Yuying Ge, Xihui Liu, Bin Chen, Ping Luo, Shu-Tao Xia, Yixiao Ge(参考訳) 近年,大規模なビデオデータの事前学習が,転送可能な時空間表現の学習の一般的な方法となっている。 ある程度の進歩にもかかわらず、既存の方法はほとんど高度にキュレートされたデータセット(例えばk400)に制限され、不十分なアウト・オブ・ボックス表現を示す。 認識レベルのビデオ理解とは程遠い時空間的常識ではなく,ピクセルレベルの知識のみを捉えているという事実が原因である,と我々は主張する。 画像テキストの事前学習(クリップなど)の成功に触発されて、言語セマンティクスを利用して時空間表現学習を促進する第一歩を踏み出した。 そこで我々は,学習したビデオ表現に参画することで,ASRスクリプトをシャッフルするTurning to Video for Transcript Sorting (TVTS)という,新しいプレテキストタスクを導入した。 我々は記述的なキャプションに頼らず、ビデオから純粋に学習する。すなわち、自然な書き起こされた音声知識を活用して、時間とともに騒々しく、有用な意味論を提供する。 さらに,視覚獲得コントラストにおける単純な概念学習よりも,ナラティブ再編成による認知レベルの時空間常識推論を奨励する。 その利点は、私たちのモデルが人間のように起きていることをコンテキスト化し、現実世界の大規模な未解決ビデオデータにシームレスに適用できることです。 本手法はビデオテキストアライメント(例:フリーズ)やマルチモーダル表現学習(例:merlot)のために設計されたものとは異なる。 提案手法は, 多様なビデオベンチマークにおいて, SSV2 上のビデオMAE よりも高率な時空間表現が線形探索により得られることを示す。

Pre-training on large-scale video data has become a common recipe for learning transferable spatiotemporal representations in recent years. Despite some progress, existing methods are mostly limited to highly curated datasets (e.g., K400) and exhibit unsatisfactory out-of-the-box representations. We argue that it is due to the fact that they only capture pixel-level knowledge rather than spatiotemporal commonsense, which is far away from cognition-level video understanding. Inspired by the great success of image-text pre-training (e.g., CLIP), we take the first step to exploit language semantics to boost transferable spatiotemporal representation learning. We introduce a new pretext task, Turning to Video for Transcript Sorting (TVTS), which sorts shuffled ASR scripts by attending to learned video representations. We do not rely on descriptive captions and learn purely from video, i.e., leveraging the natural transcribed speech knowledge to provide noisy but useful semantics over time. Furthermore, rather than the simple concept learning in vision-caption contrast, we encourage cognition-level temporal commonsense reasoning via narrative reorganization. The advantages enable our model to contextualize what is happening like human beings and seamlessly apply to large-scale uncurated video data in the real world. Note that our method differs from ones designed for video-text alignment (e.g., Frozen) and multimodal representation learning (e.g., Merlot). Our method demonstrates strong out-of-the-box spatiotemporal representations on diverse video benchmarks, e.g., +13.6% gains over VideoMAE on SSV2 via linear probing.
翻訳日:2022-10-03 14:32:48 公開日:2022-09-30
# 量子自己受容型ディープニューラルネットワークによる医用画像の検証とエネルギー効率

Verifiable and Energy Efficient Medical Image Analysis with Quantised Self-attentive Deep Neural Networks ( http://arxiv.org/abs/2209.15287v1 )

ライセンス: Link先を確認
Rakshith Sathish, Swanand Khare, Debdoot Sheet(参考訳) 畳み込みニューラルネットワークは、分類やセグメンテーションといった様々な医療画像処理において重要な役割を果たす。 従来の画像処理アルゴリズムと比較して最先端のパフォーマンスを提供する。 しかし、これらの手法の主な欠点は、高い計算複雑性、GPUのような高性能ハードウェアへの依存、モデル固有のブラックボックスの性質である。 本稿では,従来のCNNの代替として,スタンドアローンの自己注意モデルを提案する。 提案するネットワークのクラスでは,畳み込み層は単独のセルフアテンション層に置き換えられ,ネットワークパラメータはトレーニング後に定量化される。 分類と分割作業における手法の性能を実験的に検証した。 モデルサイズが50-80\%、パラメータ数が60-80\%、FLOPが40-85\%、CPU上での推論時にエネルギー効率が65-80\%であるのを観察する。 コードは \href {https://github.com/Rakshith2597/Quantised-Self-Attentive-Deep-Neural-Network}{https://github.com/Rakshith2597/Quantised-Self-Attentive-Deep-Neural-Network} で入手できる。

Convolutional Neural Networks have played a significant role in various medical imaging tasks like classification and segmentation. They provide state-of-the-art performance compared to classical image processing algorithms. However, the major downside of these methods is the high computational complexity, reliance on high-performance hardware like GPUs and the inherent black-box nature of the model. In this paper, we propose quantised stand-alone self-attention based models as an alternative to traditional CNNs. In the proposed class of networks, convolutional layers are replaced with stand-alone self-attention layers, and the network parameters are quantised after training. We experimentally validate the performance of our method on classification and segmentation tasks. We observe a $50-80\%$ reduction in model size, $60-80\%$ lesser number of parameters, $40-85\%$ fewer FLOPs and $65-80\%$ more energy efficiency during inference on CPUs. The code will be available at \href {https://github.com/Rakshith2597/Quantised-Self-Attentive-Deep-Neural-Network}{https://github.com/Rakshith2597/Quantised-Self-Attentive-Deep-Neural-Network}.
翻訳日:2022-10-03 14:32:18 公開日:2022-09-30
# 注意を伴う畳み込みニューラルネットワーク量子化

Convolutional Neural Networks Quantization with Attention ( http://arxiv.org/abs/2209.15317v1 )

ライセンス: Link先を確認
Binyi Wu, Bernd Waschneck, Christian Georg Mayr(参考訳) トレーニングフェーズで32ビット浮動小数点数を使用するのに比べ、ディープ畳み込みニューラルネットワーク(dcnn)は推論中に精度が低く、メモリ空間と消費電力を節約できることが証明されている。 しかし、ネットワークの量子化は常に精度の低下を伴う。 本稿では,2段Squeeze-and-Threshold法(ダブルステージST)を提案する。 注意機構を使ってネットワークを定量化し、最先端の結果を得る。 本手法により, 3ビットモデルでは, 全精度のベースラインモデルの精度を超過する精度が得られる。 提案された2段STアクティベーション量子化は、畳み込みの前に挿入することが容易である。

It has been proven that, compared to using 32-bit floating-point numbers in the training phase, Deep Convolutional Neural Networks (DCNNs) can operate with low precision during inference, thereby saving memory space and power consumption. However, quantizing networks is always accompanied by an accuracy decrease. Here, we propose a method, double-stage Squeeze-and-Threshold (double-stage ST). It uses the attention mechanism to quantize networks and achieve state-of-art results. Using our method, the 3-bit model can achieve accuracy that exceeds the accuracy of the full-precision baseline model. The proposed double-stage ST activation quantization is easy to apply: inserting it before the convolution.
翻訳日:2022-10-03 14:31:56 公開日:2022-09-30
# SpeechLM: テキストデータによる音声事前学習の強化

SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data ( http://arxiv.org/abs/2209.15329v1 )

ライセンス: Link先を確認
Ziqiang Zhang, Sanyuan Chen, Long Zhou, Yu Wu, Shuo Ren, Shujie Liu, Zhuoyuan Yao, Xun Gong, Lirong Dai, Jinyu Li, Furu Wei(参考訳) 音声とテキストが異なる特徴を持つ非常に異なるモダリティであるという事実から,テキストデータによる音声事前学習の促進は未解決の問題である。 本稿では,音声とテキストの事前学習を事前に定義した個別表現と明示的に整合させる言語モデル(SpeechLM)を提案する。 具体的には、音声とテキストのモダリティをブリッジする2つの別の離散トークン化器(音素単位と隠れ単位トークン化器)を導入し、少量のペア音声テキストデータを用いて訓練する。 訓練されたトークン化子に基づき、ラベルなしの音声とテキストデータを音素単位または隠れ単位のトークンに変換する。 事前学習の目的は、音声とテキストを統一トランスフォーマーネットワークで同じ離散的な意味空間に統一することである。 私たちのSpeechLMは10Kテキストのみを活用することで、パブリックなLibriSpeech ASRベンチマークにおいて、最高のベースモデルパフォーマンス(6.8から5.7)よりも16倍の相対的なWER削減を実現しています。 さらに、パラメータの少ない speechlm は、covost-2 音声翻訳タスクの以前の sota モデルよりも優れています。 また, 汎用表現評価フレームワーク SUPERB を用いて, 各種音声言語処理タスクにおけるSpeechLM の評価を行い, 内容関連タスクの大幅な改善を実証した。 私たちのコードとモデルはhttps://aka.ms/speechlm.com/で利用可能です。

How to boost speech pre-training with textual data is an unsolved problem due to the fact that speech and text are very different modalities with distinct characteristics. In this paper, we propose a cross-modal Speech and Language Model (SpeechLM) to explicitly align speech and text pre-training with a pre-defined unified discrete representation. Specifically, we introduce two alternative discrete tokenizers to bridge the speech and text modalities, including phoneme-unit and hidden-unit tokenizers, which can be trained using a small amount of paired speech-text data. Based on the trained tokenizers, we convert the unlabeled speech and text data into tokens of phoneme units or hidden units. The pre-training objective is designed to unify the speech and the text into the same discrete semantic space with a unified Transformer network. Leveraging only 10K text sentences, our SpeechLM gets a 16\% relative WER reduction over the best base model performance (from 6.8 to 5.7) on the public LibriSpeech ASR benchmark. Moreover, SpeechLM with fewer parameters even outperforms previous SOTA models on CoVoST-2 speech translation tasks. We also evaluate our SpeechLM on various spoken language processing tasks under the universal representation evaluation framework SUPERB, demonstrating significant improvements on content-related tasks. Our code and models are available at https://aka.ms/SpeechLM.
翻訳日:2022-10-03 14:31:45 公開日:2022-09-30
# マルチレベルデータのためのエキスパートモデルの混合:モデリングフレームワークと近似理論

Mixture of experts models for multilevel data: modelling framework and approximation theory ( http://arxiv.org/abs/2209.15207v1 )

ライセンス: Link先を確認
Tsz Chai Fung, Spark C. Tseung(参考訳) マルチレベルデータは、多くの現実世界のアプリケーションで広く使われている。 しかし、幅広いマルチレベルデータを柔軟にキャプチャするモデルのクラスを特定し、正当化することは、オープンな研究課題である。 本論文は, 回帰データに適合する専門家(MoE)モデルの汎用性により, MoE上に拡張し, マルチレベルデータに対する混合MoE(MMoE)モデルのクラスについて検討する。 いくつかの規則性条件の下では、MMoE は弱収束という意味での任意の連続混合効果モデルの空間において密であることを示す。 その結果、MMoEは、限界分布、依存構造、回帰リンク、ランダムインターセプト、ランダムスロープを含む、マルチレベルデータに受け継がれたほとんど全ての特性を正確に類似させることができる。 マルチレベルデータが階層的である特定の場合において、mmoeのネストバージョンは、異なる因子レベル間のランダム効果の幅広い依存構造を普遍的に近似することを示す。

Multilevel data are prevalent in many real-world applications. However, it remains an open research problem to identify and justify a class of models that flexibly capture a wide range of multilevel data. Motivated by the versatility of the mixture of experts (MoE) models in fitting regression data, in this article we extend upon the MoE and study a class of mixed MoE (MMoE) models for multilevel data. Under some regularity conditions, we prove that the MMoE is dense in the space of any continuous mixed effects models in the sense of weak convergence. As a result, the MMoE has a potential to accurately resemble almost all characteristics inherited in multilevel data, including the marginal distributions, dependence structures, regression links, random intercepts and random slopes. In a particular case where the multilevel data is hierarchical, we further show that a nested version of the MMoE universally approximates a broad range of dependence structures of the random effects among different factor levels.
翻訳日:2022-10-03 14:31:19 公開日:2022-09-30
# MLモデルの価値の再考と再計算

Rethinking and Recomputing the Value of ML Models ( http://arxiv.org/abs/2209.15157v1 )

ライセンス: Link先を確認
Burcu Sayin, Fabio Casati, Andrea Passerini, Jie Yang, Xinyue Chen(参考訳) 本稿では、私たちがMLモデルをトレーニングし評価してきた方法は、組織や社会的文脈に応用され、人々に価値を提供するという事実をほとんど忘れてしまったことを論じる。 この観点では、mlモデルの評価、選択、デプロイの仕方を根本的に変え、学習することの意味さえある程度変えていることを示します。 具体的には、価値の概念が学習と評価において中心的な役割を果たすことを強調し、異なるモデルは異なる学習プラクティスを必要とし、適用されるアプリケーションコンテキストに基づいて異なる価値を提供する可能性がある。 また、これは実験的なデータセットに基づいてモデルを人間のワークフローに選択し、組み込む方法に具体的に影響を及ぼすことを示す。 ここで提示されるものはどれも難しいものではなく、かなりの範囲において、大規模な実践的な意味を持つ、非常に自明な観察のシリーズである。

In this paper, we argue that the way we have been training and evaluating ML models has largely forgotten the fact that they are applied in an organization or societal context as they provide value to people. We show that with this perspective we fundamentally change how we evaluate, select and deploy ML models - and to some extent even what it means to learn. Specifically, we stress that the notion of value plays a central role in learning and evaluating, and different models may require different learning practices and provide different values based on the application context they are applied. We also show that this concretely impacts how we select and embed models into human workflows based on experimental datasets. Nothing of what is presented here is hard: to a large extent is a series of fairly trivial observations with massive practical implications.
翻訳日:2022-10-03 14:31:03 公開日:2022-09-30
# ASPiRe:強化学習のための適応スキルプライオリティ

ASPiRe:Adaptive Skill Priors for Reinforcement Learning ( http://arxiv.org/abs/2209.15205v1 )

ライセンス: Link先を確認
Mengda Xu, Manuela Veloso, Shuran Song(参考訳) ASPiRe(Adaptive Skill Prior for RL)は、事前経験を活用して強化学習を促進する新しいアプローチである。 大規模で多様なデータセットから1つのスキルを学習する既存の方法とは異なり、我々のフレームワークは専門的なデータセットのコレクションから異なる区別スキル事前(つまり振る舞い優先)のライブラリを学び、それらを組み合わせて新しいタスクを解決する方法を学ぶ。 この定式化により、アルゴリズムは、下流タスクでより再利用可能な一連の専門的なスキルプリエントを取得することができるが、これらの非構造化スキルプリエントを効果的に組み合わせて、新しいタスクのための新しいプリエントを形成する方法に関する追加の課題をもたらす。 具体的には、エージェントがどのスキルプリエントを使用するかを特定するだけでなく、新しいプリエントを形成するためにそれらを(シーケンシャルまたはコンカレントに)組み合わせる方法も必要である。 この目標を達成するために、aspireにはawm(adaptive weight module)が含まれており、異なるスキルプリエント間の適応的なウェイト割り当てを推論し、重み付きkullback-leiblerダイバージェンスを介して下流タスクのポリシー学習をガイドする。 実験の結果,aspireは複数の先行課題が存在する場合,新しい下流タスクの学習を著しく促進し,競合ベースラインにおける改善を示すことができた。

We introduce ASPiRe (Adaptive Skill Prior for RL), a new approach that leverages prior experience to accelerate reinforcement learning. Unlike existing methods that learn a single skill prior from a large and diverse dataset, our framework learns a library of different distinction skill priors (i.e., behavior priors) from a collection of specialized datasets, and learns how to combine them to solve a new task. This formulation allows the algorithm to acquire a set of specialized skill priors that are more reusable for downstream tasks; however, it also brings up additional challenges of how to effectively combine these unstructured sets of skill priors to form a new prior for new tasks. Specifically, it requires the agent not only to identify which skill prior(s) to use but also how to combine them (either sequentially or concurrently) to form a new prior. To achieve this goal, ASPiRe includes Adaptive Weight Module (AWM) that learns to infer an adaptive weight assignment between different skill priors and uses them to guide policy learning for downstream tasks via weighted Kullback-Leibler divergences. Our experiments demonstrate that ASPiRe can significantly accelerate the learning of new downstream tasks in the presence of multiple priors and show improvement on competitive baselines.
翻訳日:2022-10-03 14:30:49 公開日:2022-09-30
# 接続性タンジェントカーネルを用いたスケール不変ベイズニューラルネットワーク

Scale-invariant Bayesian Neural Networks with Connectivity Tangent Kernel ( http://arxiv.org/abs/2209.15208v1 )

ライセンス: Link先を確認
SungYub Kim, Sihwan Park, Kyungsu Kim, Eunho Yang(参考訳) ニューラルネットワークの損失景観に関する研究の中心的な目的は、一般化と過信予測の防止である。 事前学習した解の摂動に対する損失不変性として定義される平坦性は、この文脈における一般化の予測因子として広く受け入れられている。 しかし、パラメータのスケールに応じて平坦性や一般化境界を任意に変更できるという問題は指摘され、以前の研究では部分的に制限を解いた: 対意的に、それらの一般化境界は関数保存パラメータスケーリング変換の変種であったり、非現実的なネットワーク構造に限られていたりした。 より基本的な解として、パラメータのスケールと接続性によって、スケール変換に不変な新しい事前分布と後続分布を提案し、その結果の一般化が、バッチ正規化による重み減衰のようなより実用的な変換のクラスを持つ広範級ネットワークの一般化可能性を記述することができる。 また、この問題はラプラス近似の不確実性校正に悪影響を及ぼし、我々の不変後部を用いた解を提案する。 このようなパラメータ変換のケースでは,後部が有効平坦度とキャリブレーションの度合いが低いことを実証的に実証し,その実用的効果を理論的に裏付ける。

Explaining generalizations and preventing over-confident predictions are central goals of studies on the loss landscape of neural networks. Flatness, defined as loss invariability on perturbations of a pre-trained solution, is widely accepted as a predictor of generalization in this context. However, the problem that flatness and generalization bounds can be changed arbitrarily according to the scale of a parameter was pointed out, and previous studies partially solved the problem with restrictions: Counter-intuitively, their generalization bounds were still variant for the function-preserving parameter scaling transformation or limited only to an impractical network structure. As a more fundamental solution, we propose new prior and posterior distributions invariant to scaling transformations by \textit{decomposing} the scale and connectivity of parameters, thereby allowing the resulting generalization bound to describe the generalizability of a broad class of networks with the more practical class of transformations such as weight decay with batch normalization. We also show that the above issue adversely affects the uncertainty calibration of Laplace approximation and propose a solution using our invariant posterior. We empirically demonstrate our posterior provides effective flatness and calibration measures with low complexity in such a practical parameter transformation case, supporting its practical effectiveness in line with our rationale.
翻訳日:2022-10-03 14:30:23 公開日:2022-09-30
# GM-VAE: ガウス多様体上のVAEによる表現学習

GM-VAE: Representation Learning with VAE on Gaussian Manifold ( http://arxiv.org/abs/2209.15217v1 )

ライセンス: Link先を確認
Seunghyuk Cho, Juyong Lee, Dongwoo Kim(参考訳) 直交空間が対角ガウス分布の集合からなるガウス多様体変分オートエンコーダ(GM-VAE)を提案する。 フィッシャー情報計量と対角ガウス分布の集合が積双曲空間を形成することは知られており、これをガウス多様体と呼ぶ。 ガウス多様体に与えられたvaeを学習するために,まず2乗フィッシャー・ラオ距離の局所近似であるkullback-leibler divergenceに基づく擬ガウス多様体正規分布を提案し,潜在空間上の密度を定義する。 新たに提案された分布では、ユークリッド多様体とガウス多様体の間の遷移を支援するために、エンコーダの最後と第1のデコーダの幾何変換を導入する。 実験により,双曲型およびユークリッド型に対するGM-VAEの競合一般化性能を示す。 このモデルは,従来の双曲型VAEで報告されるような,強い数値安定性を実現する。

We propose a Gaussian manifold variational auto-encoder (GM-VAE) whose latent space consists of a set of diagonal Gaussian distributions. It is known that the set of the diagonal Gaussian distributions with the Fisher information metric forms a product hyperbolic space, which we call a Gaussian manifold. To learn the VAE endowed with the Gaussian manifold, we first propose a pseudo Gaussian manifold normal distribution based on the Kullback-Leibler divergence, a local approximation of the squared Fisher-Rao distance, to define a density over the latent space. With the newly proposed distribution, we introduce geometric transformations at the last and the first of the encoder and the decoder of VAE, respectively to help the transition between the Euclidean and Gaussian manifolds. Through the empirical experiments, we show competitive generalization performance of GM-VAE against other variants of hyperbolic- and Euclidean-VAEs. Our model achieves strong numerical stability, which is a common limitation reported with previous hyperbolic-VAEs.
翻訳日:2022-10-03 14:30:00 公開日:2022-09-30
# グラフニューラルネットワークのためのプロンプトチューニング

Prompt Tuning for Graph Neural Networks ( http://arxiv.org/abs/2209.15240v1 )

ライセンス: Link先を確認
Taoran Fang, Yunchao Zhang, Yang Yang, Chunping Wang(参考訳) 近年、プロンプトチューニングは、事前訓練されたモデルの適応において研究ブームを引き起こしている。 本稿では,従来のGNNモデルを下流タスクに適応させるための完全微調整の代替として,グラフプロンプトを提案する。 我々の知る限り、我々は既存の訓練済みのGNNモデルに対する迅速なチューニングの有効性を初めて探求する。 具体的には、事前訓練されたGNNモデルのパラメータを調整せずに、適応段階で下流グラフにグラフレベルの変換を提供するタスク固有のグラフプロンプトを訓練する。 次に、下流グラフの特徴空間に学習可能な摂動を追加するGP-Feature(GPF)と呼ばれるグラフプロンプトの具体的な実装を紹介する。 GPFは、ノードの特徴とグラフ構造の両方を暗黙的に変更できる強力な表現能力を持っている。 したがって,既存のGNNモデルにおいて,GPFがグラフレベルの変換にほぼ等価な効果が得られることを示す。 GPF の多数の事前学習 GNN モデルに対する有効性を検証するとともに, 実験結果から, 調整可能なパラメータの少ない (約 0.1% ) であれば, GPF は微調整として同等の性能を達成でき, 性能も向上することを示した。

In recent years, prompt tuning has set off a research boom in the adaptation of pre-trained models. In this paper, we propose Graph Prompt as an efficient and effective alternative to full fine-tuning for adapting the pre-trianed GNN models to downstream tasks. To the best of our knowledge, we are the first to explore the effectiveness of prompt tuning on existing pre-trained GNN models. Specifically, without tuning the parameters of the pre-trained GNN model, we train a task-specific graph prompt that provides graph-level transformations on the downstream graphs during the adaptation stage. Then, we introduce a concrete implementation of the graph prompt, called GP-Feature (GPF), which adds learnable perturbations to the feature space of the downstream graph. GPF has a strong expressive ability that it can modify both the node features and the graph structure implicitly. Accordingly, we demonstrate that GPF can achieve the approximately equivalent effect of any graph-level transformations under most existing pre-trained GNN models. We validate the effectiveness of GPF on numerous pre-trained GNN models, and the experimental results show that with a small amount (about 0.1% of that for fine-tuning ) of tunable parameters, GPF can achieve comparable performances as fine-tuning, and even obtain significant performance gains in some cases.
翻訳日:2022-10-03 14:29:41 公開日:2022-09-30
# シンタクティック依存とニューラルエンベディングを用いた同期検出

Synonym Detection Using Syntactic Dependency And Neural Embeddings ( http://arxiv.org/abs/2209.15202v1 )

ライセンス: Link先を確認
Dongqiang Yang, Pikun Wang, Xiaodong Sun, Ning Li(参考訳) ベクトル空間モデルの最近の進歩は、ニューラルマシン翻訳や自然言語生成といったいくつかのNLPアプリケーションを大幅に改善した。 文脈における単語共起は, 分布モデルの数え上げ・予測に広く用いられているが, 分布意味論の導出における統語的依存の役割は, 十分に研究されていない。 ToEFLにおける同義語検出におけるベクトル空間モデルの比較により,分布の類似性を考慮した構文的依存関係のサリエンスを系統的に検討した。 文法的役割に応じて文法的依存関係を異なるグループに分け、文脈カウントを用いて対応する生およびSVD圧縮行列を構成する。 さらに,同じトレーニングハイパーパラメータとコーパスを用いて,評価における典型的な神経埋め込みについて検討した。 さらに,神経組込みに人間のコンパイルした意味知識を注入し,分布的類似性を計算することの有効性について検討した。 その結果,構文的に条件づけされた文脈は,無条件の文脈よりも語彙的意味論をうまく解釈できるのに対し,意味的知識を組み込んだ神経組込みは同義語検出を著しく改善できることが示された。

Recent advances on the Vector Space Model have significantly improved some NLP applications such as neural machine translation and natural language generation. Although word co-occurrences in context have been widely used in counting-/predicting-based distributional models, the role of syntactic dependencies in deriving distributional semantics has not yet been thoroughly investigated. By comparing various Vector Space Models in detecting synonyms in TOEFL, we systematically study the salience of syntactic dependencies in accounting for distributional similarity. We separate syntactic dependencies into different groups according to their various grammatical roles and then use context-counting to construct their corresponding raw and SVD-compressed matrices. Moreover, using the same training hyperparameters and corpora, we study typical neural embeddings in the evaluation. We further study the effectiveness of injecting human-compiled semantic knowledge into neural embeddings on computing distributional similarity. Our results show that the syntactically conditioned contexts can interpret lexical semantics better than the unconditioned ones, whereas retrofitting neural embeddings with semantic knowledge can significantly improve synonym detection.
翻訳日:2022-10-03 14:23:22 公開日:2022-09-30
# 事前学習された言語モデルがゼロ/フェーショット学習者に役立つ理由

What Makes Pre-trained Language Models Better Zero/Few-shot Learners? ( http://arxiv.org/abs/2209.15206v1 )

ライセンス: Link先を確認
Jinghui Lu, Rui Zhao, Brian Mac Namee, Dongsheng Zhu, Weidong Han, Fei Tan(参考訳) 本稿では,ゼロ/ファウショットシナリオにおける即時学習の有効性を説明する理論的枠組みを提案する。 まず、従来の事前学習および微調整のパラダイムは、表現できないラベル付きデータに過度に適合するため、少数のシナリオで失敗することを証明する。 そこで本研究では,大量のテキストコーパス上に構築された事前学習言語モデルと,ドメイン関連の人的知識を活用して予測にもっと参加し,小さなトレーニングセットによって提供される限定ラベル情報の影響を低減することにより,迅速な学習がより効果的であるという仮定を詳述する。 さらに、言語不一致がプロンプトの質を測定することができると仮定する。 仮定を検証するために包括的な実験が行われる。 さらに,理論的な枠組みに触発されて,パープレキシティに基づくアノテーションに依存しないテンプレート選択手法を提案する。 既存の作業は、まだテンプレートを評価するために開発セットに依存しているため、このアプローチは特に奨励されます。 実験により、この手法は最先端のゼロショット法に比べて大きな予測効果をもたらすことが示された。

In this paper, we propose a theoretical framework to explain the efficacy of prompt learning in zero/few-shot scenarios. First, we prove that conventional pre-training and fine-tuning paradigm fails in few-shot scenarios due to overfitting the unrepresentative labelled data. We then detail the assumption that prompt learning is more effective because it empowers pre-trained language model that is built upon massive text corpora, as well as domain-related human knowledge to participate more in prediction and thereby reduces the impact of limited label information provided by the small training set. We further hypothesize that language discrepancy can measure the quality of prompting. Comprehensive experiments are performed to verify our assumptions. More remarkably, inspired by the theoretical framework, we propose an annotation-agnostic template selection method based on perplexity, which enables us to ``forecast'' the prompting performance in advance. This approach is especially encouraging because existing work still relies on development set to post-hoc evaluate templates. Experiments show that this method leads to significant prediction benefits compared to state-of-the-art zero-shot methods.
翻訳日:2022-10-03 14:23:03 公開日:2022-09-30
# オープンビジネス知識グラフの構築と応用

Construction and Applications of Open Business Knowledge Graph ( http://arxiv.org/abs/2209.15214v1 )

ライセンス: Link先を確認
Shumin Deng, Hui Chen, Zhoubo Li, Feiyu Xiong, Qiang Chen, Mosha Chen, Xiangwen Liu, Jiaoyan Chen, Jeff Z. Pan, Huajun Chen, Ningyu Zhang(参考訳) ビジネスナレッジグラフは、現在多くの企業にとって重要であり、多くの製品を駆動し、よりインテリジェントにする事実的ナレッジと構造化データを提供します。 歓迎される結果にもかかわらず、ビジネスkgの構築は、構造不足、複数のモダリティ、管理不能な品質という制限的な問題をもたらす。 本稿では,非自明な実世界のシステムにおけるKG構築に関する実践的課題を推し進める。 我々は、よく知られた企業から派生したオープンビジネス知識グラフ(OpenBG)を構築するプロセスを紹介する。 具体的には、デプロイされたアプリケーションにおける詳細な分類法とマルチモーダル事実を用いて、さまざまな抽象的製品と消費要求をカバーするコアオントロジーを定義する。 openbgは進行中で、現在のバージョンには8800万以上のエンティティと2,681種類の関係を持つ26億以上のトリプルが含まれている。 すべてのオープンリソース(OpenBGベンチマーク)をコミュニティ向けにリリースしています。 また、ベンチマークの結果を最良の学習例で報告する。

Business Knowledge Graph is important to many enterprises today, providing the factual knowledge and structured data that steer many products and make them more intelligent. Despite the welcome outcome, building business KG brings prohibitive issues of deficient structure, multiple modalities and unmanageable quality. In this paper, we advance the practical challenges related to building KG in non-trivial real-world systems. We introduce the process of building an open business knowledge graph (OpenBG) derived from a well-known enterprise. Specifically, we define a core ontology to cover various abstract products and consumption demands, with fine-grained taxonomy and multi-modal facts in deployed applications. OpenBG is ongoing, and the current version contains more than 2.6 billion triples with more than 88 million entities and 2,681 types of relations. We release all the open resources (OpenBG benchmark) derived from it for the community. We also report benchmark results with best learned lessons \url{https://github.com/OpenBGBenchmark/OpenBG}.
翻訳日:2022-10-03 14:22:44 公開日:2022-09-30
# 問題記述からの最適化モデルの自動生成による操作研究の強化

Augmenting Operations Research with Auto-Formulation of Optimization Models from Problem Descriptions ( http://arxiv.org/abs/2209.15565v1 )

ライセンス: Link先を確認
Rindranirina Ramamonjison, Haley Li, Timothy T. Yu, Shiqi He, Vishnu Rengan, Amin Banitalebi-Dehkordi, Zirui Zhou, Yong Zhang(参考訳) 本稿では,運用研究におけるモデリングエクスペリエンスを簡素化し,拡張するための人工知能システムについて述べる。 このシステムを用いて、ユーザはその記述に基づいて最適化問題の定式化を提案される。 このプロセスを容易にするために,ユーザによる提案の検証と編集を可能にする直感的なユーザインタフェースシステムを構築した。 定式化の自動提案を得るための制御生成手法について検討する。 次に、様々なアプリケーションドメインから引き出された線形計画問題のデータセットを用いて、その効果を評価する。

We describe an augmented intelligence system for simplifying and enhancing the modeling experience for operations research. Using this system, the user receives a suggested formulation of an optimization problem based on its description. To facilitate this process, we build an intuitive user interface system that enables the users to validate and edit the suggestions. We investigate controlled generation techniques to obtain an automatic suggestion of formulation. Then, we evaluate their effectiveness with a newly created dataset of linear programming problems drawn from various application domains.
翻訳日:2022-10-03 14:22:29 公開日:2022-09-30
# SmallCap: 検索機能を強化した軽量画像キャプション

SmallCap: Lightweight Image Captioning Prompted with Retrieval Augmentation ( http://arxiv.org/abs/2209.15323v1 )

ライセンス: Link先を確認
Rita Ramos, Bruno Martins, Desmond Elliott, Yova Kementchedjhieva(参考訳) 画像キャプションの最近の進歩は、データとモデルサイズをスケールすることに集中しており、事前学習と微調整のコストを大幅に高めている。 大規模モデルの代替として,入力画像に条件付きキャプションと,データストアから取得した関連キャプションを生成するSmallCapを提案する。 トレーニング済みのCLIPエンコーダとGPT-2デコーダの間で,新たに導入されたクロスアテンション層に唯一学習パラメータが存在するため,本モデルは軽量かつ高速にトレーニングできる。 SmallCapは、追加の微調整なしで新しいドメインに転送でき、データストアの内容を簡単に交換できるため、トレーニング不要で大規模データを活用できる。 実験の結果,COCOのみをトレーニングしたSmallCapは,このベンチマーク上での競合性能と,ターゲットドメインデータからの検索のみを通じて,再トレーニングなしで他のドメインに転送可能であることがわかった。 多様な人ラベルとWebデータのトレーニング不要な利用により、さらに改善が達成される。これは、視覚概念を見えないように一般化をテストするために設計されたnocaps画像キャプションベンチマークなど、他の領域で有効である。

Recent advances in image captioning have focused on scaling the data and model size, substantially increasing the cost of pre-training and finetuning. As an alternative to large models, we present SmallCap, which generates a caption conditioned on an input image and related captions retrieved from a datastore. Our model is lightweight and fast to train as the only learned parameters are in newly introduced cross-attention layers between a pre-trained CLIP encoder and GPT-2 decoder. SmallCap can transfer to new domains without additional finetuning and exploit large-scale data in a training-free fashion because the contents of the datastore can be readily replaced. Our experiments show that SmallCap, trained only on COCO, has competitive performance on this benchmark, and also transfers to other domains without retraining, solely through retrieval from target-domain data. Further improvement is achieved through the training-free exploitation of diverse human-labeled and web data, which proves effective for other domains, including the nocaps image captioning benchmark, designed to test generalization to unseen visual concepts.
翻訳日:2022-10-03 14:22:21 公開日:2022-09-30
# 画像からテキスト空間への線形マッピング

Linearly Mapping from Image to Text Space ( http://arxiv.org/abs/2209.15162v1 )

ライセンス: Link先を確認
Jack Merullo, Louis Castricato, Carsten Eickhoff, Ellie Pavlick(参考訳) テキストのみ言語モデル(lms)が物理的、非言語的世界を表現することを学ぶ程度は、オープンな問題である。 先行研究では、事前学習されたlmsは、画像キャプションタスクでモデルのパラメータが更新されると、'`understand''の視覚入力を指示できることが示されている。 テキストのみのモデルで学習される概念表現は、視覚タスクで訓練されたモデルによって学習されるものと(線形変換まで)機能的に等価である。 具体的には,1つの線形投影のみを訓練することで,視覚モデルからのイメージ表現を凍結したlmsへ連続的なプロンプトとして転送できることを示す。 これらを用いてLMは、画像エンコーダとテキストデコーダの両方をチューニングするモデル(MAGMAモデルなど)と比較して、キャプションと視覚的質問応答タスクの競合性能を達成する。 我々は,3つの画像エンコーダと,事前訓練中に見られた言語指導量の増大を比較する:BEIT(言語情報なし),NF-ResNET(語彙カテゴリ情報),CLIP(フル自然言語記述)。 3つのエンコーダはすべて、視覚特性情報を言語モデル(例えば、動物が大きいか小さいか)に等しく転送するが、言語的監督の下で事前訓練された画像エンコーダは、カテゴリ情報(例えば、ヒッポ対ヒッポの区別)をより良好にエンコードする。 これにより、言語とビジョンのベンチマークタスクが大幅に改善される。 この結果から,LMは視覚モデルと構造的に類似した概念情報を符号化し,画像にのみ訓練されているものでさえも認識できることがわかった。

The extent to which text-only language models (LMs) learn to represent the physical, non-linguistic world is an open question. Prior work has shown that pretrained LMs can be taught to ``understand'' visual inputs when the models' parameters are updated on image captioning tasks. We test a stronger hypothesis: that the conceptual representations learned by text-only models are functionally equivalent (up to a linear transformation) to those learned by models trained on vision tasks. Specifically, we show that the image representations from vision models can be transferred as continuous prompts to frozen LMs by training only a single linear projection. Using these to prompt the LM achieves competitive performance on captioning and visual question answering tasks compared to models that tune both the image encoder and text decoder (such as the MAGMA model). We compare three image encoders with increasing amounts of linguistic supervision seen during pretraining: BEIT (no linguistic information), NF-ResNET (lexical category information), and CLIP (full natural language descriptions). We find that all three encoders perform equally well at transferring visual property information to the language model (e.g., whether an animal is large or small), but that image encoders pretrained with linguistic supervision more saliently encode category information (e.g., distinguishing hippo vs.\ elephant) and thus perform significantly better on benchmark language-and-vision tasks. Our results indicate that LMs encode conceptual information structurally similarly to vision-based models, even those that are solely trained on images.
翻訳日:2022-10-03 14:22:03 公開日:2022-09-30
# Depth-Wise Attention (DWAtt): データ効率な分類のための層融合法

Depth-Wise Attention (DWAtt): A Layer Fusion Method for Data-Efficient Classification ( http://arxiv.org/abs/2209.15168v1 )

ライセンス: Link先を確認
Muhammad ElNokrashy, Badr AlKhamissi, Mona Diab(参考訳) 大きなテキストデータに基づいて事前学習された言語モデルは、異なる種類の知識を同時にエンコードすることが示されている。 伝統的に、新しいタスクやデータに適応する際には、最後のレイヤの機能のみを使用する。 我々は、深層事前訓練モデルの使用や微調整を行う際に、下流タスクに関連する中間層の特徴が深く埋もれすぎて、必要なサンプルやステップで効率的に利用できないことを主張した。 そこで本研究では,非最終層からの表面信号の再検出を支援する新しい層融合法である深さ方向注意法(dwatt)を提案する。 我々は,DWAttを基本結合型層融合法(Concat)と比較し,これらをモデルベースラインのより深いモデルと比較する。 以上の結果から,DWAttとConcatはベースラインよりもステップ効率が高く,サンプル効率が高いことが示唆された。 DWAttは、より大きなデータサイズでConcatを上回っます。 CoNLL-03 NERでは、層融合は3.68-9.73%のF1ゲインを示す。 レイヤ融合モデルは、データサイズ、アーキテクチャ、トレーニング制約の異なるさまざまなトレーニングシナリオにおいて、ベースラインを著しく上回っている。

Language Models pretrained on large textual data have been shown to encode different types of knowledge simultaneously. Traditionally, only the features from the last layer are used when adapting to new tasks or data. We put forward that, when using or finetuning deep pretrained models, intermediate layer features that may be relevant to the downstream task are buried too deep to be used efficiently in terms of needed samples or steps. To test this, we propose a new layer fusion method: Depth-Wise Attention (DWAtt), to help re-surface signals from non-final layers. We compare DWAtt to a basic concatenation-based layer fusion method (Concat), and compare both to a deeper model baseline -- all kept within a similar parameter budget. Our findings show that DWAtt and Concat are more step- and sample-efficient than the baseline, especially in the few-shot setting. DWAtt outperforms Concat on larger data sizes. On CoNLL-03 NER, layer fusion shows 3.68-9.73% F1 gain at different few-shot sizes. The layer fusion models presented significantly outperform the baseline in various training scenarios with different data sizes, architectures, and training constraints.
翻訳日:2022-10-03 14:21:33 公開日:2022-09-30
# ヒューマンアクション認識のためのアプリケーション駆動aiパラダイム

Application-Driven AI Paradigm for Human Action Recognition ( http://arxiv.org/abs/2209.15271v1 )

ライセンス: Link先を確認
Zezhou Chen, Yajie Cui, Kaikai Zhao, Zhaoxiang Liu and Shiguo Lian(参考訳) コンピュータビジョンにおける人間の行動認識は近年広く研究されている。 しかし、ほとんどのアルゴリズムは特定の行動のみを高い計算コストで考慮している。 これは、計算コストの低い複数のアクションを持つ実用的なアプリケーションには適していない。 様々な応用シナリオを満たすため,本稿では,2つのモジュール,すなわち多形人間検出と対応行動分類からなる統合型ヒューマンアクション認識フレームワークを提案する。 このうち、人体全体、上体または部分体とを区別する多形態の人体検出モデルを訓練するためにオープンソースのデータセットを構築し、それに続く行動分類モデルを用いて、落下、睡眠、運転などの動作を認識する。 いくつかの実験結果は、統一フレームワークが様々なアプリケーションシナリオに有効であることを示している。 人間の行動認識のためのアプリケーション駆動型AIパラダイムとして期待されている。

Human action recognition in computer vision has been widely studied in recent years. However, most algorithms consider only certain action specially with even high computational cost. That is not suitable for practical applications with multiple actions to be identified with low computational cost. To meet various application scenarios, this paper presents a unified human action recognition framework composed of two modules, i.e., multi-form human detection and corresponding action classification. Among them, an open-source dataset is constructed to train a multi-form human detection model that distinguishes a human being's whole body, upper body or part body, and the followed action classification model is adopted to recognize such action as falling, sleeping or on-duty, etc. Some experimental results show that the unified framework is effective for various application scenarios. It is expected to be a new application-driven AI paradigm for human action recognition.
翻訳日:2022-10-03 14:20:39 公開日:2022-09-30
# ポイントクラウドニューラルネットワークの効率的な早期停止

Effective Early Stopping of Point Cloud Neural Networks ( http://arxiv.org/abs/2209.15308v1 )

ライセンス: Link先を確認
Thanasis Zoumpekas, Maria Salam\'o, Anna Puig(参考訳) 早期停止技術は時間コストの削減に利用できるが、現在、早期停止技術の最終的な目標は、構造が大規模で複雑で、直接的かつ効率性に欠けることなく、見えないデータをより一般化するニューラルネットワークの精度向上や能力と密接な関係にある。 ニューラルネットワークにおいて時間効率は重要な要素であり、特に3Dポイントクラウドデータのセグメンテーションを扱う場合、ニューラルネットワーク自体が計算コストが高いだけでなく、ポイントクラウドが大規模でノイズの多いデータであるため、学習プロセスはさらにコストがかかる。 本稿では,3次元点雲を扱うニューラルネットワークの学習効率と精度のトレードオフを改善することを目的とした,基礎数学に基づく新しい早期停止手法を提案する。 その結果, 3次元点群を分割するニューラルネットワークにおいて, 初期停止手法を4つの異なる高利用ニューラルネットワークに適用することにより, モデルのトレーニング時間効率が大幅に向上し, 効率向上値が最大94\%まで向上し, わずか数エポックで達成したモデルでは, 200エポックのニューラルネットワークの訓練で得られたものとほぼ同様のセグメンテーション精度のメトリック値が得られた。 また,提案手法は,従来の4つの早期停止手法よりも精度が優れており,ポイントクラウドセグメンテーションにおける革新的な早期停止技術が示唆されている。

Early stopping techniques can be utilized to decrease the time cost, however currently the ultimate goal of early stopping techniques is closely related to the accuracy upgrade or the ability of the neural network to generalize better on unseen data without being large or complex in structure and not directly with its efficiency. Time efficiency is a critical factor in neural networks, especially when dealing with the segmentation of 3D point cloud data, not only because a neural network itself is computationally expensive, but also because point clouds are large and noisy data, making learning processes even more costly. In this paper, we propose a new early stopping technique based on fundamental mathematics aiming to upgrade the trade-off between the learning efficiency and accuracy of neural networks dealing with 3D point clouds. Our results show that by employing our early stopping technique in four distinct and highly utilized neural networks in segmenting 3D point clouds, the training time efficiency of the models is greatly improved, with efficiency gain values reaching up to 94\%, while the models achieving in just a few epochs approximately similar segmentation accuracy metric values like the ones that are obtained in the training of the neural networks in 200 epochs. Also, our proposal outperforms four conventional early stopping approaches in segmentation accuracy, implying a promising innovative early stopping technique in point cloud segmentation.
翻訳日:2022-10-03 14:14:58 公開日:2022-09-30
# スパースマニフォールド変換を用いた最小教師なし学習

Minimalistic Unsupervised Learning with the Sparse Manifold Transform ( http://arxiv.org/abs/2209.15261v1 )

ライセンス: Link先を確認
Yubei Chen, Zeyu Yun, Yi Ma, Bruno Olshausen, Yann LeCun(参考訳) 本稿では,SOTA SSL法に近い性能を実現するため,データ拡張やハイパーパラメータチューニング,その他のエンジニアリング設計を使わずに,教師なし学習のための最小限かつ解釈可能な手法について述べる。 提案手法はスパース符号化, 多様体学習, 遅い特徴解析を統一するスパース多様体変換を利用する。 一層決定論的スパース多様体変換では、MNISTでは99.3%、CIFAR-10では81.1%、CIFAR-100では53.2%の精度が得られる。 CIFAR-10では83.2%、CIFAR-100では57%である。 これらの結果は、単純な ``white-box'' メソッドと sota メソッドの間のギャップをかなり狭めている。 さらに,教師なし表現変換がどのように形成されるかを説明するために可視化を行う。 提案手法は, 潜伏型自己監督法と密接に結びついており, VICReg の最も単純な形式として扱うことができる。 単純な構成モデルとSOTAメソッドの間には小さなパフォーマンスギャップが残っているが、この証拠は、教師なし学習に対する原則的でホワイトボックスなアプローチを実現するための有望な方向であることを示している。

We describe a minimalistic and interpretable method for unsupervised learning, without resorting to data augmentation, hyperparameter tuning, or other engineering designs, that achieves performance close to the SOTA SSL methods. Our approach leverages the sparse manifold transform, which unifies sparse coding, manifold learning, and slow feature analysis. With a one-layer deterministic sparse manifold transform, one can achieve 99.3% KNN top-1 accuracy on MNIST, 81.1% KNN top-1 accuracy on CIFAR-10 and 53.2% on CIFAR-100. With a simple gray-scale augmentation, the model gets 83.2% KNN top-1 accuracy on CIFAR-10 and 57% on CIFAR-100. These results significantly close the gap between simplistic ``white-box'' methods and the SOTA methods. Additionally, we provide visualization to explain how an unsupervised representation transform is formed. The proposed method is closely connected to latent-embedding self-supervised methods and can be treated as the simplest form of VICReg. Though there remains a small performance gap between our simple constructive model and SOTA methods, the evidence points to this as a promising direction for achieving a principled and white-box approach to unsupervised learning.
翻訳日:2022-10-03 14:14:03 公開日:2022-09-30
# TT-NF:テンソルトレインニューラルフィールド

TT-NF: Tensor Train Neural Fields ( http://arxiv.org/abs/2209.15529v1 )

ライセンス: Link先を確認
Anton Obukhov, Mikhail Usvyatsov, Christos Sakaridis, Konrad Schindler, Luc Van Gool(参考訳) ニューラルネットワークの学習は、ディープラーニングの研究において活発なトピックであり、よりコンパクトで使いやすい表現を見つけることに焦点を当てている。 本稿では,高密度正則格子上でニューラルネットワークを学習するための新しい低ランク表現テンソルトレインニューラルネットワーク(tt-nf)と,それを用いた効率的なサンプリング手法を提案する。 我々の表現は、非凸目的を最小化するためにバックプロパゲーションで訓練された、ニューラルネットワークのTTパラメータ化である。 ダウンストリームタスク品質指標に対する低ランク圧縮の影響を2つの設定で解析する。 まず,復元誤差を最小限に抑えるように設計されたsvd方式と比較し,テンソル除算のサンドボックスタスクにおいて,本手法の有効性を示す。 さらに、提案手法をニューラルネットワーク分野に適用し、学習を通してのみ最適な品質に対応する分野の低ランク構造を発見できる。

Learning neural fields has been an active topic in deep learning research, focusing, among other issues, on finding more compact and easy-to-fit representations. In this paper, we introduce a novel low-rank representation termed Tensor Train Neural Fields (TT-NF) for learning neural fields on dense regular grids and efficient methods for sampling from them. Our representation is a TT parameterization of the neural field, trained with backpropagation to minimize a non-convex objective. We analyze the effect of low-rank compression on the downstream task quality metrics in two settings. First, we demonstrate the efficiency of our method in a sandbox task of tensor denoising, which admits comparison with SVD-based schemes designed to minimize reconstruction error. Furthermore, we apply the proposed approach to Neural Radiance Fields, where the low-rank structure of the field corresponding to the best quality can be discovered only through learning.
翻訳日:2022-10-03 14:13:41 公開日:2022-09-30
# 外乱発生下における強化学習の安全な探索法

Safe Exploration Method for Reinforcement Learning under Existence of Disturbance ( http://arxiv.org/abs/2209.15452v1 )

ライセンス: Link先を確認
Yoshihiro Okawa, Tomotake Sasaki, Hitoshi Yanami, Toru Namerikawa(参考訳) 最近の強化学習アルゴリズムの急速な発展は、多くの分野で新しい可能性をもたらしている。 しかし,その探索的特性から,特に実環境において,これらのアルゴリズムを安全クリティカルな問題に適用する場合,リスクを考慮する必要がある。 本研究では,外乱の存在下での強化学習における安全な探索問題に対処する。 学習中の安全性を,状態の観点で明示的に定義された制約条件の満足度と定義し,制御対象と外乱の事前知識を用いた安全な探索手法を提案する。 提案手法は,制御対象が正規分布後の確率的乱れにさらされても,事前特定確率で明示的状態制約の満足度を保証する。 理論的な結果として,提案手法における探索的側面を含まない保存的入力を構成するのに十分な条件を導入し,本手法の安全性が保証されることを示す。 さらに,逆振り子と4バー並列リンクロボットマニピュレータの数値シミュレーションにより,提案手法の有効性と有効性について述べる。

Recent rapid developments in reinforcement learning algorithms have been giving us novel possibilities in many fields. However, due to their exploring property, we have to take the risk into consideration when we apply those algorithms to safety-critical problems especially in real environments. In this study, we deal with a safe exploration problem in reinforcement learning under the existence of disturbance. We define the safety during learning as satisfaction of the constraint conditions explicitly defined in terms of the state and propose a safe exploration method that uses partial prior knowledge of a controlled object and disturbance. The proposed method assures the satisfaction of the explicit state constraints with a pre-specified probability even if the controlled object is exposed to a stochastic disturbance following a normal distribution. As theoretical results, we introduce sufficient conditions to construct conservative inputs not containing an exploring aspect used in the proposed method and prove that the safety in the above explained sense is guaranteed with the proposed method. Furthermore, we illustrate the validity and effectiveness of the proposed method through numerical simulations of an inverted pendulum and a four-bar parallel link robot manipulator.
翻訳日:2022-10-03 14:13:26 公開日:2022-09-30
# 知識蒸留における早期ハルティングを用いたエッジデバイス上の軽量ニューラルネットワークの設計と訓練

Designing and Training of Lightweight Neural Networks on Edge Devices using Early Halting in Knowledge Distillation ( http://arxiv.org/abs/2209.15560v1 )

ライセンス: Link先を確認
Rahul Mishra, Hari Prabhat Gupta(参考訳) 機能抽出の自動化とDeep Neural Networks(DNN)の大幅なパフォーマンスにより、IoT(Internet of Things)アプリケーションに適している。 しかしながら,エッジデバイスへのdnnのデプロイは,計算量やエネルギー,ストレージ要件などによって禁止される。 本稿では,大規模DNNを用いた軽量DNNの設計・訓練手法を提案する。 このアプローチでは、エッジデバイス上でタスクを実行するために利用可能なストレージ、処理速度、最大処理時間を考慮する。 本稿では,軽量dnnを訓練し,適切な精度を達成するための知識蒸留に基づく訓練手順を提案する。 軽量DNNのトレーニング中に,ネットワークリソースを保存し,トレーニング手順を高速化する新しい早期停止技術を導入する。 最後に, 様々なエッジデバイスを用いて, 異なる制約下で提案手法の有効性を検証するため, 経験的および実世界評価を行った。

Automated feature extraction capability and significant performance of Deep Neural Networks (DNN) make them suitable for Internet of Things (IoT) applications. However, deploying DNN on edge devices becomes prohibitive due to the colossal computation, energy, and storage requirements. This paper presents a novel approach for designing and training lightweight DNN using large-size DNN. The approach considers the available storage, processing speed, and maximum allowable processing time to execute the task on edge devices. We present a knowledge distillation based training procedure to train the lightweight DNN to achieve adequate accuracy. During the training of lightweight DNN, we introduce a novel early halting technique, which preserves network resources; thus, speedups the training procedure. Finally, we present the empirically and real-world evaluations to verify the effectiveness of the proposed approach under different constraints using various edge devices.
翻訳日:2022-10-03 14:13:08 公開日:2022-09-30
# 言語境界のBlur:ニューラル機械翻訳による中国語経典の解釈

Blur the Linguistic Boundary: Interpreting Chinese Buddhist Sutra in English via Neural Machine Translation ( http://arxiv.org/abs/2209.15164v1 )

ライセンス: Link先を確認
Denghao Li, Yuqiao Zeng, Jianzong Wang, Lingwei Kong, Zhangcheng Huang, Ning Cheng, Xiaoyang Qu, Jing Xiao(参考訳) 仏教は長い歴史と深い哲学を持つ影響力のある宗教である。 現在では、仏教の布教に重きを置き、仏教の本質を学ぼうとする世界がますます増えている。 しかし、古典中国語で書かれた仏教経典は、ほとんどの人々や機械翻訳の応用には不明瞭である。 例えば、一般中国語-英語ニューラルマシン翻訳(nmt)はこの領域では失敗する。 本稿では,仏教経典の実践的NMTモデル構築のための新しいアプローチを提案する。 翻訳パイプラインの性能は3つの基準の下でアブレーション実験で高い有望な結果を得た。

Buddhism is an influential religion with a long-standing history and profound philosophy. Nowadays, more and more people worldwide aspire to learn the essence of Buddhism, attaching importance to Buddhism dissemination. However, Buddhist scriptures written in classical Chinese are obscure to most people and machine translation applications. For instance, general Chinese-English neural machine translation (NMT) fails in this domain. In this paper, we proposed a novel approach to building a practical NMT model for Buddhist scriptures. The performance of our translation pipeline acquired highly promising results in ablation experiments under three criteria.
翻訳日:2022-10-03 14:12:53 公開日:2022-09-30
# 変圧器を用いた音声認識における適応スパースと単調アテンション

Adaptive Sparse and Monotonic Attention for Transformer-based Automatic Speech Recognition ( http://arxiv.org/abs/2209.15176v1 )

ライセンス: Link先を確認
Chendong Zhao, Jianzong Wang, Wen qi Wei, Xiaoyang Qu, Haoqian Wang, Jing Xiao(参考訳) セルフアテンションとマルチヘッドアテンションに基づくトランスフォーマーアーキテクチャモデルは、オフラインのエンドツーエンド自動音声認識(asr)において顕著な成功を収めている。 しかし、セルフアテンションやマルチヘッドアテンションはストリーミングやオンラインASRでは簡単には適用できない。 Transformer ASRにおける自己注意のために、ソフトマックス正規化関数に基づくアテンション機構は重要な音声情報の強調を不可能にする。 Transformer ASRにおける多面的注目のために、異なる頭部における単調アライメントをモデル化するのは容易ではない。 これら2つの限界を克服するために、トランスフォーマーベースのASRにスパースアテンションとモノトニックアテンションを統合する。 スパース機構は学習されたスパース性スキームを導入し、各自己注意構造が対応する頭部に適合するようにした。 単調な注意は、多頭部注意構造のための冗長な頭部に正規化を展開する。 本手法は,広く用いられている音声認識ベンチマークの注意機構を効果的に改善できることを示す。

The Transformer architecture model, based on self-attention and multi-head attention, has achieved remarkable success in offline end-to-end Automatic Speech Recognition (ASR). However, self-attention and multi-head attention cannot be easily applied for streaming or online ASR. For self-attention in Transformer ASR, the softmax normalization function-based attention mechanism makes it impossible to highlight important speech information. For multi-head attention in Transformer ASR, it is not easy to model monotonic alignments in different heads. To overcome these two limits, we integrate sparse attention and monotonic attention into Transformer-based ASR. The sparse mechanism introduces a learned sparsity scheme to enable each self-attention structure to fit the corresponding head better. The monotonic attention deploys regularization to prune redundant heads for the multi-head attention structure. The experiments show that our method can effectively improve the attention mechanism on widely used benchmarks of speech recognition.
翻訳日:2022-10-03 14:12:46 公開日:2022-09-30
# 文脈の蒸留による学習

Learning by Distilling Context ( http://arxiv.org/abs/2209.15189v1 )

ライセンス: Link先を確認
Charlie Snell, Dan Klein, Ruiqi Zhong(参考訳) 言語モデルは、プロンプトやスクラッチパッドのようなコンテキストトークンから著しく恩恵を受ける。 そして、最終的な答えを予測する前に、スクラッチパッドを生成することによって、新たな推論能力を得る。 しかし、これらのパフォーマンスゲインはtextit{internalize}ではなく、コンテキストトークンがなくなったときに消える。 本研究は,これらの利得を内在化することによって,言語モデルが自己改善できるように,文脈蒸留を適用することを提案する。 具体的には、ターゲットタスクに対する合成されていない入力が与えられた場合、 ``[instructions] + [task-input]'' でモデルに ``[scratch-pad] + [final answer]'' を予測させ、その後、同じモデルに ``[task-input]' で条件付き ``[task-input]'' を予測させ、 ``[instructions]' を見たり、 ``[scratch-pad]' を使用せずに、同じモデルを微調整する。 文脈蒸留は言語モデルを学習するための一般的な手法であり、3種類の訓練信号を効果的に内部化できることを示す。 まず、抽象的なタスク命令と説明を内部化するので、モデルのパラメータを新しい命令で反復的に更新し、古い命令を上書きできます。 第二に、複雑なタスクのステップ・バイ・ステップの推論(例えば8桁の追加)を内部化し、新たに取得した能力は他の下流タスクに有用であることが証明される。 最後に、具体的なトレーニング例を内部化でき、SPIDER Text-to-SQLデータセットで勾配降下率9\%で直接学習し、さらにコンテキスト蒸留操作を組み合わせることで、コンテキストウィンドウサイズよりもトレーニング例を内部化することができる。

Language models significantly benefit from context tokens, such as prompts or scratchpads. They perform better when prompted with informative instructions, and they acquire new reasoning capabilities by generating a scratch-pad before predicting the final answers. However, they do not \textit{internalize} these performance gains, which disappear when the context tokens are gone. Our work proposes to apply context distillation so that a language model can improve itself by internalizing these gains. Concretely, given a synthetic unlabeled input for the target task, we condition the model on ``[instructions] + [task-input]'' to predict ``[scratch-pad] + [final answer]''; then we fine-tune the same model to predict its own ``[final answer]'' conditioned on the ``[task-input]'', without seeing the ``[instructions]'' or using the ``[scratch-pad]''. We show that context distillation is a general method to train language models, and it can effectively internalize 3 types of training signals. First, it can internalize abstract task instructions and explanations, so we can iteratively update the model parameters with new instructions and overwrite old ones. Second, it can internalize step-by-step reasoning for complex tasks (e.g., 8-digit addition), and such a newly acquired capability proves to be useful for other downstream tasks. Finally, it can internalize concrete training examples, and it outperforms directly learning with gradient descent by 9\% on the SPIDER Text-to-SQL dataset; furthermore, combining context distillation operations can internalize more training examples than the context window size allows.
翻訳日:2022-10-03 14:12:30 公開日:2022-09-30
# 意味的類似性計算のための分類学および神経埋め込み法の評価

Evaluation of taxonomic and neural embedding methods for calculating semantic similarity ( http://arxiv.org/abs/2209.15197v1 )

ライセンス: Link先を確認
Dongqiang Yang, Yanqin Yin(参考訳) 意味的類似性のモデリングは語彙的意味論的応用において基本的な役割を担っている。 意味的類似性を計算する自然な方法は手作りのセマンティックネットワークにアクセスすることであるが、分布ベクトル空間においても類似性予測が期待できる。 深いニューラルネットワークモデルの最新のブレークスルーにもかかわらず、類似性計算は依然として難しい課題である。 まず,分類学における意味的関係のみを利用するエッジカウンティングや,概念特異性を推定する複雑な手法など,分類学的類似性を測定する一般的な手法を検討した。 さらに分類学的類似性をモデル化する際の重み付け因子を3つ外挿した。 分類学的な類似度尺度と分布的類似度尺度の異なるメカニズムを検討するために,単語頻度,多義性度,類似度強度の観点から,各尺度と人間の類似度判定を頭対頭比較した。 Our findings suggest that without fine-tuning the uniform distance, taxonomic similarity measures can depend on the shortest path length as a prime factor to predict semantic similarity; in contrast to distributional semantics, edge-counting is free from sense distribution bias in use and can measure word similarity both literally and metaphorically; the synergy of retrofitting neural embeddings with concept relations in similarity prediction may indicate a new trend to leverage knowledge bases on transfer learning. 単語の頻度、多義度、類似度強度の異なる範囲における意味的類似性を計算する上では、依然として大きなギャップが存在するようである。

Modelling semantic similarity plays a fundamental role in lexical semantic applications. A natural way of calculating semantic similarity is to access handcrafted semantic networks, but similarity prediction can also be anticipated in a distributional vector space. Similarity calculation continues to be a challenging task, even with the latest breakthroughs in deep neural language models. We first examined popular methodologies in measuring taxonomic similarity, including edge-counting that solely employs semantic relations in a taxonomy, as well as the complex methods that estimate concept specificity. We further extrapolated three weighting factors in modelling taxonomic similarity. To study the distinct mechanisms between taxonomic and distributional similarity measures, we ran head-to-head comparisons of each measure with human similarity judgements from the perspectives of word frequency, polysemy degree and similarity intensity. Our findings suggest that without fine-tuning the uniform distance, taxonomic similarity measures can depend on the shortest path length as a prime factor to predict semantic similarity; in contrast to distributional semantics, edge-counting is free from sense distribution bias in use and can measure word similarity both literally and metaphorically; the synergy of retrofitting neural embeddings with concept relations in similarity prediction may indicate a new trend to leverage knowledge bases on transfer learning. It appears that a large gap still exists on computing semantic similarity among different ranges of word frequency, polysemous degree and similarity intensity.
翻訳日:2022-10-03 14:11:56 公開日:2022-09-30
# ct用深層学習分類器における重要推定器の評価

Evaluation of importance estimators in deep learning classifiers for Computed Tomography ( http://arxiv.org/abs/2209.15398v1 )

ライセンス: Link先を確認
Lennart Brocki, Wistan Marchadour, Jonas Maison, Bogdan Badic, Panagiotis Papadimitroulas, Mathieu Hatt, Franck Vermet, Neo Christopher Chung(参考訳) ディープラーニングは、オブジェクトの検出や画像の分類において優れたパフォーマンスを示し、医用画像の解析に非常に有望である。 深層学習の成功を医療画像に翻訳するには、医師が基礎となるプロセスを理解する必要があるが、ニューラルネットワークの予測を解釈し説明する能力が必要である。 ディープニューラルネットワークの解釈可能性はしばしば、結果(例えばクラス確率)に対する入力特徴(例えばピクセル)の重要性を推定することに依存している。 しかし、多くの重要な推定器(サリエンシマップとも呼ばれる)が開発されており、どちらが医用画像の応用に関係があるかは不明である。 本研究では,3つの異なる評価指標を用いて,畳み込み深層ネットワークによるCT画像の分類について,いくつかの重要な推定器の性能について検討した。 まず、モデル中心の忠実度は、特定の入力が摂動した場合のモデルの精度の低下を測定する。 第2に、重要スコアと専門家定義セグメンテーションマスクとの一致を、受信操作特性(ROC)曲線により画素レベルで測定する。 第3に,Dice similarity Coefficients (DSC) によるXRAIマップとセグメンテーションマスクの領域的重なりを計測する。 全体として、SmoothGradの2つのバージョンが忠実度とROCランキングを上回り、Integrated GradientsとSmoothGradはDSC評価に優れていた。 興味深いことに、モデル中心(忠実度)と人間中心(ROC, DSC)評価の間には重要な相違があった。 セグメンテーションマップに埋め込まれた専門家の期待と直感は、必ずしもモデルが予測に到達した方法と一致しない。 この解釈可能性の違いを理解することは、医学における深層学習の力を活用するのに役立つ。

Deep learning has shown superb performance in detecting objects and classifying images, ensuring a great promise for analyzing medical imaging. Translating the success of deep learning to medical imaging, in which doctors need to understand the underlying process, requires the capability to interpret and explain the prediction of neural networks. Interpretability of deep neural networks often relies on estimating the importance of input features (e.g., pixels) with respect to the outcome (e.g., class probability). However, a number of importance estimators (also known as saliency maps) have been developed and it is unclear which ones are more relevant for medical imaging applications. In the present work, we investigated the performance of several importance estimators in explaining the classification of computed tomography (CT) images by a convolutional deep network, using three distinct evaluation metrics. First, the model-centric fidelity measures a decrease in the model accuracy when certain inputs are perturbed. Second, concordance between importance scores and the expert-defined segmentation masks is measured on a pixel level by a receiver operating characteristic (ROC) curves. Third, we measure a region-wise overlap between a XRAI-based map and the segmentation mask by Dice Similarity Coefficients (DSC). Overall, two versions of SmoothGrad topped the fidelity and ROC rankings, whereas both Integrated Gradients and SmoothGrad excelled in DSC evaluation. Interestingly, there was a critical discrepancy between model-centric (fidelity) and human-centric (ROC and DSC) evaluation. Expert expectation and intuition embedded in segmentation maps does not necessarily align with how the model arrived at its prediction. Understanding this difference in interpretability would help harnessing the power of deep learning in medicine.
翻訳日:2022-10-03 14:06:28 公開日:2022-09-30
# スキップ接続モデルを学習可能なマルコフ連鎖として再考する

Rethinking skip connection model as a learnable Markov chain ( http://arxiv.org/abs/2209.15278v1 )

ライセンス: Link先を確認
Dengsheng Chen, Jie Hu, Wenwen Qiang, Xiaoming Wei, Enhua Wu(参考訳) resnetの誕生以来、スキップ接続は広く採用され、最適化が容易で、性能が証明されているため、現代のアーキテクチャ設計のデファクトスタンダードとなっている。 先行研究は、異なる観点からスキップ接続メカニズムの有効性を説明した。 本研究では,学習可能なマルコフ連鎖として定式化可能なスキップ接続を用いて,モデルの振る舞いを深く掘り下げる。 効率的なマルコフ連鎖は、入力データを常により良い方法でターゲットドメインにマップするので好まれる。 しかしながら、モデルはマルコフ連鎖として説明されるが、局所最適点に閉じ込められやすい既存のSGDベースの最適化器によって効率的なマルコフ連鎖に従って最適化されることは保証されない。 より効率的なマルコフ連鎖に向けて, 残差様モデルが学習可能なマルコフ連鎖となるように, 陰茎接続の簡単なルーチンを提案する。 それとは別に、ペナル接続は特定のモデル正規化と見なすことができ、最も人気のあるディープラーニングフレームワーク~\footnote{Source code: \url{https://github.com/densechen/penal-connection}}で1行のコードで簡単に実装できる。 マルチモーダル翻訳と画像認識による実験結果を奨励し,学習可能なマルコフ連鎖図の推測を実証し,提案する刑罰接続の優位性を実証した。

Over past few years afterward the birth of ResNet, skip connection has become the defacto standard for the design of modern architectures due to its widespread adoption, easy optimization and proven performance. Prior work has explained the effectiveness of the skip connection mechanism from different perspectives. In this work, we deep dive into the model's behaviors with skip connections which can be formulated as a learnable Markov chain. An efficient Markov chain is preferred as it always maps the input data to the target domain in a better way. However, while a model is explained as a Markov chain, it is not guaranteed to be optimized following an efficient Markov chain by existing SGD-based optimizers which are prone to get trapped in local optimal points. In order to towards a more efficient Markov chain, we propose a simple routine of penal connection to make any residual-like model become a learnable Markov chain. Aside from that, the penal connection can also be viewed as a particular model regularization and can be easily implemented with one line of code in the most popular deep learning frameworks~\footnote{Source code: \url{https://github.com/densechen/penal-connection}}. The encouraging experimental results in multi-modal translation and image recognition empirically confirm our conjecture of the learnable Markov chain view and demonstrate the superiority of the proposed penal connection.
翻訳日:2022-10-03 14:05:59 公開日:2022-09-30
# 強化学習におけるサンプル効率関数近似のための一般フレームワーク

A General Framework for Sample-Efficient Function Approximation in Reinforcement Learning ( http://arxiv.org/abs/2209.15634v1 )

ライセンス: Link先を確認
Zixiang Chen, Chris Junchi Li, Angela Yuan, Quanquan Gu, Michael I. Jordan(参考訳) 大規模状態や行動空間を扱う必要性が高まっているため、一般関数近似は強化学習(RL)の鍵となる技術となっている。 本稿では,モデルベースとモデルフリーのrlを統一する汎用フレームワークと,ほぼすべてのマルコフ決定過程(mdp)モデルに準拠する許容ベルマンキャラクタリゼーション(abc)クラスを提案する。 ABCクラスの複雑性尺度として,最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。 本フレームワークでは,様々なMDPモデルにおいて最もよく知られた結果に一致する,あるいは改善された後悔境界を達成し,OPERA(Optimization-based Exploration with Approximation)と呼ばれる新しいサンプル効率アルゴリズムを提案する。 特に、証人ランクが低いmdpの場合、少し強い仮定の下で、operaは最先端のサンプルの複雑さを$dh$で改善する。 我々のフレームワークは、新しいRLモデルとアルゴリズムの設計と解析のための汎用インターフェースを提供する。

With the increasing need for handling large state and action spaces, general function approximation has become a key technique in reinforcement learning (RL). In this paper, we propose a general framework that unifies model-based and model-free RL, and an Admissible Bellman Characterization (ABC) class that subsumes nearly all Markov Decision Process (MDP) models in the literature for tractable RL. We propose a novel estimation function with decomposable structural properties for optimization-based exploration and the functional eluder dimension as a complexity measure of the ABC class. Under our framework, a new sample-efficient algorithm namely OPtimization-based ExploRation with Approximation (OPERA) is proposed, achieving regret bounds that match or improve over the best-known results for a variety of MDP models. In particular, for MDPs with low Witness rank, under a slightly stronger assumption, OPERA improves the state-of-the-art sample complexity results by a factor of $dH$. Our framework provides a generic interface to design and analyze new RL models and algorithms.
翻訳日:2022-10-03 14:04:16 公開日:2022-09-30
# MobileViTv3: ローカル、グローバル、および入力機能をシンプルかつ効果的に融合したモバイルフレンドリーなビジョントランスフォーマー

MobileViTv3: Mobile-Friendly Vision Transformer with Simple and Effective Fusion of Local, Global and Input Features ( http://arxiv.org/abs/2209.15159v1 )

ライセンス: Link先を確認
Shakti N. Wadekar and Abhishek Chaurasia(参考訳) MobileViT(MobileViTv1)は、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)を組み合わせて、モバイルビジョンタスク用の軽量モデルを作成する。 メインのMobileViTv1ブロックは競合する最先端の結果を達成するのに役立っているが、MobileViTv1ブロック内の融合ブロックはスケーリングの課題を生み出し、複雑な学習タスクを持つ。 そこで本研究では,モバイルvitv3ブロックの作成に簡便かつ効果的であるfusionブロックの変更を提案し,スケーリングに対処し,学習タスクを単純化する。 提案するmobilevitv3-blockは,imagenet-1k,ade20k,coco,pascalvoc2012データセット上でmobilevitv1よりも優れている。 ImageNet-1Kでは、MobileViTv3-XXSとMobileViTv3-XSがそれぞれ2%、MobileViTv1-XXSが1.9%を上回っている。 先日公開されたMobileViTv2アーキテクチャは、融合ブロックを除去し、線形複雑性トランスフォーマーを使用してMobileViTv1より優れたパフォーマンスを実現している。 提案した融合ブロックをMobileViTv2に追加し、MobileViTv3-0.5、0.75、1.0モデルを作成します。 これらの新しいモデルでは、MobileViTv2と比較して、ImageNet-1k、ADE20K、COCO、PascalVOC2012データセットの精度が向上している。 MobileViTv3-0.5とMobileViTv3-0.75は、ImageNet-1Kデータセットでそれぞれ2.1%、MobileViTv2-0.75を1.0%上回る。 セグメンテーションタスクにおいて、MobileViTv3-1.0は、ADE20KデータセットのMobileViTv2-1.0とPascalVOC2012データセットのそれぞれに対して、2.07%と1.1%のmIOUを達成する。 私たちのコードとトレーニングされたモデルは、https://github.com/microndla/mobilevitv3で利用可能です。

MobileViT (MobileViTv1) combines convolutional neural networks (CNNs) and vision transformers (ViTs) to create light-weight models for mobile vision tasks. Though the main MobileViTv1-block helps to achieve competitive state-of-the-art results, the fusion block inside MobileViTv1-block, creates scaling challenges and has a complex learning task. We propose changes to the fusion block that are simple and effective to create MobileViTv3-block, which addresses the scaling and simplifies the learning task. Our proposed MobileViTv3-block used to create MobileViTv3-XXS, XS and S models outperform MobileViTv1 on ImageNet-1k, ADE20K, COCO and PascalVOC2012 datasets. On ImageNet-1K, MobileViTv3-XXS and MobileViTv3-XS surpasses MobileViTv1-XXS and MobileViTv1-XS by 2% and 1.9% respectively. Recently published MobileViTv2 architecture removes fusion block and uses linear complexity transformers to perform better than MobileViTv1. We add our proposed fusion block to MobileViTv2 to create MobileViTv3-0.5, 0.75 and 1.0 models. These new models give better accuracy numbers on ImageNet-1k, ADE20K, COCO and PascalVOC2012 datasets as compared to MobileViTv2. MobileViTv3-0.5 and MobileViTv3-0.75 outperforms MobileViTv2-0.5 and MobileViTv2-0.75 by 2.1% and 1.0% respectively on ImageNet-1K dataset. For segmentation task, MobileViTv3-1.0 achieves 2.07% and 1.1% better mIOU compared to MobileViTv2-1.0 on ADE20K dataset and PascalVOC2012 dataset respectively. Our code and the trained models are available at: https://github.com/micronDLA/MobileViTv3
翻訳日:2022-10-03 14:03:19 公開日:2022-09-30
# geonet:wasserstein測地学学習用ニューラルネットワーク

GeONet: a neural operator for learning the Wasserstein geodesic ( http://arxiv.org/abs/2209.14440v2 )

ライセンス: Link先を確認
Andrew Gracyk, Xiaohui Chen(参考訳) 最適なトランスポート(ot)は、複雑なデータ分布を幾何学的に意味のある方法で比較するための汎用フレームワークを提供する。 従来の確率測度間のワッサーシュタイン距離と測地線を計算する方法はメッシュに依存した領域の離散化を必要とし、次元の呪いに苦しむ。 本稿では,初期分布と終端分布の入力対から2つの終端分布を接続するwasserstein測地線への非線形写像を学習するメッシュ不変深層ニューラルネットワークgeonetを提案する。 オフライントレーニング段階において、GeONetは、結合されたPDEシステムによって特徴づけられる原始空間と双対空間におけるOT問題の動的定式化のためのサドル点最適条件を学習する。 その後の推論段階は瞬時に行われ、オンライン学習環境でリアルタイムの予測にデプロイできる。 シミュレーション例とCIFAR-10データセットを用いて,GeONetが標準OTソルバに匹敵する精度を実現し,予測段階の計算コストを桁違いに大幅に削減したことを示す。

Optimal transport (OT) offers a versatile framework to compare complex data distributions in a geometrically meaningful way. Traditional methods for computing the Wasserstein distance and geodesic between probability measures require mesh-dependent domain discretization and suffer from the curse-of-dimensionality. We present GeONet, a mesh-invariant deep neural operator network that learns the non-linear mapping from the input pair of initial and terminal distributions to the Wasserstein geodesic connecting the two endpoint distributions. In the offline training stage, GeONet learns the saddle point optimality conditions for the dynamic formulation of the OT problem in the primal and dual spaces that are characterized by a coupled PDE system. The subsequent inference stage is instantaneous and can be deployed for real-time predictions in the online learning setting. We demonstrate that GeONet achieves comparable testing accuracy to the standard OT solvers on a simulation example and the CIFAR-10 dataset with considerably reduced inference-stage computational cost by orders of magnitude.
翻訳日:2022-10-03 13:56:52 公開日:2022-09-30
# 潜在拡散モデルによる創作絵画

Creative Painting with Latent Diffusion Models ( http://arxiv.org/abs/2209.14697v2 )

ライセンス: Link先を確認
Xianchao Wu(参考訳) 近年、芸術絵画は大きな進歩を遂げている。 原画像と圧縮潜在空間を接続するオートエンコーダと、拡散のバックボーンとしてクロス注意強化u-netを用いて、潜在拡散モデル(ldms)は安定かつ高い不妊性画像生成を達成している。 本稿では,ウィキアートデータセットを用いたテキスト条件拡張とモデルリトレーニングの2方向における現在のldmの創造的絵画能力の向上に着目する。 テキスト条件拡張により、ユーザの入力プロンプトは、より深い理解と説明のために、リッチなコンテキスト知識で拡張される。 Wikiartのデータセットには、最近400年間に1000人以上の有名アーティストによって描かれた80万点の有名なアートワークが含まれている。 再訓練を通じて、これらのアーティストに現代トピックに関する斬新で創造的な絵を描くよう依頼することができる。 オリジナルのモデルと直接比較すると、創造性と芸術性が豊かであることを示している。

Artistic painting has achieved significant progress during recent years. Using an autoencoder to connect the original images with compressed latent spaces and a cross attention enhanced U-Net as the backbone of diffusion, latent diffusion models (LDMs) have achieved stable and high fertility image generation. In this paper, we focus on enhancing the creative painting ability of current LDMs in two directions, textual condition extension and model retraining with Wikiart dataset. Through textual condition extension, users' input prompts are expanded with rich contextual knowledge for deeper understanding and explaining the prompts. Wikiart dataset contains 80K famous artworks drawn during recent 400 years by more than 1,000 famous artists in rich styles and genres. Through the retraining, we are able to ask these artists to draw novel and creative painting on modern topics. Direct comparisons with the original model show that the creativity and artistry are enriched.
翻訳日:2022-10-03 13:56:37 公開日:2022-09-30
# 大規模言語モデルを用いた合成意味解析

Compositional Semantic Parsing with Large Language Models ( http://arxiv.org/abs/2209.15003v2 )

ライセンス: Link先を確認
Andrew Drozdov, Nathanael Sch\"arli, Ekin Aky\"urek, Nathan Scales, Xinying Song, Xinyun Chen, Olivier Bousquet, Denny Zhou(参考訳) 人間は、新しいタスクを提示すると、構成的に推論できる。 従来の研究では、適切なプロンプト技術により、大きな言語モデル(LLM)がSCANのような人工的な合成一般化タスクを解くことができることが示されている。 本研究では,より大きな語彙を持つより現実的な意味解析タスクにおけるさらなる課題を特定し,これらの課題に対処する。 最良手法は最小限のプロンプトに基づいており、プロンプトベースの構文解析を用いて問題を分解し、この分解を用いて適切な例を選択し、セマンティック解析を逐次生成する。 本手法では,従来の手法で使用したトレーニングデータの1%しか必要とせず,CFQの新たな状態を設定することができる。 私たちのアプローチの一般的な性質から、同様の取り組みが他のタスクやドメイン、特に知識集約型アプリケーションで新たな結果をもたらすことを期待しています。

Humans can reason compositionally when presented with new tasks. Previous research shows that appropriate prompting techniques enable large language models (LLMs) to solve artificial compositional generalization tasks such as SCAN. In this work, we identify additional challenges in more realistic semantic parsing tasks with larger vocabulary and refine these prompting techniques to address them. Our best method is based on least-to-most prompting: it decomposes the problem using prompting-based syntactic parsing, then uses this decomposition to select appropriate exemplars and to sequentially generate the semantic parse. This method allows us to set a new state of the art for CFQ while requiring only 1% of the training data used by traditional approaches. Due to the general nature of our approach, we expect similar efforts will lead to new results in other tasks and domains, especially for knowledge-intensive applications.
翻訳日:2022-10-03 13:56:24 公開日:2022-09-30
# 非iidデータを用いた連合学習のためのラベル駆動知識蒸留

Label driven Knowledge Distillation for Federated Learning with non-IID Data ( http://arxiv.org/abs/2209.14520v2 )

ライセンス: Link先を確認
Minh-Duong Nguyen, Quoc-Viet Pham, Dinh Thai Hoang, Long Tran-Thanh, Diep N. Nguyen, Won-Joo Hwang(参考訳) 現実世界のアプリケーションでは,フェデレーション学習(federated learning, fl)は,(1)大規模iotネットワークに適用した場合のスケーラビリティ,(2)異種データを持つ環境に対する堅牢性,の2つの課題を満たしている。 最初の問題を実現するために,Full-stack FL (F2L) という新しいFLフレームワークの設計を目指す。 より具体的には、F2Lは階層的なネットワークアーキテクチャを使用しており、ネットワークシステム全体を再構築することなくFLネットワークを拡張することができる。 さらに,階層的ネットワーク設計の利点を生かして,グローバルサーバにおける新たなラベル駆動知識蒸留(lkd)技術を提案する。 現在の知識蒸留技術とは対照的に、LKDはすべての教師のモデルから十分な知識を持つ学生モデルを訓練することができる。 そこで本提案アルゴリズムは,非独立な同一分散データを用いたFLシステムの下での動作において,各領域のデータ分布(地域集約モデル)の知識を効果的に抽出し,クライアントモデル間のばらつきを低減する。 広範な実験の結果 (i)F2L法は全グローバル蒸留におけるFL効率を大幅に向上させることができる。 (II)F2Lは, 各通信サイクルで増大する代わりに, グローバル蒸留の段階が生じるにつれて, 急速に収束する。

In real-world applications, Federated Learning (FL) meets two challenges: (1) scalability, especially when applied to massive IoT networks; and (2) how to be robust against an environment with heterogeneous data. Realizing the first problem, we aim to design a novel FL framework named Full-stack FL (F2L). More specifically, F2L utilizes a hierarchical network architecture, making extending the FL network accessible without reconstructing the whole network system. Moreover, leveraging the advantages of hierarchical network design, we propose a new label-driven knowledge distillation (LKD) technique at the global server to address the second problem. As opposed to current knowledge distillation techniques, LKD is capable of training a student model, which consists of good knowledge from all teachers' models. Therefore, our proposed algorithm can effectively extract the knowledge of the regions' data distribution (i.e., the regional aggregated models) to reduce the divergence between clients' models when operating under the FL system with non-independent identically distributed data. Extensive experiment results reveal that: (i) our F2L method can significantly improve the overall FL efficiency in all global distillations, and (ii) F2L rapidly achieves convergence as global distillation stages occur instead of increasing on each communication cycle.
翻訳日:2022-10-03 13:56:08 公開日:2022-09-30
# 統計的学習と逆問題:確率的勾配アプローチ

Statistical Learning and Inverse Problems: An Stochastic Gradient Approach ( http://arxiv.org/abs/2209.14967v2 )

ライセンス: Link先を確認
Yuri R. Fonseca and Yuri F. Saporito(参考訳) 逆問題は科学と工学において最重要である。 本稿では,統計的逆問題(SIP)のセットアップを検討し,SGDアルゴリズムが線形SIP設定においてどのように使用できるかを示す。 過剰リスクに対する一貫性と有限サンプル境界を提供する。 また,確率勾配の円滑化と経験的性能の向上に機械学習手法を活用するSGDアルゴリズムの修正を提案する。 我々は近年,関数線形回帰モデルという,非常に興味深い設定でアルゴリズムを実証している。 本稿では、実データ分類問題を伴う合成データ例と実データ例について考察する。

Inverse problems are paramount in Science and Engineering. In this paper, we consider the setup of Statistical Inverse Problem (SIP) and demonstrate how Stochastic Gradient Descent (SGD) algorithms can be used in the linear SIP setting. We provide consistency and finite sample bounds for the excess risk. We also propose a modification for the SGD algorithm where we leverage machine learning methods to smooth the stochastic gradients and improve empirical performance. We exemplify the algorithm in a setting of great interest nowadays: the Functional Linear Regression model. In this case we consider a synthetic data example and examples with a real data classification problem.
翻訳日:2022-10-03 13:55:45 公開日:2022-09-30
# 医療データ共有のためのデータセット蒸留

Dataset Distillation for Medical Dataset Sharing ( http://arxiv.org/abs/2209.14603v2 )

ライセンス: Link先を確認
Guang Li, Ren Togo, Takahiro Ogawa, Miki Haseyama(参考訳) 病院間で医療データセットを共有するのは、プライバシー保護の問題と、多くの高解像度医療画像の送受信に膨大なコストがかかるため困難である。 しかし、データセットの蒸留は、トレーニングされたモデルが元の大きなデータセットと同等のパフォーマンスを達成できるように、小さなデータセットを合成することができる。 そこで本稿では, 医用データセット共有のための新しい蒸留法を提案する。 新型コロナウイルスの胸部x線画像データセットにおける実験結果から, 匿名化胸部x線画像を用いても高い検出性能が得られた。

Sharing medical datasets between hospitals is challenging because of the privacy-protection problem and the massive cost of transmitting and storing many high-resolution medical images. However, dataset distillation can synthesize a small dataset such that models trained on it achieve comparable performance with the original large dataset, which shows potential for solving the existing medical sharing problems. Hence, this paper proposes a novel dataset distillation-based method for medical dataset sharing. Experimental results on a COVID-19 chest X-ray image dataset show that our method can achieve high detection performance even using scarce anonymized chest X-ray images.
翻訳日:2022-10-03 13:55:04 公開日:2022-09-30
# ディープニューラルネットワークに対するビットフリップ攻撃の評価について

A Closer Look at Evaluating the Bit-Flip Attack Against Deep Neural Networks ( http://arxiv.org/abs/2209.14243v2 )

ライセンス: Link先を確認
Kevin Hector, Mathieu Dumont, Pierre-Alain Moellic, Jean-Max Dutertre(参考訳) ディープニューラルネットワークモデルは、さまざまなハードウェアプラットフォームに大規模にデプロイされる。 これにより、敵機械学習コミュニティによって広く研究され、標準的な攻撃面を著しく拡張する新たな攻撃ベクトルが出現する。 メモリに格納されたパラメータ(重み)をターゲットとして、モデルのパフォーマンスを劇的に低下させることを目的とした最初の攻撃の1つは、Bit-Flip Attack (BFA)である。 本稿では,BFAに関するいくつかの評価課題を指摘する。 第一に、標準的な脅威モデルにおける敵の予算不足は、特に物理的な攻撃を扱う際に問題となる。 さらに、BFAは臨界変動を示すため、いくつかのトレーニングパラメータの影響とモデルアーキテクチャの重要性について論じる。 この研究は、畳み込みニューラルネットワークと異なる振る舞いを示す完全接続アーキテクチャに対するbfaの影響を初めて提示するものである。 これらの結果は, パラメータベースの攻撃の危険性を適切に評価し, 防御がもたらすロバスト性の実レベルを測定することの重要性を強調した。

Deep neural network models are massively deployed on a wide variety of hardware platforms. This results in the appearance of new attack vectors that significantly extend the standard attack surface, extensively studied by the adversarial machine learning community. One of the first attack that aims at drastically dropping the performance of a model, by targeting its parameters (weights) stored in memory, is the Bit-Flip Attack (BFA). In this work, we point out several evaluation challenges related to the BFA. First of all, the lack of an adversary's budget in the standard threat model is problematic, especially when dealing with physical attacks. Moreover, since the BFA presents critical variability, we discuss the influence of some training parameters and the importance of the model architecture. This work is the first to present the impact of the BFA against fully-connected architectures that present different behaviors compared to convolutional neural networks. These results highlight the importance of defining robust and sound evaluation methodologies to properly evaluate the dangers of parameter-based attacks as well as measure the real level of robustness offered by a defense.
翻訳日:2022-10-03 13:54:54 公開日:2022-09-30
# 近傍勾配クラスタリング:非iidデータ分布の効率的な分散学習法

Neighborhood Gradient Clustering: An Efficient Decentralized Learning Method for Non-IID Data Distributions ( http://arxiv.org/abs/2209.14390v2 )

ライセンス: Link先を確認
Sai Aparna Aketi, Sangamesh Kodge, Kaushik Roy(参考訳) 分散学習アルゴリズムは、中央サーバーを必要とせずに、さまざまなデバイスや場所で生成された大規模な分散データセット上でディープラーニングモデルのトレーニングを可能にする。 実用的なシナリオでは、分散データセットはエージェント間で著しく異なるデータ分散を持つことができる。 現在の最先端の分散アルゴリズムは、データ分布が独立かつ同一分散(iid)であることをほとんど想定している。 本稿では,最小の計算およびメモリオーバーヘッドで,非IIDデータ分散による分散学習を改善することに焦点を当てる。 本研究では,各エージェントの局所勾配を自己および横断的情報を用いて修正する分散学習アルゴリズムであるNorborhood Gradient Clustering (NGC)を提案する。 特に,提案手法は,モデルの局所勾配を,自己次数平均,モデル変種交叉勾配(受信した隣人のモデルパラメータの局所データセットへの導出),データ変種交叉勾配(その隣人のデータセットに対する局所モデルの導出)に置き換える。 さらに,NGCの圧縮版であるCompNGCを,クロスグラディエントを圧縮することにより通信オーバーヘッドを32 \times$に削減する。 各種モデルアーキテクチャおよびグラフトポロジ上のCIFAR-10データセットから得られた非IIDデータ分布に対して,提案手法の実証的収束と効率性を示す。 実験の結果,NGCとCompNGCは,非IIDデータの分散学習アルゴリズムであるSoTAを,計算とメモリの要求が大幅に少ない1~5倍の1~5倍の性能で上回っていることがわかった。 さらに,提案手法は,追加の通信を伴わずに,ベースラインを5~40 %$で上回ることを示す。

Decentralized learning algorithms enable the training of deep learning models over large distributed datasets generated at different devices and locations, without the need for a central server. In practical scenarios, the distributed datasets can have significantly different data distributions across the agents. The current state-of-the-art decentralized algorithms mostly assume the data distributions to be Independent and Identically Distributed (IID). This paper focuses on improving decentralized learning over non-IID data distributions with minimal compute and memory overheads. We propose Neighborhood Gradient Clustering (NGC), a novel decentralized learning algorithm that modifies the local gradients of each agent using self- and cross-gradient information. In particular, the proposed method replaces the local gradients of the model with the weighted mean of the self-gradients, model-variant cross-gradients (derivatives of the received neighbors' model parameters with respect to the local dataset), and data-variant cross-gradients (derivatives of the local model with respect to its neighbors' datasets). Further, we present CompNGC, a compressed version of NGC that reduces the communication overhead by $32 \times$ by compressing the cross-gradients. We demonstrate the empirical convergence and efficiency of the proposed technique over non-IID data distributions sampled from the CIFAR-10 dataset on various model architectures and graph topologies. Our experiments demonstrate that NGC and CompNGC outperform the existing state-of-the-art (SoTA) decentralized learning algorithm over non-IID data by $1-5\%$ with significantly less compute and memory requirements. Further, we also show that the proposed NGC method outperforms the baseline by $5-40\%$ with no additional communication.
翻訳日:2022-10-03 13:54:39 公開日:2022-09-30
# disentangled style と content representation を用いた拡散に基づく画像翻訳

Diffusion-based Image Translation using Disentangled Style and Content Representation ( http://arxiv.org/abs/2209.15264v1 )

ライセンス: Link先を確認
Gihyun Kwon, Jong Chul Ye(参考訳) セマンティックテキストや単一のターゲット画像でガイドされた拡散に基づく画像変換は、特定のドメインに限定されない柔軟なスタイル転送を可能にしている。 残念なことに、拡散モデルの確率的性質のため、逆拡散中の画像の原内容を維持することはしばしば困難である。 そこで本稿では,不連続スタイルとコンテンツ表現を用いた拡散に基づく非教師なし画像翻訳手法を提案する。 具体的には,spllicing vision transformerに触発されて,vitモデルからマルチヘッド自己注意層の中間キーを抽出し,コンテンツ保存損失として用いた。 次に、識別されたサンプルとターゲット画像から[CLS]分類トークンをマッチングして画像案内スタイル転送を行い、テキスト駆動スタイル転送には追加のCLIP損失を用いる。 また,逆拡散時の意味変化をさらに促進するために,新たな意味分散損失と再サンプリング戦略を提案する。 提案手法は,テキスト誘導と画像誘導の両方の翻訳作業において,最先端のベースラインモデルよりも優れていることを示す。

Diffusion-based image translation guided by semantic texts or a single target image has enabled flexible style transfer which is not limited to the specific domains. Unfortunately, due to the stochastic nature of diffusion models, it is often difficult to maintain the original content of the image during the reverse diffusion. To address this, here we present a novel diffusion-based unsupervised image translation method using disentangled style and content representation. Specifically, inspired by the splicing Vision Transformer, we extract intermediate keys of multihead self attention layer from ViT model and used them as the content preservation loss. Then, an image guided style transfer is performed by matching the [CLS] classification token from the denoised samples and target image, whereas additional CLIP loss is used for the text-driven style transfer. To further accelerate the semantic change during the reverse diffusion, we also propose a novel semantic divergence loss and resampling strategy. Our experimental results show that the proposed method outperforms state-of-the-art baseline models in both text-guided and image-guided translation tasks.
翻訳日:2022-10-03 13:54:12 公開日:2022-09-30