このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230218となっている論文です。

PDF登録状況(公開日: 20230218)

TitleAuthorsAbstract論文公表日・翻訳日
# 拡張類似トリプレットの効率的なデータ分析

Efficient Data Analytics on Augmented Similarity Triplets ( http://arxiv.org/abs/1912.12064v3 )

ライセンス: Link先を確認
Sarwan Ali, Muhammad Ahmad, Umair ul Hassan, Muhammad Asad Khan, Shafiq Alam, Imdadullah Khan(参考訳) データ分析はオブジェクト上のペアワイズ近接測度を必要とする。 最近の研究は、物体間の距離情報を3つの物体(トリップレット)間の距離の比較結果として与える状況にまで拡張している。 人間は正確な距離計算よりも比較作業が容易であることに気付き、そのようなデータはクラウドソーシングによって大量に得ることができる。 本研究では,既存のデータから隠れた暗黙情報を推測することにより,トリプレットデータを拡張する効率的な手法であるトリプレット拡張を提案する。 triplets拡張により、カーネルベースおよびカーネルフリーのデータ分析の品質が向上する。 また,三重項に基づく共通データ解析タスクのための新しいアルゴリズムも提案する。 これらのメソッドはトリプレットと直接連携し、カーネル評価を避けるため、ビッグデータにスケーラブルである。 提案手法は,現在よく知られている手法より優れ,ノイズの多いデータに対して堅牢であることを示す。

Data analysis require a pairwise proximity measure over objects. Recent work has extended this to situations where the distance information between objects is given as comparison results of distances between three objects (triplets). Humans find the comparison tasks much easier than the exact distance computation and such data can be easily obtained in big quantity via crowd-sourcing. In this work, we propose triplets augmentation, an efficient method to extend the triplets data by inferring the hidden implicit information form the existing data. Triplets augmentation improves the quality of kernel-based and kernel-free data analytics. We also propose a novel set of algorithms for common data analysis tasks based on triplets. These methods work directly with triplets and avoid kernel evaluations, thus are scalable to big data. We demonstrate that our methods outperform the current best-known techniques and are robust to noisy data.
翻訳日:2023-03-25 04:14:42 公開日:2023-02-18
# 量子位相空間アプローチによるマクスウェル・ボルツマン理想気体モデルの補正

Corrections to Maxwell-Boltzmann ideal gas model from a quantum phase space approach ( http://arxiv.org/abs/2302.13973v1 )

ライセンス: Link先を確認
Rivo Herivola Manjakamanana Ravelonjato, Raoelina Andriambololona, Ravo Tokiniaina Ranaivoson, Roland Raboanary, Hanitriarivo Rakotoson, Naivo Rabesiranana(参考訳) マクスウェル・ボルツマンの理想気体モデル(maxwell-boltzmann ideal gas model)は、古典的な統計物理学や熱力学において気体の挙動を記述する最も単純なモデルである。 しかし、量子効果が重要になれば、古典的アプローチはもはや厳密に有効ではない。 本研究では、量子位相空間の概念に基づくアプローチを用いて、量子サイズ効果に関連するマクスウェル・ボルツマン理想気体モデルに対する補正について検討する。 正準量子分割関数は、すべての熱力学特性を得るために導かれる。 理想気体に対する補正状態方程式と内部エネルギー、エントロピー、自由エネルギーなどの熱力学的状態関数の式を導出する。 この補正は、マクスウェル・ボルツマン気体の低温および閉じ込められた空間における古典的挙動からの逸脱を記述するのに特に有用であると考えられている。 古典的理想気体の特性は、高温および大体積の漸近限界として得られる。

The Maxwell-Boltzmann ideal gas model is known to be the simplest model that is considered in classical statistical physics and thermodynamics to describe gas behavior. However, classical approach can no longer be rigorously valid if quantum effect becomes significant. In this work, we consider a study of corrections to the Maxwell-Boltzmann ideal gas model related to quantum size effect by using an approach based on the concept of quantum phase space. A canonical quantum partition function is deduced in order to obtain all thermodynamics properties. A corrected state equation for ideal gas and expressions of thermodynamic state functions such as internal energy, entropy and free energy are deduced. The corrections are expected to be particularly useful to describe the deviation from classical behavior of a Maxwell-Boltzmann gas at low temperature and in confined space. The properties of classical ideal gas are obtained as asymptotic limits at high temperature and for large volume.
翻訳日:2023-03-05 05:44:03 公開日:2023-02-18
# 2次元量子スピン系における翻訳不変性から生じるSPT指標

SPT indices emerging from translation invariance in two dimensional quantum spin systems ( http://arxiv.org/abs/2202.11758v3 )

ライセンス: Link先を確認
Tijl Jappens(参考訳) 2次元量子スピン系に対するオンサイト$G$(ここで$G$は任意の有限群)対称性を持つSPT相を考える。 すると、一方向の変換不変性を課し、$H^3(G,\mathbb{T})$-valued index の上に \cite{ogata2021h3gmathbb} で構築された $H^2(G,\mathbb{T})$-valued index が出現することを観察する。 また, 2 方向の変換不変性が与えられた場合, 期待される $h^3(g,\mathbb{t})\oplus h^2(g,\mathbb{t})\oplus h^2(g,\mathbb{t})$ valued index に加えて, $h^1(g,\mathbb{t})$-valued index が出現することを示した。

We consider SPT-phases with on-site $G$ (where $G$ is any finite group) symmetry for two-dimensional quantum spin systems. We then impose translation invariance in one direction and observe that on top of the $H^3(G,\mathbb{T})$-valued index constructed in \cite{ogata2021h3gmathbb}, an additional $H^2(G,\mathbb{T})$-valued index emerges. We also show that if we impose translation invariance in two directions, on top of the expected $H^3(G,\mathbb{T})\oplus H^2(G,\mathbb{T})\oplus H^2(G,\mathbb{T})$ valued index, an additional $H^1(G,\mathbb{T})$-valued index emerges.
翻訳日:2023-02-24 03:34:51 公開日:2023-02-18
# ベイズ行列分解とその応用

Bayesian Matrix Decomposition and Applications ( http://arxiv.org/abs/2302.11337v1 )

ライセンス: Link先を確認
Jun Lu(参考訳) 本書の唯一の目的は、行列分解技法をシームレスに導入するために、ベイズ行列分解における概念と数学的ツールを自己完結的に導入することである。 しかし,ベイズ行列の分解に関する有用かつ興味深い結果をすべてカバーできないことを明確に認識し,最適化を行うための変分推論の分離解析など,この議論を行うためのスコープのpaucityを与えられた。 ベイズ解析の分野における文献を参照し、関連する分野についてより詳細な解説を行う。 この本は主に目的の要約であり、例えば、実数値分解、非負行列分解、ベイズ補間分解、およびそれらの応用に光を当てた方法の起源と複雑さといった重要なベイズ行列分解法の重要性である。 数学の前提条件は統計学と線型代数の最初のコースである。 この控えめな背景以外は、開発は自己完結しており、厳密な証明が提供される。

The sole aim of this book is to give a self-contained introduction to concepts and mathematical tools in Bayesian matrix decomposition in order to seamlessly introduce matrix decomposition techniques and their applications in subsequent sections. However, we clearly realize our inability to cover all the useful and interesting results concerning Bayesian matrix decomposition and given the paucity of scope to present this discussion, e.g., the separated analysis of variational inference for conducting the optimization. We refer the reader to literature in the field of Bayesian analysis for a more detailed introduction to the related fields. This book is primarily a summary of purpose, significance of important Bayesian matrix decomposition methods, e.g., real-valued decomposition, nonnegative matrix factorization, Bayesian interpolative decomposition, and the origin and complexity of the methods which shed light on their applications. The mathematical prerequisite is a first course in statistics and linear algebra. Other than this modest background, the development is self-contained, with rigorous proof provided throughout.
翻訳日:2023-02-23 15:12:40 公開日:2023-02-18
# ワンポット多フレームDenoising

One-Pot Multi-Frame Denoising ( http://arxiv.org/abs/2302.11544v1 )

ライセンス: Link先を確認
Lujia Jin, Shi Zhao, Lei Zhu, Qian Chen, Yanye Lu(参考訳) 学習に基づくdenoisingのパフォーマンスは主にクリーンな監視に依存します。 しかし、多くの場面で清潔な画像を得ることは困難である。 それとは対照的に、同じ視野の複数のノイズフレームのキャプチャが利用可能であり、しばしば実生活において自然である。 したがって、クリーンなラベルの制限を回避し、ノイズの多いデータをモデルトレーニングにフル活用する必要がある。 そこで我々は,マルチフレーム画像のための教師なし学習戦略であるone-pot denoising (opd)を提案する。 opdは、mfd (unsupervised multi-frame denoising) 法の最初の提案である。 教師付きノイズ2Clean(N2C)や教師なしノイズ2Nise(N2N)といった従来の監視手法とは異なり、PDは複数のフレームの相互監視を行う。 N2Nは実際に提案されたOPDの単純化されたケースであることが証明されている。 データアロケーションとロス関数の観点から、モデルトレーニング中にOPDを達成するために、ランダム結合(RC)と疎外損失(AL)の2つの具体的実装が提供される。 実際の実験では、OPDはSOTA非教師付き雑音除去法として動作し、合成ガウスノイズとポアソンノイズに対する教師付きN2C法、および実際の光コヒーレンストモグラフィ(OCT)スペックルノイズと同等である。

The performance of learning-based denoising largely depends on clean supervision. However, it is difficult to obtain clean images in many scenes. On the contrary, the capture of multiple noisy frames for the same field of view is available and often natural in real life. Therefore, it is necessary to avoid the restriction of clean labels and make full use of noisy data for model training. So we propose an unsupervised learning strategy named one-pot denoising (OPD) for multi-frame images. OPD is the first proposed unsupervised multi-frame denoising (MFD) method. Different from the traditional supervision schemes including both supervised Noise2Clean (N2C) and unsupervised Noise2Noise (N2N), OPD executes mutual supervision among all of the multiple frames, which gives learning more diversity of supervision and allows models to mine deeper into the correlation among frames. N2N has also been proved to be actually a simplified case of the proposed OPD. From the perspectives of data allocation and loss function, two specific implementations, random coupling (RC) and alienation loss (AL), are respectively provided to accomplish OPD during model training. In practice, our experiments demonstrate that OPD behaves as the SOTA unsupervised denoising method and is comparable to supervised N2C methods for synthetic Gaussian and Poisson noise, and real-world optical coherence tomography (OCT) speckle noise.
翻訳日:2023-02-23 14:20:17 公開日:2023-02-18
# 三対角トープリッツ行列と二部量子相関

Tridiagonal Toeplitz Matrices and Bipartite Quantum Correlations ( http://arxiv.org/abs/2302.10192v1 )

ライセンス: Link先を確認
Varsha S. Sambhaje, Suprabhat Sinha, Anju Chaurasia, Kapil K. Sharma(参考訳) 本稿では,量子情報によく用いられる有効なハミルトニアンの要件を満たす三対角トエプリッツエルミット行列に着目する。 このような行列の挙動を調べ、二部分級ヴェルナー状態と最大絡み合った混合状態に対する量子相関(絡み合いと量子不協和)のダイナミクスを追求する。 Toeplitz行列の主対角線項が両方の量子状態の量子相関に影響を与えないことは興味深い結果である。 しかし、超対角および亜対角項は力学において重要な役割を果たす。 突然の絡み合い死の現象を調査し,絡み合いがない場合の量子不協和の存在を観察した。 最も重要なことは、MEMSがワーナー状態よりも敏感であることである。

In this article, we focus on tridiagonal Toeplitz Hermitian matrices, which fulfill the requirement of a valid Hamiltonian often used in Quantum Information. We investigate the behavior of such matrices to pursue the dynamics of quantum correlations (entanglement and quantum discord) for bipartite Werner state and maximally entangled mixed states. We have found interesting results that the main diagonal terms in the Toeplitz matrices never affect the quantum correlations in both quantum states. However, super-diagonal and sub-diagonal terms play the important role in the dynamics. We investigate the phenomenon of entanglement sudden death and also observe the presence of quantum discord in the absence of entanglement. Most importantly it is found that MEMS is more sensitive in comparison to the Werner state.
翻訳日:2023-02-22 17:33:08 公開日:2023-02-18
# 対称性の絡み合いのエネルギー

Energy of the symmetrization entanglement ( http://arxiv.org/abs/2302.10191v1 )

ライセンス: Link先を確認
Mehmet Emre Tasgin(参考訳) 絡み合った一方に測定を行うと、第2の当事者はそのエントロピーの低下による作業を引き出すことができる。 ここでは、凝縮物中の同一粒子(粒子)の対称性の絡み合いに対応する作業/エネルギーの量を調べる。 ある特定の条件下でのみ実行される特定のボソンの量子状態を測定する。 抽出された仕事は、凝縮物に存在する \textit{complete} 熱力学的エネルギーであることが分かる。 %) は, 凝縮物の残りの部分で抽出された仕事は, 励起状態にある熱力学的確率が測定されたボソンの励起エネルギーに等しいこと, すなわち, $\hbar \omega_{eg} \times \exp(-\hbar \omega_{eg}/k_bt)$。 相互作用するボース・アインシュタイン凝縮体における現象を研究する。 そして、この結果がQED真空中のペア生成に根本的な影響を及ぼす可能性についても論じる。

When a measurement is carried out on one of the entangled parties, the second party can extract work owing to the reduction in its entropy. Here we inquire the amount of work/energy corresponding to the symmetrization entanglement of identical particles (bosons) in a condensate. One measures the quantum state of a particular boson which can be performed only under some certain conditions. We learn that the extracted work comes out to be the \textit{complete} thermodynamical energy present in the condensate. %We learn that the work extracted by the remaining part of the condensate is equal to the excitation energy of the measured boson times the thermodynamical probability of being in the excited state, i.e., $\hbar \omega_{eg} \times \exp(-\hbar \omega_{eg}/k_BT)$. We study the phenomenon in an interacting Bose-Einstein condensate. Then, we discuss that the results may also have fundamental implications on the pair creation in QED vacuum.
翻訳日:2023-02-22 17:32:57 公開日:2023-02-18
# PT対称系における熱量子相関とテレポーテーション

Thermal quantum correlations and teleportation under PT-symmetric system ( http://arxiv.org/abs/2203.05163v2 )

ライセンス: Link先を確認
J. Ramya Parkavi, R. Muthuganesan, V. K. Chandrasekar, and M. Lakshmanan(参考訳) 本稿では,pt対称演算を伴わないハイゼンベルクxyモデルの性質を理解するために,量子性測度の異なる概念を利用する。 PT対称性がない状態では、ハイゼンベルクXYモデルの量子性の検出において、エンタングルメントと測定誘起非局所性(MIN)という異なる尺度の意義を研究する。 量子相関とテレポーテーションの忠実度は温度に対して単調に減少する。 さらに、pt対称演算の介入は量子相関の強さを高める。 さらに,量子状態の伝送におけるシステムパラメータとPT対称演算の役割を強調した。 また,pt対称演算を付加した後も,量子状態のテレポーテーションを成功させるためには物理モデルが多様な資源であり続けることを強調した。

In this article, we exploit the different notions of quantumness measure to understand the properties of the Heisenberg XY model with and without PT-symmetric operation. In the absence of PT-symmetry, we study the significance of different measures, namely entanglement and measurement induced nonlocality (MIN), in the detection of the quantumness of the Heisenberg XY model. It is observed that the quantum correlations and teleportation fidelity monotonically decreases with respect to temperature. Furthermore, the intervention of PT-symmetric operation enhances the strengths of quantum correlation. In addition, we highlight the role of the system's parameters and PT-symmetric operation on the teleportation of a quantum state. Our results also emphasize that after the addition of PT-symmetric operation, the considered physical model remains a versatile resource to achieve successful teleportation of the quantum state.
翻訳日:2023-02-22 12:15:03 公開日:2023-02-18
# 解剖に基づくV1モデル:低レベル特徴抽出、歪み低減、V1誘発SOM

An anatomy-based V1 model: Extraction of Low-level Features, Reduction of distortion and a V1-inspired SOM ( http://arxiv.org/abs/2302.09074v1 )

ライセンス: Link先を確認
Suvam Roy and Nikhil Ranjan Pal(参考訳) 解剖学的実験によって導かれた一次視覚野V1のモデルを示す。 ほとんどの機械学習システムとは異なり、私たちの目標は正確性を最大化するのではなく、生体システムとより整合したシステムを実現することです。 本モデルは, v1層4, 2/3, 5で構成され, 層間接続は解剖学的に異なる。 さらに、V1ニューロンの配向選択性と各層における側方の影響を含める。 bsds500 ground truthイメージ(v1以前のlgn輪郭検出を示す)に適用したv1モデルは、画像から低レベル特徴を抽出し、相当量の歪み低減を行うことができる。 V1モデルの追従として、V1-インスパイアされた自己組織化マップアルゴリズム(V1-SOM)を提案する。 V1-SOMは、SOMよりも重量更新のノイズだけでなくノイズも許容し、MNISTデータセットのような高次元データでトレーニングされた場合と同様のパフォーマンスを示す。 最後に、MNISTデータセットにV1処理を適用して低レベルの特徴を抽出し、修正したMNISTデータセットを用いてV1-SOMを訓練すると、量子化誤差が大幅に減少した。 本結果は, 入力空間の漸進的アンハングリングを行うという仮説を支持する。

We present a model of the primary visual cortex V1, guided by anatomical experiments. Unlike most machine learning systems our goal is not to maximize accuracy but to realize a system more aligned to biological systems. Our model consists of the V1 layers 4, 2/3, and 5, with inter-layer connections between them in accordance with the anatomy. We further include the orientation selectivity of the V1 neurons and lateral influences in each layer. Our V1 model, when applied to the BSDS500 ground truth images (indicating LGN contour detection before V1), can extract low-level features from the images and perform a significant amount of distortion reduction. As a follow-up to our V1 model, we propose a V1-inspired self-organizing map algorithm (V1-SOM), where the weight update of each neuron gets influenced by its neighbors. V1-SOM can tolerate noisy inputs as well as noise in the weight updates better than SOM and shows a similar level of performance when trained with high dimensional data such as the MNIST dataset. Finally, when we applied V1 processing to the MNIST dataset to extract low-level features and trained V1-SOM with the modified MNIST dataset, the quantization error was significantly reduced. Our results support the hypothesis that the ventral stream performs gradual untangling of input spaces.
翻訳日:2023-02-21 20:25:08 公開日:2023-02-18
# $\lambda$-atomic 構成における幾何学、量子相関、相転移

Geometry, quantum correlations, and phase transitions in the $\Lambda$-atomic configuration ( http://arxiv.org/abs/2302.09204v1 )

ライセンス: Link先を確認
O. Casta\~nos, S. Cordero, R. L\'opez-Pe\~na, and E. Nahmad-Achar(参考訳) キャビティ内の2モード電磁界と相互作用する$\lambda$構成の有限の3ドルの準位系の量子位相図は、システムの物質セクターの密度行列の縮小に適用される忠実性、忠実性、エンタングルメントといった情報尺度によって決定される。 量子位相は、セパラトリクスに沿って破れる自発的対称性を強調して説明される。 さらに、1つの原子の還元密度行列を単純な意味で記述することで、システムの絡み合いと純度特性の幾何学的表現が可能になる。 これらの概念は、対称性に適応した変分コヒーレント状態とハミルトニアンの数値対角化の両方に対して計算され、比較される。 両計算で得られた純度と絡み合いの違いは、この単純な表現を用いて説明および視覚化することができる。

The quantum phase diagram for a finite $3$-level system in the $\Lambda$ configuration, interacting with a two-mode electromagnetic field in a cavity, is determined by means of information measures such as fidelity, fidelity susceptibility and entanglement, applied to the reduced density matrix of the matter sector of the system. The quantum phases are explained by emphasizing the spontaneous symmetry breaking along the separatrix. Additionally, a description of the reduced density matrix of one atom in terms of a simplex allows a geometric representation of the entanglement and purity properties of the system. These concepts are calculated for both, the symmetry-adapted variational coherent states and the numerical diagonalisation of the Hamiltonian, and compared. The differences in purity and entanglement obtained in both calculations can be explained and visualised by means of this simplex representation.
翻訳日:2023-02-21 20:01:20 公開日:2023-02-18
# 脳腫瘍:T1強調画像を用いた無監督神経疾患検出

Brainomaly: Unsupervised Neurologic Disease Detection Utilizing Unannotated T1-weighted Brain MR Images ( http://arxiv.org/abs/2302.09200v1 )

ライセンス: Link先を確認
Md Mahfuzur Rahman Siddiquee, Jay Shah, Teresa Wu, Catherine Chong, Todd J. Schwedt, Gina Dumkrieger, Simona Nikolova, Baoxin Li(参考訳) ディープニューラルネットワークは、大規模な注釈付きデータセットから学習することで正確な予測を可能にすることによって、教師あり学習の分野に革命をもたらした。 しかし, 注釈付医用画像データセットの取得は, 特に稀な疾患において, アノテーションに要するコスト, 時間, 手間がかかるため, 困難な課題である。 これらのシナリオでは、異常検出のような教師なしの疾患検出手法は、人間の多大な労力を節約することができる。 異常検出に一般的に用いられるアプローチは、健康な被験者からのみ画像を学習することであり、モデルが病気の被験者の画像を異常値として検出すると仮定する。 しかし、多くの現実世界のシナリオでは、健全な個人と病人の混在した注釈のないデータセットが利用可能である。 近年の研究では、健常者および病人からの注釈なし画像のデータセットを用いて、健常者の画像のみを含むデータセットと比較して、教師なし疾患/異常検出の改善が示されている。 これらの研究では、注釈付きサンプルなしで訓練されたモデルの集合から推論のための最良のモデルを選択するという大きな問題が未解決のままである。 そこで我々は,神経疾患および健常者に対する無注釈T1強調脳MRIを用いた神経疾患検出のための,GANを用いた画像画像変換法であるBrainomalyを提案する。 脳腫瘍は、入力脳mriから疾患領域を取り除き、対応する健康な脳のmriを生成するように訓練されている。 健康な画像を直接生成する代わりに、Brainomalyは、入力画像を健全に見せるのに必要な変化量を示す付加的なマップを生成する。 さらに、Brainomalyは推論モデル選択に擬似AUCメトリックを使用し、検出性能をさらに向上する。 私たちの脳は、既存の最先端の手法を大きなマージンで上回っている。

Deep neural networks have revolutionized the field of supervised learning by enabling accurate predictions through learning from large annotated datasets. However, acquiring large annotated medical imaging datasets is a challenging task, especially for rare diseases, due to the high cost, time, and effort required for annotation. In these scenarios, unsupervised disease detection methods, such as anomaly detection, can save significant human effort. A typically used approach for anomaly detection is to learn the images from healthy subjects only, assuming the model will detect the images from diseased subjects as outliers. However, in many real-world scenarios, unannotated datasets with a mix of healthy and diseased individuals are available. Recent studies have shown improvement in unsupervised disease/anomaly detection using such datasets of unannotated images from healthy and diseased individuals compared to datasets that only include images from healthy individuals. A major issue remains unaddressed in these studies, which is selecting the best model for inference from a set of trained models without annotated samples. To address this issue, we propose Brainomaly, a GAN-based image-to-image translation method for neurologic disease detection using unannotated T1-weighted brain MRIs of individuals with neurologic diseases and healthy subjects. Brainomaly is trained to remove the diseased regions from the input brain MRIs and generate MRIs of corresponding healthy brains. Instead of generating the healthy images directly, Brainomaly generates an additive map where each voxel indicates the amount of changes required to make the input image look healthy. In addition, Brainomaly uses a pseudo-AUC metric for inference model selection, which further improves the detection performance. Our Brainomaly outperforms existing state-of-the-art methods by large margins.
翻訳日:2023-02-21 20:01:06 公開日:2023-02-18
# データ効率の高いコントラスト型自己教師付き学習: 簡単な例が最も貢献

Data-Efficient Contrastive Self-supervised Learning: Easy Examples Contribute the Most ( http://arxiv.org/abs/2302.09195v1 )

ライセンス: Link先を確認
Siddharth Joshi and Baharan Mirzasoleiman(参考訳) 自己教師付き学習(SSL)は、ラベルなしトレーニングデータの大規模なプールから高品質な表現を学ぶ。 データセットが大きくなるにつれて、そのような表現の学習に最も寄与する例を特定することが重要になる。 これにより、高品質な表現を学習するために必要なデータの量を削減し、効率的なSSLを可能にする。 それでもSSLの例の定量化は未解決の問題である。 この研究では、コントラストのあるSSLに最も貢献する例が、期待して他の例に最もよく似た拡張を持つ例であることを証明して、初めてこの問題に対処する。 このようなサブセット上でSSLの一般化性能を厳格に保証する。 経験上、sslに最も寄与するサブセットは、監督された学習に最も貢献しない部分集合である。 CIFAR100, CIFAR10, STL10において, 我々のサブセットはランダムサブセットよりも3%以上優れていた。 興味深いことに、CIFAR100から20%、STL10から40%を安全に排除でき、下流タスクのパフォーマンスに影響を与えない。

Self-supervised learning (SSL) learns high-quality representations from large pools of unlabeled training data. As datasets grow larger, it becomes crucial to identify the examples that contribute the most to learning such representations. This enables efficient SSL by reducing the volume of data required for learning high-quality representations. Nevertheless, quantifying the value of examples for SSL has remained an open question. In this work, we address this for the first time, by proving that examples that contribute the most to contrastive SSL are those that have the most similar augmentations to other examples, in expectation. We provide rigorous guarantees for the generalization performance of SSL on such subsets. Empirically, we discover, perhaps surprisingly, the subsets that contribute the most to SSL are those that contribute the least to supervised learning. Through extensive experiments, we show that our subsets outperform random subsets by more than 3% on CIFAR100, CIFAR10, and STL10. Interestingly, we also find that we can safely exclude 20% of examples from CIFAR100 and 40% from STL10, without affecting downstream task performance.
翻訳日:2023-02-21 20:00:40 公開日:2023-02-18
# OMINACS: オンラインMLベースのIoTネットワーク攻撃検知と分類システム

OMINACS: Online ML-Based IoT Network Attack Detection and Classification System ( http://arxiv.org/abs/2302.09225v1 )

ライセンス: Link先を確認
Diego Abreu, Ant\^onio Abel\'em(参考訳) モノのインターネット(IoT)ネットワークのセキュリティを改善し、悪意のあるエージェントのアクションによるダメージを軽減するために、機械学習(ML)の方法論がいくつか提案されている。 しかし、高い精度と精度で攻撃を検出・分類することは依然として大きな課題である。 本稿では,ストリーム機械学習,Deep Learning,およびEnsemble Learning技術を組み合わせたオンライン攻撃検出とネットワークトラフィック分類システムを提案する。 データ分析の複数の段階を用いて、悪意のあるトラフィックフローの存在を検出し、それらが表現する攻撃の種類に応じて分類することができる。 さらに、IoTネットワークとMLの観点から、このシステムの実装方法を示す。 システムは3つのIoTネットワークセキュリティデータセットで評価され、精度と精度を90%以上向上し、誤警報率を低減した。

Several Machine Learning (ML) methodologies have been proposed to improve security in Internet Of Things (IoT) networks and reduce the damage caused by the action of malicious agents. However, detecting and classifying attacks with high accuracy and precision is still a major challenge. This paper proposes an online attack detection and network traffic classification system, which combines stream Machine Learning, Deep Learning, and Ensemble Learning technique. Using multiple stages of data analysis, the system can detect the presence of malicious traffic flows and classify them according to the type of attack they represent. Furthermore, we show how to implement this system both in an IoT network and from an ML point of view. The system was evaluated in three IoT network security datasets, in which it obtained accuracy and precision above 90% with a reduced false alarm rate.
翻訳日:2023-02-21 19:51:27 公開日:2023-02-18
# エッジ上の2次元エンパワー3次元物体検出

2D-Empowered 3D Object Detection on the Edge ( http://arxiv.org/abs/2302.09221v1 )

ライセンス: Link先を確認
Jingzong Li, Yik Hong Cai, Libin Liu, Yu Mao, Chun Jason Xue, Hong Xu(参考訳) 3dオブジェクト検出は、自動運転やロボティクスなど、幅広いアプリケーションにおいて重要な役割を担っている。 これらのアプリケーションは、環境と迅速に対話するために一般的にエッジデバイスにデプロイされる。 計算能力が限られているため、高度に複雑なニューラルネットワークを用いてエッジ上で3d検出を行うことは困難である。 クラウドへのオフロードのような一般的なアプローチは、転送中の大量の3dポイントクラウドデータによるレイテンシーオーバーヘッドをもたらす。 ワイムピーエッジデバイスと計算集約型推論ワークロードの緊張を解消するために,高速な2次元検出結果を3次元境界ボックスの外挿に変換する可能性を検討する。 この目的のために,我々のアプローチの実現可能性と可能性を示す新しいシステムであるMobyを紹介する。 まず,2次元から3次元への変換パイプラインを設計し,同時に撮影されるカメラからLiDARと2Dバウンディングボックスから点雲データを入力し,従来のフレームの検出結果に基づいて3次元バウンディングボックスを効率よく高精度に生成する。 第2に,2d-to-3d変換の誤差が一定のレベルに達すると動的に3d検出を起動するフレームオフロードスケジューラを設計した。 NVIDIA Jetson TX2に対する、自律運転データセットKITTIと現実世界の4G/LTEトレースによる広範な評価は、Mobyがベースラインに比べてわずかに精度が低下し、エンドツーエンドのレイテンシを最大91.9%削減していることを示している。 さらに、モビーは消費電力とメモリフットプリントをそれぞれ75.7%、48.1%まで節約することで、優れたエネルギー効率を示す。

3D object detection has a pivotal role in a wide range of applications, most notably autonomous driving and robotics. These applications are commonly deployed on edge devices to promptly interact with the environment, and often require near real-time response. With limited computation power, it is challenging to execute 3D detection on the edge using highly complex neural networks. Common approaches such as offloading to the cloud brings latency overheads due to the large amount of 3D point cloud data during transmission. To resolve the tension between wimpy edge devices and compute-intensive inference workloads, we explore the possibility of transforming fast 2D detection results to extrapolate 3D bounding boxes. To this end, we present Moby, a novel system that demonstrates the feasibility and potential of our approach. Our main contributions are two-fold: First, we design a 2D-to-3D transformation pipeline that takes as input the point cloud data from LiDAR and 2D bounding boxes from camera that are captured at exactly the same time, and generate 3D bounding boxes efficiently and accurately based on detection results of the previous frames without running 3D detectors. Second, we design a frame offloading scheduler that dynamically launches a 3D detection when the error of 2D-to-3D transformation accumulates to a certain level, so the subsequent transformations can draw upon the latest 3D detection results with better accuracy. Extensive evaluation on NVIDIA Jetson TX2 with the autonomous driving dataset KITTI and real-world 4G/LTE traces shows that, Moby reduces the end-to-end latency by up to 91.9% with mild accuracy drop compared to baselines. Further, Moby shows excellent energy efficiency by saving power consumption and memory footprint up to 75.7% and 48.1%, respectively.
翻訳日:2023-02-21 19:51:12 公開日:2023-02-18
# 網膜血管セグメンテーションのためのドメイン非依存パイプライン

Domain Agnostic Pipeline for Retina Vessel Segmentation ( http://arxiv.org/abs/2302.09215v1 )

ライセンス: Link先を確認
Benjamin Hou(参考訳) 網膜血管の自動分画は、糖尿病網膜症や加齢に伴う黄斑変性などの眼疾患の臨床診断において重要な役割を担っている。 血管が複雑に構築されているため、肉厚が大きく変化するため、正確な血管分割は極めて難しい作業である。 本研究では,複雑なネットワークやトレーニングルーチンを使わずに,注意深く思考前処理パイプラインを構築することで,最先端に近いパフォーマンスを実現することができることを示す。 また,本モデルでは, 異なるデータセット間で同じ高いセグメンテーション性能を維持でき, 高品質な眼底画像, 重篤な病理症例の画像も維持可能であることを示す。 コードとモデルはhttp://github.com/farrell236/retina_segmentationからダウンロードできる。 また、我々のモデルの可能性も http://lazarus.ddns.net:8502 で示しています。

Automatic segmentation of retina vessels plays a pivotal role in clinical diagnosis of prevalent eye diseases, such as, Diabetic Retinopathy or Age-related Macular Degeneration. Due to the complex construction of blood vessels, with drastically varying thicknesses, accurate vessel segmentation can be quite a challenging task. In this work we show that it is possible to achieve near state-of-the-art performance, by crafting a careful thought pre-processing pipeline, without having to resort to complex networks and/or training routines. We also show that our model is able to maintain the same high segmentation performance across different datasets, very poor quality fundus images, as well as images of severe pathological cases. Code and models featured in this paper can be downloaded from http://github.com/farrell236/retina_segmentation. We also demonstrate the potential of our model at http://lazarus.ddns.net:8502.
翻訳日:2023-02-21 19:50:41 公開日:2023-02-18
# 音声の抑うつ検出のための費用対効果モデル

Cost-effective Models for Detecting Depression from Speech ( http://arxiv.org/abs/2302.09214v1 )

ライセンス: Link先を確認
Mashrura Tasnim and Jekaterina Novikova(参考訳) うつ病は最も一般的な精神障害であり、世界中で障害や自殺の原因と考えられている。 人間の発話中のうつ病の兆候を検知できる自動システムは、障害に苦しむ個人に対するタイムリーで効果的なメンタルヘルスケアの確保に寄与する。 このような自動システムの開発には正確な機械学習モデルが必要である。 しかし、深い音響表現に基づく最先端のモデルは、豊富なデータ、細心の注意深い特徴の選択、厳密なトレーニングを必要とする。 本研究では,従来の手書き・ディープな表現特徴である2つの音響特徴群の有効性について検討し,抑うつの重症度を予測する。 モデルの性能に寄与する可能性のある要因の関連性について検討し, 個人性, 障害の重症度, 内容, 発話の長さなどについて検討する。 本研究は,従来の音響特徴を訓練したモデルが,音声の内容や長さ,話者の性別,障害の重大度など他の要因に関係なく,計算コストが著しく低い深部表現特徴を訓練したモデルと同等に良好あるいは良好な性能を示すことを示唆する。 これにより、スマートデバイスにおけるリアルタイム不況監視アプリケーションなど、計算リソースの可用性が制限されているデプロイメントに、そのようなモデルが適している。

Depression is the most common psychological disorder and is considered as a leading cause of disability and suicide worldwide. An automated system capable of detecting signs of depression in human speech can contribute to ensuring timely and effective mental health care for individuals suffering from the disorder. Developing such automated system requires accurate machine learning models, capable of capturing signs of depression. However, state-of-the-art models based on deep acoustic representations require abundant data, meticulous selection of features, and rigorous training; the procedure involves enormous computational resources. In this work, we explore the effectiveness of two different acoustic feature groups - conventional hand-curated and deep representation features, for predicting the severity of depression from speech. We explore the relevance of possible contributing factors to the models' performance, including gender of the individual, severity of the disorder, content and length of speech. Our findings suggest that models trained on conventional acoustic features perform equally well or better than the ones trained on deep representation features at significantly lower computational cost, irrespective of other factors, e.g. content and length of speech, gender of the speaker and severity of the disorder. This makes such models a better fit for deployment where availability of computational resources is restricted, such as real time depression monitoring applications in smart devices.
翻訳日:2023-02-21 19:50:28 公開日:2023-02-18
# HOPE:E-Learning and Healthcareのための人間中心のオフ・ポリシー評価

HOPE: Human-Centric Off-Policy Evaluation for E-Learning and Healthcare ( http://arxiv.org/abs/2302.09212v1 )

ライセンス: Link先を確認
Ge Gao, Song Ju, Markel Sanz Ausin, Min Chi(参考訳) 強化学習(rl)は、eラーニングやヘルスケアなど、様々な人間中心のタスクにおける人間と環境の相互作用を強化するために広く研究されている。 オンライン政策の展開と評価はこうしたタスクにおいて高い意味を持つため、効果的な政策の誘導には、政策外評価(OPE)が不可欠である。 しかし、人間中心の環境では、OPEは、基礎となる状態はしばしば観察不可能であり、総合的な報酬しか観察できない(学生のテストスコアや患者が最終的に病院から解放されるかどうか)ため、困難である。 本研究では,このような環境において部分的可観測性と総合的な報酬を扱うための人間中心型ope(hope)を提案する。 具体的には,期待総利益を推定する部分的可観測性を考慮した総合報酬から即時報酬を再構成する。 提案手法の理論的バウンダリとして,敗血症治療や知的学習システムなど,現実世界の人間中心のタスクにおいて広範な実験を行った。 提案手法は,異なるポリシの返却を確実に予測し,標準検証法と人間中心の重要度テストの両方を用いて最先端のベンチマークを上回ります。

Reinforcement learning (RL) has been extensively researched for enhancing human-environment interactions in various human-centric tasks, including e-learning and healthcare. Since deploying and evaluating policies online are high-stakes in such tasks, off-policy evaluation (OPE) is crucial for inducing effective policies. In human-centric environments, however, OPE is challenging because the underlying state is often unobservable, while only aggregate rewards can be observed (students' test scores or whether a patient is released from the hospital eventually). In this work, we propose a human-centric OPE (HOPE) to handle partial observability and aggregated rewards in such environments. Specifically, we reconstruct immediate rewards from the aggregated rewards considering partial observability to estimate expected total returns. We provide a theoretical bound for the proposed method, and we have conducted extensive experiments in real-world human-centric tasks, including sepsis treatments and an intelligent tutoring system. Our approach reliably predicts the returns of different policies and outperforms state-of-the-art benchmarks using both standard validation methods and human-centric significance tests.
翻訳日:2023-02-21 19:50:03 公開日:2023-02-18
# GPTモデルは機械翻訳でどのくらい優れているか? 総合評価

How Good Are GPT Models at Machine Translation? A Comprehensive Evaluation ( http://arxiv.org/abs/2302.09210v1 )

ライセンス: Link先を確認
Amr Hendy, Mohamed Abdelrehim, Amr Sharaf, Vikas Raunak, Mohamed Gabr, Hitokazu Matsushita, Young Jin Kim, Mohamed Afify, Hany Hassan Awadalla(参考訳) GPT(Generative Pre-trained Transformer)モデルでは、自然言語生成に顕著な能力を示しているが、機械翻訳の性能は十分に研究されていない。 本稿では,機械翻訳におけるGPTモデルの包括的評価を行い,現状研究や商用システムとの比較,プロンプト戦略の効果,ドメインシフトに対する堅牢性,文書レベルの翻訳など,さまざまな側面について述べる。 高低リソース言語と非英語中心の翻訳を含む18の異なる翻訳方向を実験し、ChatGPT、GPT3.5(text-davinci-003)、text-davinci-002の3つのGPTモデルの性能評価を行った。 その結果,GPTモデルは低リソース言語では限られた能力を有しながら,高リソース言語では非常に競争力のある翻訳品質を実現することがわかった。 また,gptモデルと他の翻訳システムを組み合わせたハイブリッド手法により,翻訳品質がさらに向上することを示す。 我々は、GPT翻訳の特徴をより深く理解するために、包括的な分析と人的評価を行う。 我々の論文は、この分野の研究者や実践者に貴重な洞察を提供し、翻訳のためのGPTモデルの可能性と限界をよりよく理解する助けになることを願っている。

Generative Pre-trained Transformer (GPT) models have shown remarkable capabilities for natural language generation, but their performance for machine translation has not been thoroughly investigated. In this paper, we present a comprehensive evaluation of GPT models for machine translation, covering various aspects such as quality of different GPT models in comparison with state-of-the-art research and commercial systems, effect of prompting strategies, robustness towards domain shifts and document-level translation. We experiment with eighteen different translation directions involving high and low resource languages, as well as non English-centric translations, and evaluate the performance of three GPT models: ChatGPT, GPT3.5 (text-davinci-003), and text-davinci-002. Our results show that GPT models achieve very competitive translation quality for high resource languages, while having limited capabilities for low resource languages. We also show that hybrid approaches, which combine GPT models with other translation systems, can further enhance the translation quality. We perform comprehensive analysis and human evaluation to further understand the characteristics of GPT translations. We hope that our paper provides valuable insights for researchers and practitioners in the field and helps to better understand the potential and limitations of GPT models for translation.
翻訳日:2023-02-21 19:49:41 公開日:2023-02-18
# 有限物質放射系のウィグナー関数解析

Wigner Function Analysis of Finite Matter-Radiation Systems ( http://arxiv.org/abs/2302.09209v1 )

ライセンス: Link先を確認
E. Nahmad-Achar, R. L\'opez-Pe\~na, S. Cordero and O. Casta\~nos(参考訳) 電磁モードに関連するウィグナー関数の位相空間における挙動は、物質と場の絡み合い特性、量子位相遷移が起こるパラメータ空間内の領域の両方の情報を持っていることを示す。 連続相転移のより細かい分類は、最小忠実度の表面の計算によって得られる。

We show that the behaviour in phase space of the Wigner function associated to the electromagnetic modes carries the information of both, the entanglement properties between matter and field, and the regions in parameter space where quantum phase transitions take place. A finer classification for the continuous phase transitions is obtained through the computation of the surface of minimum fidelity.
翻訳日:2023-02-21 19:49:18 公開日:2023-02-18
# 視覚的質問応答に基づく複数画像を用いた橋梁損傷原因推定

Bridge Damage Cause Estimation Using Multiple Images Based on Visual Question Answering ( http://arxiv.org/abs/2302.09208v1 )

ライセンス: Link先を確認
Tatsuro Yamane and Pang-jo Chun and Ji Dang and Takayuki Okatani(参考訳) 本稿では,運動からの構造(sfm)を用いて画像位置を算出し,視覚質問応答(vqa)によりその情報を取得することで橋梁部材損傷原因推定手法を提案する。 このために、データセット作成にブリッジイメージを使用し、画像と質問に基づいて損傷やメンバー名とその存在を出力するVQAモデルを開発した。 開発したモデルでは、メンバー名と損害名を必要とする質問に対する正しい回答率は、それぞれ67.4%と68.9%であった。 yes/noの回答を必要とする質問に対する正答率は99.1%であった。 開発したモデルに基づいて,損傷原因推定法を提案した。 提案手法では,SfMを用いた周辺画像とVQAモデルの結果に基づいて,新たな質問をVQAモデルに入力することにより,損傷原因を絞り込む。 その後, 本手法を実際の橋梁に適用し, 損傷を判定し, 原因を推定できることを示した。 提案手法は, 損傷原因の見落とし防止に有効であり, 実践者は点検点数を決定することができ, 維持技術の改善に寄与する可能性がある。 将来的には,インフラストラクチャ診断の自動化に寄与することが期待される。

In this paper, a bridge member damage cause estimation framework is proposed by calculating the image position using Structure from Motion (SfM) and acquiring its information via Visual Question Answering (VQA). For this, a VQA model was developed that uses bridge images for dataset creation and outputs the damage or member name and its existence based on the images and questions. In the developed model, the correct answer rate for questions requiring the member's name and the damage's name were 67.4% and 68.9%, respectively. The correct answer rate for questions requiring a yes/no answer was 99.1%. Based on the developed model, a damage cause estimation method was proposed. In the proposed method, the damage causes are narrowed down by inputting new questions to the VQA model, which are determined based on the surrounding images obtained via SfM and the results of the VQA model. Subsequently, the proposed method was then applied to an actual bridge and shown to be capable of determining damage and estimating its cause. The proposed method could be used to prevent damage causes from being overlooked, and practitioners could determine inspection focus areas, which could contribute to the improvement of maintenance techniques. In the future, it is expected to contribute to infrastructure diagnosis automation.
翻訳日:2023-02-21 19:49:12 公開日:2023-02-18
# RetVec: レジリエントで効率的なテキストベクタライザ

RetVec: Resilient and Efficient Text Vectorizer ( http://arxiv.org/abs/2302.09207v1 )

ライセンス: Link先を確認
Elie Bursztein, Marina Zhang, Owen Vallis, Xinyu Jia, Alexey Kurakin,(参考訳) 本稿では,ニューラルベーステキスト処理のためのレジリエントな多言語埋め込み方式であるRetVecについて述べる。 RetVecは、256次元ベクトル空間に単語を埋め込むために、新しい文字エンコーディングとオプションの小さなモデルを組み合わせる。 これらの埋め込みにより、タイポスや敵攻撃に耐性のある競合する多言語テキストモデルのトレーニングが可能になる。 本稿では,RetVecと最先端のトークン化器および共通モデルアーキテクチャにおける単語埋め込みの評価と比較を行う。 これらの比較は、RetVecが、さまざまな共通タスクにわたるテキスト摂動に対して、はるかに回復力のある競合モデルをもたらすことを示している。 RetVecはApache 2ライセンスのもと、 \url{https://github.com/[anonymized]}で利用できる。

This paper describes RetVec, a resilient multilingual embedding scheme designed for neural-based text processing, including small-text classification and large-language models. RetVec combines a novel character encoding with an optional small model to embed words into a 256-dimensional vector space. These embeddings enable training competitive multilingual text models resilient to typos and adversarial attacks. In this paper, we evaluate and compare RetVec to state-of-the-art tokenizers and word embeddings on common model architectures. These comparisons demonstrate that RetVec leads to competitive models that are significantly more resilient to text perturbations across a variety of common tasks. RetVec is available under Apache 2 license at \url{https://github.com/[anonymized]}.
翻訳日:2023-02-21 19:48:51 公開日:2023-02-18
# 疫学ニューラルネットワークによる近似トンプソンサンプリング

Approximate Thompson Sampling via Epistemic Neural Networks ( http://arxiv.org/abs/2302.09205v1 )

ライセンス: Link先を確認
Ian Osband, Zheng Wen, Seyed Mohammad Asghari, Vikranth Dwaracherla, Morteza Ibrahimi, Xiuyuan Lu, Benjamin Van Roy(参考訳) トンプソンサンプリング(ts)はアクション選択のための一般的なヒューリスティックであるが、後方分布からのサンプリングが必要である。 残念ながら、ニューラルネットワークを使ってモデル化されたような複雑な環境では、計算に難解になる可能性がある。 近似後部サンプルは効果的な作用を生じるが、入力間の出力の合同予測分布を合理的に近似した場合に限られる。 特に、限界予測分布の精度は十分ではない。 てんかん性ニューラルネットワーク(ENN)は、正確な関節の予測分布を生成するように設計されている。 バンディットおよび強化学習環境におけるts近似性能を評価する計算実験により,ennの範囲を比較した。 その結果, ENN がこの目的をうまく実現し, 共同予測分布の質が性能に与える影響が示唆された。 さらに,不確かさを推定する小さな加算ネットワークである \textit{epinet} が,計算コストが桁違いに低く,大規模なアンサンブルの性能に合致することを示した。 これにより、TSを複雑な環境に優雅にスケールする計算に効果的に適用することができる。

Thompson sampling (TS) is a popular heuristic for action selection, but it requires sampling from a posterior distribution. Unfortunately, this can become computationally intractable in complex environments, such as those modeled using neural networks. Approximate posterior samples can produce effective actions, but only if they reasonably approximate joint predictive distributions of outputs across inputs. Notably, accuracy of marginal predictive distributions does not suffice. Epistemic neural networks (ENNs) are designed to produce accurate joint predictive distributions. We compare a range of ENNs through computational experiments that assess their performance in approximating TS across bandit and reinforcement learning environments. The results indicate that ENNs serve this purpose well and illustrate how the quality of joint predictive distributions drives performance. Further, we demonstrate that the \textit{epinet} -- a small additive network that estimates uncertainty -- matches the performance of large ensembles at orders of magnitude lower computational cost. This enables effective application of TS with computation that scales gracefully to complex environments.
翻訳日:2023-02-21 19:48:39 公開日:2023-02-18
# StyLIP: CLIPベースのドメイン一般化のためのマルチスケールスタイルのプロンプト学習

StyLIP: Multi-Scale Style-Conditioned Prompt Learning for CLIP-based Domain Generalization ( http://arxiv.org/abs/2302.09251v1 )

ライセンス: Link先を確認
Shirsha Bose, Enrico Fini, Ankit Jha, Mainak Singha, Biplab Banerjee, Elisa Ricci(参考訳) 大規模基盤モデル(例えばCLIP)は、慎重に設計された言語プロンプトを活用することで、下流タスクでゼロショットの一般化性能を示す。 しかし、その成功にもかかわらず、ほとんどの素早い学習技術はドメインシフトの存在下では性能が劣る傾向にある。 この課題に対処し、ドメイン間のCLIPの一般化能力を改善するために、ドメインに依存しないプロンプト学習戦略に基づくドメイン一般化(DG)の新しいアプローチである「textsc{StyLIP}」を提案する。 明示的なドメイン知識がなければ、事前学習したCLIPから抽出した視覚的スタイルと内容情報をインプロンプトで切り離すことを目標とし、推論中に新規ドメインに適応できるようにしている。 さらに、これらのマルチスケールスタイルの特徴から直接プロンプトトークンを学習する一連のスタイルプロジェクタを検討し、生成したプロンプト埋め込みは、後にコンテンツプロジェクタで学習したマルチスケール視覚特徴と融合する。 プロジェクタは、クリップの凍結した視覚とテキストエンコーダによって対照的に訓練される。 我々は,複数のベンチマークで5つの異なるDG設定で広範な実験を行い,関連する最先端手法を一貫して上回ることを示す。

Large-scale foundation models (e.g., CLIP) have shown promising zero-shot generalization performance on downstream tasks by leveraging carefully designed language prompts. However, despite their success, most prompt learning techniques tend to underperform in the presence of domain shift. Our study addresses this problem and, to improve CLIP's generalization ability across domains, proposes \textsc{StyLIP}, a novel approach for Domain Generalization (DG) based on a domain-agnostic prompt learning strategy. In the absence of explicit domain knowledge, we aim to disentangle the visual style and the content information extracted from the pre-trained CLIP in the prompts so they can be effortlessly adapted to novel domains during inference. Furthermore, we consider a set of style projectors to learn the prompt tokens directly from these multi-scale style features, and the generated prompt embeddings are later fused with the multi-scale visual features learned through a content projector. The projectors are contrastively trained, given CLIP's frozen vision and text encoders. We present extensive experiments in five different DG settings on multiple benchmarks, demonstrating that \textsc{StyLIP} consistently outperforms the relevant state-of-the-art methods.
翻訳日:2023-02-21 19:43:14 公開日:2023-02-18
# 機械愛

Machine Love ( http://arxiv.org/abs/2302.09248v1 )

ライセンス: Link先を確認
Joel Lehman(参考訳) MLは多くの経済的価値を生み出すが、私たちの多くはソーシャルメディアや他のML駆動アプリケーションと問題のある関係を持っている。 その理由の1つとして、MLは現時点で私たちが望むものを最適化することが多いため、定量化は容易だが、人間の繁栄について科学的に知られているものとは相反する。 ですから、私たちの不十分なモデルを通じて、MLは現在、エキサイティングな可能性をはるかに失っているのです。 人間の繁栄を定義することに合意はないが、心理学、哲学、霊的伝統の様々な観点から見れば、愛はその主要な触媒の1つだと理解されている。 本論は, 機械や人工生命の分野のように, 生命や知性といった誤った概念を慎重に抽象化し, 再認識できるかどうかを, 歴史的に検討する上で, 機械の具現化に有用な愛の具現化概念が存在するかどうかを考察するものである。 本稿では,特にポジティブ心理学と心理療法の研究に触発された,機械愛の候補概念を前進させ,人間が自発的に成長と発達を追求できるような無条件支援を提供する。 概念実証を通じて、機械学習における人間の繁栄のより豊かなモデルの必要性を強調し、肯定的な心理学をMLと組み合わせて機械愛の概念を大まかに実現し、現状の言語モデルが質的なヒューマニズムの原則を具現化し始めていることを示す。 結論として、現時点ではMLは中毒や気遣い、あるいは分断に役立ちますが、別の道が開かれています。

While ML generates much economic value, many of us have problematic relationships with social media and other ML-powered applications. One reason is that ML often optimizes for what we want in the moment, which is easy to quantify but at odds with what is known scientifically about human flourishing. Thus, through its impoverished models of us, ML currently falls far short of its exciting potential, which is for it to help us to reach ours. While there is no consensus on defining human flourishing, from diverse perspectives across psychology, philosophy, and spiritual traditions, love is understood to be one of its primary catalysts. Motivated by this view, this paper explores whether there is a useful conception of love fitting for machines to embody, as historically it has been generative to explore whether a nebulous concept, such as life or intelligence, can be thoughtfully abstracted and reimagined, as in the fields of machine intelligence or artificial life. This paper forwards a candidate conception of machine love, inspired in particular by work in positive psychology and psychotherapy: to provide unconditional support enabling humans to autonomously pursue their own growth and development. Through proof of concept experiments, this paper aims to highlight the need for richer models of human flourishing in ML, provide an example framework through which positive psychology can be combined with ML to realize a rough conception of machine love, and demonstrate that current language models begin to enable embodying qualitative humanistic principles. The conclusion is that though at present ML may often serve to addict, distract, or divide us, an alternative path may be opening up: We may align ML to support our growth, through it helping us to align ourselves towards our highest aspirations.
翻訳日:2023-02-21 19:42:53 公開日:2023-02-18
# 非カルテシアンMRIの高速化のためのデュアルドメイン自己監督学習

Dual-Domain Self-Supervised Learning for Accelerated Non-Cartesian MRI Reconstruction ( http://arxiv.org/abs/2302.09244v1 )

ライセンス: Link先を確認
Bo Zhou, Jo Schlemper, Neel Dey, Seyed Sadegh Mohseni Salehi, Kevin Sheth, Chi Liu, James S. Duncan, Michal Sofka(参考訳) 高速化された取得と再構築精度の向上を実現する一方で、現在のディープMRI再構成ネットワークは一般的に監視され、完全なサンプルデータを必要とし、カルテシアンサンプリングパターンに制限される。 これらの要因は、完全にサンプリングされたMRIが臨床的に取得するのに著しく時間がかかるため、実践的な採用を制限する。 さらに、非カルテシアンサンプリングパターンは、加速度に順応し、運動堅牢性の向上を示すため、特に望ましい。 そこで本研究では,k-space領域と画像領域の両方で自己スーパービジョンを生かした,非カルト的MRI再構成のための完全自己教師型アプローチを提案する。 トレーニングでは、アンダーサンプリングされたデータは、非結合のk空間ドメイン分割に分割される。 k-空間の自己スーパービジョンのために、ネットワークをトレーニングし、不整合分割とそれ自身から入力アンサンプされたデータを再構築する。 画像レベルの自己スーパービジョンでは、元のアンサンプリングデータと2つのパーティションから得られた外観整合性を強制する。 シミュレーションしたマルチコイル非カルテシアンMRIデータセットによる実験結果から,DDSSが完全教師付き再構成の精度に近づき,従来のベースライン法より優れていることを示す。 最後に,携帯型低磁場(0.064t)mriスキャナーを用いて,従来の画像再構成法に比べて画像品質が向上する一方で,教師付きトレーニングに利用可能なデータを持たない実世界のmri再構成に非常に挑戦的なスケールを示した。

While enabling accelerated acquisition and improved reconstruction accuracy, current deep MRI reconstruction networks are typically supervised, require fully sampled data, and are limited to Cartesian sampling patterns. These factors limit their practical adoption as fully-sampled MRI is prohibitively time-consuming to acquire clinically. Further, non-Cartesian sampling patterns are particularly desirable as they are more amenable to acceleration and show improved motion robustness. To this end, we present a fully self-supervised approach for accelerated non-Cartesian MRI reconstruction which leverages self-supervision in both k-space and image domains. In training, the undersampled data are split into disjoint k-space domain partitions. For the k-space self-supervision, we train a network to reconstruct the input undersampled data from both the disjoint partitions and from itself. For the image-level self-supervision, we enforce appearance consistency obtained from the original undersampled data and the two partitions. Experimental results on our simulated multi-coil non-Cartesian MRI dataset demonstrate that DDSS can generate high-quality reconstruction that approaches the accuracy of the fully supervised reconstruction, outperforming previous baseline methods. Finally, DDSS is shown to scale to highly challenging real-world clinical MRI reconstruction acquired on a portable low-field (0.064 T) MRI scanner with no data available for supervised training while demonstrating improved image quality as compared to traditional reconstruction, as determined by a radiologist study.
翻訳日:2023-02-21 19:42:22 公開日:2023-02-18
# ヘイトスピーチ検出のためのフェデレーションアプローチ

A Federated Approach for Hate Speech Detection ( http://arxiv.org/abs/2302.09243v1 )

ライセンス: Link先を確認
Jay Gala, Deep Gandhi, Jash Mehta, Zeerak Talat(参考訳) ヘイトスピーチ検出は、ソーシャルメディア上で作成されたコンテンツの規模が原因で、研究の注目を集めている。 注意とタスクの敏感さにもかかわらず、ヘイトスピーチ検出におけるプライバシー保護は未調査のままである。 研究の大部分は、データ漏洩のリスクを負うマシンラーニングインフラストラクチャの集中化に重点を置いている。 本稿では,F1スコアで最大6.81%の改善を達成しつつ,フェデレートされた機械学習を使用することで,ヘイトスピーチ検出に固有の懸念に対処できることを示す。

Hate speech detection has been the subject of high research attention, due to the scale of content created on social media. In spite of the attention and the sensitive nature of the task, privacy preservation in hate speech detection has remained under-studied. The majority of research has focused on centralised machine learning infrastructures which risk leaking data. In this paper, we show that using federated machine learning can help address privacy the concerns that are inherent to hate speech detection while obtaining up to 6.81% improvement in terms of F1-score.
翻訳日:2023-02-21 19:41:55 公開日:2023-02-18
# klif:サロゲート勾配勾配と膜電位を最適化したスパイキングニューロンユニット

KLIF: An optimized spiking neuron unit for tuning surrogate gradient slope and membrane potential ( http://arxiv.org/abs/2302.09238v1 )

ライセンス: Link先を確認
Chunming Jiang, Yilei Zhang(参考訳) スパイキングニューラルネットワーク(SNN)は、時間的情報処理能力、消費電力の低さ、高い生物学的信頼性のために注目されている。 しかし、SNNのための効率的かつ高性能な学習アルゴリズムを開発することは依然として困難である。 人工知能ニューラルネットワーク(ANN)-SNN変換のような手法は、ANNをわずかな性能損失でSNNに変換することができるが、レートコーディングを近似するには長いシミュレーションが必要である。 代理勾配近似などのスパイクベースのバックプロパゲーション(BP)によるSNNの直接トレーニングはより柔軟である。 しかし、現在、SNNのパフォーマンスはANNと比べて競争力がない。 本稿では,SNNの学習能力を向上させるため,新しいK-based leaky Integrate-and-Fire(KLIF)ニューロンモデルを提案する。 一般的なLIFモデルと比較して、KLIFはトレーニング中にサロゲート勾配曲線の傾きと幅を動的に更新するための学習可能なスケーリング係数を追加し、スパイク発射とリセットのために膜電位を選択的に供給するReLUアクティベーション機能を組み込んだ。 提案したスパイクユニットは、静的MNIST, Fashion-MNIST, CIFAR-10データセットおよびニューロモルフィックN-MNIST, CIFAR10-DVS, DVS128-Gestureデータセットの両方で評価される。 実験によると、klifは追加の計算コストを導入することなくlifよりもずっと優れた性能を示し、わずかな時間ステップでこれらのデータセットで最先端のパフォーマンスを達成している。 また、KLIFはLIFよりも生物学的に有毒であると考えられている。 KLIFの優れたパフォーマンスは、様々なタスクにおいてSNNにおけるLIFの役割を完全に置き換えることができます。

Spiking neural networks (SNNs) have attracted much attention due to their ability to process temporal information, low power consumption, and higher biological plausibility. However, it is still challenging to develop efficient and high-performing learning algorithms for SNNs. Methods like artificial neural network (ANN)-to-SNN conversion can transform ANNs to SNNs with slight performance loss, but it needs a long simulation to approximate the rate coding. Directly training SNN by spike-based backpropagation (BP) such as surrogate gradient approximation is more flexible. Yet now, the performance of SNNs is not competitive compared with ANNs. In this paper, we propose a novel k-based leaky Integrate-and-Fire (KLIF) neuron model to improve the learning ability of SNNs. Compared with the popular leaky integrate-and-fire (LIF) model, KLIF adds a learnable scaling factor to dynamically update the slope and width of the surrogate gradient curve during training and incorporates a ReLU activation function that selectively delivers membrane potential to spike firing and resetting. The proposed spiking unit is evaluated on both static MNIST, Fashion-MNIST, CIFAR-10 datasets, as well as neuromorphic N-MNIST, CIFAR10-DVS, and DVS128-Gesture datasets. Experiments indicate that KLIF performs much better than LIF without introducing additional computational cost and achieves state-of-the-art performance on these datasets with few time steps. Also, KLIF is believed to be more biological plausible than LIF. The good performance of KLIF can make it completely replace the role of LIF in SNN for various tasks.
翻訳日:2023-02-21 19:41:44 公開日:2023-02-18
# 言語モデルを用いた半教師あり学習のためのスケーラブルなプロンプト生成

Scalable Prompt Generation for Semi-supervised Learning with Language Models ( http://arxiv.org/abs/2302.09236v1 )

ライセンス: Link先を確認
Yuhang Zhou and Suraj Maharjan and Beiye Liu(参考訳) 半教師付き学習(SSL)設定におけるプロンプトに基づく学習手法は、文献における複数の自然言語理解(NLU)データセットやタスクに有効であることが示されている。 しかし、複数のプロンプトと動詞を手動で設計するには、ドメインの知識と人間の努力が必要だ。 本稿では、複数のプロンプトを自動的に設計し、性能を犠牲にすることなくssl設定に自動言語化機能を統合する2つの手法を提案する。 最初の方法は、学習可能な連続プロンプトトークンで様々な実演例を使用して、多様なプロンプトモデルを生成する。 2つ目の方法は、様々な数のソフトプロンプトトークンを使用して、言語モデルに異なるプロンプトの学習を促す。 動詞化には,手作業の代用として,原型的動詞化手法を用いる。 要約すると,手動プロンプトと発声器を用いた従来のSSL手法と比較して,73.2%(相対的な改善率2.52%)の精度が得られた。

Prompt-based learning methods in semi-supervised learning (SSL) settings have been shown to be effective on multiple natural language understanding (NLU) datasets and tasks in the literature. However, manually designing multiple prompts and verbalizers requires domain knowledge and human effort, making it difficult and expensive to scale across different datasets. In this paper, we propose two methods to automatically design multiple prompts and integrate automatic verbalizer in SSL settings without sacrificing performance. The first method uses various demonstration examples with learnable continuous prompt tokens to create diverse prompt models. The second method uses a varying number of soft prompt tokens to encourage language models to learn different prompts. For the verbalizer, we use the prototypical verbalizer to replace the manual one. In summary, we obtained the best average accuracy of 73.2% (a relative improvement of 2.52% over even the previous state-of-the-art SSL method with manual prompts and verbalizers) in different few-shot learning settings.
翻訳日:2023-02-21 19:41:13 公開日:2023-02-18
# 最小幅の補間ニューラルネットワークの一般化と安定性

Generalization and Stability of Interpolating Neural Networks with Minimal Width ( http://arxiv.org/abs/2302.09235v1 )

ライセンス: Link先を確認
Hossein Taheri, Christos Thrampoulidis(参考訳) 補間系における$k$-均一な浅層ニューラルネットワーク分類器の一般化と最適化について検討する。 この研究は、入力データを正のマージン$\gamma$で完全に分類できる場合に、モデルの性能を分析することに焦点を当てている。 ロジスティック損失最小化を伴う勾配降下を用いる場合、トレーニング損失は多対数ニューロン数で与えられる$\tilde o(1/\gamma^{2/k} t)$でゼロに収束することを示す。 このことは、勾配降下が$\tilde{\Omega}(n)$ iterationsの中で$n$入力データの完全な分類子を見つけることができることを示唆している。 さらに、安定性解析によって、$m=\omega(\log^{4/k} (n))$ニューロンと$t=\omega(n)$イテレーションでは、テスト損失は$\tilde{o}(1/\gamma^{2/k} n)$となる。 これは多項式の幅と準最適一般化率を必要とする既存の安定性結果とは対照的である。 我々の分析の中心は、新しい自己有界弱凸性を用いることで、十分にパラメータ化されたニューラルネットワーク分類器に対する一般化された局所準凸性をもたらす。 最終的に、目的の非凸性にもかかわらず、これは線型ロジスティック回帰の凸設定に類似した収束と一般化ギャップ境界をもたらす。

We investigate the generalization and optimization of $k$-homogeneous shallow neural-network classifiers in the interpolating regime. The study focuses on analyzing the performance of the model when it is capable of perfectly classifying the input data with a positive margin $\gamma$. When using gradient descent with logistic-loss minimization, we show that the training loss converges to zero at a rate of $\tilde O(1/\gamma^{2/k} T)$ given a polylogarithmic number of neurons. This suggests that gradient descent can find a perfect classifier for $n$ input data within $\tilde{\Omega}(n)$ iterations. Additionally, through a stability analysis we show that with $m=\Omega(\log^{4/k} (n))$ neurons and $T=\Omega(n)$ iterations, the test loss is bounded by $\tilde{O}(1/\gamma^{2/k} n)$. This is in contrast to existing stability results which require polynomial width and yield suboptimal generalization rates. Central to our analysis is the use of a new self-bounded weak convexity property, which leads to a generalized local quasi-convexity property for sufficiently parameterized neural-network classifiers. Eventually, despite the objective's non-convexity, this leads to convergence and generalization-gap bounds that are similar to those in the convex setting of linear logistic regression.
翻訳日:2023-02-21 19:40:56 公開日:2023-02-18
# vln-trans:視覚および言語ナビゲーションエージェントの翻訳装置

VLN-Trans: Translator for the Vision and Language Navigation Agent ( http://arxiv.org/abs/2302.09230v1 )

ライセンス: Link先を確認
Yue Zhang, Parisa Kordjamshidi(参考訳) ナビゲーションエージェントが指示に従うためには、言語理解が不可欠である。 ナビゲーションタスクを困難にさせる命令では,2種類の問題を観察する。 1)前述のランドマークは,インストラクターとモデルエージェントの視覚能力が異なるため,ナビゲーションエージェントでは認識できない。 2 上記のランドマークは、複数のターゲットに適用できるため、候補視点のうちのターゲットの選択に特有ではない。 これらの問題に対処するために,我々はナビゲーションエージェント用の翻訳モジュールを設計し,各ステップで元の命令をフォローするサブインストラクション表現に変換する。 翻訳者は、エージェントの視覚能力と観察された視覚環境に基づいて、認識可能で独特なランドマークに焦点を当てる必要がある。 この目的を達成するために、新しい合成サブインストラクションデータセットを作成し、翻訳者とナビゲーションエージェントを訓練するための特定のタスクを設計する。 我々は,Room2Room~(R2R),Room4room~(R4R),Room2Room Last(R2R-Last)データセットに対するアプローチを評価し,複数のベンチマークで最新の結果を得た。

Language understanding is essential for the navigation agent to follow instructions. We observe two kinds of issues in the instructions that can make the navigation task challenging: 1. The mentioned landmarks are not recognizable by the navigation agent due to the different vision abilities of the instructor and the modeled agent. 2. The mentioned landmarks are applicable to multiple targets, thus not distinctive for selecting the target among the candidate viewpoints. To deal with these issues, we design a translator module for the navigation agent to convert the original instructions into easy-to-follow sub-instruction representations at each step. The translator needs to focus on the recognizable and distinctive landmarks based on the agent's visual abilities and the observed visual environment. To achieve this goal, we create a new synthetic sub-instruction dataset and design specific tasks to train the translator and the navigation agent. We evaluate our approach on Room2Room~(R2R), Room4room~(R4R), and Room2Room Last (R2R-Last) datasets and achieve state-of-the-art results on multiple benchmarks.
翻訳日:2023-02-21 19:40:32 公開日:2023-02-18
# ニューラル強化カメラフィンガープリントに基づくWebフォトソースの同定

Web Photo Source Identification based on Neural Enhanced Camera Fingerprint ( http://arxiv.org/abs/2302.09228v1 )

ライセンス: Link先を確認
Feng Qian, Sifeng He, Honghao Huang, Huanyu Ma, Xiaobo Zhang, Lei Yang(参考訳) 近年、スマートフォン写真の人気が高まる中、ウェブ写真があらゆる生活様式においてますます重要な役割を担っている。 ウェブ写真のソースカメラ識別は、撮影された画像からソースカメラへの信頼性の高いリンクを確立することを目的としており、画像著作権保護、ユーザ認証、調査された証拠検証など、幅広い応用がある。 本稿では,セキュリティを確保しつつ,ニューラルネットワークによるセンサパターンノイズを利用してweb写真を効率的に追跡する,革新的かつ実用的なソース識別フレームワークを提案する。 提案するフレームワークは, 初期デバイス指紋登録, 指紋抽出, 写真撮影時の暗号化接続設定, 写真とソースデバイス間の接続検証の3段階からなる。 距離学習と周波数整合性を深層ネットワーク設計に組み込むことで,最新のスマートフォン写真における指紋抽出アルゴリズムにより,信頼性の高い情報源識別を実現する。 また,指紋漏洩を防止し,精度と効率を向上させるための最適化サブモジュールをいくつか提案する。 最後に, 実システム設計のために, 登録指紋と認証済みフォト指紋との相関, すなわちファジィ抽出器とゼロ知識証明(zkp)を確実に識別する2つの暗号スキームを導入した。 指紋抽出ネットワークと最新のスマートフォンカメラによるベンチマークデータセットのコードは、すべてhttps://github.com/photonecf/photonecfで公開されている。

With the growing popularity of smartphone photography in recent years, web photos play an increasingly important role in all walks of life. Source camera identification of web photos aims to establish a reliable linkage from the captured images to their source cameras, and has a broad range of applications, such as image copyright protection, user authentication, investigated evidence verification, etc. This paper presents an innovative and practical source identification framework that employs neural-network enhanced sensor pattern noise to trace back web photos efficiently while ensuring security. Our proposed framework consists of three main stages: initial device fingerprint registration, fingerprint extraction and cryptographic connection establishment while taking photos, and connection verification between photos and source devices. By incorporating metric learning and frequency consistency into the deep network design, our proposed fingerprint extraction algorithm achieves state-of-the-art performance on modern smartphone photos for reliable source identification. Meanwhile, we also propose several optimization sub-modules to prevent fingerprint leakage and improve accuracy and efficiency. Finally for practical system design, two cryptographic schemes are introduced to reliably identify the correlation between registered fingerprint and verified photo fingerprint, i.e. fuzzy extractor and zero-knowledge proof (ZKP). The codes for fingerprint extraction network and benchmark dataset with modern smartphone cameras photos are all publicly available at https://github.com/PhotoNecf/PhotoNecf.
翻訳日:2023-02-21 19:40:14 公開日:2023-02-18
# 可逆性ニューラルスキニング

Invertible Neural Skinning ( http://arxiv.org/abs/2302.09227v1 )

ライセンス: Link先を確認
Yash Kant, Aliaksandr Siarohin, Riza Alp Guler, Menglei Chai, Jian Ren, Sergey Tulyakov, Igor Gilitschenski(参考訳) 生の3Dスキャンとポーズから、被服を編集可能なモデルを構築することは、難しい問題だ。 既存の再現法はリニアブレンドスキニング(LBS)の限られた表現性に悩まされ、新しいポーズをそれぞれ生成するためにコストのかかるメッシュ抽出を必要とし、通常、異なるポーズにわたる表面対応を保存しない。 本稿では、これらの欠点に対処するために、Invertible Neural Skinning (INS)を導入する。 対応性を維持するために,追加のポーズ変動変形を学習してLBSプロセスを拡張するPINアーキテクチャを提案する。 次に、PINと差別化可能なLBSモジュールを組み合わせて、表現的でエンドツーエンドのInvertible Neural Skinning(INS)パイプラインを構築します。 本手法は,人間に最先端のレポジトリ技術を適用し,表面対応性を維持しつつ,桁違いに高速に行うことで,優れた性能を示す。 また, ポーズ条件定式化の有用性を示すアブレーション研究を行い, 定性的な結果から, INSがLBSで導入したアーティファクトを補正できることが示唆された。 詳細は、私たちのWebページを参照してください。

Building animatable and editable models of clothed humans from raw 3D scans and poses is a challenging problem. Existing reposing methods suffer from the limited expressiveness of Linear Blend Skinning (LBS), require costly mesh extraction to generate each new pose, and typically do not preserve surface correspondences across different poses. In this work, we introduce Invertible Neural Skinning (INS) to address these shortcomings. To maintain correspondences, we propose a Pose-conditioned Invertible Network (PIN) architecture, which extends the LBS process by learning additional pose-varying deformations. Next, we combine PIN with a differentiable LBS module to build an expressive and end-to-end Invertible Neural Skinning (INS) pipeline. We demonstrate the strong performance of our method by outperforming the state-of-the-art reposing techniques on clothed humans and preserving surface correspondences, while being an order of magnitude faster. We also perform an ablation study, which shows the usefulness of our pose-conditioning formulation, and our qualitative results display that INS can rectify artefacts introduced by LBS well. See our webpage for more details: https://yashkant.github.io/invertible-neural-skinning/
翻訳日:2023-02-21 19:39:53 公開日:2023-02-18
# 相互支援によるマルチエージェント強化学習における協調の促進

Promoting Cooperation in Multi-Agent Reinforcement Learning via Mutual Help ( http://arxiv.org/abs/2302.09277v1 )

ライセンス: Link先を確認
Yunbo Qiu, Yue Jin, Lebin Yu, Jian Wang, Xudong Zhang(参考訳) 近年,多エージェント強化学習(MARL)は協調作業において大きな進歩を遂げている。 しかし、すべてのエージェントが共有するグローバル報酬なしで各エージェントに対するローカル報酬しか与えられないローカル報酬方式では、従来のMARLアルゴリズムはエージェントの相互影響を十分に考慮していない。 協調作業においては、エージェントの相互影響は特に重要である。 本稿では,協調を促進するために,エージェント同士が助け合うよう指示するアルゴリズムである相互支援型marl(mh-marl)を提案する。 MH-MARLは期待されるアクションモジュールを使用して、特定のエージェントごとに期待される他のエージェントのアクションを生成する。 そして、トレーニング中の選択的模倣のために、期待されたアクションを他のエージェントに配信する。 実験の結果,MH-MARLは成功率と累積報酬の両方でMARLの性能を向上させることが示された。

Multi-agent reinforcement learning (MARL) has achieved great progress in cooperative tasks in recent years. However, in the local reward scheme, where only local rewards for each agent are given without global rewards shared by all the agents, traditional MARL algorithms lack sufficient consideration of agents' mutual influence. In cooperative tasks, agents' mutual influence is especially important since agents are supposed to coordinate to achieve better performance. In this paper, we propose a novel algorithm Mutual-Help-based MARL (MH-MARL) to instruct agents to help each other in order to promote cooperation. MH-MARL utilizes an expected action module to generate expected other agents' actions for each particular agent. Then, the expected actions are delivered to other agents for selective imitation during training. Experimental results show that MH-MARL improves the performance of MARL both in success rate and cumulative reward.
翻訳日:2023-02-21 19:33:42 公開日:2023-02-18
# サッカーマッチイベント分析のためのトランスフォーマーに基づくニューラルマーク時空間過程モデル

Transformer-Based Neural Marked Spatio Temporal Point Process Model for Football Match Events Analysis ( http://arxiv.org/abs/2302.09276v1 )

ライセンス: Link先を確認
Calvin C. K. Yeung, Tony Sit, Keisuke Fujii(参考訳) 最近利用可能になったフットボールの試合のイベントデータによって、アナリストや研究者は新しいパフォーマンス指標を開発し、洞察を得て、重要なパフォーマンスを評価する絶好の機会がある。 しかし、ほとんどのスポーツシーケンシャルなイベントモデリング手法やパフォーマンスメトリクスアプローチは、このような大規模な時空間データ(特に時間的プロセス)を扱う際には理解できないため、より包括的な時空間モデルと全体的パフォーマンス指標を必要とする。 そこで我々は,ニューラル・テンポラル・ポイント・プロセス(NTPP)に基づくフットボール・イベントデータのためのトランスフォーマー・ベース・ニューラルマーク付き時空間ポイント・プロセス(NMSTPP)モデルを提案した。 実験では,本モデルがベースラインモデルの予測性能より優れていた。 さらに,より包括的なサッカー所有分析のために,総合所有率(hpus)指標を提案した。 検証のために、サッカーチームの最終ランキング、平均ゴール得点、平均xgとの関係について検討した。 平均HPUSは, 目標やショット情報の詳細を使わずとも, 有意な相関を示した。 さらに,HPUSを例に,所有物,マッチ,マッチ間の分析を行った。

With recently available football match event data that record the details of football matches, analysts and researchers have a great opportunity to develop new performance metrics, gain insight, and evaluate key performance. However, most sports sequential events modeling methods and performance metrics approaches could be incomprehensive in dealing with such large-scale spatiotemporal data (in particular, temporal process), thereby necessitating a more comprehensive spatiotemporal model and a holistic performance metric. To this end, we proposed the Transformer-Based Neural Marked Spatio Temporal Point Process (NMSTPP) model for football event data based on the neural temporal point processes (NTPP) framework. In the experiments, our model outperformed the prediction performance of the baseline models. Furthermore, we proposed the holistic possession utilization score (HPUS) metric for a more comprehensive football possession analysis. For verification, we examined the relationship with football teams' final ranking, average goal score, and average xG over a season. It was observed that the average HPUS showed significant correlations regardless of not using goal and details of shot information. Furthermore, we show HPUS examples in analyzing possessions, matches, and between matches.
翻訳日:2023-02-21 19:33:26 公開日:2023-02-18
# 構造的ニューラル付加モデル:強化解釈可能な機械学習

Structural Neural Additive Models: Enhanced Interpretable Machine Learning ( http://arxiv.org/abs/2302.09275v1 )

ライセンス: Link先を確認
Mattias Luber, Anton Thielmann, Benjamin S\"afken(参考訳) ディープニューラルネットワーク(DNN)は、幅広いタスクにおいて例外的なパフォーマンスを示し、高いレベルの予測力を必要とする問題に対するゴーツーメソッドとなっている。 dnnが彼らの決定にどのように到達するかについては広範な研究が行われてきたが、本質的に解釈不能なネットワークは、今日までほとんど観察できない「ブラックボックス」のままである。 近年、この分野は、視覚的に解釈可能なニューラル・アダプティブ・モデル(NAM)など、解釈可能なニューラルネットワークに向かって進んでいる。 本稿では,特徴効果の可視化以上のインテリジェンス指向のさらなるステップを提案し,構造的ニューラル付加モデル(SNAM)を提案する。 古典的かつ明確に解釈可能な統計手法とニューラルネットワークの予測能力を組み合わせたモデリングフレームワーク。 SNAMの予測性能について実験を行った。 提案フレームワークは最先端の完全連結DNNに匹敵する性能を示し,SNAMは本質的に解釈可能でありながら,NAMよりも優れていることを示す。

Deep neural networks (DNNs) have shown exceptional performances in a wide range of tasks and have become the go-to method for problems requiring high-level predictive power. There has been extensive research on how DNNs arrive at their decisions, however, the inherently uninterpretable networks remain up to this day mostly unobservable "black boxes". In recent years, the field has seen a push towards interpretable neural networks, such as the visually interpretable Neural Additive Models (NAMs). We propose a further step into the direction of intelligibility beyond the mere visualization of feature effects and propose Structural Neural Additive Models (SNAMs). A modeling framework that combines classical and clearly interpretable statistical methods with the predictive power of neural applications. Our experiments validate the predictive performances of SNAMs. The proposed framework performs comparable to state-of-the-art fully connected DNNs and we show that SNAMs can even outperform NAMs while remaining inherently more interpretable.
翻訳日:2023-02-21 19:33:08 公開日:2023-02-18
# 最大主観的モデル伝達を用いた野生における強化学習

Reinforcement Learning in the Wild with Maximum Likelihood-based Model Transfer ( http://arxiv.org/abs/2302.09273v1 )

ライセンス: Link先を確認
Hannes Eriksson, Debabrota Basu, Tommy Tram, Mina Alibeigi, Christos Dimitrakakis(参考訳) 本稿では,利用可能なマルコフ決定過程(MDP)モデルを未知だが類似のMDPで効率的に学習し,計画する問題について検討する。 我々はそれを「textit{Model Transfer Reinforcement Learning (MTRL)」問題と呼ぶ。 まず、離散MDPとLQR(Linear Quadratic Regulator)のMTRLを連続状態動作で定式化する。 そこで本稿では,MTRL問題に離散的かつ連続的に対処する汎用2段階アルゴリズムMLEMTRLを提案する。 第1段階では、MLEMTRL は、既知の MDP モデルの集合を用いてターゲット MDP モデルを推定するために、 \textit{constrained Maximum Likelihood Estimation (MLE) に基づくアプローチを用いる。 第2段階では、推定対象MDPモデルを用いて、MLEMTRLは、MDPクラスに適したモデルベース計画アルゴリズムをデプロイする。 理論的には、MLEMTRLの最悪の後悔境界を現実的かつ非可逆的に証明する。 MLEMTRL はスクラッチから学習するよりも新しい MDP の学習を高速化し、利用可能な MDP とターゲット MDP の類似性に応じてほぼ最適性能を達成することを実証的に実証した。

In this paper, we study the problem of transferring the available Markov Decision Process (MDP) models to learn and plan efficiently in an unknown but similar MDP. We refer to it as \textit{Model Transfer Reinforcement Learning (MTRL)} problem. First, we formulate MTRL for discrete MDPs and Linear Quadratic Regulators (LQRs) with continuous state actions. Then, we propose a generic two-stage algorithm, MLEMTRL, to address the MTRL problem in discrete and continuous settings. In the first stage, MLEMTRL uses a \textit{constrained Maximum Likelihood Estimation (MLE)}-based approach to estimate the target MDP model using a set of known MDP models. In the second stage, using the estimated target MDP model, MLEMTRL deploys a model-based planning algorithm appropriate for the MDP class. Theoretically, we prove worst-case regret bounds for MLEMTRL both in realisable and non-realisable settings. We empirically demonstrate that MLEMTRL allows faster learning in new MDPs than learning from scratch and achieves near-optimal performance depending on the similarity of the available MDPs and the target MDP.
翻訳日:2023-02-21 19:32:45 公開日:2023-02-18
# U(1)対称量子スピンモデルにおける有効ロータ/スピン波分離からのエンタングリングダイナミクス

Entangling dynamics from effective rotor/spin-wave separation in U(1)-symmetric quantum spin models ( http://arxiv.org/abs/2302.09271v1 )

ライセンス: Link先を確認
Tommaso Roscilde, Tommaso Comparin and Fabio Mezzacapo(参考訳) 量子スピンモデルの非平衡ダイナミクスはヒルベルト空間の指数性のために最も難しいトピックであり、最先端の量子シミュレータによって生成される多体絡み合った状態を理解することの中心である。 特に重要な進化のクラスは、U(1)対称ハミルトニアンによって支配されるもので、U(1)対称性を破る状態で初期化されている。 本研究は,OATモデルのダイナミクスを,いわゆるアンダーソン塔に付随するゼロモーメント自由度とスピン波励起に関連する有限モーメント自由度とを効果的に分離することにより,パワー・ラッチ・デケイリング相互作用を持つシステムで密に再現できることを示す。 このメカニズムは、双極子ハミルトニアンの力学におけるスピンスクイーズとシュリンガー・キャットの生成の最近の数値的な観察を定量的に説明し、量子シミュレーションの即時関係のモデルにこの観測を拡張するための道を開く。

The non-equilibrium dynamics of quantum spin models is a most challenging topic, due to the exponentiality of Hilbert space; and it is central to the understanding of the many-body entangled states that can be generated by state-of-the-art quantum simulators. A particularly important class of evolutions is the one governed by U(1) symmetric Hamiltonians, initialized in a state which breaks the U(1) symmetry -- the paradigmatic example being the evolution of the so-called one-axis-twisting (OAT) model, featuring infinite-range interactions between spins. In this work we show that the dynamics of the OAT model can be closely reproduced by systems with power-law-decaying interactions, thanks to an effective separation between the zero-momentum degrees of freedom, associated with the so-called Anderson tower of states, and reconstructing a OAT model; and finite-momentum ones, associated with spin-wave excitations. This mechanism explains quantitatively the recent numerical observation of spin squeezing and Schr\"odinger-cat generation in the dynamics of dipolar Hamiltonians; and it paves the way for the extension of this observation to a much larger class of models of immediate relevance for quantum simulations.
翻訳日:2023-02-21 19:32:23 公開日:2023-02-18
# 安全・責任・道徳対話システムへの最近の進歩

Recent Advances towards Safe, Responsible, and Moral Dialogue Systems: A Survey ( http://arxiv.org/abs/2302.09270v1 )

ライセンス: Link先を確認
Jiawen Deng, Hao Sun, Zhexin Zhang, Jiale Cheng, Minlie Huang(参考訳) 人工知能の開発により、対話システムは素晴らしいチャット機能を備えており、生成されたコンテンツが社会的に有益であるかどうかについての関心や議論が広まっている。 本稿では,安全で責任があり,モダルな対話システムを構築するための研究の新たな視点を提案する。 1)虐待的かつ有毒な内容 2)不公平さ及び差別 3)倫理・道徳問題、及び 4)誤解を招くリスクとプライバシー情報。 また,大型モデルの安全性を評価するための主流手法について,露出と安全問題の検出の観点から検討する。 エンド・ツー・エンドの対話システムとパイプラインベースのモデルの両方の安全性向上のための方法論の最近の進歩が紹介されている。 最後に、責任あるaiに対する6つの課題について論じた: 説明可能な安全性モニタリング、安全問題の継続的な学習、悪意のある攻撃に対する堅牢性、マルチモーダル情報処理、統一研究フレームワーク、多分野理論の統合。 この調査は、より安全な対話システムに向けたさらなる研究を促すことを願っている。

With the development of artificial intelligence, dialogue systems have been endowed with amazing chit-chat capabilities, and there is widespread interest and discussion about whether the generated contents are socially beneficial. In this paper, we present a new perspective of research scope towards building a safe, responsible, and modal dialogue system, including 1) abusive and toxic contents, 2) unfairness and discrimination, 3) ethics and morality issues, and 4) risk of misleading and privacy information. Besides, we review the mainstream methods for evaluating the safety of large models from the perspectives of exposure and detection of safety issues. The recent advances in methodologies for the safety improvement of both end-to-end dialogue systems and pipeline-based models are further introduced. Finally, we discussed six existing challenges towards responsible AI: explainable safety monitoring, continuous learning of safety issues, robustness against malicious attacks, multimodal information processing, unified research framework, and multidisciplinary theory integration. We hope this survey will inspire further research toward safer dialogue systems.
翻訳日:2023-02-21 19:31:54 公開日:2023-02-18
# 効果的な言語モデル事前学習と下流適応のためのトリックのバグ:GLUEを事例として

Bag of Tricks for Effective Language Model Pretraining and Downstream Adaptation: A Case Study on GLUE ( http://arxiv.org/abs/2302.09268v1 )

ライセンス: Link先を確認
Qihuang Zhong, Liang Ding, Keqin Peng, Juhua Liu, Bo Du, Li Shen, Yibing Zhan and Dacheng Tao(参考訳) GLUEは、質問応答、言語受容性、感情分析、テキスト類似性、パラフレーズ検出、自然言語推論を含む9つの自然言語理解タスクのコレクションである。 [方法]いくつかの効果的な戦略を調査し,トレーニングレシピとして最適な組み合わせ設定を選択する。 モデル構造については,基本ブロックエンコーダとして注意を散らしたバニラ変換器を用いる。 自己教師付き学習では,第1相における代表的弁別目標(トークン検出の置き換え)と第2相における対照目標(文埋め込みコントラスト学習)とを組み合わせる。 ファインチューニングでは、トランスダクティブファインチューニング、自己調整ファインチューニング、敵対的ファインチューニングなど、いくつかの高度な技術が採用されている。 【結論】提出記録(2022年1月)によると、最適化された事前訓練と微調整戦略により、我々の13億のモデルは4/9のタスクに最新技術を設定し、最高スコア91.3に達した。 私たちのVega v1は、SST-2とWNLIという2つの困難なタスクにおいて、人間のパフォーマンスを初めて上回りました。 私たちは、トリックの袋で経験的に成功したレシピは、効率的な差別的な大きな言語モデルの開発に新たな光を当てる可能性があると信じています。

This technical report briefly describes our JDExplore d-team's submission Vega v1 on the General Language Understanding Evaluation (GLUE) leaderboard, where GLUE is a collection of nine natural language understanding tasks, including question answering, linguistic acceptability, sentiment analysis, text similarity, paraphrase detection, and natural language inference. [Method] We investigate several effective strategies and choose their best combination setting as the training recipes. As for model structure, we employ the vanilla Transformer with disentangled attention as the basic block encoder. For self-supervised training, we employ the representative denoising objective (i.e., replaced token detection) in phase 1 and combine the contrastive objective (i.e., sentence embedding contrastive learning) with it in phase 2. During fine-tuning, several advanced techniques such as transductive fine-tuning, self-calibrated fine-tuning, and adversarial fine-tuning are adopted. [Results] According to our submission record (Jan. 2022), with our optimized pretraining and fine-tuning strategies, our 1.3 billion model sets new state-of-the-art on 4/9 tasks, achieving the best average score of 91.3. Encouragingly, our Vega v1 is the first to exceed powerful human performance on the two challenging tasks, i.e., SST-2 and WNLI. We believe our empirically successful recipe with a bag of tricks could shed new light on developing efficient discriminative large language models.
翻訳日:2023-02-21 19:31:39 公開日:2023-02-18
# 群分布ロバスト最適化に対する確率近似手法

Stochastic Approximation Approaches to Group Distributionally Robust Optimization ( http://arxiv.org/abs/2302.09267v1 )

ライセンス: Link先を確認
Lijun Zhang, Peng Zhao, Tianbao Yang, Zhi-Hua Zhou(参考訳) 本稿では,群分布にロバストな最適化(gdro, group distributionally robust optimization)について検討する。 まず、GDROを確率的凸凹サドル点問題として定式化し、各反復において$m$のサンプルを用いて、$O(m)/\epsilon^2)$のサンプル複雑性を達成し、$Omega(m/\epsilon^2)$の対数係数に一致する$\epsilon$最適解を求める。 そして、オンライン学習の手法を使って、各ラウンドに必要なサンプル数を$m$から$$$に減らし、同じサンプルの複雑さを維持します。 具体的には、GDROを2人プレイヤゲームとして、一方のプレイヤーが単にSMDを実行し、他方のプレイヤーが非公開マルチアームバンディットのオンラインアルゴリズムを実行する。 次に、各分布から引き出すことのできるサンプルの数が異なるより実践的なシナリオを考察し、分布依存収束率を導出できる重み付きDROの新しい定式化を提案する。 n_i$ は$i$-th分布のサンプル予算を示し、$n_1 \geq n_2 \geq \cdots \geq n_m$ を仮定する。 最初のアプローチでは、サンプル予算が期待通りに満たされるように非一様サンプリングをsmdに組み込み、i$-th分布の過剰なリスクが$o(\sqrt{n_1 \log m}/n_i)$レートで減少することを証明する。 第2のアプローチでは、予算を正確に満たすためにミニバッチを使用し、確率勾配の分散を低減し、小さな分散を活用可能な確率ミラープロキシアルゴリズムを利用して、慎重に設計された重み付きDRO問題を最適化する。 適切な条件下では、$o((\log m)/\sqrt{n_i})$の収束率に達し、最適な$o(\sqrt{1/n_i})$の値にほぼ一致する。

This paper investigates group distributionally robust optimization (GDRO), with the purpose to learn a model that performs well over $m$ different distributions. First, we formulate GDRO as a stochastic convex-concave saddle-point problem, and demonstrate that stochastic mirror descent (SMD), using $m$ samples in each iteration, achieves an $O(m (\log m)/\epsilon^2)$ sample complexity for finding an $\epsilon$-optimal solution, which matches the $\Omega(m/\epsilon^2)$ lower bound up to a logarithmic factor. Then, we make use of techniques from online learning to reduce the number of samples required in each round from $m$ to $1$, keeping the same sample complexity. Specifically, we cast GDRO as a two-players game where one player simply performs SMD and the other executes an online algorithm for non-oblivious multi-armed bandits. Next, we consider a more practical scenario where the number of samples that can be drawn from each distribution is different, and propose a novel formulation of weighted DRO, which allows us to derive distribution-dependent convergence rates. Denote by $n_i$ the sample budget for the $i$-th distribution, and assume $n_1 \geq n_2 \geq \cdots \geq n_m$. In the first approach, we incorporate non-uniform sampling into SMD such that the sample budget is satisfied in expectation, and prove the excess risk of the $i$-th distribution decreases at an $O(\sqrt{n_1 \log m}/n_i)$ rate. In the second approach, we use mini-batches to meet the budget exactly and also reduce the variance in stochastic gradients, and then leverage stochastic mirror-prox algorithm, which can exploit small variances, to optimize a carefully designed weighted DRO problem. Under appropriate conditions, it attains an $O((\log m)/\sqrt{n_i})$ convergence rate, which almost matches the optimal $O(\sqrt{1/n_i})$ rate of only learning from the $i$-th distribution with $n_i$ samples.
翻訳日:2023-02-21 19:31:08 公開日:2023-02-18
# 学習画像圧縮のための多段空間コンテキストモデル

Multistage Spatial Context Models for Learned Image Compression ( http://arxiv.org/abs/2302.09263v1 )

ライセンス: Link先を確認
Fangzheng Lin, Heming Sun, Jinming Liu, Jiro Katto(参考訳) 近年のLearnered Image Compression法では,空間的文脈モデルが特徴的であり,ハイパープライア法よりも高い速度歪み改善を実現している。 しかし、自動回帰コンテキストモデルはシリアルデコードを必要とし、実行時のパフォーマンスを制限します。 CheckerboardコンテキストモデルはRD性能の低下を犠牲にして並列デコードを可能にする。 高速デコードとRD性能の両立が可能な多段階空間コンテキストモデルを提案する。 潜在スペースを正方形のパッチに分割し、各パッチ内で連続的にデコードし、異なるパッチを並列にデコードします。 提案手法は、AutoregressiveのRD性能に到達しつつ、Checkerboardに匹敵するデコード速度を特徴としている。 各パッチ内では、デコード順序が性能に悪影響を及ぼすとして慎重に決定されなければならないため、デコード順序最適化アルゴリズムも提案する。

Recent state-of-the-art Learned Image Compression methods feature spatial context models, achieving great rate-distortion improvements over hyperprior methods. However, the autoregressive context model requires serial decoding, limiting runtime performance. The Checkerboard context model allows parallel decoding at a cost of reduced RD performance. We present a series of multistage spatial context models allowing both fast decoding and better RD performance. We split the latent space into square patches and decode serially within each patch while different patches are decoded in parallel. The proposed method features a comparable decoding speed to Checkerboard while reaching the RD performance of Autoregressive and even also outperforming Autoregressive. Inside each patch, the decoding order must be carefully decided as a bad order negatively impacts performance; therefore, we also propose a decoding order optimization algorithm.
翻訳日:2023-02-21 19:30:22 公開日:2023-02-18
# 層幅チャネルに基づく属性特異的マニピュレーション

Attribute-Specific Manipulation Based on Layer-Wise Channels ( http://arxiv.org/abs/2302.09260v1 )

ライセンス: Link先を確認
Yuanjie Yan, Jian Zhao, Furao Shen(参考訳) 事前訓練されたStyleGANの潜在空間の画像操作は、生成された画像の意味的属性を制御することができる。 近年,潜伏空間の絡み合いによって制限される潜伏符号を直接操作する特定の特性を持つチャネルの検出に焦点が当てられている研究もある。 属性固有のチャネルを検出するために,事前学習した分類器の文脈における新しい検出手法を提案する。 スタイル空間上の層によって勾配層を解析する。 勾配の強度は、特定の属性に対するチャネルの応答を示す。 チャネルの潜在スタイルコードは、レイヤ内の別々の属性を制御する。 最大応答層内の特定の属性を制御するために、トップ$k$グラデーションを持つチャネルを選択します。 特定の属性を持つシングルチャネルおよびマルチチャネル操作を実装している。 本手法は,多数の顔属性の関連チャネルを正確に検出することができる。 大規模定性的および定量的な結果は,提案手法が一般化と拡張性において最先端の手法より優れていることを示す。

Image manipulation on the latent space of the pre-trained StyleGAN can control the semantic attributes of the generated images. Recently, some studies have focused on detecting channels with specific properties to directly manipulate the latent code, which is limited by the entanglement of the latent space. To detect the attribute-specific channels, we propose a novel detection method in the context of pre-trained classifiers. We analyse the gradients layer by layer on the style space. The intensities of the gradients indicate the channel's responses to specific attributes. The latent style codes of channels control separate attributes in the layers. We choose channels with top-$k$ gradients to control specific attributes in the maximum response layer. We implement single-channel and multi-channel manipulations with a certain attribute. Our methods can accurately detect relevant channels for a large number of face attributes. Extensive qualitative and quantitative results demonstrate that the proposed methods outperform state-of-the-art methods in generalization and scalability.
翻訳日:2023-02-21 19:30:09 公開日:2023-02-18
# ポートスキャン検出におけるランダム森林効果の再現

Reproducing Random Forest Efficacy in Detecting Port Scanning ( http://arxiv.org/abs/2302.09317v1 )

ライセンス: Link先を確認
Jason M. Pittman(参考訳) ポートスキャンは、コンピューティングエンドポイント上のさまざまなネットワークポートに接続して、どのポートが開いているか、どのサービスが実行されているかを判断するプロセスである。 ハッカーがネットワークやシステムの脆弱性を特定するのに使われる一般的な方法である。 どのポートが開いているかを判断することで、攻撃者はデバイス上で実行されているサービスやアプリケーションを識別し、それらのサービスの既知の脆弱性を悪用することができる。 したがって、しばしばサイバー攻撃の第一歩となるため、ポートスキャニングを検出することが重要である。 ポートスキャンの試みを識別することで、サイバーセキュリティの専門家は攻撃者が脆弱性を悪用する前に、システムやネットワークを保護するための積極的な措置を取ることができる。 この背景に対して、研究者はポートスキャンを検出する堅牢な方法の開発に10年以上取り組んできた。 最近の体系的なレビューで明らかになったそのような手法の1つは、ランダムな森林管理機械学習アルゴリズムである。 2021年以降、ランダム森林を用いた6つの既存研究が報告されている。 残念ながら、これらの研究はそれぞれ異なる結果を示し、全員が同じトレーニングとテストデータセットを使用しておらず、ソースコードを含むのは2つだけです。 したがって,本研究の目的は,明らかな欠点に対処しつつ,六つのランダムな森林調査を再現することであった。 結果は、ランダムな森を探索してポートスキャニングを検出したい研究者や、サイバー攻撃の初期段階を検出する信頼性の高い技術に興味を持つ実践者にとって重要である。

Port scanning is the process of attempting to connect to various network ports on a computing endpoint to determine which ports are open and which services are running on them. It is a common method used by hackers to identify vulnerabilities in a network or system. By determining which ports are open, an attacker can identify which services and applications are running on a device and potentially exploit any known vulnerabilities in those services. Consequently, it is important to detect port scanning because it is often the first step in a cyber attack. By identifying port scanning attempts, cybersecurity professionals can take proactive measures to protect the systems and networks before an attacker has a chance to exploit any vulnerabilities. Against this background, researchers have worked for over a decade to develop robust methods to detect port scanning. One such method revealed by a recent systematic review is the random forest supervised machine learning algorithm. The review revealed six existing studies using random forest since 2021. Unfortunately, those studies each exhibit different results, do not all use the same training and testing dataset, and only two include source code. Accordingly, the goal of this work was to reproduce the six random forest studies while addressing the apparent shortcomings. The outcomes are significant for researchers looking to explore random forest to detect port scanning and for practitioners interested in reliable technology to detect the early stages of cyber attack.
翻訳日:2023-02-21 19:24:35 公開日:2023-02-18
# 時間的補間は、動的ニューラルラジアンス場に必要なもの

Temporal Interpolation Is All You Need for Dynamic Neural Radiance Fields ( http://arxiv.org/abs/2302.09311v1 )

ライセンス: Link先を確認
Sungheon Park, Minjung Son, Seokhwan Jang, Young Chun Ahn, Ji-Yeon Kim, Nahyup Kang(参考訳) 時間的補間はしばしば動的シーンにおいて意味のある表現を学ぶために重要な役割を果たす。 本稿では,特徴ベクトルの時間的補間に基づく動的シーンの4次元時空間的神経放射場を訓練する新しい手法を提案する。 2つの特徴補間法は、基盤となる表現、ニューラルネットワークまたはグリッド表現に依存する。 ニューラル表現では、複数のニューラルネットワークモジュールを介して時空間入力から特徴を抽出し、時間フレームに基づいてそれらを補間する。 提案するマルチレベル特徴補間ネットワークは、短期的・長期的両方の特徴を効果的に捉える。 グリッド表現では、時空機能は4次元のハッシュグリッドを通して学習される。 グリッド表現はトレーニング時間を大幅に削減し、トレーニングされたモデルのレンダリング品質を維持しながら、ニューラルネットワークモデルよりも100$\times$以上高速である。 静的および動的特徴の連結と単純な滑らかさ項の追加により,提案モデルの性能がさらに向上する。 ネットワークアーキテクチャの単純さにもかかわらず,提案手法は従来のニューラル表現よりも優れた性能を示し,グリッド表現における最速のトレーニング速度を示す。

Temporal interpolation often plays a crucial role to learn meaningful representations in dynamic scenes. In this paper, we propose a novel method to train four-dimensional spatiotemporal neural radiance fields of dynamic scenes based on temporal interpolation of feature vectors. Two feature interpolation methods are suggested depending on underlying representations, neural or grid representation. In neural representation, we extract features from space-time inputs via multiple neural network modules and interpolate them based on time frames. The proposed multi-level feature interpolation network effectively captures features of both short-term and long-term time ranges. In grid representation, space-time features are learned via four-dimensional hash grids. The grid representation remarkably reduces training time, which is more than 100$\times$ faster compared to the neural network models, while maintaining the rendering quality of trained models. Concatenation of static and dynamic features and addition of simple smoothness term further improves the performance of the proposed models. Despite the simplicity of its network architecture, we demonstrate that the proposed method shows superior performance to previous works in neural representation and shows the fastest training speed in grid representation.
翻訳日:2023-02-21 19:24:12 公開日:2023-02-18
# エッジ上での人体活動の増分学習のための破滅的予測処理について

On Handling Catastrophic Forgetting for Incremental Learning of Human Physical Activity on the Edge ( http://arxiv.org/abs/2302.09310v1 )

ライセンス: Link先を確認
Jingwei Zuo, George Arvanitakis and Hakim Hacid(参考訳) 人間活動認識(HAR)は古典的な研究課題である。 特に、最近の機械学習(ML)技術では、認識タスクは企業によって主に調査され、顧客向けの製品に統合されている。 しかし、それらの多くは事前に定義されたアクティビティセットを適用し、クラウド上で学習プロセスを実行し、エンドユーザー(エッジデバイス)からの特定のパーソナライズを妨げる。 インクリメンタルラーニングの最近の進歩は、新しいクラスのデータをオンザフライで学習することを可能にするが、学習プロセスは一般的にクラウド上で行われ、クラウドとエッジデバイスの間で一定のデータ交換を必要とする。 本稿では,信頼性の高いデータプライバシと実用性(低処理遅延,パーソナライゼーションなど)を提供しながら,段階的な学習プロセスを極端に進めるPILOTEを提案する。 特に,エッジ上のインクリメンタルな学習プロセスにおいて,極めて限定的なデータの実用的課題を考える。 移動センサから収集した人間行動データに関する広範囲な実験を行い,パイロット検証を行った。 その結果,PILOTEは極めて限られたリソースを持つエッジデバイス上で動作し,信頼性の高い性能を実現することができた。

Human activity recognition (HAR) has been a classic research problem. In particular, with recent machine learning (ML) techniques, the recognition task has been largely investigated by companies and integrated into their products for customers. However, most of them apply a predefined activity set and conduct the learning process on the cloud, hindering specific personalizations from end users (i.e., edge devices). Even though recent progress in Incremental Learning allows learning new-class data on the fly, the learning process is generally conducted on the cloud, requiring constant data exchange between cloud and edge devices, thus leading to data privacy issues. In this paper, we propose PILOTE, which pushes the incremental learning process to the extreme edge, while providing reliable data privacy and practical utility, e.g., low processing latency, personalization, etc. In particular, we consider the practical challenge of extremely limited data during the incremental learning process on edge, where catastrophic forgetting is required to be handled in a practical way. We validate PILOTE with extensive experiments on human activity data collected from mobile sensors. The results show PILOTE can work on edge devices with extremely limited resources while providing reliable performance.
翻訳日:2023-02-21 19:23:55 公開日:2023-02-18
# クロスドメインFew-Shot学習のためのメタスタイル逆学習

Meta Style Adversarial Training for Cross-Domain Few-Shot Learning ( http://arxiv.org/abs/2302.09309v1 )

ライセンス: Link先を確認
Yuqian Fu, Yu Xie, Yanwei Fu, Yu-Gang Jiang(参考訳) Cross-Domain Few-Shot Learning (CD-FSL)は、最近登場したタスクであり、異なるドメインにわたる数ショットの学習に取り組む。 ソースデータセットで学んだ事前知識を新しいターゲットデータセットに転送することを目的としている。 CD-FSLタスクは、異なるデータセット間の大きなドメインギャップによって特に困難である。 批判的に言えば、このようなドメインギャップは実際には視覚的なスタイルの変化によるもので、Wave-SANは、ソースデータのスタイル分布を分散させることによってこの問題を軽減することを実証的に示します。 しかし、Wave-SANは単純に2つの画像のスタイルを交換する。 このようなバニラ操作により、生成されたスタイル ``real'' と ``easy'' は、まだソーススタイルの最初のセットに収まる。 そこで,CD-FSLでは,新しいモデルに依存しないメタスタイル逆行訓練(StyleAdv)法と,新しいスタイル逆行攻撃法が提案されている。 特に,本手法は,モデル学習のための「仮想」と「ハード」の両逆スタイルを合成する。 これは、署名されたスタイル勾配でオリジナルのスタイルを乱すことによって達成される。 継続的にスタイルを攻撃し、これらの困難な敵対的スタイルを認識することによって、我々のモデルは徐々にビジュアルスタイルに強固になり、新しいターゲットデータセットの一般化能力を高めます。 典型的なCNNベースのバックボーンの他に、大規模な事前学習型視覚変換器にもStyleAdv法を用いた。 8種類のターゲットデータセットを対象とした広範囲な実験を行い,本手法の有効性を示した。 ResNetでもViTでも、CD-FSLの新たな最先端を実現する。 コードとモデルがリリースされます。

Cross-Domain Few-Shot Learning (CD-FSL) is a recently emerging task that tackles few-shot learning across different domains. It aims at transferring prior knowledge learned on the source dataset to novel target datasets. The CD-FSL task is especially challenged by the huge domain gap between different datasets. Critically, such a domain gap actually comes from the changes of visual styles, and wave-SAN empirically shows that spanning the style distribution of the source data helps alleviate this issue. However, wave-SAN simply swaps styles of two images. Such a vanilla operation makes the generated styles ``real'' and ``easy'', which still fall into the original set of the source styles. Thus, inspired by vanilla adversarial learning, a novel model-agnostic meta Style Adversarial training (StyleAdv) method together with a novel style adversarial attack method is proposed for CD-FSL. Particularly, our style attack method synthesizes both ``virtual'' and ``hard'' adversarial styles for model training. This is achieved by perturbing the original style with the signed style gradients. By continually attacking styles and forcing the model to recognize these challenging adversarial styles, our model is gradually robust to the visual styles, thus boosting the generalization ability for novel target datasets. Besides the typical CNN-based backbone, we also employ our StyleAdv method on large-scale pretrained vision transformer. Extensive experiments conducted on eight various target datasets show the effectiveness of our method. Whether built upon ResNet or ViT, we achieve the new state of the art for CD-FSL. Codes and models will be released.
翻訳日:2023-02-21 19:23:36 公開日:2023-02-18
# シェープリーバンドによる適応型ソーシャルエクササイズにおけるフェアネスの改善

Improving Fairness in Adaptive Social Exergames via Shapley Bandits ( http://arxiv.org/abs/2302.09298v1 )

ライセンス: Link先を確認
Robert C. Gray, Jennifer Villareale, Thomas B. Fox, Diane H. Dallal, Santiago Onta\~n\'on, Danielle Arigo, Shahin Jabbari, Jichen Zhu(参考訳) AIが社会に統合されるにつれて、アルゴリズムの公正性は必須の要件である。 AIがリソースを配布するソーシャルアプリケーションの場合、アルゴリズムはしばしば、特定の結果の最大化を試みながら、ユーザーのサブセットに利益をもたらす決定をしなければならない。 ユーザに対して適切なサービスを提供するようなシステムを設計するにはどうすればよいのか? 本稿では,step heroesと呼ばれるソーシャルエクセルゲームにおいて,ユーザの集団が共通の目標に向かって作業する場合に,この疑問を考察する。 従来の多腕バンディット (mabs) における副作用を同定し, 欲欲バンディット問題を定式化する。 そこで我々は,新たなフェアネス対応マルチアームバンディットであるShapley Banditsを提案する。 グループアウトプットの最大化よりも、プレイヤ全体の参加と介入を増加させるためにシャプリー値を使用するが、これは伝統的にハイパフォーマンスな参加者のみを優先することで達成されている。 本手法をユーザ・スタディ(n=46)を用いて評価した。 以上の結果から,我々のShapley BanditsはGreedy Bandit Problemを効果的に仲介し,参加者間のユーザ維持とモチベーションの向上を実現している。

Algorithmic fairness is an essential requirement as AI becomes integrated in society. In the case of social applications where AI distributes resources, algorithms often must make decisions that will benefit a subset of users, sometimes repeatedly or exclusively, while attempting to maximize specific outcomes. How should we design such systems to serve users more fairly? This paper explores this question in the case where a group of users works toward a shared goal in a social exergame called Step Heroes. We identify adverse outcomes in traditional multi-armed bandits (MABs) and formalize the Greedy Bandit Problem. We then propose a solution based on a new type of fairness-aware multi-armed bandit, Shapley Bandits. It uses the Shapley Value for increasing overall player participation and intervention adherence rather than the maximization of total group output, which is traditionally achieved by favoring only high-performing participants. We evaluate our approach via a user study (n=46). Our results indicate that our Shapley Bandits effectively mediates the Greedy Bandit Problem and achieves better user retention and motivation across the participants.
翻訳日:2023-02-21 19:21:59 公開日:2023-02-18
# FrAug: 時系列予測のための周波数領域拡張

FrAug: Frequency Domain Augmentation for Time Series Forecasting ( http://arxiv.org/abs/2302.09292v1 )

ライセンス: Link先を確認
Muxi Chen, Zhijian Xu, Ailing Zeng, Qiang Xu(参考訳) データ拡張(DA)は、ディープラーニングのためのトレーニングデータサイズを拡張するデファクトソリューションになっています。 時系列解析のための深層モデルの普及に伴い, クロッピング法, ワーピング法, フリップ法, ミックスアップ法など, 様々な時系列da手法が文献に提案されている。 しかし,これらの拡張法は主に時系列分類や異常検出タスクに適用される。 時系列予測(TSF)では、時系列セグメント内の微粒な時間関係をモデル化し、ルックバックウィンドウで与えられたデータの正確な予測結果を生成する必要がある。 時間領域における既存のDAソリューションはそのような関係を破り、予測精度が低下する。 本稿では,予測における拡張データラベルペアの意味的一貫性を保証するため,簡易かつ効果的な周波数領域拡張手法であるfraugを提案する。 我々は、最先端のTSFディープモデルを用いて、広く使われている8つのベンチマークで広範な実験を行う。 その結果,ほとんどの場合,FrAugはTSFモデルの予測精度を高めることができることがわかった。 さらに,フルトレーニングデータでトレーニングされたモデルと同等の性能を達成するために,元のトレーニングデータの1\%でトレーニングされたモデルが利用可能であることを示し,コールドスタート予測に特に魅力的である。 最後に,fraugを用いたテストタイムトレーニングにより,実時間tsfアプリケーションで発生する分布変化が大きい時系列の予測精度が大幅に向上することを示す。 私たちのコードはhttps://anonymous.4open.science/r/fraug-more-results-1785で利用可能です。

Data augmentation (DA) has become a de facto solution to expand training data size for deep learning. With the proliferation of deep models for time series analysis, various time series DA techniques are proposed in the literature, e.g., cropping-, warping-, flipping-, and mixup-based methods. However, these augmentation methods mainly apply to time series classification and anomaly detection tasks. In time series forecasting (TSF), we need to model the fine-grained temporal relationship within time series segments to generate accurate forecasting results given data in a look-back window. Existing DA solutions in the time domain would break such a relationship, leading to poor forecasting accuracy. To tackle this problem, this paper proposes simple yet effective frequency domain augmentation techniques that ensure the semantic consistency of augmented data-label pairs in forecasting, named FrAug. We conduct extensive experiments on eight widely-used benchmarks with several state-of-the-art TSF deep models. Our results show that FrAug can boost the forecasting accuracy of TSF models in most cases. Moreover, we show that FrAug enables models trained with 1\% of the original training data to achieve similar performance to the ones trained on full training data, which is particularly attractive for cold-start forecasting. Finally, we show that applying test-time training with FrAug greatly improves forecasting accuracy for time series with significant distribution shifts, which often occurs in real-life TSF applications. Our code is available at https://anonymous.4open.science/r/Fraug-more-results-1785.
翻訳日:2023-02-21 19:21:38 公開日:2023-02-18
# 不均衡回帰のためのデータ拡張

Data Augmentation for Imbalanced Regression ( http://arxiv.org/abs/2302.09288v1 )

ライセンス: Link先を確認
Samuel Stocksieker and Denys Pommeret and Arthur Charpentier(参考訳) 本研究では,不均衡現象が連続的あるいは離散的共変量に関する場合の回帰フレームワークにおける不均衡データの問題を考える。 このような状況は見積もりのバイアスにつながる可能性がある。 本稿では、重み付き再サンプリング(WR)とデータ拡張(DA)処理を組み合わせたデータ拡張アルゴリズムを提案する。 最初のステップでは、DAプロシージャは、最初のステップよりも広いサポートを探索することができる。 第2のステップでは、wr法は、ターゲットに外因性分布を駆動する。 本稿では,このアプローチの利点を示す数値的研究を通じて,DA手法の選択について論じる。 最後に、アクチュエータ応用について研究する。

In this work, we consider the problem of imbalanced data in a regression framework when the imbalanced phenomenon concerns continuous or discrete covariates. Such a situation can lead to biases in the estimates. In this case, we propose a data augmentation algorithm that combines a weighted resampling (WR) and a data augmentation (DA) procedure. In a first step, the DA procedure permits exploring a wider support than the initial one. In a second step, the WR method drives the exogenous distribution to a target one. We discuss the choice of the DA procedure through a numerical study that illustrates the advantages of this approach. Finally, an actuarial application is studied.
翻訳日:2023-02-21 19:21:13 公開日:2023-02-18
# テンソル分解に基づくナレッジグラフの完成と疾患遺伝子予測

Knowledge Graph Completion based on Tensor Decomposition for Disease Gene Prediction ( http://arxiv.org/abs/2302.09335v1 )

ライセンス: Link先を確認
Xinyan Wang, Ting Jia, Chongyu Wang, Kuan Xu, Zixin Shu, Kuo Yang, Xuezhong Zhou(参考訳) 疾患遺伝子の正確な同定は、疾患の分子機構を解読するための鍵の1つである。 現在のアプローチのほとんどは、生体ネットワークの構築と機械学習、特に深層学習による疾患遺伝子同定に焦点を当てているが、生物学的知識グラフにおけるエンティティ間の複雑な関係を無視している。 本稿では、疾患や遺伝子を中心とした生物学的知識グラフを構築し、相互作用テンソル分解(KDGene)を用いた疾患遺伝子予測のためのエンドツーエンド知識グラフ補完モデルを開発する。 KDGeneは、実体の埋め込みとテンソル分解との関係の間の相互作用モジュールを導入し、生物学的知識における情報相互作用を効果的に強化する。 実験の結果,KDGeneは最先端のアルゴリズムよりも優れていた。 さらに、糖尿病の包括的生物学的解析により、kdgeneが新規かつ正確な候補遺伝子を同定する能力が確認された。 本研究は,病気候補遺伝子を同定するためのスケーラブルな知識グラフ補完フレームワークを提案する。

Accurate identification of disease genes has consistently been one of the keys to decoding a disease's molecular mechanism. Most current approaches focus on constructing biological networks and utilizing machine learning, especially, deep learning to identify disease genes, but ignore the complex relations between entities in the biological knowledge graph. In this paper, we construct a biological knowledge graph centered on diseases and genes, and develop an end-to-end Knowledge graph completion model for Disease Gene Prediction using interactional tensor decomposition (called KDGene). KDGene introduces an interaction module between the embeddings of entities and relations to tensor decomposition, which can effectively enhance the information interaction in biological knowledge. Experimental results show that KDGene significantly outperforms state-of-the-art algorithms. Furthermore, the comprehensive biological analysis of the case of diabetes mellitus confirms KDGene's ability for identifying new and accurate candidate genes. This work proposes a scalable knowledge graph completion framework to identify disease candidate genes, from which the results are promising to provide valuable references for further wet experiments.
翻訳日:2023-02-21 19:14:34 公開日:2023-02-18
# 大規模マルチエージェント環境における非随伴性神経進化の生態進化ダイナミクス

Eco-evolutionary Dynamics of Non-episodic Neuroevolution in Large Multi-agent Environments ( http://arxiv.org/abs/2302.09334v1 )

ライセンス: Link先を確認
Hamon Gautier and Eleni Nisioti and Cl\'ement Moulin-Frier(参考訳) neuroevolution (ne) は強化学習タスクにおける勾配降下による学習の競争的代替手段であることが最近証明された。 However, the majority of NE methods and associated simulation environments differ crucially from biological evolution: the environment is reset to initial conditions at the end of each generation, whereas natural environments are continuously modified by their inhabitants; agents reproduce based on their ability to maximize rewards within a population, while biological organisms reproduce and die based on internal physiological variables that depend on their resource consumption; simulation environments are primarily single-agent while the biological world is inherently multi-agent and evolves alongside the population. 本研究では,環境や人口のリセットを伴わない適応剤を継続的に進化させる手法を提案する。 環境は複雑な時空間資源の生成を伴う大きなグリッドの世界であり、進化可能なリカレントニューラルネットワークによって制御され、その内部生理に基づいて局所的に再生される多くのエージェントを含んでいる。 システム全体がjaxで実装されており、gpu上で非常に高速にシミュレーションできる。 NEは、生態学的に有意な非エポゾディックなマルチエージェント環境で動作できることを示し、生態学と進化学の複雑な相互作用の存在下で持続的な集団捕食戦略を見出した。

Neuroevolution (NE) has recently proven a competitive alternative to learning by gradient descent in reinforcement learning tasks. However, the majority of NE methods and associated simulation environments differ crucially from biological evolution: the environment is reset to initial conditions at the end of each generation, whereas natural environments are continuously modified by their inhabitants; agents reproduce based on their ability to maximize rewards within a population, while biological organisms reproduce and die based on internal physiological variables that depend on their resource consumption; simulation environments are primarily single-agent while the biological world is inherently multi-agent and evolves alongside the population. In this work we present a method for continuously evolving adaptive agents without any environment or population reset. The environment is a large grid world with complex spatiotemporal resource generation, containing many agents that are each controlled by an evolvable recurrent neural network and locally reproduce based on their internal physiology. The entire system is implemented in JAX, allowing very fast simulation on a GPU. We show that NE can operate in an ecologically-valid non-episodic multi-agent setting, finding sustainable collective foraging strategies in the presence of a complex interplay between ecological and evolutionary dynamics.
翻訳日:2023-02-21 19:14:19 公開日:2023-02-18
# フロントエンドアダプタ:音声認識のための音声ベース自己教師付き学習のフロントエンド入力適応

Front-End Adapter: Adapting Front-End Input of Speech based Self-Supervised Learning for Speech Recognition ( http://arxiv.org/abs/2302.09331v1 )

ライセンス: Link先を確認
Xie Chen, Ziyang Ma, Changli Tang, Yujin Wang, Zhisheng Zheng(参考訳) 近年,音声処理を含む様々な分野で,自己教師型学習(SSL)のブームが見られた。 音声ベースのSSLモデルは、様々な音声関連タスクで有望なパフォーマンスを示す。 しかし、SSLモデルのトレーニングは計算コストが高く、特定のタスクでリリースされたSSLモデルを微調整することが一般的な方法である。 事前トレーニングと微調整の間、一貫したフロントエンド入力を使用することが不可欠である。 この一貫性は、最適なフロントエンドが事前トレーニングで使用されるものと同じでない場合に潜在的な問題を引き起こす可能性がある。 本稿では,このフロントエンドの相違に対処する,シンプルで効果的なフロントエンドアダプタを提案する。 異なるフロントエンドの出力間の距離を最小化することにより、フィルタバンク機能(Fbank)は、波形で事前訓練されたSSLモデルと互換性を持つことができる。 実験の結果,音声認識タスクのためのSSLモデルに対するフロントエンドアダプタの有効性が示された。

Recent years have witnessed a boom in self-supervised learning (SSL) in various areas including speech processing. Speech based SSL models present promising performance in a range of speech related tasks. However, the training of SSL models is computationally expensive and a common practice is to fine-tune a released SSL model on the specific task. It is essential to use consistent front-end input during pre-training and fine-tuning. This consistency may introduce potential issues when the optimal front-end is not the same as that used in pre-training. In this paper, we propose a simple but effective front-end adapter to address this front-end discrepancy. By minimizing the distance between the outputs of different front-ends, the filterbank feature (Fbank) can be compatible with SSL models which are pre-trained with waveform. The experiment results demonstrate the effectiveness of our proposed front-end adapter on several popular SSL models for the speech recognition task.
翻訳日:2023-02-21 19:14:03 公開日:2023-02-18
# Transformadores:Fundamentos teoricos y Aplicaciones

Transformadores: Fundamentos teoricos y Aplicaciones ( http://arxiv.org/abs/2302.09327v1 )

ライセンス: Link先を確認
Jordi de la Torre(参考訳) トランスフォーマー(transformers)は、もともと自然言語処理のために設計されたニューラルネットワークアーキテクチャであり、現在では、自然言語処理、音声、画像、強化学習、その他の異種入力データを用いた様々な問題を解決するための主流ツールとなっている。 その特徴的な特徴は、以前に導入された注意システムから派生した自分自身のシーケンスへの注意に基づく自己着脱システムである。 本稿では、最新の研究論文を理解するために必要なコンテキストを読者に提供するとともに、このタイプのネットワークを構成する要素の数学的およびアルゴリズム的基礎について述べる。 このアーキテクチャを構成する異なるコンポーネントと、存在するかもしれないバリエーションも研究され、トランスフォーマーモデルの応用も研究されている。 この論文は、スペイン語圏のコミュニティに科学的知識をもたらすためにスペイン語で書かれている。

Transformers are a neural network architecture originally designed for natural language processing that it is now a mainstream tool for solving a wide variety of problems, including natural language processing, sound, image, reinforcement learning, and other problems with heterogeneous input data. Its distinctive feature is its self-attention system, based on attention to one's own sequence, which derives from the previously introduced attention system. This article provides the reader with the necessary context to understand the most recent research articles and presents the mathematical and algorithmic foundations of the elements that make up this type of network. The different components that make up this architecture and the variations that may exist are also studied, as well as some applications of the transformer models. This article is in Spanish to bring this scientific knowledge to the Spanish-speaking community.
翻訳日:2023-02-21 19:13:49 公開日:2023-02-18
# ファウショット学習のための適応型プラグアンドプレイネットワーク

An Adaptive Plug-and-Play Network for Few-Shot Learning ( http://arxiv.org/abs/2302.09326v1 )

ライセンス: Link先を確認
Hao Li, Li Li, Yunmeng Huang, Ning Li and Yongtao Zhang(参考訳) FSL(Few-shot Learning)は、少数のサンプルから学んだ後に新しいサンプルを分類するモデルを必要とする。 既存の手法では顕著な結果が得られるが、埋め込みとメトリクスのパフォーマンスはFSLにおける分類精度の上限を決定する。 ボトルネックは、深いネットワークと複雑なメトリクスがFSLの過度な適合を招きやすいため、パフォーマンスをさらに向上することは困難である。 そこで本研究では,プラグイン・アンド・プレイ型モデル適応型リサイザ (MAR) と適応類似度指標 (ASM) を,その他の損失なく提案する。 MARはデータの不足に起因する過度な問題を軽減するために高解像度の詳細を保持し、ASMは異なるメトリクス間の関係を分離し、それらを高度なものに融合する。 大規模な実験により,提案手法は2つの標準データセットと細粒度データセットの既存手法を向上し,Mini-ImageNetとタイレッド-ImageNetの最先端結果が得られることが示された。

Few-shot learning (FSL) requires a model to classify new samples after learning from only a few samples. While remarkable results are achieved in existing methods, the performance of embedding and metrics determines the upper limit of classification accuracy in FSL. The bottleneck is that deep networks and complex metrics tend to induce overfitting in FSL, making it difficult to further improve the performance. Towards this, we propose plug-and-play model-adaptive resizer (MAR) and adaptive similarity metric (ASM) without any other losses. MAR retains high-resolution details to alleviate the overfitting problem caused by data scarcity, and ASM decouples the relationship between different metrics and then fuses them into an advanced one. Extensive experiments show that the proposed method could boost existing methods on two standard dataset and a fine-grained datasets, and achieve state-of-the-art results on mini-ImageNet and tiered-ImageNet.
翻訳日:2023-02-21 19:13:35 公開日:2023-02-18
# テキスト文書からの高精度情報抽出のためのヒューマンマシン協調の最適化

Optimising Human-Machine Collaboration for Efficient High-Precision Information Extraction from Text Documents ( http://arxiv.org/abs/2302.09324v1 )

ライセンス: Link先を確認
Bradley Butcher, Miri Zilka, Darren Cook, Jiri Hron and Adrian Weller(参考訳) 人間は高精度で構造化されていないテキストから情報を抽出できるが、実際は時間がかかりすぎる。 一方、自動化されたアプローチは、ほぼ瞬時に結果を生成するが、精度が不可欠である高精度なアプリケーションには十分ではないかもしれない。 本研究では,人間専用,人間専用,機械専用の情報抽出手法の利点と欠点について考察する。 我々は,高精度な手作業による抽出が不可能なアプリケーションにおいて,ループ型アプローチの有用性を論じる。 弱スーパービジョンラベリングと人間の検証を用いた情報抽出のためのフレームワークと付属ツールを提案する。 3つの刑事司法データセットに対する我々のアプローチを実証する。 コンピュータの速度と人間の理解の組み合わせは、わずかな時間しか必要とせず、手動のアノテーションに匹敵する精度を示し、精度の点で完全に自動化されたベースラインを著しく上回っている。

While humans can extract information from unstructured text with high precision and recall, this is often too time-consuming to be practical. Automated approaches, on the other hand, produce nearly-immediate results, but may not be reliable enough for high-stakes applications where precision is essential. In this work, we consider the benefits and drawbacks of various human-only, human-machine, and machine-only information extraction approaches. We argue for the utility of a human-in-the-loop approach in applications where high precision is required, but purely manual extraction is infeasible. We present a framework and an accompanying tool for information extraction using weak-supervision labelling with human validation. We demonstrate our approach on three criminal justice datasets. We find that the combination of computer speed and human understanding yields precision comparable to manual annotation while requiring only a fraction of time, and significantly outperforms fully automated baselines in terms of precision.
翻訳日:2023-02-21 19:13:17 公開日:2023-02-18
# 脳機能データのためのhodge-laplacianによる不均一グラフ畳み込みニューラルネットワーク

Heterogeneous Graph Convolutional Neural Network via Hodge-Laplacian for Brain Functional Data ( http://arxiv.org/abs/2302.09323v1 )

ライセンス: Link先を確認
Jinghan Huang, Moo K. Chung, Anqi Qiu(参考訳) 本研究は,脳の複雑なfMRIデータを地域間および地域間レベルで処理するヘテロジニアスグラフ畳み込みニューラルネットワーク(HGCNN)を提案する。 ヘテロジニアスグラフ上のスペクトルフィルタの一般的な定式化には、$k-th$ Hodge-Laplacian (HL) 演算子を導入する。 特に、HLスペクトルフィルタのラゲール多項式近似を提案し、グラフ上の空間的局在が多項式次数に関係していることを証明する。 さらに, 単純グラフ上の境界作用素の単射性に基づき, 任意の次元単純グラフにおいて使用可能な一般トポロジカルグラフプーリング(tgpool)法を導入する。 本研究では, HLノード, HLエッジ, HL-HGCNNニューラルネットワークを設計し, それぞれグラフノード, エッジレベル, 両方で信号表現を学習する。 青年期脳認知発達(abcd; n=7693)のfmriを用いて一般知性を予測する実験を行った。 本研究は,機能的脳機能接続を特徴とするHLノードネットワークに対するHLエッジネットワークの利点を示すものである。 HL-HGCNNは、GAT、BrainGNN、dGCN、BrainNetCNN、Hypergraph NNなどの最先端グラフニューラルネットワーク(GNN)アプローチよりも優れている。 HL-HGCNNから学んだ機能接続機能は、汎用インテリジェンスに関連するニューラルネットワークの解釈に意義がある。

This study proposes a novel heterogeneous graph convolutional neural network (HGCNN) to handle complex brain fMRI data at regional and across-region levels. We introduce a generic formulation of spectral filters on heterogeneous graphs by introducing the $k-th$ Hodge-Laplacian (HL) operator. In particular, we propose Laguerre polynomial approximations of HL spectral filters and prove that their spatial localization on graphs is related to the polynomial order. Furthermore, based on the bijection property of boundary operators on simplex graphs, we introduce a generic topological graph pooling (TGPool) method that can be used at any dimensional simplices. This study designs HL-node, HL-edge, and HL-HGCNN neural networks to learn signal representation at a graph node, edge levels, and both, respectively. Our experiments employ fMRI from the Adolescent Brain Cognitive Development (ABCD; n=7693) to predict general intelligence. Our results demonstrate the advantage of the HL-edge network over the HL-node network when functional brain connectivity is considered as features. The HL-HGCNN outperforms the state-of-the-art graph neural networks (GNNs) approaches, such as GAT, BrainGNN, dGCN, BrainNetCNN, and Hypergraph NN. The functional connectivity features learned from the HL-HGCNN are meaningful in interpreting neural circuits related to general intelligence.
翻訳日:2023-02-21 19:13:00 公開日:2023-02-18
# 単クラス三角形グローバルアライメントカーネル極端学習マシンによるUAV状態データの異常検出

Anomaly Detection of UAV State Data Based on Single-class Triangular Global Alignment Kernel Extreme Learning Machine ( http://arxiv.org/abs/2302.09320v1 )

ライセンス: Link先を確認
Feisha Hu, Qi Wang, Haijian Shao, Shang Gao and Hualong Yu(参考訳) 無人航空機(UAV)は広く使われ、軍用および民間の分野で多くの要求に応えている。 アプリケーションシナリオの継続的な拡張と拡張により、UAVの安全性は常に課題となっている。 この課題に対処するために,ドローンから収集した異常なデータを検出するアルゴリズムを提案する。 ドローンデータ中の異常を検出するために,一級カーネル極端学習マシン(OCKELM)をデプロイした。 デフォルトでは、OCKELMはラジアル基底(RBF)カーネル関数をモデルのカーネル関数として使用する。 OCKELMの性能向上のために,RBFカーネルの代わりに三角形グローバルアライメントカーネル(TGAK)を選択し,UAVデータを再構成するためのFast Independent Component Analysis(FastICA)アルゴリズムを導入する。 以上の改良に基づき,新しい異常検出戦略であるFastICA-TGAK-OCELMを作成する。 最終的にUCIデータセットで検証され、航空実験室故障・異常(ALFA)データセットで検出される。 実験の結果, 他の手法と比較して, 本手法の精度は30%以上向上し, 点異常を効果的に検出できることがわかった。

Unmanned Aerial Vehicles (UAVs) are widely used and meet many demands in military and civilian fields. With the continuous enrichment and extensive expansion of application scenarios, the safety of UAVs is constantly being challenged. To address this challenge, we propose algorithms to detect anomalous data collected from drones to improve drone safety. We deployed a one-class kernel extreme learning machine (OCKELM) to detect anomalies in drone data. By default, OCKELM uses the radial basis (RBF) kernel function as the kernel function of the model. To improve the performance of OCKELM, we choose a Triangular Global Alignment Kernel (TGAK) instead of an RBF Kernel and introduce the Fast Independent Component Analysis (FastICA) algorithm to reconstruct UAV data. Based on the above improvements, we create a novel anomaly detection strategy FastICA-TGAK-OCELM. The method is finally validated on the UCI dataset and detected on the Aeronautical Laboratory Failures and Anomalies (ALFA) dataset. The experimental results show that compared with other methods, the accuracy of this method is improved by more than 30%, and point anomalies are effectively detected.
翻訳日:2023-02-21 19:12:34 公開日:2023-02-18
# MAILS -- Meta AIリテラシー尺度: 十分に確立された能力モデルと心理的変化とメタ能力に基づくAIリテラシーアンケートの開発とテスト

MAILS -- Meta AI Literacy Scale: Development and Testing of an AI Literacy Questionnaire Based on Well-Founded Competency Models and Psychological Change- and Meta-Competencies ( http://arxiv.org/abs/2302.09319v1 )

ライセンス: Link先を確認
Astrid Carolus, Martin Koch, Samantha Straka, Marc Erich Latoschik, Carolin Wienrich(参考訳) 本研究の目的は,AIリテラシーを評価するためのアンケートの開発と評価である。 特に、aiリテラシーに関する既存の文献に深く根ざし、目標やユースケースに応じて職業生活に柔軟に適用できるようなモジュラー(つまり、相互に独立して使用できる異なる顔を含む)で、心理的要件を満たし、ailの典型的な顔に加えて心理的能力を高める必要がある。 Ngによると、AIリテラシーの異なる側面を表すために60項目を抽出し、AIリテラシーの概念化と、AIに関する問題解決、学習、感情規制といった心理的能力を表す12項目を追加しました。 この目的のために、300人のドイツ語話者からデータをオンラインで収集した。 確認因子分析における因子構造について検討した。 その結果、AIのリテラシーをAIの使用と応用、AIの理解、AIの検出、AI倫理、AIを独立した構成として作成する能力、学習と問題解決とAIのセルフマネジメントでAIの自己効力を測定する測定器が作られた。 本研究は,aiリテラシーの研究に,高度な能力モデルに基づく計測器を提供することによって貢献する。 さらに、AIシステムによる広汎な変化の文脈において特に重要な高次心理学的能力も含んでいる。

The goal of the present paper is to develop and validate a questionnaire to assess AI literacy. In particular, the questionnaire should be deeply grounded in the existing literature on AI literacy, should be modular (i.e., including different facets that can be used independently of each other) to be flexibly applicable in professional life depending on the goals and use cases, and should meet psychological requirements and thus includes further psychological competencies in addition to the typical facets of AIL. We derived 60 items to represent different facets of AI Literacy according to Ng and colleagues conceptualisation of AI literacy and additional 12 items to represent psychological competencies such as problem solving, learning, and emotion regulation in regard to AI. For this purpose, data were collected online from 300 German-speaking adults. The items were tested for factorial structure in confirmatory factor analyses. The result is a measurement instrument that measures AI literacy with the facets Use & apply AI, Understand AI, Detect AI, and AI Ethics and the ability to Create AI as a separate construct, and AI Self-efficacy in learning and problem solving and AI Self-management. This study contributes to the research on AI literacy by providing a measurement instrument relying on profound competency models. In addition, higher-order psychological competencies are included that are particularly important in the context of pervasive change through AI systems.
翻訳日:2023-02-21 19:12:15 公開日:2023-02-18
# モダリティアライメントと重要度強化による効果的なマルチモーダル強化学習

Effective Multimodal Reinforcement Learning with Modality Alignment and Importance Enhancement ( http://arxiv.org/abs/2302.09318v1 )

ライセンス: Link先を確認
Jinming Ma and Feng Wu and Yingfeng Chen and Xianpeng Ji and Yu Ding(参考訳) 多くの現実世界のアプリケーションは、マルチモーダル情報(例えば、マルチ感覚入力を持つロボット)で堅牢で意図的な決定を行うエージェントを必要とする。 しかし, 異質性や異なるモードの動的重要性のため, 強化学習(RL)によるエージェントの訓練は非常に困難である。 具体的には,従来のRL手法では,マルチモーダル情報を用いたエンドツーエンドトレーニングにおいて,有用な状態表現の学習が困難であることを示す。 そこで本研究では,RLタスクの類似性や重要性に応じて,マルチモーダルアライメントと重要度向上を実現する,新しいマルチモーダルRL手法を提案する。 これにより、有効な状態表現を学習し、RLトレーニングプロセスを改善することができる。 我々は,複数のマルチモーダルRLドメインに対して,学習速度と政策品質の点で最先端の手法より優れていることを示す。

Many real-world applications require an agent to make robust and deliberate decisions with multimodal information (e.g., robots with multi-sensory inputs). However, it is very challenging to train the agent via reinforcement learning (RL) due to the heterogeneity and dynamic importance of different modalities. Specifically, we observe that these issues make conventional RL methods difficult to learn a useful state representation in the end-to-end training with multimodal information. To address this, we propose a novel multimodal RL approach that can do multimodal alignment and importance enhancement according to their similarity and importance in terms of RL tasks respectively. By doing so, we are able to learn an effective state representation and consequentially improve the RL training process. We test our approach on several multimodal RL domains, showing that it outperforms state-of-the-art methods in terms of learning speed and policy quality.
翻訳日:2023-02-21 19:11:48 公開日:2023-02-18
# Autocodificadores Variacionales (VAE) Fundamentos Te\'oricos y Aplicaciones

Autocodificadores Variacionales (VAE) Fundamentos Te\'oricos y Aplicaciones ( http://arxiv.org/abs/2302.09363v1 )

ライセンス: Link先を確認
Jordi de la Torre(参考訳) vaesはニューラルネットワークに基づく確率論的グラフィカルモデルであり、より単純な確率分布によって形成された潜在空間における入力データの符号化と、そのような潜在変数に基づく再構成を可能にする。 トレーニング後、デコーダと呼ばれる再構成ネットワークは、理想的には元のものと等しい密分布に属する新しい要素を生成することができる。 この記事はスペイン語で書かれており、この科学的知識がスペイン語圏のコミュニティにもたらされるようにしている。

VAEs are probabilistic graphical models based on neural networks that allow the coding of input data in a latent space formed by simpler probability distributions and the reconstruction, based on such latent variables, of the source data. After training, the reconstruction network, called decoder, is capable of generating new elements belonging to a close distribution, ideally equal to the original one. This article has been written in Spanish to facilitate the arrival of this scientific knowledge to the Spanish-speaking community.
翻訳日:2023-02-21 19:06:00 公開日:2023-02-18
# 領域一般化を伴う環境変化におけるレーダエミッタ認識に向けて

Towards Radar Emitter Recognition in Changing Environments with Domain Generalization ( http://arxiv.org/abs/2302.09359v1 )

ライセンス: Link先を確認
Honglin Wu, Xueqiong Li, Long Lan, Liyang Xu, Yuhua Tang(参考訳) Analyzing radar signals from complex Electronic Warfare (EW) environment is a non-trivial task.However, in the real world, the changing EW environment results in inconsistent signal distribution, such as the pulse repetition interval (PRI) mismatch between different detected scenes.In this paper, we propose a novel domain generalization framework to improve the adaptability of signal recognition in changing environments.Specifically, we first design several noise generators to simulate varied scenes. 従来の拡張手法と異なり,検出した信号の多様性を慎重に向上するとともに,信号の意味的特徴も維持する。 さらに, 逆学習の手法で機能する信号シーン領域分類器を提案する。 提案する分類器は、信号予測器が異なるシーンに一般化することを保証している。 広範な比較実験により,提案手法の優越性が証明された。

Analyzing radar signals from complex Electronic Warfare (EW) environment is a non-trivial task.However, in the real world, the changing EW environment results in inconsistent signal distribution, such as the pulse repetition interval (PRI) mismatch between different detected scenes.In this paper, we propose a novel domain generalization framework to improve the adaptability of signal recognition in changing environments.Specifically, we first design several noise generators to simulate varied scenes. Different from conventional augmentation methods, our introduced generators carefully enhance the diversity of the detected signals and meanwhile maintain the semantic features of the signals. Moreover, we propose a signal scene domain classifier that works in the manner of adversarial learning. The proposed classifier guarantees the signal predictor to generalize to different scenes. Extensive comparative experiments prove the proposed method's superiority.
翻訳日:2023-02-21 19:05:49 公開日:2023-02-18
# オンラインインストゥルメンタル変数回帰:後悔分析とバンディットフィードバック

Online Instrumental Variable Regression: Regret Analysis and Bandit Feedback ( http://arxiv.org/abs/2302.09357v1 )

ライセンス: Link先を確認
Riccardo Della Vecchia, Debabrota Basu(参考訳) ノイズと共変量の独立性はオンライン線形回帰と線形バンディット文学における標準的な仮定である。 この仮定と以下の分析は、内在性の場合、すなわち、雑音と共変量が相関している場合に無効である。 本稿では,楽器変数(IV)回帰のオンライン設定について検討する。 具体的には、オンライン環境でのIV回帰に対する2段階最小二乗法(2SLS)アプローチを分析・上界後悔する。 分析の結果,オンライン2SLS (O2SLS) が$O(d^2 \log^2 T)$ regret, $T$インタラクションの後, d は共変量次元であることがわかった。 その後、O2SLSをオラクルとして活用し、線形帯域幅アルゴリズム OFUL-IV を設計する。 OFUL-IV は内在性に取り組み、$O(d \sqrt{T} \log T)$ regret を達成する。 内在性のあるデータセットに対しては,オンライン線形回帰と線形帯域設定の両面において,O2SLSとOFUL-IVが最先端のアルゴリズムよりも後悔度が低いことを示す。

The independence of noise and covariates is a standard assumption in online linear regression and linear bandit literature. This assumption and the following analysis are invalid in the case of endogeneity, i.e., when the noise and covariates are correlated. In this paper, we study the online setting of instrumental variable (IV) regression, which is widely used in economics to tackle endogeneity. Specifically, we analyse and upper bound regret of Two-Stage Least Squares (2SLS) approach to IV regression in the online setting. Our analysis shows that Online 2SLS (O2SLS) achieves $O(d^2 \log^2 T)$ regret after $T$ interactions, where d is the dimension of covariates. Following that, we leverage the O2SLS as an oracle to design OFUL-IV, a linear bandit algorithm. OFUL-IV can tackle endogeneity and achieves $O(d \sqrt{T} \log T)$ regret. For datasets with endogeneity, we experimentally demonstrate that O2SLS and OFUL-IV incur lower regrets than the state-of-the-art algorithms for both the online linear regression and linear bandit settings.
翻訳日:2023-02-21 19:05:39 公開日:2023-02-18
# maxgnr:マルチタスク学習のための勾配-雑音比最大化による動的重み付け戦略

MaxGNR: A Dynamic Weight Strategy via Maximizing Gradient-to-Noise Ratio for Multi-Task Learning ( http://arxiv.org/abs/2302.09352v1 )

ライセンス: Link先を確認
Caoyun Fan, Wenqing Chen, Jidong Tian, Yitian Li, Hao He, Yaohui Jin(参考訳) コンピュータビジョンにおける関連タスクをモデル化する場合、タスク間の固有の関連性を捉える能力により、マルチタスク学習(MTL)はシングルタスク学習(STL)より優れている。 しかし、MTLは訓練に不十分な問題、すなわち、MTLのタスクは、STLと比較して最適でない状況に遭遇する可能性がある。 一連の研究は、過度に勾配ノイズがSTLの性能劣化を引き起こすことを指摘しているが、MTLシナリオでは、タスク間勾配ノイズ(ITGN)は各タスクに対する勾配ノイズの付加源であり、最適化プロセスにも影響を及ぼす可能性がある。 本稿では、ITGNがトレーニングの不十分な問題に繋がる重要な要因であると指摘する。 グラディエント・トゥ・ノイズ比(GNR)を定義し、勾配雑音の相対的な大きさを測定し、マックスGNRアルゴリズムを設計し、各タスクのGNRを最大化することで各タスクのITGN干渉を軽減する。 我々は、標準画像MTLデータセットであるNYUv2とCityscapesで、MaxGNRアルゴリズムを慎重に評価する。 その結果,本アルゴリズムは,同じ実験条件下でのベースラインよりも優れていた。

When modeling related tasks in computer vision, Multi-Task Learning (MTL) can outperform Single-Task Learning (STL) due to its ability to capture intrinsic relatedness among tasks. However, MTL may encounter the insufficient training problem, i.e., some tasks in MTL may encounter non-optimal situation compared with STL. A series of studies point out that too much gradient noise would lead to performance degradation in STL, however, in the MTL scenario, Inter-Task Gradient Noise (ITGN) is an additional source of gradient noise for each task, which can also affect the optimization process. In this paper, we point out ITGN as a key factor leading to the insufficient training problem. We define the Gradient-to-Noise Ratio (GNR) to measure the relative magnitude of gradient noise and design the MaxGNR algorithm to alleviate the ITGN interference of each task by maximizing the GNR of each task. We carefully evaluate our MaxGNR algorithm on two standard image MTL datasets: NYUv2 and Cityscapes. The results show that our algorithm outperforms the baselines under identical experimental conditions.
翻訳日:2023-02-21 19:05:19 公開日:2023-02-18
# BERTは数ではない - 数学的ステートメントと証明を一致させる学習

BERT is not The Count: Learning to Match Mathematical Statements with Proofs ( http://arxiv.org/abs/2302.09350v1 )

ライセンス: Link先を確認
Weixian Waylon Li, Yftah Ziser, Maximin Coavoux and Shay B. Cohen(参考訳) 与えられた数学的文に証明を一致させるタスクを導入する。 このタスクは、数学情報検索に関する現在の研究や、より一般的には数学的論文分析(Mathematical Sciences, 2014)に適合する。 現代数学研究論文から抽出した180k以上の文対からなるタスク用データセット(MATcHデータセット)を提案する。 このデータセットは、数学者にとって比較的新しい発見から成り立っているので、我々のタスクを非常に代表しています。 本稿では,文と証明を効果的にマッチングする双線形類似モデルと2つの復号法を提案する。 第1の復号法は、他の文や証明を知らずに証明とステートメントを一致させるが、第2の方法は、タスクをグローバルなマッチング問題として扱う。 記号置換手順を通じて,事前学習された言語モデルが持つ「洞察」を数学的論文分析で分析し,これらのモデルが最良な平均相互ランク73.7のタスクでうまく機能するのに対し,比較的浅い記号解析とマッチングによってその性能を達成することを示す。

We introduce a task consisting in matching a proof to a given mathematical statement. The task fits well within current research on Mathematical Information Retrieval and, more generally, mathematical article analysis (Mathematical Sciences, 2014). We present a dataset for the task (the MATcH dataset) consisting of over 180k statement-proof pairs extracted from modern mathematical research articles. We find this dataset highly representative of our task, as it consists of relatively new findings useful to mathematicians. We propose a bilinear similarity model and two decoding methods to match statements to proofs effectively. While the first decoding method matches a proof to a statement without being aware of other statements or proofs, the second method treats the task as a global matching problem. Through a symbol replacement procedure, we analyze the "insights" that pre-trained language models have in such mathematical article analysis and show that while these models perform well on this task with the best performing mean reciprocal rank of 73.7, they follow a relatively shallow symbolic analysis and matching to achieve that performance.
翻訳日:2023-02-21 19:04:58 公開日:2023-02-18
# 畳み込みスパース符号化による閉ループ転写

Closed-Loop Transcription via Convolutional Sparse Coding ( http://arxiv.org/abs/2302.09347v1 )

ライセンス: Link先を確認
Xili Dai, Ke Chen, Shengbang Tong, Jingyuan Zhang, Xingjian Gao, Mingyang Li, Druv Pai, Yuexiang Zhai, XIaojun Yuan, Heung-Yeung Shum, Lionel M. Ni, Yi Ma(参考訳) オートエンコーディングは、自然画像の生成モデルを学ぶためのフレームワークとして、経験的な成功を収めてきた。 オートエンコーダはしばしばエンコーダやデコーダとして汎用的なディープネットワークを使用し、解釈が困難であり、学習された表現には明確な構造がない。 本研究では,多段階のスパースデコンボリューションから画像分布が生成されることを明確に仮定する。 エンコーダとして使用する対応する逆写像は多段畳み込みスパース符号化(CSC)であり、対応する(凸化された)スパース符号化プログラムを解くための最適化アルゴリズムの展開から得られる。 実画像と生成画像の分布距離を最小化する計算の難しさを避けるため,学習したスパース表現のレート低減を最適化する最近のクローズドループ転写(ctrl)フレームワークを利用する。 提案手法は,拡散モデルなどのスコアマッチング手法と高レベルな接続を持つ。 実験的な手法として,ImageNet-1Kのような大規模データセット上での競合性能を,公正な条件下での既存のオートエンコーディングや生成手法と比較して実証した。 より単純なネットワークと少ない計算資源を用いても,再生画像の視覚的品質が向上することを示す。 さらに驚くことに、学習されたautoencoderは、未発見のデータセットでうまく動作します。 提案手法は, より構造化され, 解釈可能な表現, より安定した収束, 大規模データセットのスケーラビリティなど, 様々なメリットを享受する。 本手法は,大規模自然画像データセットの分布をモデル化するための解釈可能かつ効果的なオートエンコーダとして,多重畳み込み・スパース符号化層の結合が導かれることを示す最初の方法である。

Autoencoding has achieved great empirical success as a framework for learning generative models for natural images. Autoencoders often use generic deep networks as the encoder or decoder, which are difficult to interpret, and the learned representations lack clear structure. In this work, we make the explicit assumption that the image distribution is generated from a multi-stage sparse deconvolution. The corresponding inverse map, which we use as an encoder, is a multi-stage convolution sparse coding (CSC), with each stage obtained from unrolling an optimization algorithm for solving the corresponding (convexified) sparse coding program. To avoid computational difficulties in minimizing distributional distance between the real and generated images, we utilize the recent closed-loop transcription (CTRL) framework that optimizes the rate reduction of the learned sparse representations. Conceptually, our method has high-level connections to score-matching methods such as diffusion models. Empirically, our framework demonstrates competitive performance on large-scale datasets, such as ImageNet-1K, compared to existing autoencoding and generative methods under fair conditions. Even with simpler networks and fewer computational resources, our method demonstrates high visual quality in regenerated images. More surprisingly, the learned autoencoder performs well on unseen datasets. Our method enjoys several side benefits, including more structured and interpretable representations, more stable convergence, and scalability to large datasets. Our method is arguably the first to demonstrate that a concatenation of multiple convolution sparse coding/decoding layers leads to an interpretable and effective autoencoder for modeling the distribution of large-scale natural image datasets.
翻訳日:2023-02-21 19:04:39 公開日:2023-02-18
# Redes Generativas Adversarias (GAN) Fundamentos Te'oricos y Aplicaciones

Redes Generativas Adversarias (GAN) Fundamentos Te\'oricos y Aplicaciones ( http://arxiv.org/abs/2302.09346v1 )

ライセンス: Link先を確認
Jordi de la Torre(参考訳) GAN(Generative Adversarial Network)は、2つのニューラルネットワーク(1つはジェネレータ、もう1つは識別器)のトレーニングに基づいて、互いに競合し、トレーニングデータの確率分布に類似した新しいインスタンスを生成する手法である。 GANはコンピュータビジョン、セマンティックセグメンテーション、時系列合成、画像編集、自然言語処理、テキストからの画像生成など、幅広い分野で応用されている。 生成モデルはデータセットの確率分布をモデル化するが、確率値を提供する代わりに、元の分布に近い新しいインスタンスを生成する。 ganはニューラルネットワークで確率分布の属性を定義することを可能にする学習スキームを使用しており、元の確率分布に類似したインスタンスを生成することができる。 本稿では,このタイプのネットワークの理論的基礎と基本的アーキテクチャスキームとその応用について述べる。 この記事はスペイン語で、この科学的知識がスペイン語圏に到達するのを手助けするものである。

Generative adversarial networks (GANs) are a method based on the training of two neural networks, one called generator and the other discriminator, competing with each other to generate new instances that resemble those of the probability distribution of the training data. GANs have a wide range of applications in fields such as computer vision, semantic segmentation, time series synthesis, image editing, natural language processing, and image generation from text, among others. Generative models model the probability distribution of a data set, but instead of providing a probability value, they generate new instances that are close to the original distribution. GANs use a learning scheme that allows the defining attributes of the probability distribution to be encoded in a neural network, allowing instances to be generated that resemble the original probability distribution. This article presents the theoretical foundations of this type of network as well as the basic architecture schemes and some of its applications. This article is in Spanish to facilitate the arrival of this scientific knowledge to the Spanish-speaking community.
翻訳日:2023-02-21 19:04:10 公開日:2023-02-18
# 言語モデルのアウトオブディストリビューション一般化能力の改善: 反事実的データだけでは不十分

Improving the Out-Of-Distribution Generalization Capability of Language Models: Counterfactually-Augmented Data is not Enough ( http://arxiv.org/abs/2302.09345v1 )

ライセンス: Link先を確認
Caoyun Fan, Wenqing Chen, Jidong Tian, Yitian Li, Hao He, Yaohui Jin(参考訳) CADは言語モデルに因果的特徴を利用するよう誘導し、刺激的な相関を排除し、言語モデルのout-Of-Distribution(OOD)一般化能力を改善する可能性がある。 しかし,cadにおけるood一般化の結果は,期待したほど効率的ではない。 本稿では,CADによるMyopia Phenomenonの非効率性について述べる。言語モデルでは,拡張時に編集された因果的特徴のみに着目し,他の非編集因果的特徴を除外する。 その結果、CADの可能性は完全には活用されない。 CADの構造特性に基づいて、CADに含まれるより完全な因果的特徴を抽出する言語モデルのための2つの制約を設計し、OOD一般化能力を向上させる。 感性分析と自然言語推論の2つのタスクにおいて本手法の評価を行い,本手法がCADの可能性を解き明かし,言語モデルのOOD一般化能力を向上させることを実証した。

Counterfactually-Augmented Data (CAD) has the potential to improve language models' Out-Of-Distribution (OOD) generalization capability, as CAD induces language models to exploit causal features and exclude spurious correlations. However, the empirical results of OOD generalization on CAD are not as efficient as expected. In this paper, we attribute the inefficiency to Myopia Phenomenon caused by CAD: language models only focus on causal features that are edited in the augmentation and exclude other non-edited causal features. As a result, the potential of CAD is not fully exploited. Based on the structural properties of CAD, we design two additional constraints to help language models extract more complete causal features contained in CAD, thus improving the OOD generalization capability. We evaluate our method on two tasks: Sentiment Analysis and Natural Language Inference, and the experimental results demonstrate that our method could unlock CAD's potential and improve language models' OOD generalization capability.
翻訳日:2023-02-21 19:03:53 公開日:2023-02-18
# 初期のトレーニングダイナミクスのレンズによるショートカット学習

Shortcut Learning Through the Lens of Early Training Dynamics ( http://arxiv.org/abs/2302.09344v1 )

ライセンス: Link先を確認
Nihal Murali, Aahlad Manas Puli, Ke Yu, Rajesh Ranganath, Kayhan Batmanghelich(参考訳) ディープニューラルネットワーク(DNN)は、デプロイメント中のDNNの一般化を損なうショートカットパターンを学ぶ傾向がある。 近道学習は特に安全クリティカルな領域にdnnを適用する場合に重要である。 本稿では,学習過程における脳内ニューロンの学習力学のレンズによるショートカット学習の理解を深めることを目的とする。 より具体的には、(1)以前の研究はショートカットをスプリアス相関と同義語として扱うが、全てのスプリアス相関はショートカットではないことを強調する。 ショートカットは,コア機能よりも"簡単"な,刺激的な機能に過ぎません。 2)この前提に基づいてインスタンス難易度法(予測深さなど)を用いて,"容易"を定量化し,トレーニング段階での動作を識別する。 3)ネットワークアーキテクチャに関係なく,DNNの初期レイヤの学習ダイナミクスを観察することにより,ショートカット学習が検出できることを実証的に示す。 言い換えれば、トレーニングの初期にDNNの初期レイヤで学んだ簡単な機能は、潜在的なショートカットである。 シミュレーションおよび実際の医用画像データのクレームを検証するとともに、予測深度とV可視情報のような情報理論概念との理論的関係を示すことによって、仮説の実証的成功を正当化する。 最後に,本実験では(機械学習パイプラインで一般的であるように)トレーニング中の精度プロットのみを監視することの不十分さを示し,サンプル難易度メトリクスを用いた早期トレーニングダイナミクスの監視の必要性を強調した。

Deep Neural Networks (DNNs) are prone to learn shortcut patterns that damage the generalization of the DNN during deployment. Shortcut Learning is concerning, particularly when the DNNs are applied to safety-critical domains. This paper aims to better understand shortcut learning through the lens of the learning dynamics of the internal neurons during the training process. More specifically, we make the following observations: (1) While previous works treat shortcuts as synonymous with spurious correlations, we emphasize that not all spurious correlations are shortcuts. We show that shortcuts are only those spurious features that are "easier" than the core features. (2) We build upon this premise and use instance difficulty methods (like Prediction Depth) to quantify "easy" and to identify this behavior during the training phase. (3) We empirically show that shortcut learning can be detected by observing the learning dynamics of the DNN's early layers, irrespective of the network architecture used. In other words, easy features learned by the initial layers of a DNN early during the training are potential shortcuts. We verify our claims on simulated and real medical imaging data and justify the empirical success of our hypothesis by showing the theoretical connections between Prediction Depth and information-theoretic concepts like V-usable information. Lastly, our experiments show the insufficiency of monitoring only accuracy plots during training (as is common in machine learning pipelines), and we highlight the need for monitoring early training dynamics using example difficulty metrics.
翻訳日:2023-02-21 19:03:36 公開日:2023-02-18
# epistemic-risk-seeking policy optimizationによる効率的な探索

Efficient exploration via epistemic-risk-seeking policy optimization ( http://arxiv.org/abs/2302.09339v1 )

ライセンス: Link先を確認
Brendan O'Donoghue(参考訳) 深層強化学習(RL)における探索は依然として重要な課題である。 不確実性に直面した最適性は、表面設定における理論的保証を持つよく知られたヒューリスティックであるが、オンライン確率勾配とディープネットワーク関数近似器を含むディープ強化学習にその原理をどう翻訳するかは、完全には理解されていない。 本稿では,最適化された場合,関数近似の下でも有効に探索できるポリシが得られた,新たな楽観的目標を提案する。 我々の新しい目的は、不確実性を価値に変換し、不確実な状態を探索することを奨励する、疫学リスク探索ユーティリティ関数をエージェントに付与したゼロサム2プレーヤゲームである。 このゲームに対する解法は後悔の上限の上限を最小化し、各プレイヤーは特定の後悔の分解の1つの要素を最小化しようとする。 本手法は,ゲームに対する確率勾配の漸近化を同時に適用したモデルフリーなアルゴリズムを考案した。 実験の結果から,「深海」環境における手法を用いた深いrlエージェントの性能が向上し,他の効率的な探索手法よりも優れた性能改善が得られ,atariベンチマークの結果も得られた。

Exploration remains a key challenge in deep reinforcement learning (RL). Optimism in the face of uncertainty is a well-known heuristic with theoretical guarantees in the tabular setting, but how best to translate the principle to deep reinforcement learning, which involves online stochastic gradients and deep network function approximators, is not fully understood. In this paper we propose a new, differentiable optimistic objective that when optimized yields a policy that provably explores efficiently, with guarantees even under function approximation. Our new objective is a zero-sum two-player game derived from endowing the agent with an epistemic-risk-seeking utility function, which converts uncertainty into value and encourages the agent to explore uncertain states. We show that the solution to this game minimizes an upper bound on the regret, with the `players' each attempting to minimize one component of a particular regret decomposition. We derive a new model-free algorithm which we call `epistemic-risk-seeking actor-critic', which is simply an application of simultaneous stochastic gradient ascent-descent to the game. We conclude with some results showing good performance of a deep RL agent using the technique on the challenging `DeepSea' environment, showing significant performance improvements even over other efficient exploration techniques, as well as results on the Atari benchmark.
翻訳日:2023-02-21 19:03:11 公開日:2023-02-18
# 深層学習を用いたCaptchaの脆弱性解析

Vulnerability analysis of captcha using Deep learning ( http://arxiv.org/abs/2302.09389v1 )

ライセンス: Link先を確認
Jaskaran Singh Walia and Aryan odugoudar(参考訳) いくつかのウェブサイトはcaptchas(コンピュータと人間を区別するために完全に自動化されたチューリングテスト)を実装してセキュリティを改善し、危険なインターネット攻撃を避ける。 最も一般的なCAPTCHAはテキストベースで、人間が容易に認識できるように設計されており、機械やロボットには解けない。 しかし、ディープラーニング技術の進歩に伴い、テキストベースのCAPTCHAを予測する畳み込みニューラルネットワーク(CNN)モデルの開発が容易になる。 本研究の目的は、CAPTCHA生成システムの欠陥と脆弱性を調査し、より弾力性のあるCAPTCHAを設計することである。 これを実現するために,畳み込みニューラルネットワークであるcapnetを開発した。 提案するプラットフォームは数値と数値の両方のcaptchaを評価できる

Several websites improve their security and avoid dangerous Internet attacks by implementing CAPTCHAs (Completely Automated Public Turing test to tell Computers and Humans Apart), a type of verification to identify whether the end-user is human or a robot. The most prevalent type of CAPTCHA is text-based, designed to be easily recognized by humans while being unsolvable towards machines or robots. However, as deep learning technology progresses, development of convolutional neural network (CNN) models that predict text-based CAPTCHAs becomes easier. The purpose of this research is to investigate the flaws and vulnerabilities in the CAPTCHA generating systems in order to design more resilient CAPTCHAs. To achieve this, we created CapNet, a Convolutional Neural Network. The proposed platform can evaluate both numerical and alphanumerical CAPTCHAs
翻訳日:2023-02-21 18:55:45 公開日:2023-02-18
# 共鳴原子価結合はしごの多部絡み合いに対する多項式表現

Polynomial representation for multipartite entanglement of resonating valence bond ladders ( http://arxiv.org/abs/2302.09383v1 )

ライセンス: Link先を確認
Ajit Iqbal Singh, Aditi Sen De, and Ujjwal Sen(参考訳) 量子系の格子の共鳴原子価結合(RVB)状態は、量子コンピューティングと通信デバイスのための潜在的資源である。 これは、格子の単体、すなわち二量体、被覆(しばしば最も近い隣のものに制限される)の重ね合わせである。 我々は,多部量子状態の多項式表現を開発し,ラグ格子上のRVB状態が真の多部量子絡みを持つことを示す。 この手法により, 段差格子のシングルト被覆に対して, 重みを重み付けして重み付けした RVB 状態と RVB 状態の多部絡み合いを検出することができる。

A resonating valence bond (RVB) state of a lattice of quantum systems is a potential resource for quantum computing and communicating devices. It is a superposition of singlet, i.e., dimer, coverings - often restricted to nearest-neighbour ones - of the lattice. We develop a polynomial representation of multipartite quantum states to prove that RVB states on ladder lattices possess genuine multipartite entanglement. The multipartite entanglement of doped RVB states and RVB states that are superposed with varying weights for singlet coverings of ladder lattices can both be detected by using this technique.
翻訳日:2023-02-21 18:55:32 公開日:2023-02-18
# Wav2vec2とWhisperを用いた話者・言語変化検出

Speaker and Language Change Detection using Wav2vec2 and Whisper ( http://arxiv.org/abs/2302.09381v1 )

ライセンス: Link先を確認
Tijn Berns, Nik Vaessen and David A. van Leeuwen(参考訳) 本研究では,音声の話者・言語変化を自動音声認識のために事前学習した最近のトランスフォーマネットワークについて検討する。 ラベルに話者(変更)や言語ターゲットを追加するだけでこれを行います。 Wav2vec2事前学習ネットワークでは、話者識別特性を捉えるために、話者変化シンボルの表現を条件付けできるかどうかについても検討する。 いくつかの構築されたデータセットを用いて、話者認識は10%のオーダーのエラー率と数パーセントの言語検出エラー率とで、これらの能力は確実に存在することを示す。 再現性のためにコードを公開します。

We investigate recent transformer networks pre-trained for automatic speech recognition for their ability to detect speaker and language changes in speech. We do this by simply adding speaker (change) or language targets to the labels. For Wav2vec2 pre-trained networks, we also investigate if the representation for the speaker change symbol can be conditioned to capture speaker identity characteristics. Using a number of constructed data sets we show that these capabilities are definitely there, with speaker recognition equal error rates of the order of 10% and language detection error rates of a few percent. We will publish the code for reproducibility.
翻訳日:2023-02-21 18:55:21 公開日:2023-02-18
# ジフシオンのメカニズムにおけるバサドスのモデル

Modelos Generativos basados en Mecanismos de Difusi\'on ( http://arxiv.org/abs/2302.09378v1 )

ライセンス: Link先を確認
Jordi de la Torre(参考訳) 拡散に基づく生成モデルは、非平衡熱力学で見られるようなプロセスから新しい画像を生成することができる設計フレームワークである。 これらのモデルは、異なる色の2つの相溶性液体が均質な混合物を形成するまで徐々に混合する物理的拡散過程の反転をモデル化する。 拡散モデルは、オーディオや画像信号など、異なる性質の信号に適用することができる。 画像の場合、ランダムノイズを印加してプログレッシブ画素破壊処理を行い、ニューラルネットワークを訓練して、腐敗ステップのそれぞれを反転させる。 再建過程を可逆的にするためには, 汚職を段階的に行う必要がある。 ニューラルネットワークのトレーニングが成功すれば、トレーニング時に画像デコンストラクションに使用されるものと同様の多くのステップを連鎖させることで、ランダムノイズから画像を生成することができる。 本稿では,本手法とその応用に関する理論的基礎について述べる。 この記事はスペイン語で、この科学的知識がスペイン語圏に到達するのを手助けするものである。

Diffusion-based generative models are a design framework that allows generating new images from processes analogous to those found in non-equilibrium thermodynamics. These models model the reversal of a physical diffusion process in which two miscible liquids of different colors progressively mix until they form a homogeneous mixture. Diffusion models can be applied to signals of a different nature, such as audio and image signals. In the image case, a progressive pixel corruption process is carried out by applying random noise, and a neural network is trained to revert each one of the corruption steps. For the reconstruction process to be reversible, it is necessary to carry out the corruption very progressively. If the training of the neural network is successful, it will be possible to generate an image from random noise by chaining a number of steps similar to those used for image deconstruction at training time. In this article we present the theoretical foundations on which this method is based as well as some of its applications. This article is in Spanish to facilitate the arrival of this scientific knowledge to the Spanish-speaking community.
翻訳日:2023-02-21 18:55:10 公開日:2023-02-18
# 脳原理プログラミングに基づく意思決定のための認知的アーキテクチャ(ロシア語)

Cognitive Architecture for Decision-Making Based on Brain Principles Programming (in Russian) ( http://arxiv.org/abs/2302.09377v1 )

ライセンス: Link先を確認
Anton Kolonin, Andrey Kurpatov, Artem Molchanov, Gennadiy Averyanov(参考訳) 本稿では,脳活動の5つの原理に基づいて,論理確率的推論,確率論的形式概念,機能的システム理論という3つのサブシステムに実装された認知アーキテクチャについて述べる。 アーキテクチャの構築には、応用オントロジーで表現されたタスクに対応する運用環境の用語で定式化されたタスクとして、応用アプリケーションのターゲット機能を定義するタスク駆動型アプローチの実装が含まれる。 実用的アプリケーションやそれに基づく主題領域オントロジーに対する基本的なオントロジーを提供し、提案するアーキテクチャを説明し、このアーキテクチャにおけるこれらのアプリケーションの実行例を示す。

We describe a cognitive architecture intended to solve a wide range of problems based on the five identified principles of brain activity, with their implementation in three subsystems: logical-probabilistic inference, probabilistic formal concepts, and functional systems theory. Building an architecture involves the implementation of a task-driven approach that allows defining the target functions of applied applications as tasks formulated in terms of the operating environment corresponding to the task, expressed in the applied ontology. We provide a basic ontology for a number of practical applications as well as for the subject domain ontologies based upon it, describe the proposed architecture, and give possible examples of the execution of these applications in this architecture.
翻訳日:2023-02-21 18:54:54 公開日:2023-02-18
# SGDのパラメータ平均化は不規則バイアスをフラット領域へ安定化させる

Parameter Averaging for SGD Stabilizes the Implicit Bias towards Flat Regions ( http://arxiv.org/abs/2302.09376v1 )

ライセンス: Link先を確認
Atsushi Nitanda, Ryuhei Kikuchi, Shugo Maeda(参考訳) 確率勾配降下は、その優れた一般化性能のためにディープニューラルネットワークを訓練するための作業場である。 いくつかの研究は、この成功は、平らな最小値を好む手法の暗黙の偏見と、この観点から新しい手法を開発したことによる。 近年、izmailovら(2018)は、ステップサイズの大きい平均的な確率的勾配降下は、暗黙的なバイアスをより効果的に生じさせ、バニラ確率的勾配降下よりも安定して平坦な最小値に収束できることを実証的に観察した。 本研究では, 平均化方式が確率勾配雑音によるバイアス最適化トレードオフを改善することを示すことにより, この観測を理論的に正当化する: 大きなステップサイズはバイアスを増幅するが収束を不安定にする。 具体的には, 平均確率勾配降下は, 一定の条件下で同じステップサイズで, バニラ確率勾配降下よりも鋭さについてペナルティ化目標の解に近づくことができることを示した。 実験では,本理論を検証し,この学習手法が性能を著しく向上させることを示す。

Stochastic gradient descent is a workhorse for training deep neural networks due to its excellent generalization performance. Several studies demonstrated this success is attributed to the implicit bias of the method that prefers a flat minimum and developed new methods based on this perspective. Recently, Izmailov et al. (2018) empirically observed that an averaged stochastic gradient descent with a large step size can bring out the implicit bias more effectively and can converge more stably to a flat minimum than the vanilla stochastic gradient descent. In our work, we theoretically justify this observation by showing that the averaging scheme improves the bias-optimization tradeoff coming from the stochastic gradient noise: a large step size amplifies the bias but makes convergence unstable, and vice versa. Specifically, we show that the averaged stochastic gradient descent can get closer to a solution of a penalized objective on the sharpness than the vanilla stochastic gradient descent using the same step size under certain conditions. In experiments, we verify our theory and show this learning scheme significantly improves performance.
翻訳日:2023-02-21 18:54:42 公開日:2023-02-18
# 不正な宝くじのキャリブレーション:全てのチケットを信頼できるものに

Calibrating the Rigged Lottery: Making All Tickets Reliable ( http://arxiv.org/abs/2302.09369v1 )

ライセンス: Link先を確認
Bowen Lei, Ruqi Zhang, Dongkuan Xu, Bani Mallick(参考訳) スパーストレーニングは、メモリを節約し、トレーニングを加速し、推論時間を短縮するために、様々なリソース制限されたディープラーニングタスクでうまく使われてきたが、生成されたスパースモデルの信頼性は未調査のままである。 これまでの研究では、ディープニューラルネットワークは自信過剰である傾向があり、スパーストレーニングがこの問題を悪化させることがわかった。 したがって、スパースモデルのキャリブレーションは信頼できる予測と意思決定に不可欠である。 本稿では,信頼度校正が向上したスパースモデルを生成するための新しいスパーストレーニング手法を提案する。 従来の1つのマスクのみを使用してスパーストポロジーを制御する研究とは対照的に,本手法では決定論的マスクとランダムマスクの2つのマスクを用いる。 前者は、重みと勾配の大きさを利用して、重要な重みを効率的に探索し、活性化する。 後者はより良い探索をもたらし、ランダムな更新によってより適切な重量値を見つける。 理論的には,本手法は確率的深いガウス過程の階層的変動近似とみなすことができる。 複数のデータセット, モデルアーキテクチャ, 疎水性に関する大規模な実験により, 提案手法はECEの値を最大47.8 %削減し, 計算量や記憶量の増加をわずかに増加させるだけで, 同時に精度を向上することを示した。

Although sparse training has been successfully used in various resource-limited deep learning tasks to save memory, accelerate training, and reduce inference time, the reliability of the produced sparse models remains unexplored. Previous research has shown that deep neural networks tend to be over-confident, and we find that sparse training exacerbates this problem. Therefore, calibrating the sparse models is crucial for reliable prediction and decision-making. In this paper, we propose a new sparse training method to produce sparse models with improved confidence calibration. In contrast to previous research that uses only one mask to control the sparse topology, our method utilizes two masks, including a deterministic mask and a random mask. The former efficiently searches and activates important weights by exploiting the magnitude of weights and gradients. While the latter brings better exploration and finds more appropriate weight values by random updates. Theoretically, we prove our method can be viewed as a hierarchical variational approximation of a probabilistic deep Gaussian process. Extensive experiments on multiple datasets, model architectures, and sparsities show that our method reduces ECE values by up to 47.8\% and simultaneously maintains or even improves accuracy with only a slight increase in computation and storage burden.
翻訳日:2023-02-21 18:54:22 公開日:2023-02-18
# インサイドアウトタスク言語開発と翻訳による自然言語条件強化学習

Natural Language-conditioned Reinforcement Learning with Inside-out Task Language Development and Translation ( http://arxiv.org/abs/2302.09368v1 )

ライセンス: Link先を確認
Jing-Cheng Pang, Xin-Yu Yang, Si-Hang Yang, Yang Yu(参考訳) 自然言語条件強化学習(RL)により、エージェントは人間の指示に従うことができる。 従来のアプローチでは、自然言語(NL)におけるヒューマンインストラクションを提供し、以下のポリシーをトレーニングすることで、言語条件付きRLの実装が一般的であった。 この外部からのアプローチでは、ポリシーはNLを理解し、同時にタスクを管理する必要がある。 しかし、unbounded nlの例では、具体的なrlタスクの解決に多くの複雑さをもたらし、ポリシー学習をタスクの完了から遠ざける可能性がある。 政策の学習負担を軽減するため,タスク関連で独特なタスク言語(TL)を開発することにより,自然言語条件付きRLの内装方式を検討する。 TLは、高効率で効果的な政策訓練を達成するためにRLで使用される。 また、翻訳器はNLをTLに変換するよう訓練される。 本稿では,複数の述語を学習してオブジェクト関係をTLとしてモデル化する TALAR (Task Language with predicAte Representation) として実装する。 実験によると、TALARはNL命令をよりよく理解するだけでなく、13.4%の成功率を改善し、NL命令の見当たらない表現に適応するより良い命令フォローポリシーをもたらす。 TLは効果的なタスク抽象化であり、階層RLと自然に互換性がある。

Natural Language-conditioned reinforcement learning (RL) enables the agents to follow human instructions. Previous approaches generally implemented language-conditioned RL by providing human instructions in natural language (NL) and training a following policy. In this outside-in approach, the policy needs to comprehend the NL and manage the task simultaneously. However, the unbounded NL examples often bring much extra complexity for solving concrete RL tasks, which can distract policy learning from completing the task. To ease the learning burden of the policy, we investigate an inside-out scheme for natural language-conditioned RL by developing a task language (TL) that is task-related and unique. The TL is used in RL to achieve highly efficient and effective policy training. Besides, a translator is trained to translate NL into TL. We implement this scheme as TALAR (TAsk Language with predicAte Representation) that learns multiple predicates to model object relationships as the TL. Experiments indicate that TALAR not only better comprehends NL instructions but also leads to a better instruction-following policy that improves 13.4% success rate and adapts to unseen expressions of NL instruction. The TL can also be an effective task abstraction, naturally compatible with hierarchical RL.
翻訳日:2023-02-21 18:53:55 公開日:2023-02-18
# Hyneter: オブジェクト検出のためのハイブリッドネットワークトランス

Hyneter: Hybrid Network Transformer for Object Detection ( http://arxiv.org/abs/2302.09365v1 )

ライセンス: Link先を確認
Dong Chen, Duoqian Miao, Xuerong Zhao(参考訳) 本稿では,CNN と Transformer との違いが,Transformer の手法における小型オブジェクトの性能低下の原因となっていることを指摘し,特徴抽出と伝播における局所情報とグローバル依存関係のギャップを指摘する。 そこで,本研究では,cnnとトランスフォーマによる手法の差が不均等に増大することを示す事前実験を行った後,ハイブリッドネットワークトランスフォーマ (hyneter) と呼ばれる新しいビジョントランスフォーマを提案する。 従来の方法とは異なり、HynetersはHybrid Network Backbone(HNB)とDual Switching Module(DS)で構成されており、ローカル情報とグローバル依存関係を統合し、それらを同時に転送する。 HNBはバランス戦略に基づいて、畳み込みレイヤをTransformerブロックに埋め込むことでローカル情報の範囲を拡張し、DSはパッチ外のグローバル依存関係への過度な依存を調整する。

In this paper, we point out that the essential differences between CNN-based and Transformer-based detectors, which cause the worse performance of small objects in Transformer-based methods, are the gap between local information and global dependencies in feature extraction and propagation. To address these differences, we propose a new vision Transformer, called Hybrid Network Transformer (Hyneter), after pre-experiments that indicate the gap causes CNN-based and Transformer-based methods to increase size-different objects result unevenly. Different from the divide and conquer strategy in previous methods, Hyneters consist of Hybrid Network Backbone (HNB) and Dual Switching module (DS), which integrate local information and global dependencies, and transfer them simultaneously. Based on the balance strategy, HNB extends the range of local information by embedding convolution layers into Transformer blocks, and DS adjusts excessive reliance on global dependencies outside the patch.
翻訳日:2023-02-21 18:53:34 公開日:2023-02-18
# 相関初期状態に対する量子力学高速化

Quantum dynamical speedup for correlated initial states ( http://arxiv.org/abs/2302.09364v1 )

ライセンス: Link先を確認
Alireza Gholizadeh, Maryam Hadipour, Soroush Haseli, Saeed Haddadi, and Hazhir Dolatkhah(参考訳) 任意の量子系の最大発展速度は、量子速度制限時間によって表すことができる。 本稿では,システムが環境と相関するモデルについて考察する。 システムと環境の初期相関が量子速度限界に及ぼす影響について検討した。 非マルコビアン効果の出現は量子進化のスピードアップを引き起こすことが示されている。 さらに、相関初期状態の量子コヒーレンスに対する量子力学的スピードアップの依存性を示す。

The maximal evolution speed of any quantum system can be expressed by the quantum speed limit time. In this paper, we consider a model in which the system has a correlation with the environment. The influence of the initial correlation between the system and environment on the quantum speed limit is investigated. It is shown that the appearance of non-Markovianity effects causes the speedup of quantum evolution. Moreover, we demonstrate the dependence of quantum dynamical speedup on the quantum coherence of the correlated initial state.
翻訳日:2023-02-21 18:53:14 公開日:2023-02-18
# M-SENSE:主人公の心的表現を用いた短い個人的物語の物語構造モデリング

M-SENSE: Modeling Narrative Structure in Short Personal Narratives Using Protagonist's Mental Representations ( http://arxiv.org/abs/2302.09418v1 )

ライセンス: Link先を確認
Prashanth Vijayaraghavan, Deb Roy(参考訳) 物語は人間のコミュニケーションのユビキタスな要素である。 その構造を理解することは、単純な比較分析から強化されたナラティブ検索、理解、推論能力まで幅広い応用において重要な役割を果たす。 ナラトロジーの先行研究は、効果的な理解のために物語の認知的側面と言語的側面の関係を研究することの重要性を強調した。 この相互依存は物語におけるテクスト意味論と精神言語に関係しており、登場人物の動機、感情、感情、信念を参照している。 しかし、この相互依存は物語をモデル化するためにはほとんど研究されていない。 本研究では,構文・意味レベルでの言語情報とともに,登場人物の推測された精神状態の役割を解析し,物語構造の特徴的要素を自動的に検出するタスクを提案する。 本稿では,物語構造の重要な要素,特にクライマックスと解像度のマニュアルアノテーションを含む,短い個人物語のSTORIESデータセットを紹介する。 そこで本稿では,社会的コモンセンス知識に基づいて訓練された事前学習モデルから得られた,主人公の精神状態情報を活用する計算モデルを実装し,その表現を多機能融合アプローチを用いて文脈意味埋め込みと統合する。 従来のゼロショットと教師付きベースラインに対して評価すると,我々のモデルはクライマックスと解像度を識別するタスクにおいて,大幅な改善を達成できることがわかった。

Narrative is a ubiquitous component of human communication. Understanding its structure plays a critical role in a wide variety of applications, ranging from simple comparative analyses to enhanced narrative retrieval, comprehension, or reasoning capabilities. Prior research in narratology has highlighted the importance of studying the links between cognitive and linguistic aspects of narratives for effective comprehension. This interdependence is related to the textual semantics and mental language in narratives, referring to characters' motivations, feelings or emotions, and beliefs. However, this interdependence is hardly explored for modeling narratives. In this work, we propose the task of automatically detecting prominent elements of the narrative structure by analyzing the role of characters' inferred mental state along with linguistic information at the syntactic and semantic levels. We introduce a STORIES dataset of short personal narratives containing manual annotations of key elements of narrative structure, specifically climax and resolution. To this end, we implement a computational model that leverages the protagonist's mental state information obtained from a pre-trained model trained on social commonsense knowledge and integrates their representations with contextual semantic embed-dings using a multi-feature fusion approach. Evaluating against prior zero-shot and supervised baselines, we find that our model is able to achieve significant improvements in the task of identifying climax and resolution.
翻訳日:2023-02-21 18:47:58 公開日:2023-02-18
# 超伝導アンドリーフ・リフレクションエンジンにおける量子増強性能

Quantum-enhanced performance in superconducting Andreev-reflection engines ( http://arxiv.org/abs/2302.09414v1 )

ライセンス: Link先を確認
Gonzalo Manzano and Rosa L\'opez(参考訳) 量子ドットが金属貯水池に取り付けられ、超伝導接触アンドリーブプロセスが通常のリードでの有限サブギャップ電流とクーパー対の生成または破壊に繋がる。 andreev-reflection engineはクーパーペアの破壊で利益を得、電力を発生させる通常のコンダクタ・コンタクトにチャージ電流を設定するのに必要な作業を提供する。 この電力変換装置では、量子力学的に強化されたレシエーションにおける高電力と大きな効率性を示す。 古典的なエンジンに有効なパワー、効率、安定性の間の熱力学的トレードオフ関係は克服され、エンジンの精度の運動的制約は平衡状態から遠ざかっている。

When a quantum dot is attached to a metallic reservoir and a superconducting contact Andreev processes leads to a finite subgap current at the normal lead and the creation or destruction of Cooper pairs. Andreev-reflection engines profit from the destruction of Cooper pairs to provide the work needed to set a charge current at the normal-conductor contact generating electrical power. For this power-transduction device high power and large efficiencies in quantum-mechanically enhanced regimes are demonstrated. There thermodynamic trade-off relations between power, efficiency and stability, valid for any classical engine are overcome, and kinetic constraints on the engine precision are largely surpassed in arbitrary far from equilibrium conditions.
翻訳日:2023-02-21 18:47:35 公開日:2023-02-18
# 注意に基づく道路・建物セグメンテーション学習による多スケール確率マップ誘導インデックスプーリング

MultiScale Probability Map guided Index Pooling with Attention-based learning for Road and Building Segmentation ( http://arxiv.org/abs/2302.09411v1 )

ライセンス: Link先を確認
Shirsha Bose, Ritesh Sur Chowdhury, Debabrata Pal, Shivashish Bose, Biplab Banerjee, Subhasis Chaudhuri(参考訳) 衛星画像からの効率的な道路や建物の足跡の抽出は、多くのリモートセンシングアプリケーションで主流である。 しかし,木々によって迷彩された多様な建物構造,道路と建物のスペクトル応答の類似,道路上の不均質な交通による閉塞などにより,正確なセグメンテーションマップの抽出は困難である。 既存の畳み込みニューラルネットワーク(cnn)ベースの手法は、建物抽出のための空間的意味学習と、細粒度の道路トポロジー抽出に重点を置いている。 CNNの伝統的なプール機構による深いセマンティック情報損失は、複雑な周囲の密集した小さな建物に対して、断片化され、切り離された道路地図と区切られた境界を生じる。 本論文では,新しい注意対応セグメンテーションフレームワークであるmssdmpa-net(multi-scale supervised dilated multi-path attention network)を提案する。このネットワークには,動的注意マップ誘導インデックスプーリング(damip)と動的注意マップ誘導空間およびチャネル注意(damsca)という2つのモジュールが組み込まれており,リモートセンシング画像から建物足跡と道路地図を正確に抽出する。 DAMIPは、重要な幾何学的情報を保持するために、新しいインデックスプーリング機構を用いて、健全な特徴をマイニングする。 一方、DAMSCAは、マルチスケールの空間的特徴とスペクトル的特徴を同時に抽出する。 さらに、拡張畳み込みとMSSDMPA-Netの最適化におけるマルチスケールの深い監督は、恒星の性能向上に役立つ。 複数のベンチマーク構築と道路抽出データセットに対する実験結果から,MSSDMPA-Net を構築・道路抽出のための最先端(SOTA) 手法として保証する。

Efficient road and building footprint extraction from satellite images are predominant in many remote sensing applications. However, precise segmentation map extraction is quite challenging due to the diverse building structures camouflaged by trees, similar spectral responses between the roads and buildings, and occlusions by heterogeneous traffic over the roads. Existing convolutional neural network (CNN)-based methods focus on either enriched spatial semantics learning for the building extraction or the fine-grained road topology extraction. The profound semantic information loss due to the traditional pooling mechanisms in CNN generates fragmented and disconnected road maps and poorly segmented boundaries for the densely spaced small buildings in complex surroundings. In this paper, we propose a novel attention-aware segmentation framework, Multi-Scale Supervised Dilated Multiple-Path Attention Network (MSSDMPA-Net), equipped with two new modules Dynamic Attention Map Guided Index Pooling (DAMIP) and Dynamic Attention Map Guided Spatial and Channel Attention (DAMSCA) to precisely extract the building footprints and road maps from remotely sensed images. DAMIP mines the salient features by employing a novel index pooling mechanism to retain important geometric information. On the other hand, DAMSCA simultaneously extracts the multi-scale spatial and spectral features. Besides, using dilated convolution and multi-scale deep supervision in optimizing MSSDMPA-Net helps achieve stellar performance. Experimental results over multiple benchmark building and road extraction datasets, ensures MSSDMPA-Net as the state-of-the-art (SOTA) method for building and road extraction.
翻訳日:2023-02-21 18:47:21 公開日:2023-02-18
# RecNet: 早期注意誘導機能回復

RecNet: Early Attention Guided Feature Recovery ( http://arxiv.org/abs/2302.09409v1 )

ライセンス: Link先を確認
Subrata Biswas, Bashima Islam(参考訳) センサの不確実性は入力ストリームの破損を引き起こし、データから情報を引き出すことに焦点を当てたディープニューラルネットワーク(dnn)のパフォーマンスを阻害する。 しかし、複数の入力ストリームを持つセンサでは、ストリーム間の関連情報は相関し、相互情報を含む。 本稿では,この機会を利用して,入力ストリームの破損による混乱情報を復元する。 本稿では,入力特徴量の各要素の情報エントロピーをネットワークに推定し,入力特徴量行列の欠落情報を補間するrecnetを提案する。 最後に、推定情報エントロピーと補間データを用いて、下流DNNタスクへの入力である完全な情報を復元するための新しいガイド付き置換手順を導入する。 提案手法は,マイクロホンアレイからの音声ストリームが破損する音イベント検出と局所化の応用について評価する。 故障した入力ストリームによる性能低下を回復し,非破壊入力ストリームによるローカライズエラーを低減した。

Uncertainty in sensors results in corrupted input streams and hinders the performance of Deep Neural Networks (DNN), which focus on deducing information from data. However, for sensors with multiple input streams, the relevant information among the streams correlates and hence contains mutual information. This paper utilizes this opportunity to recover the perturbed information due to corrupted input streams. We propose RecNet, which estimates the information entropy at every element of the input feature to the network and interpolates the missing information in the input feature matrix. Finally, using the estimated information entropy and interpolated data, we introduce a novel guided replacement procedure to recover the complete information that is the input to the downstream DNN task. We evaluate the proposed algorithm on a sound event detection and localization application where audio streams from the microphone array are corrupted. We have recovered the performance drop due to the corrupted input stream and reduced the localization error with non-corrupted input streams.
翻訳日:2023-02-21 18:46:55 公開日:2023-02-18
# 世界の政策最適化のベスト

Best of Both Worlds Policy Optimization ( http://arxiv.org/abs/2302.09408v1 )

ライセンス: Link先を確認
Christoph Dann, Chen-Yu Wei, Julian Zimmert(参考訳) ポリシー最適化手法は、実際に一般的な強化学習アルゴリズムである。 最近の研究は、損失が逆数であっても、$\sqrt{T}$ regret boundsを証明して理論的な基礎を築いた。 このような境界は最悪の場合厳密だが、しばしば過度に悲観的である。 本研究では,正則化器,探索ボーナス,学習率を適切に設計することにより,損失が確率的であれば,最悪の場合の保証を犠牲にすることなく,より好意的なポリログ$(T)$後悔を達成できることを示す。 我々の知る限り、政策最適化のためにギャップ依存ポリログ$(T)$後悔境界が示されるのはこれが初めてである。 具体的には、ポリシー更新において、TsallisエントロピーまたはShannonエントロピー正規化器を利用する。 次に、既知遷移の下では、対数バリア正規化器を利用することで、対数体制における一階の後悔関係をさらに得ることができることを示す。

Policy optimization methods are popular reinforcement learning algorithms in practice. Recent works have built theoretical foundation for them by proving $\sqrt{T}$ regret bounds even when the losses are adversarial. Such bounds are tight in the worst case but often overly pessimistic. In this work, we show that in tabular Markov decision processes (MDPs), by properly designing the regularizer, the exploration bonus and the learning rates, one can achieve a more favorable polylog$(T)$ regret when the losses are stochastic, without sacrificing the worst-case guarantee in the adversarial regime. To our knowledge, this is also the first time a gap-dependent polylog$(T)$ regret bound is shown for policy optimization. Specifically, we achieve this by leveraging a Tsallis entropy or a Shannon entropy regularizer in the policy update. Then we show that under known transitions, we can further obtain a first-order regret bound in the adversarial regime by leveraging the log-barrier regularizer.
翻訳日:2023-02-21 18:46:36 公開日:2023-02-18
# MorphGANFormer: トランスフォーマーベースの顔モーフィングとデモーフィング

MorphGANFormer: Transformer-based Face Morphing and De-Morphing ( http://arxiv.org/abs/2302.09404v1 )

ライセンス: Link先を確認
Na Zhang, Xudong Liu, Xin Li, Guo-Jun Qi(参考訳) 近年,意味的な顔画像操作が注目されている。 スタイルGANをベースとした顔モフティングのアプローチは主要な手法であるが、潜在特徴空間における均一な注意の結果、目立ったぼやけやアーティファクトに悩まされることが多い。 本稿では,顔形態の代替となる変換器の開発を提案し,StyleGAN法よりも優れていることを示す。 私たちの貢献は3倍です。 まず,GANformerにインスパイアされた2部構造を導入し,顔画像の長距離相互作用を利用して潜伏変数から有意な顔特徴への情報伝達を行う。 特殊損失関数は顔変形の最適化をサポートするように設計されている。 第2に,同一のmorphganformer生成器を用いた参照画像へのアクセスによる効果的な防御戦略を提示することにより,トランスフォーマティブ・フェイスモーフィングの研究をデモルフィングへと拡張する。 このような変形は概念的にはハイパースペクトル像の未混合と似ているが、(ピクセルの代わりに)潜在空間で動作する。 第3に,顔形態研究における脆弱性検出性トレードオフの根本的な問題に初めて対処した。 ドッペルガンガーのノルランダム対選択は最適ではなく、認識脆弱性と攻撃検出性の間のトレードオフを改善するためにラグランジアン乗算器ベースのアプローチを用いるべきである。

Semantic face image manipulation has received increasing attention in recent years. StyleGAN-based approaches to face morphing are among the leading techniques; however, they often suffer from noticeable blurring and artifacts as a result of the uniform attention in the latent feature space. In this paper, we propose to develop a transformer-based alternative to face morphing and demonstrate its superiority to StyleGAN-based methods. Our contributions are threefold. First, inspired by GANformer, we introduce a bipartite structure to exploit long-range interactions in face images for iterative propagation of information from latent variables to salient facial features. Special loss functions are designed to support the optimization of face morphing. Second, we extend the study of transformer-based face morphing to demorphing by presenting an effective defense strategy with access to a reference image using the same generator of MorphGANFormer. Such demorphing is conceptually similar to unmixing of hyperspectral images but operates in the latent (instead of pixel) space. Third, for the first time, we address a fundamental issue of vulnerability-detectability trade-off for face morphing studies. It is argued that neither doppelganger norrandom pair selection is optimal, and a Lagrangian multiplier-based approach should be used to achieve an improved trade-off between recognition vulnerability and attack detectability.
翻訳日:2023-02-21 18:46:08 公開日:2023-02-18
# 量子コンピューティング技術の応用を支援するシンボリック量子プログラミング

Symbolic quantum programming for supporting applications of quantum computing technologies ( http://arxiv.org/abs/2302.09401v1 )

ライセンス: Link先を確認
Jaros{\l}aw Adam Miszczak(参考訳) 本論文の目的は,現在の技術の概要を述べること,量子ソフトウェアツール開発に関する経験レポートを提供すること,量子コンピューティング技術のニーズにシンボリックプログラミングをサポートする量子プログラミングツールを開発するための展望を概説することである。 量子回路のシンボリックな操作を可能にするツールの開発と、量子プログラムの作成、最適化、テストのためのソフトウェアツールの提供により、最も直接的なメリットを享受できるため、本論文の主な焦点は量子コンピューティング技術である。 量子ソフトウェア開発の分野でもっとも人気のあるアプローチについて短い調査を行い、その強みと弱みを指摘することを目指している。 これは量子コンピューティングフレームワークに含まれるべき望ましい特性のリストを定式化するのに役立つ。 次に,シンボリックアプローチによる量子プログラム開発を支援するソフトウェアアーキテクチャとその予備実装について述べるとともに,関数型プログラミングパラダイムを奨励するとともに,ハイパフォーマンスとクラウドコンピューティングとの統合を実現する。 記述されたソフトウェアは、異なるニーズに対応するために開発されたいくつかのパッケージから構成されるが、しかしながら共通の設計概念を共有する。 また、量子ソフトウェア工学におけるタスク、すなわち量子ソフトウェアテストと量子回路構築において、このアプローチがどのように使われるのかを概説する。

The goal of this paper is to deliver the overview of the current state of the art, to provide experience report on developing quantum software tools, and to outline the perspective for developing quantum programming tools supporting symbolic programming for the needs of quantum computing technologies. The main focus of this paper is on quantum computing technologies, as they can in the most direct way benefit from developing tools enabling the symbolic manipulation of quantum circuits and providing software tools for creating, optimizing, and testing quantum programs. We deliver a short survey of the most popular approaches in the field of quantum software development and we aim at pointing their strengths and weaknesses. This helps to formulate a list of desirable characteristics which should be included in quantum computing frameworks. Next, we describe a software architecture and its preliminary implementation supporting the development of quantum programs using symbolic approach, encouraging the functional programming paradigm, and, at the same, time enabling the integration with high-performance and cloud computing. The described software consists of several packages developed to address different needs, but nevertheless sharing common design concepts. We also outline how the presented approach could be used in tasks in quantum software engineering, namely quantum software testing and quantum circuit construction.
翻訳日:2023-02-21 18:45:34 公開日:2023-02-18
# 肝移植における臓器アサインングにおけるグラフト障害の予測

Fairly Predicting Graft Failure in Liver Transplant for Organ Assigning ( http://arxiv.org/abs/2302.09400v1 )

ライセンス: Link先を確認
Sirui Ding, Ruixiang Tang, Daochen Zha, Na Zou, Kai Zhang, Xiaoqian Jiang, Xia Hu(参考訳) 肝移植は肝疾患に対して必要不可欠な治療法である。 肝臓資源が不足しているため、臓器の割り当てが不可欠である。 エンドステージ肝疾患モデル(MELD)は臓器分布決定において広く採用されている基準である。 しかし、移植後の結果や臓器・ドナーの特徴を無視する。 これらの制限は機械学習(ML)モデルの出現を動機付けている。 残念なことに、MLモデルは不公平であり、特定のグループに対する偏見を引き起こす可能性がある。 そこで本研究では,肝移植におけるグラフト障害予測を目的とした公平な機械学習フレームワークを提案する。 特に、知識蒸留は、木モデルとニューラルネットワークの利点を組み合わせることで、密度とスパースの特徴を扱うために用いられる。 公平性を高めるために、この枠組みのために2段階のデバイアス法を調整した。 既存モデルにおける不公平問題を解析し,予測性能と公平性性能の両方において本手法の優位性を示す実験を行った。

Liver transplant is an essential therapy performed for severe liver diseases. The fact of scarce liver resources makes the organ assigning crucial. Model for End-stage Liver Disease (MELD) score is a widely adopted criterion when making organ distribution decisions. However, it ignores post-transplant outcomes and organ/donor features. These limitations motivate the emergence of machine learning (ML) models. Unfortunately, ML models could be unfair and trigger bias against certain groups of people. To tackle this problem, this work proposes a fair machine learning framework targeting graft failure prediction in liver transplant. Specifically, knowledge distillation is employed to handle dense and sparse features by combining the advantages of tree models and neural networks. A two-step debiasing method is tailored for this framework to enhance fairness. Experiments are conducted to analyze unfairness issues in existing models and demonstrate the superiority of our method in both prediction and fairness performance.
翻訳日:2023-02-21 18:45:15 公開日:2023-02-18
# バイシブル・トゥ・サーマル顔面GANが条件拡散に勝つとき

When Visible-to-Thermal Facial GAN Beats Conditional Diffusion ( http://arxiv.org/abs/2302.09395v1 )

ライセンス: Link先を確認
Catherine Ordun, Edward Raff, Sanjay Purushotham(参考訳) 熱顔画像は、可視光スペクトルで見えない赤外線を検知することで、炎症やストレスなどの生理的状態についての貴重な洞察を提供する。 遠隔医療アプリケーションは熱画像の恩恵を受けるが、従来のコンピュータはrgbカメラに依存しており、熱センサーがない。 そこで本研究では,顔領域の空間領域と周波数領域の両方をスペクトルを通して学習することにより,高分解能な熱顔を生成するように特別に設計された可視から熱までの顔gan (vtf-gan) を提案する。 本稿では,VTF-GANをいくつかの一般的なGANベースラインと比較し,VT顔翻訳のための条件付き拡散確率モデル(DDPM)を提案する。 その結果, VTF-GANは, 拡散を含む全てのベースラインと比較して, パッチ, 温度, 知覚, フーリエ変換の損失の組み合わせを用いて, 高品質で, 鮮明で, 知覚的にリアルなサーマルフェイスを実現することがわかった。

Thermal facial imagery offers valuable insight into physiological states such as inflammation and stress by detecting emitted radiation in the infrared spectrum, which is unseen in the visible spectra. Telemedicine applications could benefit from thermal imagery, but conventional computers are reliant on RGB cameras and lack thermal sensors. As a result, we propose the Visible-to-Thermal Facial GAN (VTF-GAN) that is specifically designed to generate high-resolution thermal faces by learning both the spatial and frequency domains of facial regions, across spectra. We compare VTF-GAN against several popular GAN baselines and the first conditional Denoising Diffusion Probabilistic Model (DDPM) for VT face translation (VTF-Diff). Results show that VTF-GAN achieves high quality, crisp, and perceptually realistic thermal faces using a combined set of patch, temperature, perceptual, and Fourier Transform losses, compared to all baselines including diffusion.
翻訳日:2023-02-21 18:45:03 公開日:2023-02-18
# ディープニューラルネットワークを用いたメタラーニングによるネットワーク侵入検出

Deep Neural Networks based Meta-Learning for Network Intrusion Detection ( http://arxiv.org/abs/2302.09394v1 )

ライセンス: Link先を確認
Anabia Sohail, Bibi Ayisha, Irfan Hameed, Muhammad Mohsin Zafar, and Asifullah Khan(参考訳) ネットワークトラフィックがさまざまな攻撃タイプを包含しているため、侵入検知システムの設計は困難である。 予測モデルを構築するために使用されるデータは、歪んだクラス分布と、実際のネットワークトラフィックとは異なる攻撃タイプの限定表現を持つ。 これらの制限はデータセットシフトを引き起こし、機械学習モデルの予測能力に悪影響を及ぼし、新規攻撃に対する検出率を低下させる。 データセットシフトの課題に対処するために,ネットワーク侵入検出のための情報融合・スタックリングアンサンブル(infuse)を提案する。 このアプローチは、INFUSE上にディープニューラルネットワークベースのMeta-Learnerを使用することで、予測能力をさらに向上する。 まず、決定空間と特徴空間を統合することで、ハイブリッドな特徴空間を作成する。 5つの異なる分類器を使用して、決定空間のプールを生成する。 機能空間は、攻撃間の意味関係を学習する深いスパースオートエンコーダを通じて強化される。 最後に、deep meta-learnerは、ハイブリッド機能空間を分析し、最終的な決定を行うためのアンサンブルコンバインとして機能する。 文字列型ベンチマークデータセットの評価と既存手法との比較により, INFUSEのFスコア0.91, 91.6%, テスト+データセット0.94, Fスコア0.91, 85.6%, テスト21データセット0.87のリコールの有効性が示された。 これらの有望な結果から,提案手法は強力な一般化能力とネットワーク攻撃を検出する可能性を示唆する。

Designing an intrusion detection system is difficult as network traffic encompasses various attack types, including new and evolving ones with minor changes. The data used to construct a predictive model has a skewed class distribution and limited representation of attack types, which differ from real network traffic. These limitations result in dataset shift, negatively impacting the machine learning models' predictive abilities and reducing the detection rate against novel attacks. To address the challenge of dataset shift, we introduce the INformation FUsion and Stacking Ensemble (INFUSE) for network intrusion detection. This approach further improves its predictive power by employing a deep neural network-based Meta-Learner on top of INFUSE. First, a hybrid feature space is created by integrating decision and feature spaces. Five different classifiers are utilized to generate a pool of decision spaces. The feature space is then enriched through a deep sparse autoencoder that learns the semantic relationships between attacks. Finally, the deep Meta-Learner acts as an ensemble combiner to analyze the hybrid feature space and make a final decision. Our evaluation on stringent benchmark datasets and comparison to existing techniques showed the effectiveness of INFUSE with an F-Score of 0.91, Accuracy of 91.6%, and Recall of 0.94 on the Test+ dataset, and an F-Score of 0.91, Accuracy of 85.6%, and Recall of 0.87 on the stringent Test-21 dataset. These promising results indicate the proposed technique has strong generalization capability and the potential to detect network attacks.
翻訳日:2023-02-21 18:44:44 公開日:2023-02-18
# cfdを用いた汎用最小抵抗型水中車体探索

Search for universal minimum drag resistance underwater vehicle hull using CFD ( http://arxiv.org/abs/2302.09441v1 )

ライセンス: Link先を確認
Harsh Vardhan, Janos Sztipanovits(参考訳) 自律型水中車両(AUV)の設計では、船体抵抗は車両のパワー要件と範囲を決定する重要な要素であり、その結果、設計のバッテリーサイズ、重量、体積要件に影響を与える。 本稿では,計算流体力学(CFD)シミュレーションとともにAIに基づく最適化アルゴリズムを活用し,抵抗を最小化する最適船体設計について検討する。 CFDに基づく最適化を異なる動作速度と乱流強度で実行することにより、全ての動作条件(動作速度)と環境条件(乱流強度)で最小の抵抗/ニア最適設計を提供する普遍設計の可能性について研究・研究したい。 初期実験の結果, 低速・低乱流条件における最適設計は, 高速度・高乱流条件において非常に不良であることがわかった。 しかし、高速および高乱流条件において最適である設計は、多くの考慮された速度および乱流条件においてほぼ最適である。

In Autonomous Underwater Vehicles (AUVs) design, hull resistance is an important factor in determining the power requirements and range of vehicle and consequently affect battery size, weight, and volume requirement of the design. In this paper, we leverage on AI-based optimization algorithm along with Computational Fluid Dynamics (CFD) simulation to study the optimal hull design that minimizing the resistance. By running the CFD-based optimization at different operating velocities and turbulence intensity, we want to study/search the possibility of a universal design that will provide least resistance/near-optimal design across all operating conditions (operating velocity) and environmental conditions (turbulence intensity). Early result demonstrated that the optimal design found at low velocity and low turbulence condition performs very poor at high velocity and high turbulence conditions. However, a design that is optimal at high velocity and high turbulence conditions performs near-optimal across many considered velocity and turbulence conditions.
翻訳日:2023-02-21 18:38:28 公開日:2023-02-18
# コンテキスト帯域に対するオンライン連続ハイパーパラメータ最適化

Online Continuous Hyperparameter Optimization for Contextual Bandits ( http://arxiv.org/abs/2302.09440v1 )

ライセンス: Link先を確認
Yue Kang, Cho-Jui Hsieh, Thomas C. M. Lee(参考訳) 確率的文脈的包帯問題では、エージェントは過去の経験に基づいて設定された時間依存アクションから順次アクションを行い、累積的後悔を最小限に抑える。 他の多くの機械学習アルゴリズムと同様に、バンディットのパフォーマンスは複数のハイパーパラメータに大きく依存しており、理論的に導出されたパラメータ値は実際に不満足な結果をもたらす可能性がある。 さらに、リアルタイムに決定を行う必要があるため、cross validationのようなオフラインチューニングメソッドを使用して、bandit環境下でハイパーパラメータを選択することも不可能である。 そこで本研究では,コンテキストバンディットに対して,検索空間内の最適パラメータ構成を学習するためのオンライン連続ハイパーパラメータチューニングフレームワークを提案する。 具体的には、CDT(Continuous Dynamic Tuning)と呼ばれる2層バンドレートフレームワークを用いて、ハイパーパラメータ最適化を非定常連続武器バンディットとして定式化し、各アームがハイパーパラメータの組み合わせを表す。 上位層に対して,トンプソンサンプリング(TS)を探索に用いるZooming TSアルゴリズムと,スイッチング環境を回避するための再起動手法を提案する。 提案したCDTフレームワークは,ハイパーパラメータの候補セットを指定せずに,文脈的帯域幅アルゴリズムのチューニングに容易に利用できる。 さらに,理論上はサブリニアな後悔を達成でき,実際に合成データと実データの両方において一貫してよりよい結果が得られることを示した。

In stochastic contextual bandit problems, an agent sequentially makes actions from a time-dependent action set based on past experience to minimize the cumulative regret. Like many other machine learning algorithms, the performance of bandits heavily depends on their multiple hyperparameters, and theoretically derived parameter values may lead to unsatisfactory results in practice. Moreover, it is infeasible to use offline tuning methods like cross validation to choose hyperparameters under the bandit environment, as the decisions should be made in real time. To address this challenge, we propose the first online continuous hyperparameter tuning framework for contextual bandits to learn the optimal parameter configuration within a search space on the fly. Specifically, we use a double-layer bandit framework named CDT (Continuous Dynamic Tuning) and formulate the hyperparameter optimization as a non-stationary continuum-armed bandit, where each arm represents a combination of hyperparameters, and the corresponding reward is the algorithmic result. For the top layer, we propose the Zooming TS algorithm that utilizes Thompson Sampling (TS) for exploration and a restart technique to get around the switching environment. The proposed CDT framework can be easily used to tune contextual bandit algorithms without any pre-specified candidate set for hyperparameters. We further show that it could achieve sublinear regret in theory and performs consistently better on both synthetic and real datasets in practice.
翻訳日:2023-02-21 18:38:12 公開日:2023-02-18
# 機械学習は住宅市場の価格誤差を増幅するか? -機械学習フィードバックループの経済学

Does Machine Learning Amplify Pricing Errors in the Housing Market? -- The Economics of Machine Learning Feedback Loops ( http://arxiv.org/abs/2302.09438v1 )

ライセンス: Link先を確認
Nikhil Malik and Emaad Manzoor(参考訳) 機械学習アルゴリズムは、住宅の価格や価格、賃貸物件、雇用のための乗車、その他様々な商品やサービスにますます採用されている。 機械学習に基づく価格は、通常、履歴販売データに基づいて訓練された複雑なアルゴリズムによって生成される。 しかし、これらの価格を消費者に提示することで、実現した販売価格が固定され、アルゴリズムの今後のイテレーションのトレーニングサンプルとなる。 この機械学習の経済的意味は、間接的な人間とアルゴリズムの相互作用であるフィードバックループ(feedback loop)である。 本研究では,住宅市場における機械学習フィードバックループの分析モデルを構築した。 フィードバックループは、機械学習アルゴリズムを(誤りを過小評価することで)自分自身の正確さで過信し、ホームセラーが誤ったアルゴリズム価格を過信することを示している。 フィードバックループ均衡の結果として、販売価格は完全に不規則になる(ML価格の干渉がない消費者の真の嗜好に関連して)。 次に、フィードバックループ平衡における住宅販売者に対する経済的な支払いが、機械学習よりも悪い条件(MLモデルの選択、販売者特性、市場特性)を特定する。 また、Zillowの住宅市場データを用いて、分析モデルの原始的な構築ブロックを実証的に検証した。 我々は、機械学習フィードバックループの効果を緩和するためのアルゴリズム的修正戦略を規定し、これらの戦略を採用するプラットフォームに対するインセンティブについて議論し、同じ規制における政策立案者の役割について論じる。

Machine learning algorithms are increasingly employed to price or value homes for sale, properties for rent, rides for hire, and various other goods and services. Machine learning-based prices are typically generated by complex algorithms trained on historical sales data. However, displaying these prices to consumers anchors the realized sales prices, which will in turn become training samples for future iterations of the algorithms. The economic implications of this machine learning "feedback loop" - an indirect human-algorithm interaction - remain relatively unexplored. In this work, we develop an analytical model of machine learning feedback loops in the context of the housing market. We show that feedback loops lead machine learning algorithms to become overconfident in their own accuracy (by underestimating its error), and leads home sellers to over-rely on possibly erroneous algorithmic prices. As a consequence at the feedback loop equilibrium, sale prices can become entirely erratic (relative to true consumer preferences in absence of ML price interference). We then identify conditions (choice of ML models, seller characteristics and market characteristics) where the economic payoffs for home sellers at the feedback loop equilibrium is worse off than no machine learning. We also empirically validate primitive building blocks of our analytical model using housing market data from Zillow. We conclude by prescribing algorithmic corrective strategies to mitigate the effects of machine learning feedback loops, discuss the incentives for platforms to adopt these strategies, and discuss the role of policymakers in regulating the same.
翻訳日:2023-02-21 18:37:47 公開日:2023-02-18
# 過パラメータ線形モデルにおける確率鏡の一般化誤差

The Generalization Error of Stochastic Mirror Descent on Over-Parametrized Linear Models ( http://arxiv.org/abs/2302.09433v1 )

ライセンス: Link先を確認
Danil Akhtiamov, Babak Hassibi(参考訳) 過度にパラメトリ化され、トレーニングデータを完全に補間する能力があるにもかかわらず、ディープネットワークは見えないデータにうまく一般化することが知られている。 この理由の1つは、使用するトレーニングアルゴリズムが特定の暗黙の正規化特性を持ち、「良い」性質の補間解が見つかることであると理解されている。 これは、有名な確率勾配降下法(SGD)アルゴリズムがユークリッド距離から初期重みベクトルに最も近い補間解を見つけることが示されている線形過パラメータ化モデルでよく理解されている。 ユークリッド距離をブレグマン発散に置き換える異なる正則化器は、SGDを確率ミラー降下(SMD)に置き換えれば得られる。 実験的な観察により、深層ネットワーク環境では、smdはsgdと異なる一般化性能(smdのポテンシャル関数の選択に依存する)を達成することが示されている。 この振る舞いを理解するために、ガウス混合モデルから2つのクラスが引き出される二項分類問題に対する過度パラメータ化線形モデルに対するSMDの一般化誤差を求める。 この理論を検証し、特に、SMDが$\ell_2$正則化器(SGD)で、SMDが$\ell_1$正則化器で、逆が生じる2つのデータモデルを導入するシミュレーション結果を示す。

Despite being highly over-parametrized, and having the ability to fully interpolate the training data, deep networks are known to generalize well to unseen data. It is now understood that part of the reason for this is that the training algorithms used have certain implicit regularization properties that ensure interpolating solutions with "good" properties are found. This is best understood in linear over-parametrized models where it has been shown that the celebrated stochastic gradient descent (SGD) algorithm finds an interpolating solution that is closest in Euclidean distance to the initial weight vector. Different regularizers, replacing Euclidean distance with Bregman divergence, can be obtained if we replace SGD with stochastic mirror descent (SMD). Empirical observations have shown that in the deep network setting, SMD achieves a generalization performance that is different from that of SGD (and which depends on the choice of SMD's potential function. In an attempt to begin to understand this behavior, we obtain the generalization error of SMD for over-parametrized linear models for a binary classification problem where the two classes are drawn from a Gaussian mixture model. We present simulation results that validate the theory and, in particular, introduce two data models, one for which SMD with an $\ell_2$ regularizer (i.e., SGD) outperforms SMD with an $\ell_1$ regularizer, and one for which the reverse happens.
翻訳日:2023-02-21 18:37:22 公開日:2023-02-18
# BBT-Fin:中国金融ドメイン事前訓練言語モデルの構築、コーパスとベンチマーク

BBT-Fin: Comprehensive Construction of Chinese Financial Domain Pre-trained Language Model, Corpus and Benchmark ( http://arxiv.org/abs/2302.09432v1 )

ライセンス: Link先を確認
Dakuan Lu, Jiaqing Liang, Yipei Xu, Qianyu He, Yipeng Geng, Mengkun Han, Yingsi Xin, Hengkui Wu, Yanghua Xiao(参考訳) 中国の金融自然言語処理(NLP)を推進するために,T5モデルに基づく新たな金融事前学習言語であるBBT-FinT5を導入する。 BBT-FinCorpusは,4つのソースから約300GBの原文を出力する大規模財務コーパスである。 一般的なドメイン NLP では、GLUE や SuperGLUE のような包括的なベンチマークが、言語モデルの事前トレーニングにおいて、モデル間の直接比較を可能にすることによって、大幅に進歩している。 これらのベンチマークからインスピレーションを得たBBT-CFLEBは、中国の金融言語理解と生成評価ベンチマークであり、理解と生成の両方をカバーした6つのデータセットを含む。 当社の目標は、中国の金融分野におけるnlpの開発研究の促進です。 我々のモデル、コーパス、ベンチマークはhttps://github.com/ssymmetric/BBT-FinCUGE-Applicationsで公開される。 私たちの研究は,大規模な事前学習型言語モデルプロジェクトであるBig Bang Transformer(BBT)に属しています。

To advance Chinese financial natural language processing (NLP), we introduce BBT-FinT5, a new Chinese financial pre-training language model based on the T5 model. To support this effort, we have built BBT-FinCorpus, a large-scale financial corpus with approximately 300GB of raw text from four different sources. In general domain NLP, comprehensive benchmarks like GLUE and SuperGLUE have driven significant advancements in language model pre-training by enabling head-to-head comparisons among models. Drawing inspiration from these benchmarks, we propose BBT-CFLEB, a Chinese Financial Language understanding and generation Evaluation Benchmark, which includes six datasets covering both understanding and generation tasks. Our aim is to facilitate research in the development of NLP within the Chinese financial domain. Our model, corpus and benchmark are released at https://github.com/ssymmetry/BBT-FinCUGE-Applications. Our work belongs to the Big Bang Transformer (BBT), a large-scale pre-trained language model project.
翻訳日:2023-02-21 18:36:54 公開日:2023-02-18
# NU-AIR -- 歩行者と車両の検出と位置決定のためのニューロモルフィックな都市空域データセット

NU-AIR -- A Neuromorphic Urban Aerial Dataset for Detection and Localization of Pedestrians and Vehicles ( http://arxiv.org/abs/2302.09429v1 )

ライセンス: Link先を確認
Craig Iaboni, Thomas Kelly, Pramod Abichandani(参考訳) 都市環境で歩行者や車両を撮影する注釈付き画像は、ニューラルネットワーク(NN)のトレーニングに使用することができる。 本稿では,都市環境における歩行者や車両の移動を捉えた,初のオープンソースの空中ニューロモルフィックデータセットを提案する。 NU-AIRと題されたこのデータセットは、70.75分間のイベント映像を640 x 480の分解能ニューロモルフィックセンサーで取得し、都市環境で動作している四極子に装着する。 忙しい都市交差点の歩行者、さまざまな種類の車両、ストリートシーンの群衆は、異なる標高と照明条件で撮影されます。 記録に含まれる車両及び歩行者の手動バウンディングボックスアノテーションを30hzの周波数で提供し、合計93,204のラベルを付与する。 データセットの忠実度の評価は、3つのスパイキングニューラルネットワーク(SNN)と10のディープニューラルネットワーク(DNN)をトレーニングすることで行われる。 テストセット評価で得られた平均平均精度(mAP)は、確立されたニューロモルフィックベンチマークデータセット上でSNNやDNNと同様の結果と同等である。 データをVoxelizeし、SNN/DNNをトレーニングするすべてのデータとPythonコードがオープンソース化された。

Annotated imagery capturing pedestrians and vehicles in an urban environment can be used to train Neural Networks (NNs) for machine vision tasks. This paper presents the first open-source aerial neuromorphic dataset that captures pedestrians and vehicles moving in an urban environment. The dataset, titled NU-AIR, features 70.75 minutes of event footage acquired with a 640 x 480 resolution neuromorphic sensor mounted on a quadrotor operating in an urban environment. Crowds of pedestrians, different types of vehicles, and street scenes at a busy urban intersection are captured at different elevations and illumination conditions. Manual bounding box annotations of vehicles and pedestrians contained in the recordings are provided at a frequency of 30 Hz, yielding 93,204 labels in total. Evaluation of the dataset's fidelity is performed by training three Spiking Neural Networks (SNNs) and ten Deep Neural Networks (DNNs). The mean average precision (mAP) accuracy results achieved for the testing set evaluations are on-par with results reported for similar SNNs and DNNs on established neuromorphic benchmark datasets. All data and Python code to voxelize the data and subsequently train SNNs/DNNs has been open-sourced.
翻訳日:2023-02-21 18:36:36 公開日:2023-02-18
# 抽象推論コーパスにおける課題解決への一アプローチ

An Approach for Solving Tasks on the Abstract Reasoning Corpus ( http://arxiv.org/abs/2302.09425v1 )

ライセンス: Link先を確認
James Ainooson, Deepayan Sanyal, Joel P. Michelson, Yuan Yang, Maithilee Kunda(参考訳) ARC(Abstract Reasoning Corpus)は、人工知能システムや人間などの流体知能を測定するための知能検査である。 本稿では,ARCタスクの推論と解決のためのシステムを提案する。 本システムは,ARCからタスクを解くプログラムに対して,潜在的なプログラムの空間を探索するプログラム合成手法に依存する。 プログラムはドメイン固有言語であり、ある例では、検索アルゴリズムは基底真理プログラムのコーパスからの洞察によって導かれる。 特に、ARCのタスクを推論するために、Visual Imagery Reasoning Language (VIMRL)と呼ばれる命令型スタイルのドメイン固有言語を記述する。 また,与えられたタスク項目の局所検索を通じて,自身の引数を決定する特別なハイレベル関数を用いて,大規模な検索空間を分解する方法を実証する。 最後に、一般に公開されているARCアイテムと、プライベートテストにおけるシステムの強いパフォーマンスに関する結果を共有し、最近、グローバルARCathon 2022チャレンジで4位にランクインした。

The Abstract Reasoning Corpus (ARC) is an intelligence tests for measuring fluid intelligence in artificial intelligence systems and humans alike. In this paper we present a system for reasoning about and solving ARC tasks. Our system relies on a program synthesis approach that searches a space of potential programs for ones that can solve tasks from the ARC. Programs are in a domain specific language, and in some instances our search algorithm is guided by insights from a corpus of ground truth programs. In particular: We describe an imperative style domain specific language, called Visual Imagery Reasoning Language (VIMRL), for reasoning about tasks in the ARC. We also demonstrate an innovative approach for how large search spaces can be decomposed using special high level functions that determine their own arguments through local searches on a given task item. Finally, we share our results obtained on the publicly available ARC items as well as our system's strong performance on a private test, recently tying for 4th place on the global ARCathon 2022 challenge.
翻訳日:2023-02-21 18:36:16 公開日:2023-02-18
# 蒸留表現を用いたタスク指向対話エージェントの零点および零点位置推定

Zero and Few-Shot Localization of Task-Oriented Dialogue Agents with a Distilled Representation ( http://arxiv.org/abs/2302.09424v1 )

ライセンス: Link先を確認
Mehrad Moradshahi, Sina J. Semnani, Monica S. Lam(参考訳) タスク指向対話(ToD)エージェントは、主に言語ごとのトレーニングデータを取得するコストが高いため、広く普及している言語に限られている。 言語間埋め込みやナイーブ機械翻訳に依存する既存の低コストアプローチは、データ効率に多くの精度を犠牲にして、使用可能な対話エージェントを作成することに失敗している。 学習データ(ゼロショット)や小さなトレーニングセット(マイノリティショット)を持たない他のターゲット言語において、高品質な対話エージェントを構築するために、ソース言語でtodトレーニングデータを使用する自動手法を提案する。 対話状態追跡(DST)のみに焦点を当てた言語間ToDにおける従来の作業とは異なり、エンドツーエンドエージェントを構築します。 提案手法は,TODエージェントの複数ショットと既存のフルショットの精度ギャップを埋めるものである。 本研究では,(1)対話データ表現の改善,(2)エンティティ認識機械翻訳の改善,(3)雑音翻訳の自動フィルタリングによって実現した。 近年のバイリンガル対話データセットであるBiToDについて検討した。 中国語から英語への移行では、ゼロショット設定では、タスク成功率(TSR)と対話成功率(DSR)それぞれ46.7%と22.0%を達成する。 ターゲット言語のデータの10%が使用されるいくつかのショット設定では、15.2%と14.0%の改善を行い、フルショットトレーニングの5%以内となる。

Task-oriented Dialogue (ToD) agents are mostly limited to a few widely-spoken languages, mainly due to the high cost of acquiring training data for each language. Existing low-cost approaches that rely on cross-lingual embeddings or naive machine translation sacrifice a lot of accuracy for data efficiency, and largely fail in creating a usable dialogue agent. We propose automatic methods that use ToD training data in a source language to build a high-quality functioning dialogue agent in another target language that has no training data (i.e. zero-shot) or a small training set (i.e. few-shot). Unlike most prior work in cross-lingual ToD that only focuses on Dialogue State Tracking (DST), we build an end-to-end agent. We show that our approach closes the accuracy gap between few-shot and existing full-shot methods for ToD agents. We achieve this by (1) improving the dialogue data representation, (2) improving entity-aware machine translation, and (3) automatic filtering of noisy translations. We evaluate our approach on the recent bilingual dialogue dataset BiToD. In Chinese to English transfer, in the zero-shot setting, our method achieves 46.7% and 22.0% in Task Success Rate (TSR) and Dialogue Success Rate (DSR) respectively. In the few-shot setting where 10% of the data in the target language is used, we improve the state-of-the-art by 15.2% and 14.0%, coming within 5% of full-shot training.
翻訳日:2023-02-21 18:35:59 公開日:2023-02-18
# ニューラルアテンション記憶

Neural Attention Memory ( http://arxiv.org/abs/2302.09422v1 )

ライセンス: Link先を確認
Hyoungwook Nam, Seung Byum Seo(参考訳) 本稿では,ニューラルネットワーク,すなわちニューラルアテンションメモリ(NAM)のメモリアーキテクチャとして再発明することで,アテンションメカニズムの新たな視点を提案する。 NAM は可読性と可読性の両方を持つメモリ構造である。 namの3つのユースケースについて検討した: メモリ型ニューラルネットワーク(mann)、少数ショット学習、効率的な長距離注意。 まず,長い短期記憶(lsam)とnamチューリングマシン(nam-tm)の2つのnamベースのマントを設計し,アルゴリズムによるゼロショット一般化タスクにおいて,微分可能ニューラルネットワーク(dnc)などの他のベースラインと比較して優れた計算能力を示す。 次に、n-way k-shot学習タスクにnamを適用し、ベースラインコサイン分類器と比較して偽陽性の低減に有効であることを示す。 最後に, NAMを用いた効率的なトランスフォーマーを実装し, 長距離アリーナタスクを用いて評価し, NAMが大規模ドット製品に対する効率的な代替手段であることを示す。

We propose a novel perspective of the attention mechanism by reinventing it as a memory architecture for neural networks, namely Neural Attention Memory (NAM). NAM is a memory structure that is both readable and writable via differentiable linear algebra operations. We explore three use cases of NAM: memory-augmented neural network (MANN), few-shot learning, and efficient long-range attention. First, we design two NAM-based MANNs of Long Short-term Memory (LSAM) and NAM Turing Machine (NAM-TM) that show better computational powers in algorithmic zero-shot generalization tasks compared to other baselines such as differentiable neural computer (DNC). Next, we apply NAM to the N-way K-shot learning task and show that it is more effective at reducing false positives compared to the baseline cosine classifier. Finally, we implement an efficient Transformer with NAM and evaluate it with long-range arena tasks to show that NAM can be an efficient and effective alternative for scaled dot-product attention.
翻訳日:2023-02-21 18:35:32 公開日:2023-02-18
# 事前学習基礎モデルに関する総合的調査:BERTからChatGPTへ

A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT ( http://arxiv.org/abs/2302.09419v1 )

ライセンス: Link先を確認
Ce Zhou (1), Qian Li (2), Chen Li (2), Jun Yu (3), Yixin Liu (3), Guangjing Wang (1), Kai Zhang (3), Cheng Ji (2), Qiben Yan (1), Lifang He (3), Hao Peng (2), Jianxin Li (2), Jia Wu (4), Ziwei Liu (5), Pengtao Xie (6), Caiming Xiong (9), Jian Pei (7), Philip S. Yu (8), Lichao Sun (3) ((1) Michigan State University, (2) Beihang University, (3) Lehigh University, (4) Macquarie University, (5) Nanyang Technological University, (6) University of California San Diego, (7) Duke University, (8) University of Illinois at Chicago, (9) Salesforce AI Research)(参考訳) Pretrained Foundation Models (PFM) は、異なるデータモダリティを持つ様々な下流タスクの基礎と見なされている。 BERT, GPT-3, MAE, DALLE-E, ChatGPT などの事前訓練された基礎モデルは、広範囲の下流アプリケーションに対して合理的なパラメータ初期化を提供する大規模データに基づいて訓練される。 PFMの背景にある事前訓練という考え方は、大規模モデルの適用において重要な役割を担っている。 特徴抽出に畳み込みと再帰モジュールを適用する従来の方法とは異なり、生成前訓練(gpt)法は特徴抽出器としてtransformerを適用し、自己回帰パラダイムで大規模データセット上でトレーニングされる。 同様に、BERTは変換器をコンテキスト言語モデルとして大きなデータセットでトレーニングする。 最近、chatgptは大きな言語モデルで有望な成功を収めており、ゼロショットまたは少ないショープロンプトで自己回帰型言語モデルを適用する。 PFMの驚異的な成功により、AIはここ数年、さまざまな分野に波を広げてきた。 文献では、かなりの方法、データセット、評価指標が提案されており、最新の調査の必要性が高まっている。 本研究では,最近の研究動向,現状と今後の課題,テキスト,画像,グラフ,その他のデータモダリティにおけるpfmsの機会について,総合的なレビューを行う。 まず,自然言語処理,コンピュータビジョン,グラフ学習における基本コンポーネントと既存の事前学習について概説する。 次に,データ品質と量を考慮した他のデータモダリティおよび統一pfmについて検討する。 さらに,モデル効率や圧縮,セキュリティ,プライバシなど,pfmの基本に関する関連する研究についても論じる。 最後に、重要な意味、将来の研究の方向性、課題、オープンな問題について述べます。

The Pretrained Foundation Models (PFMs) are regarded as the foundation for various downstream tasks with different data modalities. A pretrained foundation model, such as BERT, GPT-3, MAE, DALLE-E, and ChatGPT, is trained on large-scale data which provides a reasonable parameter initialization for a wide range of downstream applications. The idea of pretraining behind PFMs plays an important role in the application of large models. Different from previous methods that apply convolution and recurrent modules for feature extractions, the generative pre-training (GPT) method applies Transformer as the feature extractor and is trained on large datasets with an autoregressive paradigm. Similarly, the BERT apples transformers to train on large datasets as a contextual language model. Recently, the ChatGPT shows promising success on large language models, which applies an autoregressive language model with zero shot or few show prompting. With the extraordinary success of PFMs, AI has made waves in a variety of fields over the past few years. Considerable methods, datasets, and evaluation metrics have been proposed in the literature, the need is raising for an updated survey. This study provides a comprehensive review of recent research advancements, current and future challenges, and opportunities for PFMs in text, image, graph, as well as other data modalities. We first review the basic components and existing pretraining in natural language processing, computer vision, and graph learning. We then discuss other advanced PFMs for other data modalities and unified PFMs considering the data quality and quantity. Besides, we discuss relevant research about the fundamentals of the PFM, including model efficiency and compression, security, and privacy. Finally, we lay out key implications, future research directions, challenges, and open problems.
翻訳日:2023-02-21 18:35:11 公開日:2023-02-18
# VITAL-Vision Transformer Neural Networks for Accurate smartphone Heterogeneity Resilient Indoor Localization (特集 バイオサイバネティックスとバイオサイバネティックス)

VITAL: Vision Transformer Neural Networks for Accurate Smartphone Heterogeneity Resilient Indoor Localization ( http://arxiv.org/abs/2302.09443v1 )

ライセンス: Link先を確認
Danish Gufran, Saideep Tiku, Sudeep Pasricha(参考訳) Wi-Fiフィンガープリンティングに基づく屋内ローカライゼーションは、建物内の既存のWi-Fiアクセスポイント(AP)を活用してスマートフォンでユーザをローカライズする、新たな組み込みアプリケーションドメインである。 残念なことに、ユーザによって携帯される多様なスマートフォンにおける無線トランシーバの不均一性は、ローカライズアルゴリズムの精度と信頼性を低下させることが示されている。 本稿では、この重要な課題に対処するVITALと呼ばれるビジョントランスフォーマーニューラルネットワークに基づく新しいフレームワークを提案する。 実験によると、vitalはスマートフォンの不均一性によって生じる不確実性を低減し、最もよく知られた先行作品よりも41%から68%に精度を向上できる。 また,本手法の一般化性を実証し,深層学習に基づくローカライゼーションフレームワークに統合して精度を向上させるデータ拡張手法を提案する。

Wi-Fi fingerprinting-based indoor localization is an emerging embedded application domain that leverages existing Wi-Fi access points (APs) in buildings to localize users with smartphones. Unfortunately, the heterogeneity of wireless transceivers across diverse smartphones carried by users has been shown to reduce the accuracy and reliability of localization algorithms. In this paper, we propose a novel framework based on vision transformer neural networks called VITAL that addresses this important challenge. Experiments indicate that VITAL can reduce the uncertainty created by smartphone heterogeneity while improving localization accuracy from 41% to 68% over the best-known prior works. We also demonstrate the generalizability of our approach and propose a data augmentation technique that can be integrated into most deep learning-based localization frameworks to improve accuracy.
翻訳日:2023-02-21 18:26:09 公開日:2023-02-18
# 厳密な階層を持つ量子メトロロジーの最適戦略

Optimal Strategies of Quantum Metrology with a Strict Hierarchy ( http://arxiv.org/abs/2203.09758v2 )

ライセンス: Link先を確認
Qiushi Liu, Zihao Hu, Haidong Yuan, Yuxiang Yang(参考訳) 量子力学における主要な探求の1つは、リソースがクエリの数だけでなく、より重要な戦略である与えられたリソースで最終的な精度限界を達成することである。 同じクエリ数で、戦略上の制限は達成可能な精度を制限します。 本研究では,並列性,シーケンシャル性,不確定因数順序戦略など,異なる戦略ファミリーの最終的な精度限界を特定するための体系的枠組みを構築し,検討中の戦略ファミリー内で最適な戦略を決定する効率的なアルゴリズムを提供する。 我々のフレームワークでは、戦略の異なるファミリーの精度限界の厳密な階層が存在することを示す。

One of the main quests in quantum metrology is to attain the ultimate precision limit with given resources, where the resources are not only of the number of queries, but more importantly of the allowed strategies. With the same number of queries, the restrictions on the strategies constrain the achievable precision. In this work, we establish a systematic framework to identify the ultimate precision limit of different families of strategies, including the parallel, the sequential, and the indefinite-causal-order strategies, and provide an efficient algorithm that determines an optimal strategy within the family of strategies under consideration. With our framework, we show there exists a strict hierarchy of the precision limits for different families of strategies.
翻訳日:2023-02-21 12:40:57 公開日:2023-02-18
# 因果効果推定のための局所因果発見

Local Causal Discovery for Estimating Causal Effects ( http://arxiv.org/abs/2302.08070v2 )

ライセンス: Link先を確認
Shantanu Gupta, David Childers, Zachary C. Lipton(参考訳) 我々のデータに基づく因果グラフが未知であっても、平均処理効果(ATE)が得る可能性のある値を、(1)マルコフ同値クラスまで同定し、(2)クラス内の各グラフに対してATEを推定することで、観測データを用いて絞り込むことができる。 PCアルゴリズムは強い忠実性の仮定の下でこのクラスを識別できるが、計算的に禁止することができる。 幸いなことに、処理の周りの局所グラフ構造のみが、可能なate値のセットを特定するために必要であり、これは計算効率を改善するために局所探索アルゴリズムによって利用される。 本稿では,従来の方法と異なり,非シールド型衝突器を利用した局所因果探索アルゴリズムであるEager Collider Checks (LDECC) を用いた局所発見について紹介する。 LDECCが既存の局所探索アルゴリズムを指数関数的に上回るグラフが存在することを示す。 さらに, LDECC と既存のアルゴリズムは異なる信頼度仮定に依存しており, この知見を活用して ATE 値の集合を同定する仮定を弱めていることを示す。

Even when the causal graph underlying our data is unknown, we can use observational data to narrow down the possible values that an average treatment effect (ATE) can take by (1) identifying the graph up to a Markov equivalence class; and (2) estimating that ATE for each graph in the class. While the PC algorithm can identify this class under strong faithfulness assumptions, it can be computationally prohibitive. Fortunately, only the local graph structure around the treatment is required to identify the set of possible ATE values, a fact exploited by local discovery algorithms to improve computational efficiency. In this paper, we introduce Local Discovery using Eager Collider Checks (LDECC), a new local causal discovery algorithm that leverages unshielded colliders to orient the treatment's parents differently from existing methods. We show that there exist graphs where LDECC exponentially outperforms existing local discovery algorithms and vice versa. Moreover, we show that LDECC and existing algorithms rely on different faithfulness assumptions, leveraging this insight to weaken the assumptions for identifying the set of possible ATE values.
翻訳日:2023-02-21 12:13:58 公開日:2023-02-18
# 光場画像の超解像に対する非局所空間角相関の学習

Learning Non-Local Spatial-Angular Correlation for Light Field Image Super-Resolution ( http://arxiv.org/abs/2302.08058v2 )

ライセンス: Link先を確認
Zhengyu Liang, Yingqian Wang, Longguang Wang, Jungang Yang, Shilin Zhou, Yulan Guo(参考訳) 空間-角相関の爆発は光場(LF)画像超解像(SR)にとって重要であるが、LF画像間の相違による非局所性のため、非常に困難である。 多くのディープニューラルネットワーク(dnn)がlfイメージsr用に開発され、性能が継続的に向上しているが、既存の手法では長距離空間-三角形相関を十分に活用できないため、大きなばらつきを持つシーンを扱う場合のパフォーマンス低下が著しい。 本稿では,LF画像SRの非局所空間角相関を学習するための簡易かつ効果的な手法を提案する。 本研究では,複数の2次元EPI平面に4次元空間角相関を投影するために,エピポーラ平面画像(EPI)表現を採用し,また,反復的な自己アテンション操作を施したトランスフォーマーネットワークを開発し,それぞれのEPI画素間の依存関係をモデル化して空間角相関を学習する。 提案手法は,全角視からの情報を完全に取り入れつつ,極上線に沿った大域的受容場を達成できる。 本手法の有効性を検証するため,洞察力のある可視化実験を行った。 5つの公開データセットの比較結果から,本手法は最先端のsr性能を実現するだけでなく,ばらつきに頑健な性能を示す。 コードはhttps://github.com/ZhengyuLiang24/EPIT.comで公開されている。

Exploiting spatial-angular correlation is crucial to light field (LF) image super-resolution (SR), but is highly challenging due to its non-local property caused by the disparities among LF images. Although many deep neural networks (DNNs) have been developed for LF image SR and achieved continuously improved performance, existing methods cannot well leverage the long-range spatial-angular correlation and thus suffer a significant performance drop when handling scenes with large disparity variations. In this paper, we propose a simple yet effective method to learn the non-local spatial-angular correlation for LF image SR. In our method, we adopt the epipolar plane image (EPI) representation to project the 4D spatial-angular correlation onto multiple 2D EPI planes, and then develop a Transformer network with repetitive self-attention operations to learn the spatial-angular correlation by modeling the dependencies between each pair of EPI pixels. Our method can fully incorporate the information from all angular views while achieving a global receptive field along the epipolar line. We conduct extensive experiments with insightful visualizations to validate the effectiveness of our method. Comparative results on five public datasets show that our method not only achieves state-of-the-art SR performance, but also performs robust to disparity variations. Code is publicly available at https://github.com/ZhengyuLiang24/EPIT.
翻訳日:2023-02-21 12:13:39 公開日:2023-02-18