このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221030となっている論文です。

PDF登録状況(公開日: 20221030)

TitleAuthorsAbstract論文公表日・翻訳日
# 自閉症スペクトラム障害検出のための多頭脳内クロネクトームの時空間的注意

Spatio-Temporal Attention in Multi-Granular Brain Chronnectomes for Detection of Autism Spectrum Disorder ( http://arxiv.org/abs/2211.07360v1 )

ライセンス: Link先を確認
James Orme-Rogers and Ajitesh Srivastava(参考訳) 自閉症スペクトラム障害(asd)を検出する伝統的な方法は高価、主観的、時間的であり、診断には何年もかかることが多い。 近年,Autism Brain Imaging Data Exchange (ABIDE) の静止状態機能型磁気共鳴画像(rs-fMRI)データに対して,グラフベースの学習技術が顕著な成果を上げている。 我々は、動的機能的脳結合(クロネクトーム)のグラフ表現を静的接続(コネクトーム)とは対照的に学習するために使用する、MultI-granular, Multi-Atlas spatio-temporal attention Graph Isomorphism Networkを紹介する。 実験の結果、イマジンは5倍のクロスバリデーション精度を79.25%達成し、現在の最先端を1.5%上回った。 さらに、空間的および時間的注意点の分析は、自閉症の神経基盤のさらなる検証を提供する。

The traditional methods for detecting autism spectrum disorder (ASD) are expensive, subjective, and time-consuming, often taking years for a diagnosis, with many children growing well into adolescence and even adulthood before finally confirming the disorder. Recently, graph-based learning techniques have demonstrated impressive results on resting-state functional magnetic resonance imaging (rs-fMRI) data from the Autism Brain Imaging Data Exchange (ABIDE). We introduce IMAGIN, a multI-granular, Multi-Atlas spatio-temporal attention Graph Isomorphism Network, which we use to learn graph representations of dynamic functional brain connectivity (chronnectome), as opposed to static connectivity (connectome). The experimental results demonstrate that IMAGIN achieves a 5-fold cross-validation accuracy of 79.25%, which surpasses the current state-of-the-art by 1.5%. In addition, analysis of the spatial and temporal attention scores provides further validation for the neural basis of autism.
翻訳日:2022-11-20 13:58:35 公開日:2022-10-30
# 電流シートにおける荷電粒子動力学のレジーム:機械学習アプローチ

Regimes of charged particle dynamics in current sheets: the machine learning approach ( http://arxiv.org/abs/2211.03787v1 )

ライセンス: Link先を確認
Alexander Lukin, Anton Artemyev, Dmitri Vainchtein, Anatoli Petrukovich(参考訳) 電流シートは、強プラズマ電流を持つ空間的に局在したほぼ1次元構造である。 これらは磁場エネルギーの蓄積に重要な役割を果たし、惑星磁気圏、太陽風、太陽コロナの異なるプラズマ集団を分離する。 電流シートはプラズマ加熱と荷電粒子加速に責任を持つ磁場線再接続の一次領域である。 最も興味深く広く観察されている1d電流シートの1つは回転不連続性であり、無力またはプラズマ圧縮を含むことができる。 このような1次元電流シートの理論モデルは、イオンの断熱運動、すなわちイオン断熱不変量の仮定に基づいている。 我々は,地球磁気ポーズと磁気テールおよび地球近傍の太陽風で広く観測された3つの電流シート構成に注目した。 このような電流シートの磁場は、十分な数の不変量が存在する場合にのみ存在する過渡イオンによって流れる電流によって支えられる。 本稿では,新しい機械学習手法であるAI Poincar'eを適用し,断熱不変量を保存するパラメトリック領域を決定する。 現在の3つのシート構成のうち、これらの領域は非常に狭く、観測された現在のシートのパラメトリック範囲全体をカバーしていない。 1次元電流シートが静的プラズマ平衡よりも動的であることを示す結果の解釈について検討する。

Current sheets are spatially localized almost-1D structures with intense plasma currents. They play a key role in storing the magnetic field energy and they separate different plasma populations in planetary magnetospheres, the solar wind, and the solar corona. Current sheets are primary regions for the magnetic field line reconnection responsible for plasma heating and charged particle acceleration. One of the most interesting and widely observed type of 1D current sheets is the rotational discontinuity, that can be force-free or include plasma compression. Theoretical models of such 1D current sheets are based on the assumption of adiabatic motion of ions, i.e. ion adiabatic invariants are conserved. We focus on three current sheet configurations, widely observed in the Earth magnetopause and magnetotail and in the near-Earth solar wind. Magnetic field in such current sheets is supported by currents carried by transient ions, which exist only when there is a sufficient number of invariants. In this paper, we apply a novel machine learning approach, AI Poincar'e, to determine parametrical domains where adiabatic invariants are conserved. For all three current sheet configurations, these domains are quite narrow and do not cover the entire parametrical range of observed current sheets. We discuss possible interpretation of obtained results indicating that 1D current sheets are dynamical rather than static plasma equilibria.
翻訳日:2022-11-13 23:56:36 公開日:2022-10-30
# physioGait: ウェアラブルセンシングにおける人物再識別攻撃のための文脈認識型生理的コンテキストモデリング

PhysioGait: Context-Aware Physiological Context Modeling for Person Re-identification Attack on Wearable Sensing ( http://arxiv.org/abs/2211.02622v1 )

ライセンス: Link先を確認
James O Sullivan and Mohammad Arif Ul Alam(参考訳) 個人の再識別は、公開医療データにおいて重要なプライバシー侵害である。 本研究では,プライバシーに敏感な大規模ウェアラブルセンシングデータに対する新たなタイプのプライバシー脅威の可能性を検討する。 本稿では,生理的(フォトプレチスモグラフィと電極活動)と物理的(加速度計)の2つの文脈的バイオメトリック特性から,ユーザ固有のバイオメトリックシグネチャについて検討する。 そこで本研究では,空間的および時間的情報を個別に学習し,その人物のアイデンティティを予測する目的で,シアームコストでセンサ融合を行うマルチモーダルシアーム畳み込みニューラルネットワーク(mmsnn)からなる,文脈認識型生理学的信号モデルであるphysiogaitを提案する。 4つのリアルタイム収集データセット(irb #hp-00064387に基づく3-dataと1つの公開データ)と2つの組み合わせデータセット(再識別者の89%から93%の精度)を用いて,体力攻撃モデルを評価した。

Person re-identification is a critical privacy breach in publicly shared healthcare data. We investigate the possibility of a new type of privacy threat on publicly shared privacy insensitive large scale wearable sensing data. In this paper, we investigate user specific biometric signatures in terms of two contextual biometric traits, physiological (photoplethysmography and electrodermal activity) and physical (accelerometer) contexts. In this regard, we propose PhysioGait, a context-aware physiological signal model that consists of a Multi-Modal Siamese Convolutional Neural Network (mmSNN) which learns the spatial and temporal information individually and performs sensor fusion in a Siamese cost with the objective of predicting a person's identity. We evaluated PhysioGait attack model using 4 real-time collected datasets (3-data under IRB #HP-00064387 and one publicly available data) and two combined datasets achieving 89% - 93% accuracy of re-identifying persons.
翻訳日:2022-11-13 23:47:17 公開日:2022-10-30
# 古典統計学から現代統計学・データ科学へ

Changes from Classical Statistics to Modern Statistics and Data Science ( http://arxiv.org/abs/2211.03756v1 )

ライセンス: Link先を確認
Kai Zhang, Shan Liu, and Momiao Xiong(参考訳) 座標系はあらゆる定量的科学、工学、医学の基礎である。 古典物理学と統計学はデカルト座標系に基づいている。 古典的な確率および仮説検定理論はユークリッドデータにのみ適用できる。 しかし、現実世界の現代のデータは、自然言語処理、数学的公式、ソーシャルネットワーク、輸送とセンサーネットワーク、コンピュータビジョン、自動化、バイオメディカル測定から来ている。 ユークリッドの仮定は非ユークリッドのデータには適さない。 この観点はこれらの基本的な制限を克服する緊急の必要性に対処し、古典的確率論と仮説テストの拡張、拡散モデル、ユークリッド空間から非ユークリッド空間への確率微分方程式を奨励する。 自然言語処理、コンピュータビジョン、グラフィカルニューラルネットワーク、多様体回帰と推論理論、多様体学習、グラフニューラルネットワーク、自動合成概念生成のための構成拡散モデル、および機械学習システムなどの人工知能が急速に発展してきた。 微分多様体理論は、深層学習とデータ科学の数学的基礎でもある。 我々は、データ分析のパラダイムを古典ユークリッドデータ分析からユークリッドデータ分析と非ユークリッドデータ分析にシフトさせ、現代の実データ集合の非ユークリッドジオメトリを記述、推定、推論するためのより革新的な方法を開発する必要がある。 ユークリッドデータと非ユークリッドデータ、複合AI、意思決定インテリジェンス、エッジAIの統合分析のための一般的なフレームワークは、AIを根本的に前進させるための強力な革新的なアイデアと戦略を提供する。 我々は、統計学とAIを結婚し、現代統計学の統一理論を開発し、次世代のAIとデータサイエンスを推進することが期待されている。

A coordinate system is a foundation for every quantitative science, engineering, and medicine. Classical physics and statistics are based on the Cartesian coordinate system. The classical probability and hypothesis testing theory can only be applied to Euclidean data. However, modern data in the real world are from natural language processing, mathematical formulas, social networks, transportation and sensor networks, computer visions, automations, and biomedical measurements. The Euclidean assumption is not appropriate for non Euclidean data. This perspective addresses the urgent need to overcome those fundamental limitations and encourages extensions of classical probability theory and hypothesis testing , diffusion models and stochastic differential equations from Euclidean space to non Euclidean space. Artificial intelligence such as natural language processing, computer vision, graphical neural networks, manifold regression and inference theory, manifold learning, graph neural networks, compositional diffusion models for automatically compositional generations of concepts and demystifying machine learning systems, has been rapidly developed. Differential manifold theory is the mathematic foundations of deep learning and data science as well. We urgently need to shift the paradigm for data analysis from the classical Euclidean data analysis to both Euclidean and non Euclidean data analysis and develop more and more innovative methods for describing, estimating and inferring non Euclidean geometries of modern real datasets. A general framework for integrated analysis of both Euclidean and non Euclidean data, composite AI, decision intelligence and edge AI provide powerful innovative ideas and strategies for fundamentally advancing AI. We are expected to marry statistics with AI, develop a unified theory of modern statistics and drive next generation of AI and data science.
翻訳日:2022-11-13 23:45:23 公開日:2022-10-30
# ニュートン重力とアインシュタインの一般相対性理論による重力次元の低減

Gravitational Dimensionality Reduction Using Newtonian Gravity and Einstein's General Relativity ( http://arxiv.org/abs/2211.01369v1 )

ライセンス: Link先を確認
Benyamin Ghojogh, Smriti Sharma(参考訳) 物理学における機械学習の有効性から、文学において広く注目を集めている。 しかし、機械学習に物理学を適用するという概念はあまり意識されていない。 この研究は物理学と機械学習のハイブリッドであり、物理の概念が機械学習に使われている。 教師付き重力次元減少法(GDR)アルゴリズムを提案し,各クラスのデータポイントを相互に移動させることにより,クラス内分散の低減とクラス分離の促進を図る。 すべてのデータポイントについて、他のポイントは、重力によってクラス内のポイントに引かれるような、星のような重力粒子であると考えられている。 データポイントはまず主成分分析を用いて時空多様体上に投影される。 ニュートン重力を持つGDRとアインシュタイン一般相対性理論を持つGDRの2つの変種を提案する。 前者は点間の直線でニュートン重力を用いるが、後者は時空多様体の測地線に沿ってデータ点を動かす。 相対性重力を持つ GDR に対して、シュワルツシルトとミンコフスキー計量テンソルは一般相対性理論と特殊相対性理論の両方をカバーする。 本シミュレーションは,クラス識別におけるGDRの有効性を示す。

Due to the effectiveness of using machine learning in physics, it has been widely received increased attention in the literature. However, the notion of applying physics in machine learning has not been given much awareness to. This work is a hybrid of physics and machine learning where concepts of physics are used in machine learning. We propose the supervised Gravitational Dimensionality Reduction (GDR) algorithm where the data points of every class are moved to each other for reduction of intra-class variances and better separation of classes. For every data point, the other points are considered to be gravitational particles, such as stars, where the point is attracted to the points of its class by gravity. The data points are first projected onto a spacetime manifold using principal component analysis. We propose two variants of GDR -- one with the Newtonian gravity and one with the Einstein's general relativity. The former uses Newtonian gravity in a straight line between points but the latter moves data points along the geodesics of spacetime manifold. For GDR with relativity gravitation, we use both Schwarzschild and Minkowski metric tensors to cover both general relativity and special relativity. Our simulations show the effectiveness of GDR in discrimination of classes.
翻訳日:2022-11-04 13:00:00 公開日:2022-10-30
# 交通予知のための固有特徴学習を用いた変分オートエンコーダ

Transposed Variational Auto-encoder with Intrinsic Feature Learning for Traffic Forecasting ( http://arxiv.org/abs/2211.00641v1 )

ライセンス: Link先を確認
Leyan Deng, Chenwang Wu, Defu Lian, Min Zhou(参考訳) 本稿では,Traffic4cast 2022のコアチャレンジと拡張チャレンジに対するソリューションを提案する。 このコンペティションでは、参加者は前時間における車両カウンタデータに基づいて、将来の15分間の交通状況を予測する必要がある。 同じシリーズの他の競合と比較すると、今年は異なるデータソースの予測とスパースな頂点からエッジへの一般化に焦点を当てている。 これらの問題に対処するため,Transposed Variational Auto-Encoder(TVAE)モデルを導入し,不足したデータとグラフ注意ネットワーク(GAT)を再構築し,学習表現間の相関性を強化する。 さらに,多様だが容易に利用可能なデータからトラフィックパターンを学ぶために,機能選択を適用する。 私たちのソリューションは、両方の課題で最終リーダーボードにランクインしました。 ソースコードは \url{https://github.com/Daftstone/Traffic4cast} で入手できる。

In this technical report, we present our solutions to the Traffic4cast 2022 core challenge and extended challenge. In this competition, the participants are required to predict the traffic states for the future 15-minute based on the vehicle counter data in the previous hour. Compared to other competitions in the same series, this year focuses on the prediction of different data sources and sparse vertex-to-edge generalization. To address these issues, we introduce the Transposed Variational Auto-encoder (TVAE) model to reconstruct the missing data and Graph Attention Networks (GAT) to strengthen the correlations between learned representations. We further apply feature selection to learn traffic patterns from diverse but easily available data. Our solutions have ranked first in both challenges on the final leaderboard. The source code is available at \url{https://github.com/Daftstone/Traffic4cast}
翻訳日:2022-11-03 12:28:01 公開日:2022-10-30
# ethereumトランザクションネットワークにおけるフィッシング検出のための量子古典mlアルゴリズムの古典的アンサンブル

Classical ensemble of Quantum-classical ML algorithms for Phishing detection in Ethereum transaction networks ( http://arxiv.org/abs/2211.00004v1 )

ライセンス: Link先を確認
Anupama Ray, Sai Sakunthala Guddanti, Vishnu Ajith, Dhinakaran Vinayagamurthy(参考訳) Ethereumは、その中にロックされている金銭的価値の総量において、最も価値の高いブロックチェーンネットワークの1つであり、研究やアプリケーションの新しいブロックチェーンイノベーションが実証される最もアクティブなネットワークであることは間違いない。 しかし、これはethereumネットワークが、理不尽なアドバンテージを得ようとして、あるいはユーザの価値を損なうために、さまざまな脅威や攻撃にさらされることにも繋がる。 最先端の古典的MLアルゴリズムでさえ、そのような攻撃を検出することは依然として難しい。 これは、金融取引ネットワークにおけるフィッシング検出を改善する量子古典アルゴリズムのハイブリッドシステムを構築する動機となった。 本稿では、古典的および量子的アルゴリズムの古典的なアンサンブルパイプラインと、量子支援ベクトルマシンや変分量子分類器などの既存の量子機械学習アルゴリズムのベンチマークを行う。 量子ハードウェアの現在の世代では、より小さなデータセットはqmlモデルに適しており、ほとんどの研究は数百のサンプルに制限されている。 しかし、我々は異なるデータサイズで実験を行い、1kトランザクションノードのテストデータを用いて結果を報告した。 量子古典モデルの古典アンサンブルはマクロf-scoreとフィッシングf-scoreを改善した。 1つの重要な観察は、QSVMが常に低い偽陽性を与えるため、どの古典的または量子的ネットワークよりも精度が高く、常に異常検出問題に好まれる。 これはQSVMにおいて、同一モデルを個別に使用したり、あるいは他の古典的/量子モデルと組み合わせて使用することで、これまでで最も有利な量子アルゴリズムとなっている。 提案するアンサンブルフレームワークは汎用的であり,任意の分類タスクに適用可能である

Ethereum is one of the most valuable blockchain networks in terms of the total monetary value locked in it, and arguably been the most active network where new blockchain innovations in research and applications are demonstrated. But, this also leads to Ethereum network being susceptible to a wide variety of threats and attacks in an attempt to gain unreasonable advantage or to undermine the value of the users. Even with the state-of-art classical ML algorithms, detecting such attacks is still hard. This motivated us to build a hybrid system of quantum-classical algorithms that improves phishing detection in financial transaction networks. This paper presents a classical ensemble pipeline of classical and quantum algorithms and a detailed study benchmarking existing Quantum Machine Learning algorithms such as Quantum Support Vector Machine and Variational Quantum Classifier. With the current generation of quantum hardware available, smaller datasets are more suited to the QML models and most research restricts to hundreds of samples. However, we experimented on different data sizes and report results with a test data of 12K transaction nodes, which is to the best of the authors knowledge the largest QML experiment run so far on any real quantum hardware. The classical ensembles of quantum-classical models improved the macro F-score and phishing F-score. One key observation is QSVM constantly gives lower false positives, thereby higher precision compared with any other classical or quantum network, which is always preferred for any anomaly detection problem. This is true for QSVMs when used individually or via bagging of same models or in combination with other classical/quantum models making it the most advantageous quantum algorithm so far. The proposed ensemble framework is generic and can be applied for any classification task
翻訳日:2022-11-02 15:04:16 公開日:2022-10-30
# スパースX線CTにおける自己監督による再構成

A Self-Supervised Approach to Reconstruction in Sparse X-Ray Computed Tomography ( http://arxiv.org/abs/2211.00002v1 )

ライセンス: Link先を確認
Rey Mendoza, Minh Nguyen, Judith Weng Zhu, Vincent Dumont, Talita Perciano, Juliane Mueller, Vidya Ganapati(参考訳) コンピュータ断層撮影は生物学から材料科学まで科学的な進歩を促してきた。 この技術は、ビームに対して異なる回転で物体を通してX線を減衰させることにより、三次元内部構造を解明することができる。 2次元投影をイメージングすることで、3次元オブジェクトを計算アルゴリズムで再構築することができる。 より多くの回転角での撮像により、再構成が改善される。 しかし、より多くの測定を行うと、X線量が増え、サンプルの損傷を引き起こす可能性がある。 ディープニューラルネットワークは、既知の類似オブジェクトのデータセット上でトレーニングすることで、スパース2次元投影計測を3次元再構成に変換するために使用されている。 しかし、トレーニングデータセットのための高品質なオブジェクト再構成を得るには、画像化が完了する前に標本を破壊または変更できる高いx線線量測定が必要である。 高品質な再構築はディープラーニングなしでは生成できず、深層ニューラルネットワークは再構築なしでは学習できない。 本研究は,自己教師付き確率的深層学習手法である物理に変形した変分オートエンコーダを開発し,検証する。 各オブジェクトからのスパースプロジェクション測定のみからなるデータセットを使用して、セットの全オブジェクトを共同で再構築する。 このアプローチは、X線CTによる脆弱なサンプルの可視化を可能にする可能性がある。 私たちは結果を再現するためのコードをhttps://github.com/vganapati/ct_pvaeでリリースします。

Computed tomography has propelled scientific advances in fields from biology to materials science. This technology allows for the elucidation of 3-dimensional internal structure by the attenuation of x-rays through an object at different rotations relative to the beam. By imaging 2-dimensional projections, a 3-dimensional object can be reconstructed through a computational algorithm. Imaging at a greater number of rotation angles allows for improved reconstruction. However, taking more measurements increases the x-ray dose and may cause sample damage. Deep neural networks have been used to transform sparse 2-D projection measurements to a 3-D reconstruction by training on a dataset of known similar objects. However, obtaining high-quality object reconstructions for the training dataset requires high x-ray dose measurements that can destroy or alter the specimen before imaging is complete. This becomes a chicken-and-egg problem: high-quality reconstructions cannot be generated without deep learning, and the deep neural network cannot be learned without the reconstructions. This work develops and validates a self-supervised probabilistic deep learning technique, the physics-informed variational autoencoder, to solve this problem. A dataset consisting solely of sparse projection measurements from each object is used to jointly reconstruct all objects of the set. This approach has the potential to allow visualization of fragile samples with x-ray computed tomography. We release our code for reproducing our results at: https://github.com/vganapati/CT_PVAE .
翻訳日:2022-11-02 14:53:22 公開日:2022-10-30
# MEDS-Net:二方向最大強度投影を用いた肺結節検出用自己拡張型マルチエンコーダネットワーク

MEDS-Net: Self-Distilled Multi-Encoders Network with Bi-Direction Maximum Intensity projections for Lung Nodule Detection ( http://arxiv.org/abs/2211.00003v1 )

ライセンス: Link先を確認
Muhammad Usman, Azka Rehman, Abdullah Shahid, Siddique Latif, Shi Sub Byon, Byoung Dai Lee, Sung Hyun Kim, Byung il Lee, Yeong Gil Shin(参考訳) 本研究では,放射線科医の診療ワークフローを完全に組み込んだ肺結節検出手法を提案する。 特に, 種々の厚さ(3, 5, 10mm)の2方向最大強度投影(MIP)画像と, 近接する10個のスライスからなるCTスキャンを併用して, 自己蒸留型マルチエンコーダネットワーク(MEDS-Net)に入力する。 提案アーキテクチャは, 3つのチャネルに入力される3次元パッチを, 2次元軸スライスからの結節の存在を効果的に調査する密集単位からなる密集ブロックを用いて, まず凝縮する。 この凝縮された情報は、前方および後方のMIP画像とともに、3つの異なるエンコーダに送られ、最も意味のある表現を学習し、様々なレベルで復号ブロックに転送される。 デコーダブロックでは,5個の肺結節検出器を含む蒸留ブロックを接続して自己蒸留機構を用いる。 収束の迅速化と、提案したアーキテクチャの学習能力の向上に役立ちます。 最後に,提案手法は主検出器と補助検出器を補完することにより偽陽性を低減する。 提案手法はLUNA16データセットの888スキャンで厳格に評価され、CPMスコアは93.6\%となった。 その結果,MEDS-Netは2方向MIP画像の導入により,1スキャンあたり0.25と0.5の偽陽性率で91.5%と92.8%の感度を達成することができる。

In this study, we propose a lung nodule detection scheme which fully incorporates the clinic workflow of radiologists. Particularly, we exploit Bi-Directional Maximum intensity projection (MIP) images of various thicknesses (i.e., 3, 5 and 10mm) along with a 3D patch of CT scan, consisting of 10 adjacent slices to feed into self-distillation-based Multi-Encoders Network (MEDS-Net). The proposed architecture first condenses 3D patch input to three channels by using a dense block which consists of dense units which effectively examine the nodule presence from 2D axial slices. This condensed information, along with the forward and backward MIP images, is fed to three different encoders to learn the most meaningful representation, which is forwarded into the decoded block at various levels. At the decoder block, we employ a self-distillation mechanism by connecting the distillation block, which contains five lung nodule detectors. It helps to expedite the convergence and improves the learning ability of the proposed architecture. Finally, the proposed scheme reduces the false positives by complementing the main detector with auxiliary detectors. The proposed scheme has been rigorously evaluated on 888 scans of LUNA16 dataset and obtained a CPM score of 93.6\%. The results demonstrate that incorporating of bi-direction MIP images enables MEDS-Net to effectively distinguish nodules from surroundings which help to achieve the sensitivity of 91.5% and 92.8% with false positives rate of 0.25 and 0.5 per scan, respectively.
翻訳日:2022-11-02 14:37:53 公開日:2022-10-30
# 時系列とシーケンスの不確実性DTW

Uncertainty-DTW for Time Series and Sequences ( http://arxiv.org/abs/2211.00005v1 )

ライセンス: Link先を確認
Lei Wang and Piotr Koniusz(参考訳) 動的時間ウォーピング (dynamic time warping, dtw) は、時系列の進化を予測したり、時系列をクラスタリングしたり、数発のアクション認識において配列のペアをマッチングしたりといった用途で有名である。 DTWの輸送計画には一連の経路が含まれており、各経路は時間変動の度合いの異なる2つのシーケンス間のフレームに一致し、時間内行動の時間的変動を考慮に入れている。 しかし、DTWはすべてのパスの中で最小距離であるため、時間ステップやフレームによって異なる特徴の不確実性に影響される可能性がある。 そこで本研究では,DTWの可微分(ソフト)バージョンにおけるいわゆるアレラトリック不確かさをモデル化する。 この目的のために,各経路の不確かさを正規分布からの確率の積によってモデル化し,各ペアのフレームの分散を捉える。 (経路距離は、経路の一対のフレームの特徴の間の基距離の合計である。) 経路に適用される最大確率推定 (mle) は次の2つの項を与える。 (i)分散逆数によって重みづけられたユークリッド距離の和、 (ii)対数分散正規化項の和。 したがって、我々の不確実性DTWは全ての経路の中で最小の重み付きパス距離であり、正規化項(高い不確実性に対するペナルティ)は経路に沿ったログ分散の集合である。 距離と正規化項は様々な目的に使用できる。 我々は,時系列の進化を予測し,時系列のFr'echet平均を推定し,人体関節の指示的・非監督的な動作認識を示す。

Dynamic Time Warping (DTW) is used for matching pairs of sequences and celebrated in applications such as forecasting the evolution of time series, clustering time series or even matching sequence pairs in few-shot action recognition. The transportation plan of DTW contains a set of paths; each path matches frames between two sequences under a varying degree of time warping, to account for varying temporal intra-class dynamics of actions. However, as DTW is the smallest distance among all paths, it may be affected by the feature uncertainty which varies across time steps/frames. Thus, in this paper, we propose to model the so-called aleatoric uncertainty of a differentiable (soft) version of DTW. To this end, we model the heteroscedastic aleatoric uncertainty of each path by the product of likelihoods from Normal distributions, each capturing variance of pair of frames. (The path distance is the sum of base distances between features of pairs of frames of the path.) The Maximum Likelihood Estimation (MLE) applied to a path yields two terms: (i) a sum of Euclidean distances weighted by the variance inverse, and (ii) a sum of log-variance regularization terms. Thus, our uncertainty-DTW is the smallest weighted path distance among all paths, and the regularization term (penalty for the high uncertainty) is the aggregate of log-variances along the path. The distance and the regularization term can be used in various objectives. We showcase forecasting the evolution of time series, estimating the Fr\'echet mean of time series, and supervised/unsupervised few-shot action recognition of the articulated human 3D body joints.
翻訳日:2022-11-02 12:50:53 公開日:2022-10-30
# 予測可能なシーケンスに対する長期制約付きオンライン凸最適化

Online Convex Optimization with Long Term Constraints for Predictable Sequences ( http://arxiv.org/abs/2210.16735v1 )

ライセンス: Link先を確認
Deepan Muthirayan, Jianjun Yuan, and Pramod P. Khargonekar(参考訳) 本稿では,オンライン学習のためのオンライン凸最適化(OCO)の枠組みを検討する。 OCOは多くのアプリケーションに対して非常に強力なオンライン学習フレームワークを提供する。 この文脈では、長期制約付き OCO と呼ばれる OCO の特定の枠組みについて検討する。 長期的制約は、オンライン最適化における更新ステップ毎のプロジェクションの複雑さを軽減する代替手段として一般的に導入される。 長期的制約を伴うオンライン最適化に向けて多くのアルゴリズムが進歩してきたが、これらのアルゴリズムは通常、オンライン学習者に対するコストを決定するための一定のT$有限ステップ上のコスト関数列が逆向きに生成されると仮定する。 多くの状況において、コスト関数のシーケンスは無関係ではなく、従って観測されたものからある時点まで予測可能である。 本稿では,シーケンスの予測可能な設定について検討する。 本稿では,このような予測可能性を活用するオンライン最適化アルゴリズムを提案する。 本研究では,次関数の次関数の勾配情報を逐次供給できる予測器を用いることで,予測なしで達成できる速度よりも厳密に少ない,全体的な後悔と制約違反率を達成することができることを示す。

In this paper, we investigate the framework of Online Convex Optimization (OCO) for online learning. OCO offers a very powerful online learning framework for many applications. In this context, we study a specific framework of OCO called {\it OCO with long term constraints}. Long term constraints are introduced typically as an alternative to reduce the complexity of the projection at every update step in online optimization. While many algorithmic advances have been made towards online optimization with long term constraints, these algorithms typically assume that the sequence of cost functions over a certain $T$ finite steps that determine the cost to the online learner are adversarially generated. In many circumstances, the sequence of cost functions may not be unrelated, and thus predictable from those observed till a point of time. In this paper, we study the setting where the sequences are predictable. We present a novel online optimization algorithm for online optimization with long term constraints that can leverage such predictability. We show that, with a predictor that can supply the gradient information of the next function in the sequence, our algorithm can achieve an overall regret and constraint violation rate that is strictly less than the rate that is achievable without prediction.
翻訳日:2022-11-01 19:58:33 公開日:2022-10-30
# 対称性に基づく話者識別に対する対立攻撃

Symmetric Saliency-based Adversarial Attack To Speaker Identification ( http://arxiv.org/abs/2210.16777v1 )

ライセンス: Link先を確認
Jiadi Yao, Xing Chen, Xiao-Lei Zhang, Wei-Qiang Zhang and Kunde Yang(参考訳) 話者識別に対する敵対的攻撃アプローチは高い計算コストを必要とするか、あるいは我々の知識にはあまり効果がない。 本稿では,この問題を解決するために,ssed(symmetric saliency-based encoder-decoder)と呼ばれる,話者識別のための逆音声サンプルを生成する新しい生成ネットワークベースの手法を提案する。 2つの新しい要素を含んでいる。 まず, 話者識別システムにおいて, 音声サンプルの重要性を学習するために, 新たなサリエンシーマップデコーダを用い, 被攻撃者が重要なサンプルに対する人工雑音生成に焦点をあてるようにした。 また、スピーカーをソーススピーカーから遠ざける角損失関数も提案している。 実験の結果,提案したSSEDは,97%以上の目標攻撃成功率,39dB以上の信号対雑音レベルを高い計算コストで達成できることがわかった。

Adversarial attack approaches to speaker identification either need high computational cost or are not very effective, to our knowledge. To address this issue, in this paper, we propose a novel generation-network-based approach, called symmetric saliency-based encoder-decoder (SSED), to generate adversarial voice examples to speaker identification. It contains two novel components. First, it uses a novel saliency map decoder to learn the importance of speech samples to the decision of a targeted speaker identification system, so as to make the attacker focus on generating artificial noise to the important samples. It also proposes an angular loss function to push the speaker embedding far away from the source speaker. Our experimental results demonstrate that the proposed SSED yields the state-of-the-art performance, i.e. over 97% targeted attack success rate and a signal-to-noise level of over 39 dB on both the open-set and close-set speaker identification tasks, with a low computational cost.
翻訳日:2022-11-01 19:58:15 公開日:2022-10-30
# 分散オンライン凸とサブモジュラ最適化のための一勾配frank-wolfe

One Gradient Frank-Wolfe for Decentralized Online Convex and Submodular Optimization ( http://arxiv.org/abs/2210.16790v1 )

ライセンス: Link先を確認
Tuan-Anh Nguyen, Nguyen Kim Thang, Denis Trystram(参考訳) 近年、分散学習は、連合学習の文脈における幅広い応用に動機づけられて、集中的に研究されている。 これまでの研究の大半は、目的関数が静的なオフライン設定に焦点を当てていた。 しかし、大量のデータの変化を目撃する多くの機械学習アプリケーションでは、オフライン設定は非現実的になる。 本稿では,様々な機械学習問題に存在する2つの関数のクラスである凸および連続的なdr-サブモジュラー最適化のための \emph{decentralized online}アルゴリズムを提案する。 私たちのアルゴリズムは、集中型オフライン設定と同等のパフォーマンス保証を実現します。 さらに、各参加者は平均して、時間ステップごとに \emph{single} 勾配計算のみを実行する。 その後、アルゴリズムをバンディット設定に拡張します。 最後に,実環境実験におけるアルゴリズムの競合性能について述べる。

Decentralized learning has been studied intensively in recent years motivated by its wide applications in the context of federated learning. The majority of previous research focuses on the offline setting in which the objective function is static. However, the offline setting becomes unrealistic in numerous machine learning applications that witness the change of massive data. In this paper, we propose \emph{decentralized online} algorithm for convex and continuous DR-submodular optimization, two classes of functions that are present in a variety of machine learning problems. Our algorithms achieve performance guarantees comparable to those in the centralized offline setting. Moreover, on average, each participant performs only a \emph{single} gradient computation per time step. Subsequently, we extend our algorithms to the bandit setting. Finally, we illustrate the competitive performance of our algorithms in real-world experiments.
翻訳日:2022-11-01 19:57:57 公開日:2022-10-30
# グラフニューラルネットワークを用いたWLANにおける分散チャネル管理

Decentralized Channel Management in WLANs with Graph Neural Networks ( http://arxiv.org/abs/2210.16949v1 )

ライセンス: Link先を確認
Zhan Gao and Yulin Shao and Deniz Gunduz and Amanda Prorok(参考訳) 無線ローカルエリアネットワーク(wlans)は、複数のアクセスポイント(aps)を管理し、関連するユーザデバイスのトラフィック要求を満たすためにapsに無線周波数リソースを割り当てる。 本稿では,AP間の相互干渉を最小限に抑えるWLANにおけるチャネル割り当て問題を考察し,分散的に実装可能な学習ベースソリューションを提案する。 本稿では,教師なし学習問題としてチャネル割り当て問題を定式化し,グラフニューラルネットワーク(gnns)を用いて無線チャネルの制御ポリシをパラメータ化し,モデルフリーでポリシー勾配法を用いてgnnを訓練する。 提案手法は,GNNの分散特性により分散化実装が可能であり,ネットワークの置換に等価である。 前者は大規模ネットワークシナリオに対して効率的でスケーラブルなソリューションを提供し、後者はAPの再注文とは無関係にアルゴリズムをレンダリングします。 提案手法を評価し, 理論的知見を裏付ける実験を行った。

Wireless local area networks (WLANs) manage multiple access points (APs) and assign scarce radio frequency resources to APs for satisfying traffic demands of associated user devices. This paper considers the channel allocation problem in WLANs that minimizes the mutual interference among APs, and puts forth a learning-based solution that can be implemented in a decentralized manner. We formulate the channel allocation problem as an unsupervised learning problem, parameterize the control policy of radio channels with graph neural networks (GNNs), and train GNNs with the policy gradient method in a model-free manner. The proposed approach allows for a decentralized implementation due to the distributed nature of GNNs and is equivariant to network permutations. The former provides an efficient and scalable solution for large network scenarios, and the latter renders our algorithm independent of the AP reordering. Empirical results are presented to evaluate the proposed approach and corroborate theoretical findings.
翻訳日:2022-11-01 19:57:47 公開日:2022-10-30
# Forget Embedding Layers:Recommenderシステムにおけるコールドスタートのための表現学習

Forget Embedding Layers: Representation Learning for Cold-start in Recommender Systems ( http://arxiv.org/abs/2210.16928v1 )

ライセンス: Link先を確認
Kuba Weimann and Tim O. F. Conrad(参考訳) 新しいユーザがプラットフォームに加わったり、新しいアイテムがカタログに追加されたりすると、リコメンダシステムはコールドスタートの問題に悩まされる。 項目コールドスタートに対処するために,シーケンシャルレコメンデータの埋め込み層を,学習可能な重みを持たず任意の数の表現を保持することのできる動的ストレージに置き換えることを提案する。 本稿では,ユーザとアイテムの既存の表現を再帰的に洗練する大規模な埋め込みネットワークであるFELRecについて述べる。 類似のアプローチとは対照的に、我々のモデルはサイド情報や時間を要する微調整のない新しいユーザやアイテムを表現している。 項目冷間開始時に同様の手法を29.50%~47.45%向上させる。 さらに,提案モデルでは,未発見のデータセットをよく一般化する。 ソースコードはgithub.com/kweimann/FELRecで公開されている。

Recommender systems suffer from the cold-start problem whenever a new user joins the platform or a new item is added to the catalog. To address item cold-start, we propose to replace the embedding layer in sequential recommenders with a dynamic storage that has no learnable weights and can keep an arbitrary number of representations. In this paper, we present FELRec, a large embedding network that refines the existing representations of users and items in a recursive manner, as new information becomes available. In contrast to similar approaches, our model represents new users and items without side information or time-consuming fine-tuning. During item cold-start, our method outperforms similar method by 29.50%-47.45%. Further, our proposed model generalizes well to previously unseen datasets. The source code is publicly available at github.com/kweimann/FELRec.
翻訳日:2022-11-01 19:34:25 公開日:2022-10-30
# 低次元表現を用いた最大クランク列挙問題の学習ヒューリスティックス

Learning Heuristics for the Maximum Clique Enumeration Problem Using Low Dimensional Representations ( http://arxiv.org/abs/2210.16963v1 )

ライセンス: Link先を確認
Ali Baran Ta\c{s}demir, Tuna Karacan, Emir Kaan K{\i}rmac{\i} and Lale \"Ozkahya(参考訳) np-ハードコンビネート最適化問題に対する近似解は、複素学習モデルを用いた学習ヒューリスティックスによって発見されている。 特に、グラフにおける頂点(ノード)分類は、他の部分から最適な集合における頂点を識別するための決定境界を見つけるための有用な方法である。 このアプローチに従えば,入力グラフのプルーニングプロセスのための学習フレームワークを用いて,最大クランク列挙問題のランタイムを削減できる。 node2vecやdeepwalkといったグラフ埋め込みアルゴリズムや,局所サブグラフ数を含む高次グラフ特徴を用いた表現を用いて,このヒューリスティック手法の性能に異なる頂点表現を用いる役割を広く研究した。 この結果から,Node2VecとDeepWalkは,ノードを分類目的に表現するための埋め込み手法を約束していることがわかった。 分類プロセスにおける局所グラフ機能の使用は,特徴除去プロセスと組み合わせると,より正確な結果が得られることを観察する。 最後に,提案手法の堅牢性と拡張性を示すために,ランダムグラフの試験を行う。

Approximate solutions to various NP-hard combinatorial optimization problems have been found by learned heuristics using complex learning models. In particular, vertex (node) classification in graphs has been a helpful method towards finding the decision boundary to distinguish vertices in an optimal set from the rest. By following this approach, we use a learning framework for a pruning process of the input graph towards reducing the runtime of the maximum clique enumeration problem. We extensively study the role of using different vertex representations on the performance of this heuristic method, using graph embedding algorithms, such as Node2vec and DeepWalk, and representations using higher-order graph features comprising local subgraph counts. Our results show that Node2Vec and DeepWalk are promising embedding methods in representing nodes towards classification purposes. We observe that using local graph features in the classification process produce more accurate results when combined with a feature elimination process. Finally, we provide tests on random graphs to show the robustness and scalability of our method.
翻訳日:2022-11-01 19:34:12 公開日:2022-10-30
# Semantic-Native Communication: 単純な複雑な視点

Semantic-Native Communication: A Simplicial Complex Perspective ( http://arxiv.org/abs/2210.16970v1 )

ライセンス: Link先を確認
Qiyang Zhao, Mehdi Bennis, Merouane Debbah, Daniel Benevides da Costa(参考訳) セマンティックコミュニケーションは、知的エージェントが相互作用を通じて情報の意味(または意味)を抽出し、協調的なタスクを実行することを可能にする。 本稿では,高階データ意味論が簡素な複合空間に存在するトポロジカル空間の観点から意味コミュニケーションについて検討する。 具体的には、送信者はまずそのデータを$k$-order simplicial complexにマッピングし、次にその高次の相関関係を学習する。 簡素な構造と対応する特徴は、伝達のための潜在空間における意味的埋め込みに符号化される。 その後、受信者は構造をデコードし、欠落または歪んだデータを推測する。 送信機と受信機は、単純な畳み込みオートエンコーダを協調して訓練し、セマンティック通信タスクを実現する。 セマンティクス研究者のオープンリサーチコーパスの実際のデータセットで実験を行い、コミュニケーション中にセマンティクス埋め込みの一部が欠落したり歪んだりする。 数値計算の結果, 単純な畳み込みオートエンコーダにより, セマンティック通信により, 単純な特徴を効果的に再構築し, 95\%の精度で欠落したデータを推定し, チャネルノイズ下での安定した性能を実現することができた。 対照的に、通信可能な従来のオートエンコーダでは、欠落したデータを推測できない。 さらに,本稿では,抽出した意味情報を通信中に学習することにより,受信側で事前の単純な構造知識を使わずに,歪みデータを効果的に推測する手法を提案する。 情報のトポロジ的性質を生かして,提案手法はいくつかのベースライン,特に低信号対雑音(SNR)レベルと比較して信頼性が高く,効率的であることを示す。

Semantic communication enables intelligent agents to extract meaning (or semantics) of information via interaction, to carry out collaborative tasks. In this paper, we study semantic communication from a topological space perspective, in which higher-order data semantics live in a simplicial complex. Specifically, a transmitter first maps its data into a $k$-order simplicial complex and then learns its high-order correlations. The simplicial structure and corresponding features are encoded into semantic embeddings in latent space for transmission. Subsequently, the receiver decodes the structure and infers the missing or distorted data. The transmitter and receiver collaboratively train a simplicial convolutional autoencoder to accomplish the semantic communication task. Experiments are carried out on a real dataset of Semantic Scholar Open Research Corpus, where one part of the semantic embedding is missing or distorted during communication. Numerical results show that the simplicial convolutional autoencoder enabled semantic communication effectively rebuilds the simplicial features and infer the missing data with $95\%$ accuracy, while achieving stable performance under channel noise. In contrast, the conventional autoencoder enabled communication fails to infer any missing data. Moreover, our approach is shown to effectively infer the distorted data without prior simplicial structure knowledge at the receiver, by learning extracted semantic information during communications. Leveraging the topological nature of information, the proposed method is also shown to be more reliable and efficient compared to several baselines, notably at low signal-to-noise (SNR) levels.
翻訳日:2022-11-01 19:33:54 公開日:2022-10-30
# 特許出願分析用パイプライン

A Pipeline for Analysing Grant Applications ( http://arxiv.org/abs/2210.16843v1 )

ライセンス: Link先を確認
Shuaiqun Pan, Sergio J. Rodr\'iguez M\'endez, Kerry Taylor(参考訳) データマイニング技術は、大量の非構造化データを量的データに変換し、元のデータの背後にある洞察、傾向、パターンを素早く示すことができる。 本論文では,2019年にオーストラリア政府の研究資金提供機関に提出された助成金申請を解析するためにデータマイニングモデルを適用し,提案案が意図した革新的なプロジェクト提案を効果的に識別するかどうかを検討する。 認可申請は、査読者によって割り当てられた特定の'革新と創造'(IC)スコアを含む査読された研究提案である。 各研究提案のicスコアの予測に加えて,革新的提案の語彙の理解にも特に関心を持っている。 この問題を解決するために,様々なデータマイニングモデルと特徴符号化アルゴリズムを研究・検討した。 その結果,一グラムの存在や不在を示す特徴を符号化した文書上のランダムフォレスト(RF)分類器として,最高の性能を持つモデルを提案する。 具体的には、ユニグラム項はTF-IDFのIDF部分のみを実装したTF-IDF (Term Frequency - Inverse Document Frequency)アルゴリズムによって符号化される。 提案するモデルに加えて,特許出願を分析するための厳密な実験パイプラインも提示し,その実現可能性を示す。

Data mining techniques can transform massive amounts of unstructured data into quantitative data that quickly reveal insights, trends, and patterns behind the original data. In this paper, a data mining model is applied to analyse the 2019 grant applications submitted to an Australian Government research funding agency to investigate whether grant schemes successfully identifies innovative project proposals, as intended. The grant applications are peer-reviewed research proposals that include specific ``innovation and creativity'' (IC) scores assigned by reviewers. In addition to predicting the IC score for each research proposal, we are particularly interested in understanding the vocabulary of innovative proposals. In order to solve this problem, various data mining models and feature encoding algorithms are studied and explored. As a result, we propose a model with the best performance, a Random Forest (RF) classifier over documents encoded with features denoting the presence or absence of unigrams. In specific, the unigram terms are encoded by a modified Term Frequency - Inverse Document Frequency (TF-IDF) algorithm, which only implements the IDF part of TF-IDF. Besides the proposed model, this paper also presents a rigorous experimental pipeline for analysing grant applications, and the experimental results prove its feasibility.
翻訳日:2022-11-01 19:21:43 公開日:2022-10-30
# EthereumにおけるPonzi検出のための時間認識メタパス機能拡張

Time-aware Metapath Feature Augmentation for Ponzi Detection in Ethereum ( http://arxiv.org/abs/2210.16863v1 )

ライセンス: Link先を確認
Chengxiang Jin, Jiajun Zhou, Jie Jin, Jiajing Wu, Qi Xuan(参考訳) 分散化を強調するweb 3.0の開発によって、ブロックチェーン技術はその革命を助長し、特に暗号通貨の分野で多くの課題をもたらす。 最近では、ポンジスキームやフィッシング詐欺など、ブロックチェーン上で連続的に発生する多数の犯罪行為が、分散ファイナンスを危険にさらしている。 ブロックチェーン上の既存のグラフベースの異常動作検出手法では、ノードとエッジの多様性を区別することなく、均質なトランザクショングラフを構築することに注力することが多い。 既存の異種モデリング手法はメタパスを通してより豊かな情報を表現できるが、抽出されたメタパスは一般にエンティティ間の時間的依存関係を無視し、実際の振る舞いを反映しない。 本稿では,Ethereum上のPonziスキーム検出中に,実際のメタパスベースのトランザクションパターンをキャプチャするプラグイン・アンド・プレイモジュールとして,TMFAug(Time-Aware Metapath Feature Augmentation)を導入する。 提案モジュールは,既存のグラフベースのPonzi検出手法と適応的に組み合わせることができる。 我々のTMFAugは,既存のPonzi検出手法がEthereumデータセットの性能向上に有効であることを示し,Ponziスキーム検出における異種時間情報の有効性を示した。

With the development of Web 3.0 which emphasizes decentralization, blockchain technology ushers in its revolution and also brings numerous challenges, particularly in the field of cryptocurrency. Recently, a large number of criminal behaviors continuously emerge on blockchain, such as Ponzi schemes and phishing scams, which severely endanger decentralized finance. Existing graph-based abnormal behavior detection methods on blockchain usually focus on constructing homogeneous transaction graphs without distinguishing the heterogeneity of nodes and edges, resulting in partial loss of transaction pattern information. Although existing heterogeneous modeling methods can depict richer information through metapaths, the extracted metapaths generally neglect temporal dependencies between entities and do not reflect real behavior. In this paper, we introduce Time-aware Metapath Feature Augmentation (TMFAug) as a plug-and-play module to capture the real metapath-based transaction patterns during Ponzi scheme detection on Ethereum. The proposed module can be adaptively combined with existing graph-based Ponzi detection methods. Extensive experimental results show that our TMFAug can help existing Ponzi detection methods achieve significant performance improvements on the Ethereum dataset, indicating the effectiveness of heterogeneous temporal information for Ponzi scheme detection.
翻訳日:2022-11-01 19:21:22 公開日:2022-10-30
# 教師付きコントラスト学習を用いた音響エコーキャンセラのための適応型音声品質認識複合ニューラルネットワーク

Adaptive Speech Quality Aware Complex Neural Network for Acoustic Echo Cancellation with Supervised Contrastive Learning ( http://arxiv.org/abs/2210.16791v1 )

ライセンス: Link先を確認
Bozhong Liu, Xiaoxi Yu, Hantao Huang(参考訳) 音響エコーキャンセリング(AEC)は、マイクロホン信号からエコー、残響、不要な付加音を除去し、ニアエンド話者の音声の品質を維持するように設計されている。 本稿では,適応型音声品質複雑なニューラルネットワークを提案する。 具体的には,異なるステージに着目した複雑なモジュール化ニューラルネットワークを提案し,特徴抽出音響分離,マスク最適化を受容的に行う。 さらに、コントラスト学習フレームワークと新たな音声品質認識損失関数を採用し、さらに性能を向上させる。 このモデルは、事前訓練に72時間、微調整に72時間で訓練される。 提案したモデルは最先端の性能より優れている。

Acoustic echo cancellation (AEC) is designed to remove echoes, reverberation, and unwanted added sounds from the microphone signal while maintaining the quality of the near-end speaker's speech. This paper proposes adaptive speech quality complex neural networks to focus on specific tasks for real-time acoustic echo cancellation. In specific, we propose a complex modularize neural network with different stages to focus on, feature extraction acoustic separation, and mask optimization receptively. Furthermore, we adopt the contrastive learning framework and novel speech quality aware loss functions to further improve the performance. The model is trained with 72 hours for pre-training and then 72 hours for fine-tuning. The proposed model outperforms the state-of-the-art performance.
翻訳日:2022-11-01 19:04:07 公開日:2022-10-30
# 専門家モデルの高次元混合に対する予測セット

Prediction Sets for High-Dimensional Mixture of Experts Models ( http://arxiv.org/abs/2210.16710v1 )

ライセンス: Link先を確認
Adel Javanmard, Simeng Shao, Jacob Bien(参考訳) 大規模なデータセットは、応答変数と機能の間の異種関係を捉えることができる予測モデルを構築することができる。 高次元線形回帰モデルと高次元線形回帰モデルとの混合は、混合重み自体が特徴に依存している高次元線形回帰モデルから生じる。 本稿では,高次元設定におけるエキスパートモデルの$\ell_1$-penalizedmixに対して有効な予測セットを構築する方法について述べる。 ペナリゼーションによって引き起こされるバイアスを考慮したデバイアス手順を用い,混合設定におけるカバレッジ保証付き予測セットを形成するための間隔を結合する新しい手法を提案する。 超伝導材料の臨界温度予測への合成例と応用は, 信頼性の高い実用性能を有することを示す。

Large datasets make it possible to build predictive models that can capture heterogenous relationships between the response variable and features. The mixture of high-dimensional linear experts model posits that observations come from a mixture of high-dimensional linear regression models, where the mixture weights are themselves feature-dependent. In this paper, we show how to construct valid prediction sets for an $\ell_1$-penalized mixture of experts model in the high-dimensional setting. We make use of a debiasing procedure to account for the bias induced by the penalization and propose a novel strategy for combining intervals to form a prediction set with coverage guarantees in the mixture setting. Synthetic examples and an application to the prediction of critical temperatures of superconducting materials show our method to have reliable practical performance.
翻訳日:2022-11-01 19:03:34 公開日:2022-10-30
# 羽ばたきを見よ:UVセンサーによる空中ストローベリー作物のモニタリング

See as a Bee: UV Sensor for Aerial Strawberry Crop Monitoring ( http://arxiv.org/abs/2210.16923v1 )

ライセンス: Link先を確認
Megan Heath, Ali Imran, David St-Onge(参考訳) 精密農業は農業生産力の向上、労働コストの削減、資源利用の削減のために農作物部門のための技術ツールを使用することを目標としている。 この研究は、ハチの視覚からインスピレーションを得て、紫外線反射を花検出装置に組み込むのに適したリモートセンシングシステムを設計する。 筆者らは,この手法がイチゴの花の深層学習のための機能豊富なイメージをいかに提供できるかを実証し,現場におけるスケーラブルで費用対効果の高い空中監視ロボットシステムに適用する。 また,RGB画像を用いたUV-G-B画像検出器の性能比較を行った。

Precision agriculture aims to use technological tools for the agro-food sector to increase productivity, cut labor costs, and reduce the use of resources. This work takes inspiration from bees vision to design a remote sensing system tailored to incorporate UV-reflectance into a flower detector. We demonstrate how this approach can provide feature-rich images for deep learning strawberry flower detection and we apply it to a scalable, yet cost effective aerial monitoring robotic system in the field. We also compare the performance of our UV-G-B image detector with a similar work that utilizes RGB images.
翻訳日:2022-11-01 18:56:57 公開日:2022-10-30
# oginfra: リモートセンシングに基づく能動火災データを用いた石油・ガス基盤の測地

OGInfra: Geolocating Oil & Gas Infrastructure using Remote Sensing based Active Fire Data ( http://arxiv.org/abs/2210.16924v1 )

ライセンス: Link先を確認
Samyak Prajapati, Amrit Raj, Yash Chaudhari, Akhilesh Nandwal, Japman Singh Monga(参考訳) リモートセンシングは、GPSを使った位置の三角測量や天気予報など、私たちの日常生活の重要な部分となっている。 軍事、社会経済、商業、さらには人道的努力を支援する領域に複数の応用がある。 本研究では,nasaの企業データレポジトリとディープラーニング技術によるアクティブな火災データを用いて,石油・ガスインフラの自動配置を行うための新しい手法を提案し,resnet101を用いて最大精度90.68%を達成した。

Remote sensing has become a crucial part of our daily lives, whether it be from triangulating our location using GPS or providing us with a weather forecast. It has multiple applications in domains such as military, socio-economical, commercial, and even in supporting humanitarian efforts. This work proposes a novel technique for the automated geo-location of Oil & Gas infrastructure with the use of Active Fire Data from the NASA FIRMS data repository & Deep Learning techniques; achieving a top accuracy of 90.68% with the use of ResNet101.
翻訳日:2022-11-01 18:56:46 公開日:2022-10-30
# FatNet:完全畳み込み光学ニューラルネットワークを用いた分類のための高分解能カーネル

FatNet: High Resolution Kernels for Classification Using Fully Convolutional Optical Neural Networks ( http://arxiv.org/abs/2210.16914v1 )

ライセンス: Link先を確認
Riad Ibadulla, Thomas M. Chen, Constantino Carlos Reyes-Aldasoro(参考訳) 本稿では,従来のin-silico分類ネットワークを,高分解能特徴地図とカーネルを備えた光完全畳み込みニューラルネットワークへ変換する。 ニューラルネットワークの推論速度を加速するために自由空間4fシステムを使用する場合、フレームレートの損失なしに特徴マップとカーネルの高解像度を使用することができる。 本稿では,標準畳み込み型分類器よりも自由空間加速度に適合する画像分類のためのfatnetを提案する。 1つの完全畳み込みネットワークで両方を実行することにより、畳み込み特徴抽出と分類器密集層の標準的な組み合わせを無視する。 このアプローチは、4f自由空間系における並列性を最大限に活用し、チャネル数を減らし、解像度を向上することで、電子回路と光学回路間の変換を少なくし、オフザシェルフネットワークよりも高速な光ネットワークを実現する。 FatNetの能力を実証するため、GPU上のCIFAR100データセットと4fシステムのシミュレータを使ってトレーニングを行い、その結果をResNet-18と比較した。 その結果,8.2倍の畳み込み処理を,従来のネットワークに比べてわずか6%の精度で実現できた。 これらは、次の光学時代に向けて、高解像度カーネルでディープラーニングを訓練するアプローチの有望な成果である。

This paper describes the transformation of a traditional in-silico classification network into an optical fully convolutional neural network with high-resolution feature maps and kernels. When using the free-space 4f system to accelerate the inference speed of neural networks, higher resolutions of feature maps and kernels can be used without the loss in frame rate. We present FatNet for the classification of images, which is more compatible with free-space acceleration than standard convolutional classifiers. It neglects the standard combination of convolutional feature extraction and classifier dense layers by performing both in one fully convolutional network. This approach takes full advantage of the parallelism in the 4f free-space system and performs fewer conversions between electronics and optics by reducing the number of channels and increasing the resolution, making the network faster in optics than off-the-shelf networks. To demonstrate the capabilities of FatNet, it trained with the CIFAR100 dataset on GPU and the simulator of the 4f system, then compared the results against ResNet-18. The results show 8.2 times fewer convolution operations at the cost of only 6% lower accuracy compared to the original network. These are promising results for the approach of training deep learning with high-resolution kernels in the direction towards the upcoming optics era.
翻訳日:2022-11-01 18:45:32 公開日:2022-10-30
# token2vec: unpaired speechとtextを用いた自己教師付き事前学習フレームワーク

token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired Speech and Text ( http://arxiv.org/abs/2210.16755v1 )

ライセンス: Link先を確認
Xianghu Yue and Junyi Ao and Xiaoxue Gao and Haizhou Li(参考訳) 自己教師付き事前学習はテキスト処理と音声処理の両方で成功している。 音声とテキストは異なるが相補的な情報を提供する。 質問は、未使用の音声とテキストの事前学習を行うことができるかどうかである。 本稿では, 自己教師付き事前学習のアイデアをさらに一歩進め, 音声の離散表現に基づく非ペア音声とテキストのための新しい事前学習フレームワークであるtoken2vecを提案する。 まず, 音声が連続的であり, テキストが離散的であるような音声とテキストのモダリティの相違から, まず音声を離散的な音声トークンの列に識別し, モダリティのミスマッチ問題を解決する。 次に、通常、音声のシーケンスがテキストのシーケンスよりもはるかに長い長さのミスマッチ問題を解決するために、テキストの単語を音素列に変換し、各音素をランダムに繰り返す。 最後に、離散音声とテキストトークンをモダリティ非依存トランスフォーマーエンコーダに供給し、トークンレベルのマスキング言語モデル(tmlm)で事前学習する。 実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。 Token2vecモデルは非ASRタスク、すなわち音声意図分類でも検証され、優れた伝達性を示す。

Self-supervised pre-training has been successful in both text and speech processing. Speech and text offer different but complementary information. The question is whether we are able to perform a speech-text joint pre-training on unpaired speech and text. In this paper, we take the idea of self-supervised pre-training one step further and propose token2vec, a novel joint pre-training framework for unpaired speech and text based on discrete representations of speech. Firstly, due to the distinct characteristics between speech and text modalities, where speech is continuous while text is discrete, we first discretize speech into a sequence of discrete speech tokens to solve the modality mismatch problem. Secondly, to solve the length mismatch problem, where the speech sequence is usually much longer than text sequence, we convert the words of text into phoneme sequences and randomly repeat each phoneme in the sequences. Finally, we feed the discrete speech and text tokens into a modality-agnostic Transformer encoder and pre-train with token-level masking language modeling (tMLM). Experiments show that token2vec is significantly superior to various speech-only pre-training baselines, with up to 17.7% relative WER reduction. Token2vec model is also validated on a non-ASR task, i.e., spoken intent classification, and shows good transferability.
翻訳日:2022-11-01 18:36:49 公開日:2022-10-30
# モーダル論理による統計的因果関係の定式化

Formalizing Statistical Causality via Modal Logic ( http://arxiv.org/abs/2210.16751v1 )

ライセンス: Link先を確認
Yusuke Kawamoto, Sato Tetsuya, Kohei Suenaga(参考訳) 統計的因果関係を記述・説明するための形式言語を提案する。 具体的には、確率変数に対する因果効果を特定するための統計的因果言語(StaCL)を定義する。 staclは、クリプケモデルにおいて、異なる可能な世界における確率分布間の因果特性を表現するために介入のためにモード演算子を組み込んでいる。 確率分布,介入,因果述語に対する公理を StaCL 式を用いて定式化する。 これらの公理はパールのdo-calculusの規則を導出するのに十分表現的である。 最後に,StaCLが統計的因果推論の正しさの証明と説明に利用できることを示す。

We propose a formal language for describing and explaining statistical causality. Concretely, we define Statistical Causality Language (StaCL) for specifying causal effects on random variables. StaCL incorporates modal operators for interventions to express causal properties between probability distributions in different possible worlds in a Kripke model. We formalize axioms for probability distributions, interventions, and causal predicates using StaCL formulas. These axioms are expressive enough to derive the rules of Pearl's do-calculus. Finally, we demonstrate by examples that StaCL can be used to prove and explain the correctness of statistical causal inference.
翻訳日:2022-11-01 18:27:58 公開日:2022-10-30
# ノード分類にGNNはいつ必要か?

When Do We Need GNN for Node Classification? ( http://arxiv.org/abs/2210.16979v1 )

ライセンス: Link先を確認
Sitao Luan, Chenqing Hua, Qincheng Lu, Jiaqi Zhu, Xiao-Wen Chang, Doina Precup(参考訳) グラフニューラルネットワーク(gnns)は、ノードを独立かつ同一に分布する(\iid)サンプルのコレクションとして扱うのではなく、関係帰納的バイアス(エッジバイアス)に基づくグラフ構造を付加して、基本ニューラルネットワーク(nns)を拡張する。 GNNは現実世界のタスクにおいて基本的NNよりも優れていると考えられているが、いくつかのケースでは、GNNのパフォーマンスは向上せず、グラフに依存しないNNも性能が劣っている。 これらの事例を明らかにするために,グラフ信号処理と統計的仮説テストに基づいて,特徴やラベルのエッジバイアスが利点を提供していない場合を分析する2つの尺度を提案する。 測定値に基づいて、グラフ認識モデルよりもグラフ認識モデルの潜在的な性能優位性を予測できるしきい値を与えることができる。

Graph Neural Networks (GNNs) extend basic Neural Networks (NNs) by additionally making use of graph structure based on the relational inductive bias (edge bias), rather than treating the nodes as collections of independent and identically distributed (\iid) samples. Though GNNs are believed to outperform basic NNs in real-world tasks, it is found that in some cases, GNNs have little performance gain or even underperform graph-agnostic NNs. To identify these cases, based on graph signal processing and statistical hypothesis testing, we propose two measures which analyze the cases in which the edge bias in features and labels does not provide advantages. Based on the measures, a threshold value can be given to predict the potential performance advantages of graph-aware models over graph-agnostic models.
翻訳日:2022-11-01 18:22:01 公開日:2022-10-30
# グラフ変動オートエンコーダのためのマイクロおよびマクロレベルグラフモデリング

Micro and Macro Level Graph Modeling for Graph Variational Auto-Encoders ( http://arxiv.org/abs/2210.16844v1 )

ライセンス: Link先を確認
Kiarash Zahirnia, Oliver Schulte, Parmis Naddaf, Ke Li(参考訳) グラフデータの生成モデルは、機械学習において重要な研究テーマである。 グラフデータは、ノードの対間のリンクの存在のようなノードレベルの特性と、モチーフ数のようなグローバル集約グラフレベルの統計である。 本稿では,ノードレベルの特性とグラフレベルの統計を相互にモデル化し,相互に情報源を補強する新しいマルチレベルフレームワークを提案する。 ノードレベルの損失とグラフレベルの損失を組み合わせた,グラフ生成のための新たなマイクロマクロトレーニング目標を提案する。 マイクロマクロの目的は,グラフレベルの潜在変数に基づく確立されたモデルであるgraphvaeを用いて,中規模のグラフに対して高速なトレーニングと生成時間を提供する。 実験の結果,GraphVAEモデルにマイクロマクロモデリングを追加することで,ベンチマークデータセットの最大2桁のグラフ品質スコアが向上し,GraphVAE生成速度の優位性が維持されることがわかった。

Generative models for graph data are an important research topic in machine learning. Graph data comprise two levels that are typically analyzed separately: node-level properties such as the existence of a link between a pair of nodes, and global aggregate graph-level statistics, such as motif counts. This paper proposes a new multi-level framework that jointly models node-level properties and graph-level statistics, as mutually reinforcing sources of information. We introduce a new micro-macro training objective for graph generation that combines node-level and graph-level losses. We utilize the micro-macro objective to improve graph generation with a GraphVAE, a well-established model based on graph-level latent variables, that provides fast training and generation time for medium-sized graphs. Our experiments show that adding micro-macro modeling to the GraphVAE model improves graph quality scores up to 2 orders of magnitude on five benchmark datasets, while maintaining the GraphVAE generation speed advantage.
翻訳日:2022-11-01 18:12:41 公開日:2022-10-30
# 割引マルコフ拡散過程に基づく単純なハイパーグラフ核畳み込み

A Simple Hypergraph Kernel Convolution based on Discounted Markov Diffusion Process ( http://arxiv.org/abs/2210.16884v1 )

ライセンス: Link先を確認
Fuyang Li, Jiying Zhang, Xi Xiao, Bin Zhang, Dijun Luo(参考訳) 離散構造上のカーネルは、セマンティクスと固有のトポロジー情報をキャプチャするオブジェクト間のペアワイズな類似性を評価する。 離散構造上の既存のカーネルは、オブジェクトの本来の属性を考慮せずに、トポロジ情報(グラフの隣接行列など)によってのみ開発される。 本稿では,dmdlk(disrupt markov diffusion learnable kernel)につながる離散構造に関する包括的情報を集約する2相パラダイムを提案する。 具体的には、DMDLKの基本的なプロジェクションに基づいて、頂点を隠蔽するシンプルなハイパーグラフカーネル畳み込み(SHKC)を設計する。 shkcは、畳み込み層を積み重ねるのではなく、拡散ステップを調整できるので、既存のハイパーグラフ畳み込みの過剰な問題を防ぐことができる。 さらに,トランスダクティブ学習における一様安定性境界定理を用いて,SHKCの有効性と一般化能力に関する重要な因子を理論的観点から分析する。 ノード分類タスクのベンチマークデータセットの実験結果から,最先端手法よりもSHKCの方が優れた性能を示した。

Kernels on discrete structures evaluate pairwise similarities between objects which capture semantics and inherent topology information. Existing kernels on discrete structures are only developed by topology information(such as adjacency matrix of graphs), without considering original attributes of objects. This paper proposes a two-phase paradigm to aggregate comprehensive information on discrete structures leading to a Discount Markov Diffusion Learnable Kernel (DMDLK). Specifically, based on the underlying projection of DMDLK, we design a Simple Hypergraph Kernel Convolution (SHKC) for hidden representation of vertices. SHKC can adjust diffusion steps rather than stacking convolution layers to aggregate information from long-range neighborhoods which prevents over-smoothing issues of existing hypergraph convolutions. Moreover, we utilize the uniform stability bound theorem in transductive learning to analyze critical factors for the effectiveness and generalization ability of SHKC from a theoretical perspective. The experimental results on several benchmark datasets for node classification tasks verified the superior performance of SHKC over state-of-the-art methods.
翻訳日:2022-11-01 18:12:25 公開日:2022-10-30
# 計算効率の良いロバストASRトレーニングのための分割勾配マッチングに基づくデータセット選択

Partitioned Gradient Matching-based Data Subset Selection for Compute-Efficient Robust ASR Training ( http://arxiv.org/abs/2210.16892v1 )

ライセンス: Link先を確認
Ashish Mittal, Durga Sivasubramanian, Rishabh Iyer, Preethi Jyothi and Ganesh Ramakrishnan(参考訳) RNN-Tのような最先端のASRシステムの訓練は、しばしば金融と環境のコストが高い。 トレーニングデータのサブセットによるトレーニングは、選択したサブセットがデータセット全体のトレーニングでオンパーパフォーマンスを達成できれば、この問題を軽減することができる。 多くのデータサブセット選択(DSS)アルゴリズムがあるが、RNN-Tへの直接適用は困難であり、特にRNN-Tはメモリフットプリントが大幅に大きくなる傾向にあるため、適応性が高く、勾配のような学習ダイナミクスを使用するDSSアルゴリズムは困難である。 本稿では,RNN-Tのトレーニングに使用されるような大規模データセットに適した分散DSSアルゴリズムであるPartitioned Gradient Matching (PGM)を提案する。 Librispeech 100H と Librispeech 960H の広範な実験により、PGM は3倍から6倍の高速化を実現し、精度はわずかに低い(絶対 WER 差1%)。 さらに、トレーニングデータがノイズで破損した場合でも、PGMの同様の結果を示す。

Training state-of-the-art ASR systems such as RNN-T often has a high associated financial and environmental cost. Training with a subset of training data could mitigate this problem if the subset selected could achieve on-par performance with training with the entire dataset. Although there are many data subset selection(DSS) algorithms, direct application to the RNN-T is difficult, especially the DSS algorithms that are adaptive and use learning dynamics such as gradients, as RNN-T tend to have gradients with a significantly larger memory footprint. In this paper, we propose Partitioned Gradient Matching (PGM) a novel distributable DSS algorithm, suitable for massive datasets like those used to train RNN-T. Through extensive experiments on Librispeech 100H and Librispeech 960H, we show that PGM achieves between 3x to 6x speedup with only a very small accuracy degradation (under 1% absolute WER difference). In addition, we demonstrate similar results for PGM even in settings where the training data is corrupted with noise.
翻訳日:2022-11-01 18:12:08 公開日:2022-10-30
# Atlas: ネットワークスライシングにおけるオンラインサービス構成の自動設定

Atlas: Automate Online Service Configuration in Network Slicing ( http://arxiv.org/abs/2210.16902v1 )

ライセンス: Link先を確認
Qiang Liu, Nakjung Choi, Tao Han(参考訳) ネットワークスライシングは、異種アプリケーションやサービスをサポートするためにコスト効率の良いスライスカスタマイズを実現する。 しかし、サービスレベルの合意に基づいて、エンド・ツー・エンドのスライスにクロスドメインのリソースを設定することは、複雑な基礎となる相関関係と、シミュレーターと実際のネットワークの間のシミュレーション・トゥ・レアリティの相違のために困難である。 本稿では,スライスのサービス構成を,安全かつサンプル効率の良い3つの相互関連ステージにおいて自動化するオンラインネットワークスライシングシステムであるatlasを提案する。 まず,ベイジアン最適化に基づく新しいパラメータ探索法により,Sim-to-realの差分を低減するための学習ベースシミュレータを設計する。 第2に、ベイズニューラルネットワークと並列トンプソンサンプリングを用いた新しいオフラインアルゴリズムを用いて、拡張シミュレータのポリシーをオフラインでトレーニングする。 第3に、安全な探索とガウス過程回帰を備えた新しいオンラインアルゴリズムを用いて、実際のネットワークでポリシーを学習する。 我々は,OpenAirInterface RAN,OpenDayLight SDNトランスポート,OpenAir-CNコアネットワーク,Dockerベースのエッジサーバをベースとした,エンドツーエンドネットワークプロトタイプにAtlasを実装した。 実験の結果、atlasは最先端のソリューションと比較して、オンライン学習の段階で、リソース使用量と経験のスライス品質をそれぞれ63.9%と85.7%削減できた。

Network slicing achieves cost-efficient slice customization to support heterogeneous applications and services. Configuring cross-domain resources to end-to-end slices based on service-level agreements, however, is challenging, due to the complicated underlying correlations and the simulation-to-reality discrepancy between simulators and real networks. In this paper, we propose Atlas, an online network slicing system, which automates the service configuration of slices via safe and sample-efficient learn-to-configure approaches in three interrelated stages. First, we design a learning-based simulator to reduce the sim-to-real discrepancy, which is accomplished by a new parameter searching method based on Bayesian optimization. Second, we offline train the policy in the augmented simulator via a novel offline algorithm with a Bayesian neural network and parallel Thompson sampling. Third, we online learn the policy in real networks with a novel online algorithm with safe exploration and Gaussian process regression. We implement Atlas on an end-to-end network prototype based on OpenAirInterface RAN, OpenDayLight SDN transport, OpenAir-CN core network, and Docker-based edge server. Experimental results show that, compared to state-of-the-art solutions, Atlas achieves 63.9% and 85.7% regret reduction on resource usage and slice quality of experience during the online learning stage, respectively.
翻訳日:2022-11-01 18:11:50 公開日:2022-10-30
# 多腕バンディットにおける単純後悔最小化の再検討

Revisiting Simple Regret Minimization in Multi-Armed Bandits ( http://arxiv.org/abs/2210.16913v1 )

ライセンス: Link先を確認
Yao Zhao, Connor Stephens, Csaba Szepesv\'ari, Kwang-Sung Jun(参考訳) 単純な後悔は、多腕の包帯で良い腕を特定するための自然でパラメータなしのパフォーマンス基準であり、最高の腕や$\epsilon$-good腕を欠く確率よりもあまり人気がない。 本稿では,n$ がアーム数,t$ がサンプル数であるデータリッチ (t\ge n$) とデータプーアレジーム (t \le n$) の両方に対して,単純な後悔の上限値の改善を実現する。 このアルゴリズムは、$\epsilon>0$の任意の選択に対して$\epsilon$-goodではなく、$\epsilon$はSHの入力ではないものの、$\epsilon$が最高値から$\epsilon$以内の腕を返す確率を制限している。 これは直接的に、$\mathcal{o}(\sqrt{n/t})$ の最適単純後悔束を意味する。 さらに、上限は$\epsilon$-good armsの関数として小さくなります。 この結果、$(\epsilon,\delta)$-pac の基準が加速され、前技術の上限と下限の間のギャップが縮まる。 より困難なデータポーアレジームのために、各アームを少なくとも1回サンプリングしなくても同じ改善を享受できるブラケットsh(bsh)を提案する。 我々の実証研究は、BSHが現実世界のタスクにおける既存の手法より優れていることを示している。

Simple regret is a natural and parameter-free performance criterion for identifying a good arm in multi-armed bandits yet is less popular than the probability of missing the best arm or an $\epsilon$-good arm, perhaps due to lack of easy ways to characterize it. In this paper, we achieve improved simple regret upper bounds for both data-rich ($T\ge n$) and data-poor regime ($T \le n$) where $n$ is the number of arms and $T$ is the number of samples. At its heart is an improved analysis of the well-known Sequential Halving (SH) algorithm that bounds the probability of returning an arm whose mean reward is not within $\epsilon$ from the best (i.e., not $\epsilon$-good) for any choice of $\epsilon>0$, although $\epsilon$ is not an input to SH. We show that this directly implies an optimal simple regret bound of $\mathcal{O}(\sqrt{n/T})$. Furthermore, our upper bound gets smaller as a function of the number of $\epsilon$-good arms. This results in an accelerated rate for the $(\epsilon,\delta)$-PAC criterion, which closes the gap between the upper and lower bounds in prior art. For the more challenging data-poor regime, we propose Bracketing SH (BSH) that enjoys the same improvement even without sampling each arm at least once. Our empirical study shows that BSH outperforms existing methods on real-world tasks.
翻訳日:2022-11-01 18:11:27 公開日:2022-10-30
# 勝敗を抑える--対戦型競技における対戦型政策模倣学習

Imitating Opponent to Win: Adversarial Policy Imitation Learning in Two-player Competitive Games ( http://arxiv.org/abs/2210.16915v1 )

ライセンス: Link先を確認
The Viet Bui and Tien Mai and Thanh H. Nguyen(参考訳) 深層強化学習(RL)の脆弱性に関する最近の研究は、敵エージェントが採用した敵ポリシーがターゲットのRLエージェントに影響を与え、マルチエージェント環境では不十分であることを示した。 既存の研究では、被害者エージェントと対話した経験に基づいて、相手ポリシーを直接訓練している。 歴史的相互作用から派生した知識は、被害者の未探索政策領域に適切に一般化されず、訓練された敵の政策が著しく効果的になる。 本研究では,この欠点を克服する新しい効果的な政策学習アルゴリズムを考案する。 新しいアルゴリズムの中核となる考え方は、被害者の政策を模倣する新しい模倣者を作成することであり、一方、敵の政策は被害者のエージェントとの相互作用に基づくだけでなく、被害者の意図を予測するための模倣者からのフィードバックに基づいて訓練される。 そうすることで、被害者のサンプルの軌跡のみに基づいて、被害者ポリシーの基盤的特性をうまく捉えることで、模倣学習の能力を活用できる。 被害者の模倣学習モデルは, 環境のダイナミクスが敵の政策によって駆動され, 敵の政策訓練中に変化し続けるため, 先行モデルと異なる。 敵の方針が安定すると、所望の模倣政策を保証できる保証可能なバウンドを提供する。 模倣者を被害者の強いバージョンにすることで、敵の政策学習をさらに強化する。 最後に、4つの競合型mujocoゲーム環境を用いた広範な実験により,提案手法が最先端アルゴリズムよりも優れていることを示す。

Recent research on vulnerabilities of deep reinforcement learning (RL) has shown that adversarial policies adopted by an adversary agent can influence a target RL agent (victim agent) to perform poorly in a multi-agent environment. In existing studies, adversarial policies are directly trained based on experiences of interacting with the victim agent. There is a key shortcoming of this approach; knowledge derived from historical interactions may not be properly generalized to unexplored policy regions of the victim agent, making the trained adversarial policy significantly less effective. In this work, we design a new effective adversarial policy learning algorithm that overcomes this shortcoming. The core idea of our new algorithm is to create a new imitator to imitate the victim agent's policy while the adversarial policy will be trained not only based on interactions with the victim agent but also based on feedback from the imitator to forecast victim's intention. By doing so, we can leverage the capability of imitation learning in well capturing underlying characteristics of the victim policy only based on sample trajectories of the victim. Our victim imitation learning model differs from prior models as the environment's dynamics are driven by adversary's policy and will keep changing during the adversarial policy training. We provide a provable bound to guarantee a desired imitating policy when the adversary's policy becomes stable. We further strengthen our adversarial policy learning by making our imitator a stronger version of the victim. Finally, our extensive experiments using four competitive MuJoCo game environments show that our proposed adversarial policy learning algorithm outperforms state-of-the-art algorithms.
翻訳日:2022-11-01 18:10:59 公開日:2022-10-30
# スマートフォン上での人間行動認識のための連合学習アルゴリズムの評価と比較

Evaluation and comparison of federated learning algorithms for Human Activity Recognition on smartphones ( http://arxiv.org/abs/2210.16918v1 )

ライセンス: Link先を確認
Sannara Ek, Fran\c{c}ois Portet, Philippe Lalanda, German Vega(参考訳) 普及型コンピューティングは、人々の支援を提供するサービスを開発するために、私たちのリビングスペースにおけるスマートデバイスの統合を促進する。 このようなスマートデバイスは、セキュリティ(データプライバシ)、依存(レイテンシ)、通信コストといった面で疑問を提起するクラウドベースの機械学習にますます依存している。 この文脈では、フェデレーション学習(fl)が、ローカルデバイスの使用を促進する新しい機械学習パラダイムとして導入された。 サーバレベルでは、flは分散クライアントでローカルに学習したモデルを集約し、より一般的なモデルを得る。 これにより、ネットワークを介してプライベートデータが送信されず、通信コストが削減される。 しかし、残念ながら、最も人気のあるフェデレーション学習アルゴリズムは、非常に異質な広汎なコンピューティング環境に適応しないことが示されている。 本稿では,学習中のモデル(深層ニューラルネットワーク)を,クライアント間のニューロン間の相似性を識別することで修正できる新しいflアルゴリズムであるfeedistを提案する。 これにより、一般化を損なうことなく、クライアントの特異性を考慮できる。 FedDistは、3つの大きな異種移動人活動認識データセット上で、最先端の3つのフェデレーション学習アルゴリズムを評価した。 その結果、フェディストが異種データに適応する能力と、flが非同期な状況に対処する能力が示された。

Pervasive computing promotes the integration of smart devices in our living spaces to develop services providing assistance to people. Such smart devices are increasingly relying on cloud-based Machine Learning, which raises questions in terms of security (data privacy), reliance (latency), and communication costs. In this context, Federated Learning (FL) has been introduced as a new machine learning paradigm enhancing the use of local devices. At the server level, FL aggregates models learned locally on distributed clients to obtain a more general model. In this way, no private data is sent over the network, and the communication cost is reduced. Unfortunately, however, the most popular federated learning algorithms have been shown not to be adapted to some highly heterogeneous pervasive computing environments. In this paper, we propose a new FL algorithm, termed FedDist, which can modify models (here, deep neural network) during training by identifying dissimilarities between neurons among the clients. This permits to account for clients' specificity without impairing generalization. FedDist evaluated with three state-of-the-art federated learning algorithms on three large heterogeneous mobile Human Activity Recognition datasets. Results have shown the ability of FedDist to adapt to heterogeneous data and the capability of FL to deal with asynchronous situations.
翻訳日:2022-11-01 18:10:31 公開日:2022-10-30
# FI-ODE: ニューラルネットワークにおける認証とロバストな前方不変性

FI-ODE: Certified and Robust Forward Invariance in Neural ODEs ( http://arxiv.org/abs/2210.16940v1 )

ライセンス: Link先を確認
Yujia Huang, Ivan Dario Jimenez Rodriguez, Huan Zhang, Yuanyuan Shi, Yisong Yue(参考訳) ニューラルオデムの前方不変性特性を認証的に強制する方法について検討した。 フォワード不変性は、ODEの隠された状態が `good'' 領域に留まり、ロバストバージョンが入力に対する逆の摂動の下でも保持されることを意味する。 このような性質は、敵対的堅牢性(入力摂動の下でも正確な分類を生成する領域に隠れた状態が留まる)や連続制御における安全性(システムは安全な集合を残しない)などの望ましい行動を証明するために用いられる。 非線形制御理論とサンプリングベース検証のツールを用いた一般的な手法を開発する。 提案手法は, 暗黙の深度モデルを含む) ODE モデルに対する先行研究と比較して, 最強の対向性保証を実証的に生成する。

We study how to certifiably enforce forward invariance properties in neural ODEs. Forward invariance implies that the hidden states of the ODE will stay in a ``good'' region, and a robust version would hold even under adversarial perturbations to the input. Such properties can be used to certify desirable behaviors such as adversarial robustness (the hidden states stay in the region that generates accurate classification even under input perturbations) and safety in continuous control (the system never leaves some safe set). We develop a general approach using tools from non-linear control theory and sampling-based verification. Our approach empirically produces the strongest adversarial robustness guarantees compared to prior work on certifiably robust ODE-based models (including implicit-depth models).
翻訳日:2022-11-01 18:10:10 公開日:2022-10-30
# 2つのモデルが1つより優れている: フェデレーション学習はgoogle gboardの次の単語予測にはプライベートではない

Two Models are Better than One: Federated Learning Is Not Private For Google GBoard Next Word Prediction ( http://arxiv.org/abs/2210.16947v1 )

ライセンス: Link先を確認
Mohamed Suliman, Douglas Leith(参考訳) 本稿では,自然言語テキストモデルの訓練に使用されるフェデレーション学習に対する新たな攻撃を提案する。 GoogleのGBoardアプリで使用されている次の単語予測モデルに対する攻撃の有効性について説明する。 携帯端末上でユーザが入力した単語(例えば、テキストメッセージの送信時)は、幅広い条件下で高精度に復元でき、ミニバッチの使用やローカルノイズの追加といった対策は効果がないことを実証する。 また,単語の順序(および実際の文の型付け)を高い忠実度で再構築できることを示す。 これは、特にgboardが実運用中であるため、明らかにプライバシーの懸念を引き起こす。

In this paper we present new attacks against federated learning when used to train natural language text models. We illustrate the effectiveness of the attacks against the next word prediction model used in Google's GBoard app, a widely used mobile keyboard app that has been an early adopter of federated learning for production use. We demonstrate that the words a user types on their mobile handset, e.g. when sending text messages, can be recovered with high accuracy under a wide range of conditions and that counter-measures such a use of mini-batches and adding local noise are ineffective. We also show that the word order (and so the actual sentences typed) can be reconstructed with high fidelity. This raises obvious privacy concerns, particularly since GBoard is in production use.
翻訳日:2022-11-01 18:09:56 公開日:2022-10-30
# 学習可能なランダムネス注入による幾何学的深層学習

Interpretable Geometric Deep Learning via Learnable Randomness Injection ( http://arxiv.org/abs/2210.16966v1 )

ライセンス: Link先を確認
Siqi Miao, Yunan Luo, Mia Liu, Pan Li(参考訳) ポイントクラウドデータは科学分野でユビキタスである。 近年,幾何学的深層学習 (GDL) を用いて予測問題の解法が広く行われている。 しかし、GDLモデルは複雑でほとんど解釈できないことが多く、科学的な分析や実験にこれらのモデルをデプロイする際に科学者に懸念をもたらす。 本研究は,gdlバックボーンに基づく本質的に解釈可能なモデルの構築を可能にするlri(learnerable randomness injection)という一般的なメカニズムを提案する。 LRIによって誘導されるモデルは、一度訓練されると、予測ラベルを示す情報を運ぶポイントクラウドデータのポイントを検出することができる。 また、LRI機構を評価するために、高エネルギー物理と生化学の領域をカバーする実科学応用の4つのデータセットを提案する。 従来のポストホック解釈法と比較すると、LRIによって検出された点は、実際の科学的意味を持つ地上構造パターンとより良く安定している。 LRIは情報ボトルネックの原則に基づいています。 lri誘発モデルはまた、トレーニングとテストシナリオ間の分散シフトに対してより堅牢性を示す。 コードとデータセットは \url{https://github.com/Graph-COM/LRI} で公開しています。

Point cloud data is ubiquitous in scientific fields. Recently, geometric deep learning (GDL) has been widely applied to solve prediction tasks with such data. However, GDL models are often complicated and hardly interpretable, which poses concerns to scientists when deploying these models in scientific analysis and experiments. This work proposes a general mechanism named learnable randomness injection (LRI), which allows building inherently interpretable models based on general GDL backbones. LRI-induced models, once being trained, can detect the points in the point cloud data that carry information indicative of the prediction label. We also propose four datasets from real scientific applications that cover the domains of high-energy physics and biochemistry to evaluate the LRI mechanism. Compared with previous post-hoc interpretation methods, the points detected by LRI align much better and stabler with the ground-truth patterns that have actual scientific meanings. LRI is grounded by the information bottleneck principle. LRI-induced models also show more robustness to the distribution shifts between training and test scenarios. Our code and datasets are available at \url{https://github.com/Graph-COM/LRI}.
翻訳日:2022-11-01 18:09:43 公開日:2022-10-30
# 多様な具体的ナビゲーションを目指して

Towards Versatile Embodied Navigation ( http://arxiv.org/abs/2210.16822v1 )

ライセンス: Link先を確認
Hanqing Wang, Wei Liang, Luc Van Gool, Wenguan Wang(参考訳) 様々な視覚的ナビゲーションタスク(例えば、イメージ/オブジェクト/オーディオゴール/視覚言語ナビゲーション)の出現により、コミュニティは個々のナビゲーションタスクをうまく扱える専門エージェントの訓練において魅力的な進歩を遂げた。 たくさんの具体化されたナビゲーションタスクとタスク固有のソリューションを考えると、私たちはより基本的な問題に対処します。 まず,標準,連続,視聴覚に富んだ環境で4つの古典的なナビゲーションタスクをインスタンス化する大規模3dデータセットであるvxnを提案する。 第二にウィーンは,4つのナビゲーションタスクを1つのモデルで同時に実行することを学ぶ多目的なナビゲーションエージェントである。 ウィーンは、様々なナビゲーションタスクを統一されたパース・アンド・クエリーの手順として定式化している: 4つのタスクの埋め込みで強化されたターゲット記述は、ナビゲーションの進行に伴って洗練され、決定のためにエピソード歴史から支援されたコンテキストを検索するためにクエリとして使用される、多様化されたゴールベクトルの集合に包括的に解釈される。 これにより、様々な入力ドメイン/モダリティを持つナビゲーションタスク間の知識の再利用が可能になる。 視覚的なナビゲーションタスクを個別に学習するのに対し、我々のマルチタスクエージェントは複雑さを減らして同等またはそれ以上のパフォーマンスを達成することを実証的に実証した。

With the emergence of varied visual navigation tasks (e.g, image-/object-/audio-goal and vision-language navigation) that specify the target in different ways, the community has made appealing advances in training specialized agents capable of handling individual navigation tasks well. Given plenty of embodied navigation tasks and task-specific solutions, we address a more fundamental question: can we learn a single powerful agent that masters not one but multiple navigation tasks concurrently? First, we propose VXN, a large-scale 3D dataset that instantiates four classic navigation tasks in standardized, continuous, and audiovisual-rich environments. Second, we propose Vienna, a versatile embodied navigation agent that simultaneously learns to perform the four navigation tasks with one model. Building upon a full-attentive architecture, Vienna formulates various navigation tasks as a unified, parse-and-query procedure: the target description, augmented with four task embeddings, is comprehensively interpreted into a set of diversified goal vectors, which are refined as the navigation progresses, and used as queries to retrieve supportive context from episodic history for decision making. This enables the reuse of knowledge across navigation tasks with varying input domains/modalities. We empirically demonstrate that, compared with learning each visual navigation task individually, our multitask agent achieves comparable or even better performance with reduced complexity.
翻訳日:2022-11-01 17:46:11 公開日:2022-10-30
# 少数ショットセマンティクスセグメンテーションのための自己正規化原型ネットワーク

Self-Regularized Prototypical Network for Few-Shot Semantic Segmentation ( http://arxiv.org/abs/2210.16829v1 )

ライセンス: Link先を確認
Henghui Ding, Hui Zhang, Xudong Jiang(参考訳) イメージセマンティックセグメンテーションにおける深部CNNは通常、トレーニングのために多数の高密度な注釈付きイメージを必要とし、目に見えないオブジェクトカテゴリへの一般化が困難である。 そのため、いくつかの注釈付き例でセグメント化を行うために、少数ショットセグメンテーションが開発されている。 本研究では,プロトタイプ抽出に基づく自己正規化プロトタイプネットワーク(SRPNet)を用いて,サポート情報のより良い活用を目的とした数ショットセグメンテーションに取り組む。 提案したSRPNetは,サポート画像からクラス固有のプロトタイプ表現を抽出し,クエリ画像のセグメンテーションマスクを生成する。 サポートセットの直接的かつ効果的なプロトタイプ正規化は、SRPNetで提案され、生成されたプロトタイプはサポートセット自身で評価され、正規化される。 生成されたプロトタイプがサポートマスクを復元する程度では、パフォーマンスに上限が課される。 クエリセットのパフォーマンスは,サポートセットからクエリセットまで,知識がどの程度完成しても,上限を超えてはならない。 特定のプロトタイプの正規化によって、SRPNetはサポートからの知識を完全に活用し、各セマンティッククラスに代表される高品質なプロトタイプを提供する。 クエリ性能は、一連の正規化プロトタイプを組み合わせた反復クエリ推論(IQI)モジュールによってさらに改善される。 提案するSRPNetは1ショットと5ショットのセグメンテーションベンチマークで新しい最先端性能を実現する。

The deep CNNs in image semantic segmentation typically require a large number of densely-annotated images for training and have difficulties in generalizing to unseen object categories. Therefore, few-shot segmentation has been developed to perform segmentation with just a few annotated examples. In this work, we tackle the few-shot segmentation using a self-regularized prototypical network (SRPNet) based on prototype extraction for better utilization of the support information. The proposed SRPNet extracts class-specific prototype representations from support images and generates segmentation masks for query images by a distance metric - the fidelity. A direct yet effective prototype regularization on support set is proposed in SRPNet, in which the generated prototypes are evaluated and regularized on the support set itself. The extent to which the generated prototypes restore the support mask imposes an upper limit on performance. The performance on the query set should never exceed the upper limit no matter how complete the knowledge is generalized from support set to query set. With the specific prototype regularization, SRPNet fully exploits knowledge from the support and offers high-quality prototypes that are representative for each semantic class and meanwhile discriminative for different classes. The query performance is further improved by an iterative query inference (IQI) module that combines a set of regularized prototypes. Our proposed SRPNet achieves new state-of-art performance on 1-shot and 5-shot segmentation benchmarks.
翻訳日:2022-11-01 17:45:44 公開日:2022-10-30
# セントロイドへの投射を除去したFew-shot Learningにおけるサンプル選択バイアスの軽減

Alleviating the Sample Selection Bias in Few-shot Learning by Removing Projection to the Centroid ( http://arxiv.org/abs/2210.16834v1 )

ライセンス: Link先を確認
Jing Xu, Xu Luo, Xinglin Pan, Wenjie Pei, Yanan Li, Zenglin Xu(参考訳) FSL(Few-shot Learning)は、十分なアノテーションのない未確認タスクに対するビジョンモデルの一般化を目標としている。 数ショットの学習方法がいくつか出現しているにもかかわらず、サンプル選択バイアス問題、すなわち、限られたサポートデータに対する感度はよく理解されていない。 本稿では,通常,作業中の全てのクラスセントロイドの平均であるタスクセントロイドの近傍に支持試料の位置が配置されている場合に発生する。 これは、TCPR(Task Centroid Projection Removing)と呼ばれるこの問題を軽減するために、非常に単純な機能変換を提案する動機となります。 TCPRは与えられたタスクのすべての画像特徴に直接適用され、タスクセントロイドの方向に沿った特徴の次元を除去することを目的としている。 限られたデータから正確なタスクセントロイドを正確に得ることはできないが,サポート特徴の1つに類似した基本特徴を用いて推定する。 本手法は,タスクセントロイドに近すぎる特徴を効果的に防止する。 異なるドメインの10のデータセットに対する大規模な実験により、TCPRはさまざまな特徴抽出器、トレーニングアルゴリズム、データセットの分類精度を確実に改善できることが示された。 コードはhttps://github.com/Kikimor May/FSL-TCBRで公開されている。

Few-shot learning (FSL) targets at generalization of vision models towards unseen tasks without sufficient annotations. Despite the emergence of a number of few-shot learning methods, the sample selection bias problem, i.e., the sensitivity to the limited amount of support data, has not been well understood. In this paper, we find that this problem usually occurs when the positions of support samples are in the vicinity of task centroid -- the mean of all class centroids in the task. This motivates us to propose an extremely simple feature transformation to alleviate this problem, dubbed Task Centroid Projection Removing (TCPR). TCPR is applied directly to all image features in a given task, aiming at removing the dimension of features along the direction of the task centroid. While the exact task centroid cannot be accurately obtained from limited data, we estimate it using base features that are each similar to one of the support features. Our method effectively prevents features from being too close to the task centroid. Extensive experiments over ten datasets from different domains show that TCPR can reliably improve classification accuracy across various feature extractors, training algorithms and datasets. The code has been made available at https://github.com/KikimorMay/FSL-TCBR.
翻訳日:2022-11-01 17:45:22 公開日:2022-10-30
# ライセンスプレート超解像用アテンションモジュールとPixelシャッフルの組み合わせ

Combining Attention Module and Pixel Shuffle for License Plate Super-Resolution ( http://arxiv.org/abs/2210.16836v1 )

ライセンス: Link先を確認
Valfride Nascimento, Rayson Laroca, Jorge de A. Lambert, William Robson Schwartz, David Menotti(参考訳) ライセンスプレート認識(lpr)分野は、新しいディープラーニングアプローチとトレーニングデータの可用性の向上によって、過去10年間に驚くべき進歩を遂げてきた。 しかし、監視システムのように、低解像度(LR)と低画質の画像/ビデオから得られるデータには、まだいくつか未解決の問題がある。 この研究は、LRおよび低画質画像におけるライセンスプレート(LP)再構成に焦点を当てている。 本稿では,ピクセルシャッフル層の機能を生かして注意/変換モジュールの概念を拡張し,lpr予測に基づく損失関数を改善したシングルイメージスーパーレゾリューション(sisr)アプローチを提案する。 提案アーキテクチャのトレーニングには,構造的類似度指標尺度(SSIM)を用いて高分解能画像(HR)に重ガウス雑音を適用して生成した合成画像を用いる。 実験では,提案手法は定量的および定性的にベースラインより優れていた。 この研究のために作成したデータセットは、研究コミュニティのhttps://github.com/valfride/lpr-rsr/で公開されています。

The License Plate Recognition (LPR) field has made impressive advances in the last decade due to novel deep learning approaches combined with the increased availability of training data. However, it still has some open issues, especially when the data come from low-resolution (LR) and low-quality images/videos, as in surveillance systems. This work focuses on license plate (LP) reconstruction in LR and low-quality images. We present a Single-Image Super-Resolution (SISR) approach that extends the attention/transformer module concept by exploiting the capabilities of PixelShuffle layers and that has an improved loss function based on LPR predictions. For training the proposed architecture, we use synthetic images generated by applying heavy Gaussian noise in terms of Structural Similarity Index Measure (SSIM) to the original high-resolution (HR) images. In our experiments, the proposed method outperformed the baselines both quantitatively and qualitatively. The datasets we created for this work are publicly available to the research community at https://github.com/valfride/lpr-rsr/
翻訳日:2022-11-01 17:45:04 公開日:2022-10-30
# UG2+チャレンジ2022における第1位解法

1st Place Solutions for UG2+ Challenge 2022 ATMOSPHERIC TURBULENCE MITIGATION ( http://arxiv.org/abs/2210.16847v1 )

ライセンス: Link先を確認
Zhuang Liu, Zhichao Zhao, Ye Yuan, Zhi Qiao, Jinfeng Bai and Zhilong Ji(参考訳) 本稿では,UG$^2$+ Challenge in CVPR 2022において,原子圏乱流緩和のためのチーム「サマー」のソリューションを簡潔に紹介する。 本研究では,レストーナベース画像再構成モジュールとnimaベース画像品質評価モジュールを主とする,変形フレームから高品質画像を構築するための統一的なエンドツーエンドフレームワークを提案する。 我々のフレームワークは効率的で汎用的で、ホットエアイメージとテキストパターンの両方に対応しています。 さらに,1万枚以上の画像を精巧に合成し,大気乱流をシミュレートした。 これらの画像はモデルの堅牢性を向上させる。 最後に,テキストパターンの復元結果において平均98.53\%の精度を達成し,最終リーダボードでは1位となった。

In this technical report, we briefly introduce the solution of our team ''summer'' for Atomospheric Turbulence Mitigation in UG$^2$+ Challenge in CVPR 2022. In this task, we propose a unified end-to-end framework to reconstruct a high quality image from distorted frames, which is mainly consists of a Restormer-based image reconstruction module and a NIMA-based image quality assessment module. Our framework is efficient and generic, which is adapted to both hot-air image and text pattern. Moreover, we elaborately synthesize more than 10 thousands of images to simulate atmospheric turbulence. And these images improve the robustness of the model. Finally, we achieve the average accuracy of 98.53\% on the reconstruction result of the text patterns, ranking 1st on the final leaderboard.
翻訳日:2022-11-01 17:44:48 公開日:2022-10-30
# 高分解能マルチスケールRAFT (Robust Vision Challenge 2022)

High Resolution Multi-Scale RAFT (Robust Vision Challenge 2022) ( http://arxiv.org/abs/2210.16900v1 )

ライセンス: Link先を確認
Azin Jahedi, Maximilian Luz, Lukas Mehl, Marc Rivinius, Andr\'es Bruhn(参考訳) 本稿では,ロバスト・ビジョン・チャレンジ2022で優勝した光学フローアプローチMS-RAFT+について述べる。 これはMS-RAFT法に基づいており、複数のマルチスケールの概念を単一スケールのRAFTに統合することに成功した。 提案手法は,オンデマンドのコスト計算によって実現可能なフロー推定に,さらに細かなスケールを応用して拡張する。 これにより、元の解像度の半分で動作できるだけでなく、ms-raftのshared convex upsamplerを使ってフル解像度のフローを得ることができる。 さらに,本手法はトレーニング中の微調整方式に依存する。 これは、ベンチマーク全体の一般化を改善することを目的としている。 ロバストなビジョンチャレンジに参加するすべての方法の中で、我々のアプローチは、viperで第1位、kitti、sintel、ミドルベリーで第2位となり、総合ランキングで第1位となった。

In this report, we present our optical flow approach, MS-RAFT+, that won the Robust Vision Challenge 2022. It is based on the MS-RAFT method, which successfully integrates several multi-scale concepts into single-scale RAFT. Our approach extends this method by exploiting an additional finer scale for estimating the flow, which is made feasible by on-demand cost computation. This way, it can not only operate at half the original resolution, but also use MS-RAFT's shared convex upsampler to obtain full resolution flow. Moreover, our approach relies on an adjusted fine-tuning scheme during training. This in turn aims at improving the generalization across benchmarks. Among all participating methods in the Robust Vision Challenge, our approach ranks first on VIPER and second on KITTI, Sintel, and Middlebury, resulting in the first place of the overall ranking.
翻訳日:2022-11-01 17:44:35 公開日:2022-10-30
# 歩行者シナリオにおける文脈型視覚注意予測

Context-empowered Visual Attention Prediction in Pedestrian Scenarios ( http://arxiv.org/abs/2210.16933v1 )

ライセンス: Link先を確認
Igor Vozniak, Philipp Mueller, Lorena Hell, Nils Lipp, Ahmed Abouelazm, Christian Mueller(参考訳) 視覚的注意の効果的かつ柔軟な配分は、緊急性と安全性の異なる条件下で、望ましい目標に進む必要がある歩行者にとって鍵となる。 歩行者注意度の自動モデリングは歩行者行動のシミュレーションを改善する大きな可能性を秘めているが、現在のサリエンシー予測手法は主に一般のフリービューシナリオに焦点をあて、歩行者注意度予測における具体的な課題を反映しない。 本稿では,新しいエンコーダ・デコーダアーキテクチャであるContext-SalNETを提案する。まず,エンコーダ・デコーダモデルの潜在空間において,コンテキスト要因の緊急度と安全性を明示的にモデル化する。 第二に、基底真理サリエンシー写像のごく一部がゼロでないエントリからなるという事実に対して、よりうまく対応できる指数重み付き平均二乗誤差損失(ew-mse)を提案する。 第3に,歩行者注意予測の訓練データに制限があるという事実を考慮し,認識的不確かさを明示的にモデル化する。 context-salnetを評価するために,vrにおける歩行者の視覚注意の最初のデータセットを記録した。 Context-SalNETは最先端のSaliency予測アプローチや改善点よりも明確な改善を実現している。 我々の新しいデータセットは、完全に利用可能であり、歩行者の注意予測に関するさらなる研究のための貴重な情報源となる。

Effective and flexible allocation of visual attention is key for pedestrians who have to navigate to a desired goal under different conditions of urgency and safety preferences. While automatic modelling of pedestrian attention holds great promise to improve simulations of pedestrian behavior, current saliency prediction approaches mostly focus on generic free-viewing scenarios and do not reflect the specific challenges present in pedestrian attention prediction. In this paper, we present Context-SalNET, a novel encoder-decoder architecture that explicitly addresses three key challenges of visual attention prediction in pedestrians: First, Context-SalNET explicitly models the context factors urgency and safety preference in the latent space of the encoder-decoder model. Second, we propose the exponentially weighted mean squared error loss (ew-MSE) that is able to better cope with the fact that only a small part of the ground truth saliency maps consist of non-zero entries. Third, we explicitly model epistemic uncertainty to account for the fact that training data for pedestrian attention prediction is limited. To evaluate Context-SalNET, we recorded the first dataset of pedestrian visual attention in VR that includes explicit variation of the context factors urgency and safety preference. Context-SalNET achieves clear improvements over state-of-the-art saliency prediction approaches as well as over ablations. Our novel dataset will be made fully available and can serve as a valuable resource for further research on pedestrian attention prediction.
翻訳日:2022-11-01 17:44:18 公開日:2022-10-30
# ISG:あなたの遺伝子発現を見ることができます

ISG: I can See Your Gene Expression ( http://arxiv.org/abs/2210.16728v1 )

ライセンス: Link先を確認
Yan Yang and LiYuan Pan and Liu Liu and Eric A Stone(参考訳) 本稿では,組織スライド画像から遺伝子発現を正確に予測することを目的とする。 このようなスライド画像は大きな解像度と分散したテクスチャを有する。 これらの障害は、スライド画像から識別的特徴を抽出・解釈し、多様な遺伝子型を予測する。 既存の遺伝子発現法は主に汎用成分を用いて、テクスチャレス領域をフィルタリングし、特徴を抽出し、各領域を均一に集約する。 しかし、異なる画像領域間のギャップや相互作用を無視するため、遺伝子発現タスクでは劣る。 代わりに,テクスチャ不明瞭領域からの識別特徴間のインタラクションを3つの新しいモジュールで活用するisgフレームワークを提案する。 1)シャノン情報内容及びソロモンフ理論に基づくシャノン選択モジュールは、テクスチャのない画像領域をフィルタする。 2)高解像度画像間の効率的な領域相互作用のための表現的低次元特徴表現を抽出する特徴抽出ネットワーク 3)デュアルアテンションネットワークは、所望の遺伝子発現特徴を持つ領域に参加し、予測タスクのためにそれらを集約する。 標準ベンチマークデータセットに関する広範な実験は、提案されたisgフレームワークが最先端のメソッドを大幅に上回っていることを示している。

This paper aims to predict gene expression from a histology slide image precisely. Such a slide image has a large resolution and sparsely distributed textures. These obstruct extracting and interpreting discriminative features from the slide image for diverse gene types prediction. Existing gene expression methods mainly use general components to filter textureless regions, extract features, and aggregate features uniformly across regions. However, they ignore gaps and interactions between different image regions and are therefore inferior in the gene expression task. Instead, we present ISG framework that harnesses interactions among discriminative features from texture-abundant regions by three new modules: 1) a Shannon Selection module, based on the Shannon information content and Solomonoff's theory, to filter out textureless image regions; 2) a Feature Extraction network to extract expressive low-dimensional feature representations for efficient region interactions among a high-resolution image; 3) a Dual Attention network attends to regions with desired gene expression features and aggregates them for the prediction task. Extensive experiments on standard benchmark datasets show that the proposed ISG framework outperforms state-of-the-art methods significantly.
翻訳日:2022-11-01 17:36:44 公開日:2022-10-30
# 空気検出に対する対向パッチのベンチマーク

Benchmarking Adversarial Patch Against Aerial Detection ( http://arxiv.org/abs/2210.16765v1 )

ライセンス: Link先を確認
Jiawei Lian, Shaohui Mei, Shun Zhang and Mingyang Ma(参考訳) DNNは敵の例に弱いため、セキュリティクリティカルなシステムには大きなセキュリティ上の懸念が生じる。 本稿では,物理的ダイナミクスと異なるスケールの両方に適応し,特定のターゲットが検出されないような敵パッチを生成することを目的とした,新しい適応パッチベース物理攻撃(ap-pa)フレームワークを提案する。 さらに、敵パッチは、ターゲット外のパッチ(ターゲットオブジェクトをスミアする必要がない)で同一クラスのすべてのターゲットに対する攻撃効果を付与し、物理的な世界で十分に堅牢である。 さらに、検出対象のより利用可能な情報を考慮して敵パッチを最適化し、パッチのアタック効果(ホワイトボックスとブラックボックスの設定で平均87.86%、85.48%)を大幅に改善し、効率を最適化する新たな損失が考案された。 また,空域検出タスクにおける敵パッチの攻撃効果を評価するための,最初の包括的かつコヒーレントで厳密なベンチマークも確立した。 最後に、いくつかの比例スケールの実験を行い、複雑な対向パッチが動的物理的状況下で空中検出アルゴリズムを欺くことを実証した。 コードはhttps://github.com/JiaweiLian/AP-PAで公開されている。

DNNs are vulnerable to adversarial examples, which poses great security concerns for security-critical systems. In this paper, a novel adaptive-patch-based physical attack (AP-PA) framework is proposed, which aims to generate adversarial patches that are adaptive in both physical dynamics and varying scales, and by which the particular targets can be hidden from being detected. Furthermore, the adversarial patch is also gifted with attack effectiveness against all targets of the same class with a patch outside the target (No need to smear targeted objects) and robust enough in the physical world. In addition, a new loss is devised to consider more available information of detected objects to optimize the adversarial patch, which can significantly improve the patch's attack efficacy (Average precision drop up to 87.86% and 85.48% in white-box and black-box settings, respectively) and optimizing efficiency. We also establish one of the first comprehensive, coherent, and rigorous benchmarks to evaluate the attack efficacy of adversarial patches on aerial detection tasks. Finally, several proportionally scaled experiments are performed physically to demonstrate that the elaborated adversarial patches can successfully deceive aerial detection algorithms in dynamic physical circumstances. The code is available at https://github.com/JiaweiLian/AP-PA.
翻訳日:2022-11-01 17:36:27 公開日:2022-10-30
# 自己監督型学習では、Saliencyは必要なすべてだ

Saliency Can Be All You Need In Contrastive Self-Supervised Learning ( http://arxiv.org/abs/2210.16776v1 )

ライセンス: Link先を確認
Veysel Kocaman, Ofer M. Shir, Thomas B\"ack, Ahmed Nabil Belbachir(参考訳) 本稿では,グローバルコントラストベースサルエント領域検出という,すでに確立されているサルエント画像分割手法を用いて,コントラスト自己教師付き学習(ssl)のための拡張ポリシーを提案する。 この検出技術は、無関係なコンピュータビジョンタスクのために開発されたもので、SSLプロトコル内で拡張ファシリテータの役割を担っている。 この観察は、太陽パネルの空中画像であるSSLファッションによって、挑戦的な境界パターンを示す我々の実践的な試みに根ざしている。 問題領域におけるこの手法の統合が成功すると、一般化された手順を定式化し、標準拡張技術に基づく様々なコントラストSSLアルゴリズムによる総合的かつ体系的な性能評価を行った。 この評価は複数のデータセットで行われ、提案手法がSSLに実際に寄与していることを示している。 我々は、下流セグメンテーションタスクの処理において、コントラシティブSSLにおける唯一の拡張ポリシーとして、有能な画像セグメンテーションが有効かどうかを仮定する。

We propose an augmentation policy for Contrastive Self-Supervised Learning (SSL) in the form of an already established Salient Image Segmentation technique entitled Global Contrast based Salient Region Detection. This detection technique, which had been devised for unrelated Computer Vision tasks, was empirically observed to play the role of an augmentation facilitator within the SSL protocol. This observation is rooted in our practical attempts to learn, by SSL-fashion, aerial imagery of solar panels, which exhibit challenging boundary patterns. Upon the successful integration of this technique on our problem domain, we formulated a generalized procedure and conducted a comprehensive, systematic performance assessment with various Contrastive SSL algorithms subject to standard augmentation techniques. This evaluation, which was conducted across multiple datasets, indicated that the proposed technique indeed contributes to SSL. We hypothesize whether salient image segmentation may suffice as the only augmentation policy in Contrastive SSL when treating downstream segmentation tasks.
翻訳日:2022-11-01 17:36:04 公開日:2022-10-30
# スキートファジィc-meansクラスタリングによる歴史的スキャン文書の筆跡認識

Recognizing Handwriting Styles in a Historical Scanned Document Using Scikit-Fuzzy c-means Clustering ( http://arxiv.org/abs/2210.16780v1 )

ライセンス: Link先を確認
Sriparna Majumdar and Aaron Brick(参考訳) デジタル化された文書中の手書きの複数の筆跡への法医学的帰属は、高次元の難しい問題である。 ユニークな手書きスタイルは、文字サイズ、ストローク幅、ループ、ダクト、傾斜角、曲がりくねったリガチュアなど、いくつかの要素を混ぜ合わせて区別することができる。 隠れマルコフモデル、サポートベクターマシン、半教師付きリカレントニューラルネットワークによるラベル付きデータの研究は、中程度から高い成功を収めている。 本研究では, ファジィソフトクラスタリングと線形主成分分析を組み合わせることで, 古写本のハンドシフトの検出に成功している。 この進歩は、歴史文書の著者帰属と法医学的文書分析のための教師なし手法の展開を成功に導くものである。

The forensic attribution of the handwriting in a digitized document to multiple scribes is a challenging problem of high dimensionality. Unique handwriting styles may be dissimilar in a blend of several factors including character size, stroke width, loops, ductus, slant angles, and cursive ligatures. Previous work on labeled data with Hidden Markov models, support vector machines, and semi-supervised recurrent neural networks have provided moderate to high success. In this study, we successfully detect hand shifts in a historical manuscript through fuzzy soft clustering in combination with linear principal component analysis. This advance demonstrates the successful deployment of unsupervised methods for writer attribution of historical documents and forensic document analysis.
翻訳日:2022-11-01 17:35:50 公開日:2022-10-30
# 閉ループ転写による構造表現の教師なし学習

Unsupervised Learning of Structured Representations via Closed-Loop Transcription ( http://arxiv.org/abs/2210.16782v1 )

ライセンス: Link先を確認
Shengbang Tong, Xili Dai, Yubei Chen, Mingyang Li, Zengyi Li, Brent Yi, Yann LeCun, Yi Ma(参考訳) 本稿では,差別目的と生成目的の両方に対応する統一表現を教師なしで学習する手法を提案する。 既存の教師なし学習アプローチでは,これらの2つの目標のうちの1つだけを表現することに集中しているが,統一的表現は両者の相互利益を享受できることが示されている。 このような表現は、最近提案された CTRL として知られる \textit{closed-loop transcription} フレームワークを教師なしの設定に一般化することで実現可能である。 これは、各サンプルの増補的な特徴を圧縮しながら、すべてのサンプルの特徴を拡大するレート削減の目的よりも制約付き極大ゲームを解決することを伴う。 この過程を通じて、差別的な低次元構造が結果の表現に現れる。 比較実験条件とネットワークの複雑さにより,これらの構造化表現は,最先端の非教師なし識別表現に近い分類性能を実現し,条件付き生成画像品質が最先端の教師なし生成モデルよりも有意に高いことを実証する。 ソースコードはhttps://github.com/Delay-Xili/uCTRLで確認できる。

This paper proposes an unsupervised method for learning a unified representation that serves both discriminative and generative purposes. While most existing unsupervised learning approaches focus on a representation for only one of these two goals, we show that a unified representation can enjoy the mutual benefits of having both. Such a representation is attainable by generalizing the recently proposed \textit{closed-loop transcription} framework, known as CTRL, to the unsupervised setting. This entails solving a constrained maximin game over a rate reduction objective that expands features of all samples while compressing features of augmentations of each sample. Through this process, we see discriminative low-dimensional structures emerge in the resulting representations. Under comparable experimental conditions and network complexities, we demonstrate that these structured representations enable classification performance close to state-of-the-art unsupervised discriminative representations, and conditionally generated image quality significantly higher than that of state-of-the-art unsupervised generative models. Source code can be found at https://github.com/Delay-Xili/uCTRL.
翻訳日:2022-11-01 17:35:37 公開日:2022-10-30
# 画像自由領域のCLIPによる3次元ハンドポース推定

Image-free Domain Generalization via CLIP for 3D Hand Pose Estimation ( http://arxiv.org/abs/2210.16788v1 )

ライセンス: Link先を確認
Seongyeong Lee, Hansoo Park, Dong Uk Kim, Jihyeon Kim, Muhammadjon Boboev, Seungryul Baek(参考訳) rgbベースの3dハンドポーズ推定は、大規模データベースとディープラーニングのおかげで、数十年にわたって成功している。 しかし、手ポーズ推定ネットワークは、トレーニングデータとはかなり異なる特徴を持つ手ポーズ画像に対してうまく動作しない。 これは、照明、カメラアングル、入力画像のさまざまな背景など、さまざまな要因によって引き起こされる。 既存の方法の多くは、データ空間を増強するために、追加の大規模非制約/ターゲットのドメインイメージを提供することで解決しようとしたが、大規模な画像の収集には多くの手間がかかった。 本稿では,ソースドメインデータのみを用いた手振り推定フレームワークに対して,シンプルな画像自由領域一般化手法を提案する。 そこで我々は,CLIP(Contrastive Language- Image Pre-training)モデルを用いて,手ポーズ推定ネットワークの画像特徴をテキスト記述から追加することによって操作する。 操作された画像特徴を利用して、コントラスト学習フレームワークを介して手ポーズ推定ネットワークをトレーニングする。 STBおよびRHDデータセットを用いた実験では、最先端の領域一般化手法よりも性能が向上した。

RGB-based 3D hand pose estimation has been successful for decades thanks to large-scale databases and deep learning. However, the hand pose estimation network does not operate well for hand pose images whose characteristics are far different from the training data. This is caused by various factors such as illuminations, camera angles, diverse backgrounds in the input images, etc. Many existing methods tried to solve it by supplying additional large-scale unconstrained/target domain images to augment data space; however collecting such large-scale images takes a lot of labors. In this paper, we present a simple image-free domain generalization approach for the hand pose estimation framework that uses only source domain data. We try to manipulate the image features of the hand pose estimation network by adding the features from text descriptions using the CLIP (Contrastive Language-Image Pre-training) model. The manipulated image features are then exploited to train the hand pose estimation network via the contrastive learning framework. In experiments with STB and RHD datasets, our algorithm shows improved performance over the state-of-the-art domain generalization approaches.
翻訳日:2022-11-01 17:35:18 公開日:2022-10-30
# オンラインビデオインスタンス分割のための2レベル時間関係モデル

Two-Level Temporal Relation Model for Online Video Instance Segmentation ( http://arxiv.org/abs/2210.16795v1 )

ライセンス: Link先を確認
\c{C}a\u{g}an Selim \c{C}oban, O\u{g}uzhan Keskin, Jordi Pont-Tuset, Fatma G\"uney(参考訳) ビデオインスタンスセグメンテーション(vis: video instance segmentation)では、現在のアプローチでは、ビデオ全体を入力として、オフラインで処理することで、結果の品質にフォーカスするか、または、競合性能のコストでフレームごとに処理することで、速度に重点を置いている。 本研究では,オフライン手法と同等の性能を示すオンライン手法を提案する。 我々は、オブジェクトをエンコードし、時間を通じてそれらを関連付けるメッセージパッシンググラフニューラルネットワークを導入する。 また,残差接続を持つ特徴ピラミッドネットワークから特徴を融合する新たなモジュールを提案する。 我々のモデルは、トレーニングされたエンドツーエンドで、オンライン手法でYouTube-VISデータセット上で最先端のパフォーマンスを達成する。 DAVISに関するさらなる実験は、ビデオオブジェクトセグメンテーションタスクに対する我々のモデルの一般化能力を示す。 コードは以下の通り。 \url{https://github.com/caganselim/TLTM}

In Video Instance Segmentation (VIS), current approaches either focus on the quality of the results, by taking the whole video as input and processing it offline; or on speed, by handling it frame by frame at the cost of competitive performance. In this work, we propose an online method that is on par with the performance of the offline counterparts. We introduce a message-passing graph neural network that encodes objects and relates them through time. We additionally propose a novel module to fuse features from the feature pyramid network with residual connections. Our model, trained end-to-end, achieves state-of-the-art performance on the YouTube-VIS dataset within the online methods. Further experiments on DAVIS demonstrate the generalization capability of our model to the video object segmentation task. Code is available at: \url{https://github.com/caganselim/TLTM}
翻訳日:2022-11-01 17:35:00 公開日:2022-10-30
# フローレンス4次元顔表情データセット

The Florence 4D Facial Expression Dataset ( http://arxiv.org/abs/2210.16807v1 )

ライセンス: Link先を確認
F. Principi, S. Berretti, C. Ferrari, N. Otberdout, M. Daoudi, A. Del Bimbo(参考訳) ヒトの表情は動的に変化するため、2次元または3次元の顔の変形の時間的変化を考慮し、認識・分析を行う必要がある。 豊富な2dビデオデータが存在するが、これは3dではそうではない。 このデータの不足による負の結果は、大量のバラエゲートサンプルを効果的に訓練する必要のある表情分析のための現在のディープラーニングベースメソッドによって増幅される。 そこで本研究では,3次元顔モデルの動的配列からなる大規模データセットであるFlorence 4Dを提案する。合成と実のIDの組み合わせは,古典的中和遷移を含む,前例のない4次元表情の多様性を示すが,表現から表現への一般化が可能である。 これらの特徴はすべて既存の4dデータセットでは公開されておらず、複数のデータセットを組み合わせるだけでは取得できない。 このようなデータコーパスをコミュニティに公開することで、これまで調査できなかった新しいアプリケーションの設計と実験が可能になると強く信じています。 異なる同一性や様々な表現の観点からデータの難易度をある程度示すために,提案したデータセットをベースラインとして使用可能なベースライン実験を報告した。

Human facial expressions change dynamically, so their recognition / analysis should be conducted by accounting for the temporal evolution of face deformations either in 2D or 3D. While abundant 2D video data do exist, this is not the case in 3D, where few 3D dynamic (4D) datasets were released for public use. The negative consequence of this scarcity of data is amplified by current deep learning based-methods for facial expression analysis that require large quantities of variegate samples to be effectively trained. With the aim of smoothing such limitations, in this paper we propose a large dataset, named Florence 4D, composed of dynamic sequences of 3D face models, where a combination of synthetic and real identities exhibit an unprecedented variety of 4D facial expressions, with variations that include the classical neutral-apex transition, but generalize to expression-to-expression. All these characteristics are not exposed by any of the existing 4D datasets and they cannot even be obtained by combining more than one dataset. We strongly believe that making such a data corpora publicly available to the community will allow designing and experimenting new applications that were not possible to investigate till now. To show at some extent the difficulty of our data in terms of different identities and varying expressions, we also report a baseline experimentation on the proposed dataset that can be used as baseline.
翻訳日:2022-11-01 17:34:46 公開日:2022-10-30
# SL3D:自己監督型自己ラベル付き3D認識

SL3D: Self-supervised-Self-labeled 3D Recognition ( http://arxiv.org/abs/2210.16810v1 )

ライセンス: Link先を確認
Fernando Julio Cendra, Lan Ma, Jiajun Shen, Xiaojuan Qi(参考訳) 3d認識には、分類、オブジェクト検出、セマンティックセグメンテーションなど、多くの有望な結果がある。 しかし、これらの結果の多くは、高度に注釈付けされた現実世界の3Dデータを手作業で収集することに依存している。 そこで本稿では,非教師付き3D認識について検討し,自己教師付き自己ラベル型3D認識(SL3D)フレームワークを提案する。 SL3Dはクラスタリングと学習特徴表現という2つの結合した目的を同時に解決し、教師なし3D認識のための擬似ラベル付きデータを生成する。 SL3Dは汎用的なフレームワークであり、分類、オブジェクト検出、セマンティックセグメンテーションを含む様々な3D認識タスクに応用できる。 広範な実験がその効果を実証している。 コードはhttps://github.com/fcendra/sl3dで入手できる。

There are a lot of promising results in 3D recognition, including classification, object detection, and semantic segmentation. However, many of these results rely on manually collecting densely annotated real-world 3D data, which is highly time-consuming and expensive to obtain, limiting the scalability of 3D recognition tasks. Thus in this paper, we study unsupervised 3D recognition and propose a Self-supervised-Self-Labeled 3D Recognition (SL3D) framework. SL3D simultaneously solves two coupled objectives, i.e., clustering and learning feature representation to generate pseudo labeled data for unsupervised 3D recognition. SL3D is a generic framework and can be applied to solve different 3D recognition tasks, including classification, object detection, and semantic segmentation. Extensive experiments demonstrate its effectiveness. Code is available at https://github.com/fcendra/sl3d.
翻訳日:2022-11-01 17:34:23 公開日:2022-10-30
# グラフニューラルネットワークによるCAD 3Dモデル分類:STEPフォーマットに基づく新しいアプローチ

CAD 3D Model classification by Graph Neural Networks: A new approach based on STEP format ( http://arxiv.org/abs/2210.16815v1 )

ライセンス: Link先を確認
L. Mandelli, S. Berretti(参考訳) 本稿では,cad(computer-aided design)形式で,ポイントクラウドやメッシュなど他の表現に変換することなく直接実行される3dモデルの検索と分類を行う新しい手法を提案する。 様々なcadフォーマットのうち,製品製造情報の標準として広く用いられているステップ拡張を考察する。 この形式は3Dモデルを表面や頂点などの原始的な要素の集合として表現する。 提案手法では,STEPファイルの連結構造を利用して,ノードが原始的要素であり,弧がそれらの間の接続であるグラフを生成する。 次に、モデル分類の問題を解決するためにグラフニューラルネットワーク(GNN)を用いる。 最後に、TracepartsモデルライブラリとConfiguratorsソフトウェアモデリング会社からのデータを収集し、ネイティブCAD形式で2つの3Dモデルのデータセットを作成しました。 これらのデータセットを使用して、私たちのアプローチを、他の3dフォーマットを考慮した最先端のメソッドと比較しました。 私たちのコードはhttps://github.com/divanoLetto/3D_STEP_Classificationで利用可能です。

In this paper, we introduce a new approach for retrieval and classification of 3D models that directly performs in the Computer-Aided Design (CAD) format without any conversion to other representations like point clouds or meshes, thus avoiding any loss of information. Among the various CAD formats, we consider the widely used STEP extension, which represents a standard for product manufacturing information. This particular format represents a 3D model as a set of primitive elements such as surfaces and vertices linked together. In our approach, we exploit the linked structure of STEP files to create a graph in which the nodes are the primitive elements and the arcs are the connections between them. We then use Graph Neural Networks (GNNs) to solve the problem of model classification. Finally, we created two datasets of 3D models in native CAD format, respectively, by collecting data from the Traceparts model library and from the Configurators software modeling company. We used these datasets to test and compare our approach with respect to state-of-the-art methods that consider other 3D formats. Our code is available at https://github.com/divanoLetto/3D_STEP_Classification
翻訳日:2022-11-01 17:34:09 公開日:2022-10-30
# 遺伝子発現予測の空間転写学解析のための経験的ガイド付きディープニューラルネットワーク

Exemplar Guided Deep Neural Network for Spatial Transcriptomics Analysis of Gene Expression Prediction ( http://arxiv.org/abs/2210.16721v1 )

ライセンス: Link先を確認
Yan Yang and Md Zakir Hossain and Eric A Stone and Shafin Rahman(参考訳) 空間転写学(ST)は疾患の理解と新しい治療法の開発に不可欠である。 低スループットで組織スライド内の各きめ細かい領域(つまり異なる窓)の遺伝子発現を測定する。 本稿では,組織スライド画像の各ウィンドウから直接,遺伝子発現を高精度かつ効率的に予測するExemplar Guided Network(EGN)を提案する。 本研究では,組織スライド画像ウィンドウの近傍/類似画像からの遺伝子発現予測を動的に向上するために,模範学習を適用した。 私たちのEGNフレームワークは3つの主要コンポーネントで構成されています。 1) 教師なし検索のための表現空間を構成する抽出装置 2) 入力ウィンドウの表現を段階的に抽出する視覚変換器(ViT)バックボーン 3) 中間 ViT 表現を最寄りの例を用いて適応的に修正する Exemplar Bridging (EB) ブロック。 最後に、簡単な注意に基づく予測ブロックで遺伝子発現予測タスクを完了させる。 標準ベンチマークデータセットの実験は、過去のSOTA(State-of-the-art)手法と比較した場合、アプローチの優位性を示している。

Spatial transcriptomics (ST) is essential for understanding diseases and developing novel treatments. It measures gene expression of each fine-grained area (i.e., different windows) in the tissue slide with low throughput. This paper proposes an Exemplar Guided Network (EGN) to accurately and efficiently predict gene expression directly from each window of a tissue slide image. We apply exemplar learning to dynamically boost gene expression prediction from nearest/similar exemplars of a given tissue slide image window. Our EGN framework composes of three main components: 1) an extractor to structure a representation space for unsupervised exemplar retrievals; 2) a vision transformer (ViT) backbone to progressively extract representations of the input window; and 3) an Exemplar Bridging (EB) block to adaptively revise the intermediate ViT representations by using the nearest exemplars. Finally, we complete the gene expression prediction task with a simple attention-based prediction block. Experiments on standard benchmark datasets indicate the superiority of our approach when comparing with the past state-of-the-art (SOTA) methods.
翻訳日:2022-11-01 17:25:17 公開日:2022-10-30
# 多言語多様性:データセット、技術、挑戦、機会に関する分類学的調査

Multilingual Multimodality: A Taxonomical Survey of Datasets, Techniques, Challenges and Opportunities ( http://arxiv.org/abs/2210.16960v1 )

ライセンス: Link先を確認
Khyathi Raghavi Chandu, Alborz Geramifard(参考訳) コンテキスト化 単一言語を超えた言語技術 kindled では、複数のモダリティと言語を取り入れている。 それぞれの方向は間違いなくいくつかのNLPタスクに拡大した。 この勢いにもかかわらず、マルチモーダル研究は主に英語を中心とし、多言語研究はテキストモダリティの文脈を中心にしている。 従来の設定に従って、研究者はマルチランガルストリームとマルチモーダルストリーム(MultiX)の統一を研究した。 この作業の主な目的は、MultiXシナリオに対処するためのタスク、データセット、メソッドのカテゴリをチャート化することで、これらの作業のカタログ化と特徴付けを行うことである。 この目的のために、並列アノテーションを用いたゴールドまたはシルバーの言語をレビューし、これらのモダリティと言語がモデリングにおいてどのように相互作用するかを理解する。 我々は、モデリングアプローチとその強みと弱みについて説明し、それらが確実に使用できるシナリオをよりよく理解する。 次に,この分野の全体パラダイムにおけるハイレベルなトレンドを紹介する。 最後に,課題と有望な研究方向性のロードマップを提示する。

Contextualizing language technologies beyond a single language kindled embracing multiple modalities and languages. Individually, each of these directions undoubtedly proliferated into several NLP tasks. Despite this momentum, most of the multimodal research is primarily centered around English and multilingual research is primarily centered around contexts from text modality. Challenging this conventional setup, researchers studied the unification of multilingual and multimodal (MultiX) streams. The main goal of this work is to catalogue and characterize these works by charting out the categories of tasks, datasets and methods to address MultiX scenarios. To this end, we review the languages studied, gold or silver data with parallel annotations, and understand how these modalities and languages interact in modeling. We present an account of the modeling approaches along with their strengths and weaknesses to better understand what scenarios they can be used reliably. Following this, we present the high-level trends in the overall paradigm of the field. Finally, we conclude by presenting a road map of challenges and promising research directions.
翻訳日:2022-11-01 17:10:12 公開日:2022-10-30
# XMD:NLPモデルの対話的説明に基づくデバッグのためのエンドツーエンドフレームワーク

XMD: An End-to-End Framework for Interactive Explanation-Based Debugging of NLP Models ( http://arxiv.org/abs/2210.16978v1 )

ライセンス: Link先を確認
Dong-Ho Lee, Akshen Kadakia, Brihi Joshi, Aaron Chan, Ziyi Liu, Kiran Narahari, Takashi Shibuya, Ryosuke Mitani, Toshiyuki Sekiya, Jay Pujara, Xiang Ren(参考訳) NLPモデルは、いくつかのデータセットで機能する急激なバイアス(すなわちバグ)を学ぶことができるが、基礎となるタスクを適切に反映しない。 説明に基づくモデルデバッギングは,モデル動作の説明を人間に提示し,ユーザに行動に対するフィードバックを与え,モデル更新にフィードバックを使用することによって,突発的なバイアスを解決することを目的としている。 既存のモデルデバッグメソッドにはprototypeがあるが、プロトタイプレベルの実装は実用性に制限がある。 そこで我々は,説明に基づくモデルデバッギングのための,最初のオープンソースのエンドツーエンドフレームワークであるXMDを提案する。 タスクレベルの説明やインスタンスレベルの説明があれば、ユーザは直感的でWebベースのUIを通じて、さまざまな形式のフィードバックを柔軟に提供できます。 ユーザのフィードバックを受けた後、xmdはモデルがユーザのフィードバックに合致するようにモデルを調整することで、モデルを自動的にリアルタイムで更新する。 新しいモデルは、Hugging Faceを通じて、現実世界のアプリケーションに簡単にデプロイできる。 XMDを用いて,テキスト分類タスクにおけるOOD性能を最大18%向上させることができる。

NLP models are susceptible to learning spurious biases (i.e., bugs) that work on some datasets but do not properly reflect the underlying task. Explanation-based model debugging aims to resolve spurious biases by showing human users explanations of model behavior, asking users to give feedback on the behavior, then using the feedback to update the model. While existing model debugging methods have shown promise, their prototype-level implementations provide limited practical utility. Thus, we propose XMD: the first open-source, end-to-end framework for explanation-based model debugging. Given task- or instance-level explanations, users can flexibly provide various forms of feedback via an intuitive, web-based UI. After receiving user feedback, XMD automatically updates the model in real time, by regularizing the model so that its explanations align with the user feedback. The new model can then be easily deployed into real-world applications via Hugging Face. Using XMD, we can improve the model's OOD performance on text classification tasks by up to 18%.
翻訳日:2022-11-01 17:09:58 公開日:2022-10-30
# 自然言語推論による法的遺言文の妥当性評価

Validity Assessment of Legal Will Statements as Natural Language Inference ( http://arxiv.org/abs/2210.16989v1 )

ライセンス: Link先を確認
Alice Saebom Kwak, Jacob O. Israelsen, Clayton T. Morrison, Derek E. Bambauer and Mihai Surdeanu(参考訳) この研究は、法的遺言の文の有効性に焦点を当てた自然言語推論(NLI)データセットを導入する。 このデータセットはユニークです。 (a)各包括的決定には,遺言書,法律及び被告の死亡時に保持する条件の3つの入力を必要とする。 b) 含まれているテキストは、現在のNLIデータセットよりも長い。 このデータセットで8つのニューラルNLIモデルをトレーニングしました。 すべてのモデルが80%以上のマクロf1と精度を達成しているため、ニューラルネットワークがこのタスクを適切に処理できることを示している。 しかし、単位と同じ文から生成される正と負の例のグループで計算されるより厳密な評価尺度である群精度は、80年代中盤に最多であり、モデルのタスクに対する理解は表面的であることを示唆している。 さらなるアブレーション分析と説明実験により、3つのテキストセグメント全てが予測に使われていることが示されているが、いくつかの決定は意味的に無関係なトークンに依存している。 これは、これらの長いテキストに過度に適合する可能性があり、このタスクを解決するにはさらなる研究が必要であることを示している。

This work introduces a natural language inference (NLI) dataset that focuses on the validity of statements in legal wills. This dataset is unique because: (a) each entailment decision requires three inputs: the statement from the will, the law, and the conditions that hold at the time of the testator's death; and (b) the included texts are longer than the ones in current NLI datasets. We trained eight neural NLI models in this dataset. All the models achieve more than 80% macro F1 and accuracy, which indicates that neural approaches can handle this task reasonably well. However, group accuracy, a stricter evaluation measure that is calculated with a group of positive and negative examples generated from the same statement as a unit, is in mid 80s at best, which suggests that the models' understanding of the task remains superficial. Further ablative analyses and explanation experiments indicate that all three text segments are used for prediction, but some decisions rely on semantically irrelevant tokens. This indicates that overfitting on these longer texts likely happens, and that additional research is required for this task to be solved.
翻訳日:2022-11-01 17:09:42 公開日:2022-10-30
# ロバスト長期抽象要約からどのくらい遠いのか?

How Far are We from Robust Long Abstractive Summarization? ( http://arxiv.org/abs/2210.16732v1 )

ライセンス: Link先を確認
Huan Yee Koh, Jiaxin Ju, He Zhang, Ming Liu, Shirui Pan(参考訳) 抽象的な要約は近年大きく進歩している。 本研究では, 長期文書要約システム(モデルとメトリクス)を評価するために, 信頼できる要約を生成するために, きめ細かなヒューマンアノテーションを実行する。 長い文書抽象モデルでは、最先端のROUGE結果に対する一定の努力により、より関連性の高い要約を生成することができるが、事実ではないことを示す。 長期の文書評価指標では, ROUGEは要約の関連性を評価する上で最善であることを示す。 また、異なる種類の事実エラーの検出における事実性指標の重要な制限と、BARTScoreの有効性の背景にある理由を明らかにしている。 次に、事実整合性メトリクスを開発する取り組みにおける有望な方向性を提案する。 最後に、より広い範囲の要約設定でメトリクスの開発に貢献できることを願って、注釈付き長いドキュメントデータセットをリリースします。

Abstractive summarization has made tremendous progress in recent years. In this work, we perform fine-grained human annotations to evaluate long document abstractive summarization systems (i.e., models and metrics) with the aim of implementing them to generate reliable summaries. For long document abstractive models, we show that the constant strive for state-of-the-art ROUGE results can lead us to generate more relevant summaries but not factual ones. For long document evaluation metrics, human evaluation results show that ROUGE remains the best at evaluating the relevancy of a summary. It also reveals important limitations of factuality metrics in detecting different types of factual errors and the reasons behind the effectiveness of BARTScore. We then suggest promising directions in the endeavor of developing factual consistency metrics. Finally, we release our annotated long document dataset with the hope that it can contribute to the development of metrics across a broader range of summarization settings.
翻訳日:2022-11-01 16:59:46 公開日:2022-10-30
# 文生成・識別・コントラスト:半監督型文表現学習フレームワーク

Generate, Discriminate and Contrast: A Semi-Supervised Sentence Representation Learning Framework ( http://arxiv.org/abs/2210.16798v1 )

ライセンス: Link先を確認
Yiming Chen, Yan Zhang, Bin Wang, Zuozhu Liu, Haizhou Li(参考訳) ほとんどの文埋め込み技術は、教師付き信号として高価な人間の注釈文ペアに大きく依存している。 大規模なラベルなしデータを使用しているにもかかわらず、教師なしメソッドのパフォーマンスはたいてい、下流タスクの教師なしデータよりもずっと遅れている。 本研究では,大規模未ラベルデータを効果的に活用する半教師付き文埋め込みフレームワークGenSEを提案する。 私たちの方法は3つの部分を含む。 1)生成:オープンドメイン未ラベルコーパスから文対を合成するジェネレータ/識別器モデルを共同で訓練する。 2 判別:騒がしい文対を判別者によりフィルタリングし、高品質な肯定的文対及び否定的文対を得る。 3)コントラスト:アノテートデータと合成データの両方を用いた文表現学習に対して,プロンプトに基づくコントラストアプローチを提案する。 総合的な実験により、GenSEはSTSデータセットの平均相関スコア85.19を達成し、4つのドメイン適応タスクにおける一貫したパフォーマンス改善を達成し、最先端のメソッドを大幅に上回り、その有効性と一般化能力を確実に相関させる。

Most sentence embedding techniques heavily rely on expensive human-annotated sentence pairs as the supervised signals. Despite the use of large-scale unlabeled data, the performance of unsupervised methods typically lags far behind that of the supervised counterparts in most downstream tasks. In this work, we propose a semi-supervised sentence embedding framework, GenSE, that effectively leverages large-scale unlabeled data. Our method include three parts: 1) Generate: A generator/discriminator model is jointly trained to synthesize sentence pairs from open-domain unlabeled corpus; 2) Discriminate: Noisy sentence pairs are filtered out by the discriminator to acquire high-quality positive and negative sentence pairs; 3) Contrast: A prompt-based contrastive approach is presented for sentence representation learning with both annotated and synthesized data. Comprehensive experiments show that GenSE achieves an average correlation score of 85.19 on the STS datasets and consistent performance improvement on four domain adaptation tasks, significantly surpassing the state-of-the-art methods and convincingly corroborating its effectiveness and generalization ability.Code, Synthetic data and Models available at https://github.com/MatthewCYM/GenSE.
翻訳日:2022-11-01 16:59:31 公開日:2022-10-30
# NLPを用いた行動可能なフレーズ検出

Actionable Phrase Detection using NLP ( http://arxiv.org/abs/2210.16841v1 )

ライセンス: Link先を確認
Adit Magotra(参考訳) 行動可能な文は、最も基本的な意味では、特定の行動を取る必要性を暗示する用語である。 言語学的には、それらは操作を達成するためのステップであり、しばしばアクション動詞を使用する。 例えば、『明日までに宿題を終える』という文は、特定のアクション(この場合、宿題を終える)が要求されるので、実行可能であると認定される。 対照的に、「私はギターを弾きたい」というような単純な文は、作業の完了を要求するのではなく、単に個人の選択を述べるため、実行可能な句とは認められない。 本稿では,Actionablesをスクラッチから設計した言語フィルタを用いて生テキストから抽出できるかどうかを検討する。 これらのフィルタは、Transfer Learningを主役として、アクション可能なテキストを特定することに特化している。 Actionable Detectionは、危機時の緊急タスクの検出、First aidのインストラクション精度、およびカンファレンスの自動ToDoリストジェネレータなどの生産性ツール作成に使用することができる。 これを実現するために、enronメールデータセットを使用し、クリーンなテキストデータに言語フィルタを適用します。 次に、Transfer Learning with the Universal Sentence Encoderを使ってモデルをトレーニングし、与えられたテキストの文字列が動作可能かどうかを分類します。

Actionable sentences are terms that, in the most basic sense, imply the necessity of taking a specific action. In Linguistic terms, they are steps to achieve an operation, often through the usage of action verbs. For example, the sentence, `Get your homework finished by tomorrow` qualifies as actionable since it demands a specific action (In this case, finishing homework) to be taken. In contrast, a simple sentence such as, `I like to play the guitar` does not qualify as an actionable phrase since it simply states a personal choice of the person instead of demanding a task to be finished. In this paper, the aim is to explore if Actionables can be extracted from raw text using Linguistic filters designed from scratch. These filters are specially catered to identifying actionable text using Transfer Learning as the lead role. Actionable Detection can be used in detecting emergency tasks during a crisis, Instruction accuracy for First aid and can also be used to make productivity tools like automatic ToDo list generators from conferences. To accomplish this, we use the Enron Email Dataset and apply our Linguistic filters on the cleaned textual data. We then use Transfer Learning with the Universal Sentence Encoder to train a model to classify whether a given string of raw text is actionable or not.
翻訳日:2022-11-01 16:59:07 公開日:2022-10-30
# 分解学習:比較可能なテキストに基づく仮説的質問分解

Learning to Decompose: Hypothetical Question Decomposition Based on Comparable Texts ( http://arxiv.org/abs/2210.16865v1 )

ライセンス: Link先を確認
Ben Zhou and Kyle Richardson and Xiaodong Yu and Dan Roth(参考訳) 複雑なタスクをより単純で、しばしば解釈可能なサブタスクに分解する明示的分解モデリングは、堅牢で解釈可能なNLUシステムの開発において長い間中心的なテーマであった。 しかし、この取り組みの一部として構築された多くのデータセットとリソースにもかかわらず、大多数は小規模のアノテーションと限定的なスコープを持ち、一般的な分解タスクを解決するには不十分である。 本稿では,分解型変圧器の大規模中間訓練について,比較テキスト,特に大規模並列ニュースから遠ざかって検討する。 このような中間事前学習により,多様なタスクに対するロバストな分解ベースモデルの開発がより実現可能となることを示す。 例えば、セマンティック解析において、私たちのモデルであるDecompT5は、ベースライン言語モデルよりも、OvernightとTORQUEの2つのデータセットで20%から30%改善します。 我々はさらに,新たな分解ベースのqaシステムであるdecompentailの構築にdecompt5を使用し,hotpotqaとstrategyqaの両方で,gpt-3を含む最先端モデルをそれぞれ8%,strategyqaを4%改善した。

Explicit decomposition modeling, which involves breaking down complex tasks into more straightforward and often more interpretable sub-tasks, has long been a central theme in developing robust and interpretable NLU systems. However, despite the many datasets and resources built as part of this effort, the majority have small-scale annotations and limited scope, which is insufficient to solve general decomposition tasks. In this paper, we look at large-scale intermediate pre-training of decomposition-based transformers using distant supervision from comparable texts, particularly large-scale parallel news. We show that with such intermediate pre-training, developing robust decomposition-based models for a diverse range of tasks becomes more feasible. For example, on semantic parsing, our model, DecompT5, improves 20% to 30% on two datasets, Overnight and TORQUE, over the baseline language model. We further use DecompT5 to build a novel decomposition-based QA system named DecompEntail, improving over state-of-the-art models, including GPT-3, on both HotpotQA and StrategyQA by 8% and 4%, respectively.
翻訳日:2022-11-01 16:58:44 公開日:2022-10-30
# 空間的役割ラベリングと推論のための合成コーパスを用いた伝達学習

Transfer Learning with Synthetic Corpora for Spatial Role Labeling and Reasoning ( http://arxiv.org/abs/2210.16952v1 )

ライセンス: Link先を確認
Roshanak Mirzaee and Parisa Kordjamshidi(参考訳) 最近の研究では、教師のソースとしての合成データが、事前訓練された言語モデル(plm)が学習を新しい目的のタスク/ドメインに移すのに役立つことが示されている。 しかし、この考え方は空間言語では研究されていない。 複数の空間言語処理タスクに2つの新しいデータリソースを提供する。 第1データセットは、空間質問応答(SQA)と空間役割ラベル(SpRL)の伝達学習のために合成される。 従来のSQAデータセットと比較して、より多様な空間関係型と空間表現を含む。 我々のデータ生成プロセスは新しい空間表現レキシコンで容易に拡張できる。 2つ目は、SPRLアノテーションを備えた既存のコーパス上に構築された人間生成の質問を備えた現実世界のSQAデータセットである。 このデータセットは、現実的な状況下での空間言語処理モデルの評価に使用できる。 自動生成データによる事前トレーニングは、SQAおよびSPRLベンチマークにおいて、特にターゲット領域のトレーニングデータが小さい場合、SOTA結果を大幅に改善する。

Recent research shows synthetic data as a source of supervision helps pretrained language models (PLM) transfer learning to new target tasks/domains. However, this idea is less explored for spatial language. We provide two new data resources on multiple spatial language processing tasks. The first dataset is synthesized for transfer learning on spatial question answering (SQA) and spatial role labeling (SpRL). Compared to previous SQA datasets, we include a larger variety of spatial relation types and spatial expressions. Our data generation process is easily extendable with new spatial expression lexicons. The second one is a real-world SQA dataset with human-generated questions built on an existing corpus with SPRL annotations. This dataset can be used to evaluate spatial language processing models in realistic situations. We show pretraining with automatically generated data significantly improves the SOTA results on several SQA and SPRL benchmarks, particularly when the training data in the target domain is small.
翻訳日:2022-11-01 16:58:24 公開日:2022-10-30
# attention swin u-net : 皮膚病変セグメンテーションにおける横断的注意機構

Attention Swin U-Net: Cross-Contextual Attention Mechanism for Skin Lesion Segmentation ( http://arxiv.org/abs/2210.16898v1 )

ライセンス: Link先を確認
Ehsan Khodapanah Aghdam, Reza Azad, Maral Zarvani, Dorit Merhof(参考訳) メラノーマはヒト皮膚のメラノーマの異常増殖によって引き起こされる。 他のがんと同様に、この致命的な皮膚がんは早期診断で治療することができる。 皮膚病変の自動分割による診断を支援するため,完全畳み込みネットワーク(fcn)アプローチ,特にu-netアーキテクチャが提案されている。 対称構造を持つU-Netモデルはセグメンテーションタスクにおいて優れた性能を示した。 しかし,U-Netアーキテクチャに組み込まれた畳み込み操作の局所性制限は,医用画像のセグメンテーションタスクにおいて重要な長距離依存性を捕捉する際の性能を制限している。 この制限に対処するため、最近、CNNブロックをSwin Transformerモジュールに置き換えるTransformerベースのU-Netアーキテクチャが提案されている。 本稿では,医療画像セグメンテーションのための注意に基づくswain u-net拡張であるatt-swinu-netを提案する。 本設計では,スキップ接続経路を慎重に設計することで,ネットワークの機能再使用性の向上を図る。 注意機構を組み込むことにより、スキップ接続経路で使用される古典連結操作をさらに改善できると主張する。 複数の皮膚病変区分データセットについて包括的アブレーション研究を行い,提案する注意機構の有効性を実証した。

Melanoma is caused by the abnormal growth of melanocytes in human skin. Like other cancers, this life-threatening skin cancer can be treated with early diagnosis. To support a diagnosis by automatic skin lesion segmentation, several Fully Convolutional Network (FCN) approaches, specifically the U-Net architecture, have been proposed. The U-Net model with a symmetrical architecture has exhibited superior performance in the segmentation task. However, the locality restriction of the convolutional operation incorporated in the U-Net architecture limits its performance in capturing long-range dependency, which is crucial for the segmentation task in medical images. To address this limitation, recently a Transformer based U-Net architecture that replaces the CNN blocks with the Swin Transformer module has been proposed to capture both local and global representation. In this paper, we propose Att-SwinU-Net, an attention-based Swin U-Net extension, for medical image segmentation. In our design, we seek to enhance the feature re-usability of the network by carefully designing the skip connection path. We argue that the classical concatenation operation utilized in the skip connection path can be further improved by incorporating an attention mechanism. By performing a comprehensive ablation study on several skin lesion segmentation datasets, we demonstrate the effectiveness of our proposed attention mechanism.
翻訳日:2022-11-01 16:43:12 公開日:2022-10-30
# 量子回路信頼性推定のためのグラフトランス

QuEst: Graph Transformer for Quantum Circuit Reliability Estimation ( http://arxiv.org/abs/2210.16724v1 )

ライセンス: Link先を確認
Hanrui Wang and Pengyu Liu and Jinglei Cheng and Zhiding Liang and Jiaqi Gu and Zirui Li and Yongshan Ding and Weiwen Jiang and Yiyu Shi and Xuehai Qian and David Z. Pan and Frederic T. Chong and Song Han(参考訳) 異なる量子アルゴリズムのうち、qml用のpqcは、短期デバイスに約束を示す。 QMLとPQCの研究を促進するため、TorchQuantumと呼ばれる最近のpythonライブラリがリリースされた。 高速で便利なデバッグサポートを備えた機械学習タスク用のPQCの構築、シミュレーション、トレーニングを行うことができる。 MLのための量子以外にも、逆方向に対するコミュニティの関心を高めたい: 量子のためのML。 具体的には、torchquantumライブラリは、データ駆動mlモデルを使用して、量子ノイズが回路の忠実性に与える影響の予測や、量子回路のコンパイル効率の向上など、量子システム研究の問題を解決する。 本稿では,量子部分に対するMLのケーススタディを示す。 回路信頼性に対するノイズの影響を推定することは、ノイズの理解と緩和に向けた重要なステップであるため、従来のMLを利用して回路の忠実度に対するノイズの影響を予測することを提案する。 量子回路の自然なグラフ表現に着想を得て,ノイズの多い回路の忠実度を予測するためにグラフトランスフォーマモデルを提案する。 まず、様々な量子回路を持つ大規模データセットを収集し、ノイズの多いシミュレータや実マシンでその忠実性を得る。 次に、各回路をノード特性としてゲートとノイズ特性を有するグラフに埋め込み、グラフトランスフォーマを使用して忠実度を予測する。 5千のランダム回路とアルゴリズム回路で評価され、グラフトランスフォーマー予測器は、rmse誤差0.04で正確な忠実度推定を提供し、単純なニューラルネットワークベースのモデルを平均0.02で上回ることができる。 ランダム回路とアルゴリズム回路でそれぞれ0.99と0.95R$^2$のスコアを達成できる。 回路シミュレータと比較すると、予測器は忠実度を推定するための200倍以上のスピードアップを持つ。

Among different quantum algorithms, PQC for QML show promises on near-term devices. To facilitate the QML and PQC research, a recent python library called TorchQuantum has been released. It can construct, simulate, and train PQC for machine learning tasks with high speed and convenient debugging supports. Besides quantum for ML, we want to raise the community's attention on the reversed direction: ML for quantum. Specifically, the TorchQuantum library also supports using data-driven ML models to solve problems in quantum system research, such as predicting the impact of quantum noise on circuit fidelity and improving the quantum circuit compilation efficiency. This paper presents a case study of the ML for quantum part. Since estimating the noise impact on circuit reliability is an essential step toward understanding and mitigating noise, we propose to leverage classical ML to predict noise impact on circuit fidelity. Inspired by the natural graph representation of quantum circuits, we propose to leverage a graph transformer model to predict the noisy circuit fidelity. We firstly collect a large dataset with a variety of quantum circuits and obtain their fidelity on noisy simulators and real machines. Then we embed each circuit into a graph with gate and noise properties as node features, and adopt a graph transformer to predict the fidelity. Evaluated on 5 thousand random and algorithm circuits, the graph transformer predictor can provide accurate fidelity estimation with RMSE error 0.04 and outperform a simple neural network-based model by 0.02 on average. It can achieve 0.99 and 0.95 R$^2$ scores for random and algorithm circuits, respectively. Compared with circuit simulators, the predictor has over 200X speedup for estimating the fidelity.
翻訳日:2022-11-01 16:40:59 公開日:2022-10-30
# 神経スケーリング則の可解モデル

A Solvable Model of Neural Scaling Laws ( http://arxiv.org/abs/2210.16859v1 )

ライセンス: Link先を確認
Alexander Maloney, Daniel A. Roberts, James Sully(参考訳) インターネットに近い数のトークンでトレーニングされた大量のパラメータを持つ大規模な言語モデルは、ニューラルネットワークのスケーリング法則に従うことを実証的に証明されている。 これをよりよく理解するために、まずそのようなスケーリング法則を生じさせるために必要な特性を特定し、次にこの神経スケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。 このモデルを、大規模なトレーニングセットサイズと多数のパラメータの二重極限で解くことで、我々は洞察を得ることができる。 (i)法律のスケーリングにつながるデータセット及びタスクの統計構造。 (ii) ニューラルネットワークが提供するような非線形特徴マップは、これらのデータセットでトレーニングされた場合、スケーリング法則を可能にする。 (iii)訓練セットとパラメータの等パラメータ化スケーリングの最適性、 (iv)そのようなスケーリング法則が崩壊しうるか、どのように振る舞うか。 主な発見は、自然データセットの統計で発生する電力法則が、非線形ランダムな特徴写像によって拡張され、テスト損失の電力則スケーリングに変換される方法と、データのスペクトルパワー法則の有限範囲が、モデルの性能をプラトーにどのように引き起こすかである。

Large language models with a huge number of parameters, when trained on near internet-sized number of tokens, have been empirically shown to obey neural scaling laws: specifically, their performance behaves predictably as a power law in either parameters or dataset size until bottlenecked by the other resource. To understand this better, we first identify the necessary properties allowing such scaling laws to arise and then propose a statistical model -- a joint generative data model and random feature model -- that captures this neural scaling phenomenology. By solving this model in the dual limit of large training set size and large number of parameters, we gain insight into (i) the statistical structure of datasets and tasks that lead to scaling laws, (ii) the way nonlinear feature maps, such as those provided by neural networks, enable scaling laws when trained on these datasets, (iii) the optimality of the equiparameterization scaling of training sets and parameters, and (iv) whether such scaling laws can break down and how they behave when they do. Key findings are the manner in which the power laws that occur in the statistics of natural datasets are extended by nonlinear random feature maps and then translated into power-law scalings of the test loss and how the finite extent of the data's spectral power law causes the model's performance to plateau.
翻訳日:2022-11-01 16:35:10 公開日:2022-10-30
# 多クラス分類のための投影値に基づく量子機械学習

Projection Valued Measure-based Quantum Machine Learning for Multi-Class Classification ( http://arxiv.org/abs/2210.16731v1 )

ライセンス: Link先を確認
Won Joon Yun, Hankyul Baek, and Joongheon Kim(参考訳) 近年、量子機械学習(QML)は、分類、強化学習、敵対学習など様々なタスクに積極的に使われている。 しかし、これらのQML研究は、入出力におけるスケーラビリティの問題がQMLの最大のハードルであるため、複雑なタスクを達成できない。 この問題に対処するため,出力スケーラビリティの問題を解決することを目的とする。 この課題に動機づけられ,量子統計力学における確率振幅の性質を利用した投影値測度 (pvm) に着目する。 PVMを活用することにより、出力次元は、qubits $q$から$\mathcal{O}(2^q)$へと拡張される。 マルチクラス分類のための新しいQMLフレームワークを提案する。 当社のフレームワークは6キュービット未満のさまざまなデータセットで、最先端(sota)よりも優れています。 さらに、PVMベースのQMLは42.2%のSOTAより優れています。

In recent years, quantum machine learning (QML) has been actively used for various tasks, e.g., classification, reinforcement learning, and adversarial learning. However, these QML studies do not achieve complex tasks due to scalability issues on input and output are the biggest hurdle in QML. To cope with this problem, we aim to solve the output scalability issue. Motivated by this challenge, we focus on projection-valued measure (PVM) which utilizes the nature of probability amplitude in quantum statistical mechanics. By leveraging PVM, the output dimension is expanded from the number of qubits $q$ to $\mathcal{O}(2^q)$. We propose a novel QML framework for multi-class classification. We corroborate that our framework outperforms the state-of-theart (SOTA) with various datasets using no more than 6 qubits. Furthermore, our PVM-based QML outperforms 42.2% SOTA.
翻訳日:2022-11-01 16:24:34 公開日:2022-10-30
# DyG2Vec:自己スーパービジョンによる動的グラフの表現学習

DyG2Vec: Representation Learning for Dynamic Graphs with Self-Supervision ( http://arxiv.org/abs/2210.16906v1 )

ライセンス: Link先を確認
Mohammad Ali Alomrani, Mahdi Biparva, Yingxue Zhang, Mark Coates(参考訳) 動的グラフから予測タスクを学ぶ上での課題は、進化し続けるグラフからきめ細かい時間的モチーフを抽出することである。 さらに、タスクラベルは、しばしば不足し、コストがかかり、大きな動的グラフに対して高度にバランスが取れない。 グラフにおける自己教師付き学習の最近の進歩は、大きな可能性を示しているが、静的グラフに焦点を当てている。 動的グラフのための最先端(SoTA)モデルは、自己教師付き学習(SSL)パラダイムと互換性がないだけでなく、近い将来に相互作用を予測できない。 dyg2vecは,動的グラフ上で表現学習を行うためのssl互換で効率的なモデルである。 DyG2Vecはウィンドウベースのメカニズムを使用してタスクに依存しないノード埋め込みを生成する。 DyG2Vecは、トレーニング/推論時間の一部を必要としながら、下流タスクのベンチマークデータセットのSoTAベースラインを大幅に上回る。 我々は,2つのssl評価機構を動的グラフに適用し,ssl事前学習がより堅牢な時空間ノード表現,特にラベルの少ないシナリオの学習に役立つことを示す。

The challenge in learning from dynamic graphs for predictive tasks lies in extracting fine-grained temporal motifs from an ever-evolving graph. Moreover, task labels are often scarce, costly to obtain, and highly imbalanced for large dynamic graphs. Recent advances in self-supervised learning on graphs demonstrate great potential, but focus on static graphs. State-of-the-art (SoTA) models for dynamic graphs are not only incompatible with the self-supervised learning (SSL) paradigm but also fail to forecast interactions beyond the very near future. To address these limitations, we present DyG2Vec, an SSL-compatible, efficient model for representation learning on dynamic graphs. DyG2Vec uses a window-based mechanism to generate task-agnostic node embeddings that can be used to forecast future interactions. DyG2Vec significantly outperforms SoTA baselines on benchmark datasets for downstream tasks while only requiring a fraction of the training/inference time. We adapt two SSL evaluation mechanisms to make them applicable to dynamic graphs and thus show that SSL pre-training helps learn more robust temporal node representations, especially for scenarios with few labels.
翻訳日:2022-11-01 16:24:22 公開日:2022-10-30
# カーネルアンカー回帰による非線形因果発見

Nonlinear Causal Discovery via Kernel Anchor Regression ( http://arxiv.org/abs/2210.16775v1 )

ライセンス: Link先を確認
Wenqi Shi and Wenkai Xu(参考訳) 因果関係の学習は科学における根本的な問題である。 アンカー回帰は、多くの因果グラフモデルに対してこの問題に対処するために開発されたが、変数間の関係は線形であると仮定されている。 本研究では,kernel anchor regression (kar)を提案することで非線形設定に取り組む。 古典的な二段最小二乗推定器を用いた自然な定式化以外にも、3つの異なる段階における非パラメトリック回帰を含む改良型の研究も行った。 提案したKAR推定器の収束結果と非線形構造方程式モデル(SEM)を学習するためのKARの識別可能性条件を提供する。 実験により,提案したKAR推定器の既存のベースラインよりも優れた性能を示した。

Learning causal relationships is a fundamental problem in science. Anchor regression has been developed to address this problem for a large class of causal graphical models, though the relationships between the variables are assumed to be linear. In this work, we tackle the nonlinear setting by proposing kernel anchor regression (KAR). Beyond the natural formulation using a classic two-stage least square estimator, we also study an improved variant that involves nonparametric regression in three separate stages. We provide convergence results for the proposed KAR estimators and the identifiability conditions for KAR to learn the nonlinear structural equation models (SEM). Experimental results demonstrate the superior performances of the proposed KAR estimators over existing baselines.
翻訳日:2022-11-01 16:22:45 公開日:2022-10-30
# guy:共通ラベルセットを用いたインド語用デュアルデコーダ多言語asr

DuDe: Dual-Decoder Multilingual ASR for Indian Languages using Common Label Set ( http://arxiv.org/abs/2210.16739v1 )

ライセンス: Link先を確認
Arunkumar A, Mudit Batra, Umesh S(参考訳) インドのような多言語国では、多言語自動音声認識(ASR)システムは範囲が広い。 多言語ASRシステムは、スケーラビリティ、保守性、単言語ASRシステムに対する性能改善など、多くの利点がある。 しかし、異なる言語が書くために異なるスクリプトを使用するため、インド言語のための多言語システムの構築は困難である。 一方、インドの言語は多くの共通の音を共有している。 Common Label Set (CLS) はこのアイデアを利用して、共通ラベルに似た音で様々な言語のグラフエムをマッピングする。 インドの言語はほとんどが音声言語であるため、ネイティブスクリプトからCLSに変換するパーサーの構築は容易である。 本稿では,多言語ASRモデル構築のための様々なアプローチについて検討する。 また,CLSとネイティブスクリプトラベルを併用した多言語システムを構築するためのEncoder-Decoder-Decoderというアーキテクチャを提案する。 また,CLSに基づく多言語システムと機械翻訳の併用の有効性についても検討した。

In a multilingual country like India, multilingual Automatic Speech Recognition (ASR) systems have much scope. Multilingual ASR systems exhibit many advantages like scalability, maintainability, and improved performance over the monolingual ASR systems. However, building multilingual systems for Indian languages is challenging since different languages use different scripts for writing. On the other hand, Indian languages share a lot of common sounds. Common Label Set (CLS) exploits this idea and maps graphemes of various languages with similar sounds to common labels. Since Indian languages are mostly phonetic, building a parser to convert from native script to CLS is easy. In this paper, we explore various approaches to build multilingual ASR models. We also propose a novel architecture called Encoder-Decoder-Decoder for building multilingual systems that use both CLS and native script labels. We also analyzed the effectiveness of CLS-based multilingual systems combined with machine transliteration.
翻訳日:2022-11-01 16:16:11 公開日:2022-10-30
# 因子化によるデータセット蒸留

Dataset Distillation via Factorization ( http://arxiv.org/abs/2210.16774v1 )

ライセンス: Link先を確認
Songhua Liu, Kai Wang, Xingyi Yang, Jingwen Ye, Xinchao Wang(参考訳) 本稿では,新しい視点から<xw{dataset distillation (dd) を考察し,既存のddベースラインに対応可能なプラグ・アンド・プレイ戦略である<emph{dataset factorization} アプローチを導入する。 蒸留と代表的なサンプルの生成を目的とした従来のddアプローチとは異なり、\emph{haba}はデータセットを2つのコンポーネントに分解する: data \emph{ha}llucination networksと \emph{ba}sesであり、後者は前者へ供給され、画像サンプルを再構築する。 塩基と幻覚ネットワークの柔軟な組み合わせにより、蒸留したデータに指数的情報性ゲインを付与し、蒸留したデータセットの表現能力を大幅に向上させる。 さらに、圧縮結果のデータ効率を向上させるために、生成した画像の多様性を高め、因子化により多くの識別情報を注入する、結果の幻覚ネットワークとベースに対する対向的コントラスト制約を導入する。 広範な比較および実験により,圧縮パラメータの総数を最大65\%削減しつつ,従来のアーツに比べて下流分類タスクにおいて有意に改善できることが示されている。 さらに,このアプローチによる蒸留データセットは,クロスアーキテクチャ一般化におけるベースライン法よりも高い精度を実現している。 私たちのコードは href{https://github.com/Huage001/DatasetFactorization}{here} で利用可能です。

In this paper, we study \xw{dataset distillation (DD)}, from a novel perspective and introduce a \emph{dataset factorization} approach, termed \emph{HaBa}, which is a plug-and-play strategy portable to any existing DD baseline. Unlike conventional DD approaches that aim to produce distilled and representative samples, \emph{HaBa} explores decomposing a dataset into two components: data \emph{Ha}llucination networks and \emph{Ba}ses, where the latter is fed into the former to reconstruct image samples. The flexible combinations between bases and hallucination networks, therefore, equip the distilled data with exponential informativeness gain, which largely increase the representation capability of distilled datasets. To furthermore increase the data efficiency of compression results, we further introduce a pair of adversarial contrastive constraints on the resultant hallucination networks and bases, which increase the diversity of generated images and inject more discriminant information into the factorization. Extensive comparisons and experiments demonstrate that our method can yield significant improvement on downstream classification tasks compared with previous state of the arts, while reducing the total number of compressed parameters by up to 65\%. Moreover, distilled datasets by our approach also achieve \textasciitilde10\% higher accuracy than baseline methods in cross-architecture generalization. Our code is available \href{https://github.com/Huage001/DatasetFactorization}{here}.
翻訳日:2022-11-01 16:07:54 公開日:2022-10-30
# 視覚表現学習のためのシンプルで効率的でスケーラブルなマスク付きオートエンコーダ

A simple, efficient and scalable contrastive masked autoencoder for learning visual representations ( http://arxiv.org/abs/2210.16870v1 )

ライセンス: Link先を確認
Shlok Mishra, Joshua Robinson, Huiwen Chang, David Jacobs, Aaron Sarna, Aaron Maschinot, Dilip Krishnan(参考訳) 視覚表現の自己教師型学習のためのシンプルで効率的でスケーラブルなCANを導入する。 提案手法は, (c) コントラスト学習, (a) マスク付きオートエンコーダ, (n) 拡散モデルにおける雑音予測手法の最小かつ概念的にクリーンな合成である。 学習メカニズムは、画像サンプルのバッチにまたがる埋め込み空間をコントラスト学習が形成し、マスク付きオートエンコーダは、画像サンプル内の低周波空間相関の再構築に焦点を当て、ノイズ予測は画像の高周波成分の再構成を促進する。 組み合わせたアプローチは、堅牢でスケーラブルでシンプルな実装アルゴリズムをもたらす。 トレーニングプロセスは対称であり、両方のビューのパッチの50%はランダムにマスクされており、従来のコントラスト学習方法よりもかなり効率が向上している。 広範な実証研究により、トランスファー学習とロバストネスタスクの線形および微調整評価の両方において、強い下流性能を達成できることが示されている。 CANはImageNetで事前トレーニングを行う際にMAEとSimCLRより優れているが、特にJFT-300Mのような大規模未処理データセットの事前トレーニングには特に有用である: ImageNetで線形プローブを行う場合、CANはSimCLRで73.4%、MAEで64.1%である。 ViT-LモデルのImageNetのパフォーマンスは86.1%、SimCLRは85.5%、MAEは85.4%である。 SimCLRの全体的なFLOP負荷は、ViT-LモデルのCANよりも70%高い。

We introduce CAN, a simple, efficient and scalable method for self-supervised learning of visual representations. Our framework is a minimal and conceptually clean synthesis of (C) contrastive learning, (A) masked autoencoders, and (N) the noise prediction approach used in diffusion models. The learning mechanisms are complementary to one another: contrastive learning shapes the embedding space across a batch of image samples; masked autoencoders focus on reconstruction of the low-frequency spatial correlations in a single image sample; and noise prediction encourages the reconstruction of the high-frequency components of an image. The combined approach results in a robust, scalable and simple-to-implement algorithm. The training process is symmetric, with 50% of patches in both views being masked at random, yielding a considerable efficiency improvement over prior contrastive learning methods. Extensive empirical studies demonstrate that CAN achieves strong downstream performance under both linear and finetuning evaluations on transfer learning and robustness tasks. CAN outperforms MAE and SimCLR when pre-training on ImageNet, but is especially useful for pre-training on larger uncurated datasets such as JFT-300M: for linear probe on ImageNet, CAN achieves 75.4% compared to 73.4% for SimCLR and 64.1% for MAE. The finetuned performance on ImageNet of our ViT-L model is 86.1%, compared to 85.5% for SimCLR, and 85.4% for MAE. The overall FLOPs load of SimCLR is 70% higher than CAN for ViT-L models.
翻訳日:2022-11-01 16:07:31 公開日:2022-10-30
# 自己監督型ローカライゼーションと視覚変換器を用いた空港舗装画像の異物デブリ検出

Foreign Object Debris Detection for Airport Pavement Images based on Self-supervised Localization and Vision Transformer ( http://arxiv.org/abs/2210.16901v1 )

ライセンス: Link先を確認
Travis Munyer, Daniel Brinkman, Xin Zhong, Chenyu Huang, Iason Konstantzos(参考訳) 監視対象検出方法は、連邦航空局(FAA)の仕様に従って、FODは任意のオブジェクトである可能性があるため、外部オブジェクトデブリ(FOD)検出に適用した場合、サブパーパフォーマンスを提供する。 現在の教師付きオブジェクト検出アルゴリズムは、検出されるすべてのオブジェクトの注釈付き例を含むデータセットを必要とする。 一般的なFODの例を含むために、大規模で高価なデータセットを開発することができるが、FODのオープンな性質のため、データセット表現で可能なFODの例をすべて収集することは不可能である。 データセットの制限は、これらの教師付きアルゴリズムによって駆動されるFOD検出システムに特定のFODを見逃させる可能性がある。 そこで本稿では,FODアノテーションの例を列挙するのを避けるために,滑走路画像の予測を学習する自己教師型FODローカライゼーションを提案する。 ローカライズ手法では、ViT(Vision Transformer)を用いてローカライズ性能を向上させる。 実験により,実世界の滑走路状況における任意のFODの検出に成功した。 この論文は、分類を行うためのローカライズ結果の拡張も提供しており、これはダウンストリームタスクに有用な機能である。 ローカライゼーションをトレーニングするために,クリーンな滑走路イメージのみを収集する,シンプルで現実的なデータセット作成フレームワークを提案する。 この方法の訓練および試験データは、無人航空機システム(UAS)を用いて地元の空港で収集される。 さらに、開発データセットはパブリック使用とさらなる研究のために提供される。

Supervised object detection methods provide subpar performance when applied to Foreign Object Debris (FOD) detection because FOD could be arbitrary objects according to the Federal Aviation Administration (FAA) specification. Current supervised object detection algorithms require datasets that contain annotated examples of every to-be-detected object. While a large and expensive dataset could be developed to include common FOD examples, it is infeasible to collect all possible FOD examples in the dataset representation because of the open-ended nature of FOD. Limitations of the dataset could cause FOD detection systems driven by those supervised algorithms to miss certain FOD, which can become dangerous to airport operations. To this end, this paper presents a self-supervised FOD localization by learning to predict the runway images, which avoids the enumeration of FOD annotation examples. The localization method utilizes the Vision Transformer (ViT) to improve localization performance. The experiments show that the method successfully detects arbitrary FOD in real-world runway situations. The paper also provides an extension to the localization result to perform classification; a feature that can be useful to downstream tasks. To train the localization, this paper also presents a simple and realistic dataset creation framework that only collects clean runway images. The training and testing data for this method are collected at a local airport using unmanned aircraft systems (UAS). Additionally, the developed dataset is provided for public use and further studies.
翻訳日:2022-11-01 16:07:03 公開日:2022-10-30
# 変動低減データ共有によるロバストデータ評価

Robust Data Valuation via Variance Reduced Data Shapley ( http://arxiv.org/abs/2210.16835v1 )

ライセンス: Link先を確認
Mengmeng Wu, Ruoxi Jia, Changle lin, Wei Huang, Xiangyu Chang(参考訳) データバリュエーション、特にアルゴリズム予測と意思決定におけるデータ価値の定量化は、データ取引シナリオにおいて根本的な問題である。 最も広く使われている方法は、データシャプリーを定義し、置換サンプリングアルゴリズムを用いて近似することである。 本研究では,データマーケットプレースの発展を妨げる置換サンプリングの大規模な推定分散を補うために,分散低減データ共有(VRDS)と呼ばれる階層化サンプリングを用いたより堅牢なデータ評価手法を提案する。 理論的には、階層化の方法、各層で採取されたサンプル数、vrdのサンプル複雑性分析などを示す。 最後に、VRDSの有効性は、異なるタイプのデータセットとデータ削除アプリケーションで示される。

Data valuation, especially quantifying data value in algorithmic prediction and decision-making, is a fundamental problem in data trading scenarios. The most widely used method is to define the data Shapley and approximate it by means of the permutation sampling algorithm. To make up for the large estimation variance of the permutation sampling that hinders the development of the data marketplace, we propose a more robust data valuation method using stratified sampling, named variance reduced data Shapley (VRDS for short). We theoretically show how to stratify, how many samples are taken at each stratum, and the sample complexity analysis of VRDS. Finally, the effectiveness of VRDS is illustrated in different types of datasets and data removal applications.
翻訳日:2022-11-01 15:59:25 公開日:2022-10-30
# てんかん状態抽象化によるBAMDPの情報水平化計画

Planning to the Information Horizon of BAMDPs via Epistemic State Abstraction ( http://arxiv.org/abs/2210.16872v1 )

ライセンス: Link先を確認
Dilip Arumugam, Satinder Singh(参考訳) ベイズ適応マルコフ決定過程(bamdp)は、強化学習における探索・爆発のトレードオフに対するベイズ最適解を追求する。 ベイズ強化学習問題に対する厳密解の計算は難解であり、文献の多くは適切な近似アルゴリズムの開発に重点を置いている。 本研究では,アルゴリズム設計に踏み込む前に,まず,bamdp計画のための複雑度尺度を,軽度構造的仮定の下で定義する。 BAMDPの効率的な探索は情報収集の司法的獲得に結びつくため、我々の複雑さ対策は情報収集の難しさと疫学の不確かさを浮き彫りにする。 その意義を説明するために,より効率的な計画を示すために,この手法を活用し,計算に難解で正確な計画アルゴリズムを確立する。 結論として,bamdpの複雑性を低減し,計算可能な近似計画アルゴリズムを導出する可能性を持つ特定の状態抽象化を導入する。

The Bayes-Adaptive Markov Decision Process (BAMDP) formalism pursues the Bayes-optimal solution to the exploration-exploitation trade-off in reinforcement learning. As the computation of exact solutions to Bayesian reinforcement-learning problems is intractable, much of the literature has focused on developing suitable approximation algorithms. In this work, before diving into algorithm design, we first define, under mild structural assumptions, a complexity measure for BAMDP planning. As efficient exploration in BAMDPs hinges upon the judicious acquisition of information, our complexity measure highlights the worst-case difficulty of gathering information and exhausting epistemic uncertainty. To illustrate its significance, we establish a computationally-intractable, exact planning algorithm that takes advantage of this measure to show more efficient planning. We then conclude by introducing a specific form of state abstraction with the potential to reduce BAMDP complexity and gives rise to a computationally-tractable, approximate planning algorithm.
翻訳日:2022-11-01 15:59:12 公開日:2022-10-30
# 分布的ロバストなドメイン適応

Distributionally Robust Domain Adaptation ( http://arxiv.org/abs/2210.16894v1 )

ライセンス: Link先を確認
Akram S. Awad, George K. Atia(参考訳) ドメイン適応(DA: Domain Adaptation)は、ソースドメインとターゲットドメインをまたいだ学習モデルに適合する可能性から、最近大きな注目を集めている。 daメソッドは与えられたソースとターゲットドメインのサンプルのみに依存しているため、一般的にはノイズに弱いモデルと、学習モデルの堅牢性と一般化を保証するdaメソッドを呼び出すターゲットドメインの未検出サンプルに適応できないモデルを生成する。 本稿では,分布にロバストな領域適応法であるdrdaを提案する。 DRDAは、分布的に堅牢な最適化(DRO)フレームワークを利用して、最悪の対象ドメインリスクを最小限に抑える堅牢な決定関数を学習し、与えられたラベル付きソースドメインサンプルからの知識を転送することで、対象ドメインからの任意のサンプルに一般化する。 我々は、最大平均離散度(MMD)測定値を用いて、高い確率でソースとターゲット領域の分布を確実に含む分布のあいまいさの集合を構築する。 したがって、リスクは、サンプル外のターゲットドメイン損失を上限として示される。 実験の結果,既存のロバストな学習手法に勝ることがわかった。

Domain Adaptation (DA) has recently received significant attention due to its potential to adapt a learning model across source and target domains with mismatched distributions. Since DA methods rely exclusively on the given source and target domain samples, they generally yield models that are vulnerable to noise and unable to adapt to unseen samples from the target domain, which calls for DA methods that guarantee the robustness and generalization of the learned models. In this paper, we propose DRDA, a distributionally robust domain adaptation method. DRDA leverages a distributionally robust optimization (DRO) framework to learn a robust decision function that minimizes the worst-case target domain risk and generalizes to any sample from the target domain by transferring knowledge from a given labeled source domain sample. We utilize the Maximum Mean Discrepancy (MMD) metric to construct an ambiguity set of distributions that provably contains the source and target domain distributions with high probability. Hence, the risk is shown to upper bound the out-of-sample target domain loss. Our experimental results demonstrate that our formulation outperforms existing robust learning approaches.
翻訳日:2022-11-01 15:58:55 公開日:2022-10-30
# 不確実性定量化におけるモデル誤特定に関する一考察

A view on model misspecification in uncertainty quantification ( http://arxiv.org/abs/2210.16938v1 )

ライセンス: Link先を確認
Yuko Kato, David M.J. Tax and Marco Loog(参考訳) 機械学習モデルの不確かさを推定することは、これらのモデルが提供する予測の品質を評価するために不可欠である。 しかしながら、不確実性推定の質に影響を与える要因はいくつかあり、そのうちの1つはモデル不特定化の量である。 モデルは単に単純化や現実への近似であるからである。 この疑問は、モデルの誤特定の下で推定された不確実性が信頼できるかどうかである。 本稿では,思考実験を行い,関連する文献を文脈化することにより,モデルの誤特定がより注目されるべきだと論じる。

Estimating uncertainty of machine learning models is essential to assess the quality of the predictions that these models provide. However, there are several factors that influence the quality of uncertainty estimates, one of which is the amount of model misspecification. Model misspecification always exists as models are mere simplifications or approximations to reality. The question arises whether the estimated uncertainty under model misspecification is reliable or not. In this paper, we argue that model misspecification should receive more attention, by providing thought experiments and contextualizing these with relevant literature.
翻訳日:2022-11-01 15:58:34 公開日:2022-10-30
# 複数の専門家に推論する学習:一貫性のあるサーロゲート損失、信頼度校正、共形アンサンブル

Learning to Defer to Multiple Experts: Consistent Surrogate Losses, Confidence Calibration, and Conformal Ensembles ( http://arxiv.org/abs/2210.16955v1 )

ライセンス: Link先を確認
Rajeev Verma, Daniel Barrej\'on, Eric Nalisnick(参考訳) 複数の専門家にL2Dを延期する学習の統計的特性について検討した。 特に,一貫性のあるサーロゲート損失,信頼度校正,原則に基づく専門家のセンシングを導出するというオープンな問題に対処する。 1つはソフトマックスパラメタライゼーションに基づく一貫した2つのサロゲートであり、もう1つは1-vs-all(OvA)パラメタライゼーションに基づくもので、それぞれMozannarとSontag(2020)とVermaとNalisnick(2022)によって提案された1つの専門家損失に類似している。 次に、フレームワークのp(m_j = y | x)を推定する能力、すなわち、jth専門家がxのラベルを正確に予測する確率について検討する。 理論では、softmaxベースの損失は見積もりの間に不均衡を引き起こすが、ovaベースの損失はそうではない(実際にはトレードオフがある)。 最後に,システムフェール時の問合せに専門家のサブセットを選択する共形推論手法を提案する。 我々は銀河、皮膚病変、ヘイトスピーチ分類のタスクに対して経験的検証を行う。

We study the statistical properties of learning to defer (L2D) to multiple experts. In particular, we address the open problems of deriving a consistent surrogate loss, confidence calibration, and principled ensembling of experts. Firstly, we derive two consistent surrogates -- one based on a softmax parameterization, the other on a one-vs-all (OvA) parameterization -- that are analogous to the single expert losses proposed by Mozannar and Sontag (2020) and Verma and Nalisnick (2022), respectively. We then study the frameworks' ability to estimate P( m_j = y | x ), the probability that the jth expert will correctly predict the label for x. Theory shows the softmax-based loss causes mis-calibration to propagate between the estimates while the OvA-based loss does not (though in practice, we find there are trade offs). Lastly, we propose a conformal inference technique that chooses a subset of experts to query when the system defers. We perform empirical validation on tasks for galaxy, skin lesion, and hate speech classification.
翻訳日:2022-11-01 15:58:26 公開日:2022-10-30
# 汎用低ランクマルコフゲームにおける表現学習

Representation Learning for General-sum Low-rank Markov Games ( http://arxiv.org/abs/2210.16976v1 )

ライセンス: Link先を確認
Chengzhuo Ni, Yuda Song, Xuezhou Zhang, Chi Jin, Mengdi Wang(参考訳) 非線形関数近似を用いたマルチエージェント汎用マルコフゲームについて検討する。 遷移行列が未知の非線形表現の上に隠れた低ランク構造を持つ低ランクマルコフゲームに焦点を当てる。 目的は,(1)環境や表現の事前知識を必要とせず,効率よく$\varepsilon$-equilibrium Policyサンプルを見つけるアルゴリズムを設計することであり,(2)ディープラーニングに親しみやすい実装を可能にする。 表現学習を活用し、収集したデータから効果的な表現を構築するためのモデルベースおよびモデルフリーなアプローチを提案する。 どちらのアプローチに対しても、このアルゴリズムはpoly$(H,d,A,1/\varepsilon)$のサンプル複雑性を達成し、$H$はゲーム水平線、$d$は特徴ベクトルの次元、$A$は関節アクション空間のサイズ、$\varepsilon$は最適性ギャップである。 プレイヤー数が大きくなると、上記のサンプル複雑性は最悪の場合プレイヤー数で指数関数的に拡大する。 この課題に対処するために、マルコフゲームは分解された遷移構造を持ち、そのような指数的スケーリングから逃れるアルゴリズムを提案する。 我々の知る限り、これは(非線形)関数近似を組み込んだマルチエージェント汎用マルコフゲームのための最初のサンプル効率アルゴリズムである。 ニューラルネットワークによるアルゴリズムの実装による理論的結果に付随し、広く使われている深部RLベースラインであるDQNに対して、架空のプレイで評価する。

We study multi-agent general-sum Markov games with nonlinear function approximation. We focus on low-rank Markov games whose transition matrix admits a hidden low-rank structure on top of an unknown non-linear representation. The goal is to design an algorithm that (1) finds an $\varepsilon$-equilibrium policy sample efficiently without prior knowledge of the environment or the representation, and (2) permits a deep-learning friendly implementation. We leverage representation learning and present a model-based and a model-free approach to construct an effective representation from the collected data. For both approaches, the algorithm achieves a sample complexity of poly$(H,d,A,1/\varepsilon)$, where $H$ is the game horizon, $d$ is the dimension of the feature vector, $A$ is the size of the joint action space and $\varepsilon$ is the optimality gap. When the number of players is large, the above sample complexity can scale exponentially with the number of players in the worst case. To address this challenge, we consider Markov games with a factorized transition structure and present an algorithm that escapes such exponential scaling. To our best knowledge, this is the first sample-efficient algorithm for multi-agent general-sum Markov games that incorporates (non-linear) function approximation. We accompany our theoretical result with a neural network-based implementation of our algorithm and evaluate it against the widely used deep RL baseline, DQN with fictitious play.
翻訳日:2022-11-01 15:58:02 公開日:2022-10-30
# グラフファジィシステム:概念,モデル,アルゴリズム

Graph Fuzzy System: Concepts, Models and Algorithms ( http://arxiv.org/abs/2210.16730v1 )

ライセンス: Link先を確認
Fuping Hu, Zhaohong Deng, Zhenping Xie, Kup-Sze Choi, Shitong Wang(参考訳) ファジィシステム(fss)は、パターン認識、インテリジェント制御、データマイニング、バイオインフォマティクスなど、さまざまな分野で幅広い応用を享受してきた。 従来のアプリケーションシナリオでは、FSはユークリッド空間データのモデル化に主に適用されており、ソーシャルネットワークや交通経路マップのような非ユークリッド構造のグラフデータを扱うには使用できない。 したがって、グラフデータに適した従来のFSの利点を維持できるFSモデリング手法の開発は重要な研究である。 この課題に対処するため,グラフファジィシステム(GFS)と呼ばれるグラフデータモデリングのための新しいタイプのFSを提案する。 まず、グラフファジィルールベース、グラフファジィセット、グラフ連続処理ユニット(GCPU)など、GFS関連の概念を定義する。 そして、GFSモデリングフレームワークを構築し、GFSの先行者および後続者を提示、分析する。 最後に、GFSの学習フレームワークとして、カーネルK-プロトタイプグラフクラスタリング(K2PGC)が提案され、GFSの先行生成のための構築アルゴリズムが開発され、グラフニューラルネットワーク(GNN)に基づいて、連続したパラメータ学習アルゴリズムが提案される。 具体的には、GFS実装アルゴリズムの3つの異なるバージョンを開発し、様々なベンチマークグラフ分類データセットの実験を行った。 その結果,提案したGFSは,既存の主流GNN法と従来のFSs法の両方の利点を継承し,優れた性能を実現していることがわかった。

Fuzzy systems (FSs) have enjoyed wide applications in various fields, including pattern recognition, intelligent control, data mining and bioinformatics, which is attributed to the strong interpretation and learning ability. In traditional application scenarios, FSs are mainly applied to model Euclidean space data and cannot be used to handle graph data of non-Euclidean structure in nature, such as social networks and traffic route maps. Therefore, development of FS modeling method that is suitable for graph data and can retain the advantages of traditional FSs is an important research. To meet this challenge, a new type of FS for graph data modeling called Graph Fuzzy System (GFS) is proposed in this paper, where the concepts, modeling framework and construction algorithms are systematically developed. First, GFS related concepts, including graph fuzzy rule base, graph fuzzy sets and graph consequent processing unit (GCPU), are defined. A GFS modeling framework is then constructed and the antecedents and consequents of the GFS are presented and analyzed. Finally, a learning framework of GFS is proposed, in which a kernel K-prototype graph clustering (K2PGC) is proposed to develop the construction algorithm for the GFS antecedent generation, and then based on graph neural network (GNNs), consequent parameters learning algorithm is proposed for GFS. Specifically, three different versions of the GFS implementation algorithm are developed for comprehensive evaluations with experiments on various benchmark graph classification datasets. The results demonstrate that the proposed GFS inherits the advantages of both existing mainstream GNNs methods and conventional FSs methods while achieving better performance than the counterparts.
翻訳日:2022-11-01 15:41:44 公開日:2022-10-30
# 時間知識グラフ補完のためのパスメッセージ検索

Search to Pass Messages for Temporal Knowledge Graph Completion ( http://arxiv.org/abs/2210.16740v1 )

ライセンス: Link先を確認
Zhen Wang, Haotong Du, Quanming Yao, Xuelong Li(参考訳) 行方不明な事実を補完することは時間知識グラフ(TKG)の基本課題である。 近年、トポロジカルおよび時間的情報を同時に探索できるグラフニューラルネットワーク(GNN)に基づく手法が、TKGを完成させるための最先端(SOTA)となっている。 しかしながら、これらの研究は手作業で設計されたアーキテクチャに基づいており、TKGの多様な位相的および時間的特性を探索することができない。 この問題に対処するために、TKG補完のためのデータ固有のメッセージパッシングアーキテクチャを設計するために、ニューラルアーキテクチャサーチ(NAS)を提案する。 特に,TKGにおけるトポロジカルおよび時間的情報を探るための一般化されたフレームワークを開発する。 この枠組みに基づいて,異なるTKGの様々な特性をフルキャプチャする表現型検索空間を設計する。 一方,効率的な探索のために単一経路をサンプリングすることで,スーパーネット構造を訓練する探索アルゴリズムを採用する。 さらに3つのベンチマークデータセットについて広範な実験を行う。 その結果,本手法で検索したアーキテクチャがsota性能を達成できた。 さらに、探索されたモデルは異なるTKGの様々な特性を暗黙的に明らかにすることができる。 私たちのコードはhttps://github.com/striderdu/SPAでリリースされています。

Completing missing facts is a fundamental task for temporal knowledge graphs (TKGs). Recently, graph neural network (GNN) based methods, which can simultaneously explore topological and temporal information, have become the state-of-the-art (SOTA) to complete TKGs. However, these studies are based on hand-designed architectures and fail to explore the diverse topological and temporal properties of TKG. To address this issue, we propose to use neural architecture search (NAS) to design data-specific message passing architecture for TKG completion. In particular, we develop a generalized framework to explore topological and temporal information in TKGs. Based on this framework, we design an expressive search space to fully capture various properties of different TKGs. Meanwhile, we adopt a search algorithm, which trains a supernet structure by sampling single path for efficient search with less cost. We further conduct extensive experiments on three benchmark datasets. The results show that the searched architectures by our method achieve the SOTA performances. Besides, the searched models can also implicitly reveal diverse properties in different TKGs. Our code is released in https://github.com/striderdu/SPA.
翻訳日:2022-11-01 15:41:17 公開日:2022-10-30
# 操作支援のための説明可能な予測決定マイニング

Explainable Predictive Decision Mining for Operational Support ( http://arxiv.org/abs/2210.16786v1 )

ライセンス: Link先を確認
Gyunam Park, Aaron K\"usters, Mara Tews, Cameron Pitsch, Jonathan Schneider, and Wil M. P. van der Aalst(参考訳) ビジネスプロセスにはいくつかの決定ポイント(例えば、購入注文がマネージャの承認を必要とするかどうか)が存在し、その特性に基づいて異なるプロセスインスタンスについて異なる決定がなされる(例えば500ドル以上の購入注文はマネージャの承認を必要とする)。 プロセスマイニングにおける決定マイニングは、プロセスの決定点におけるプロセスインスタンスのルーティングを記述/予測することを目的としている。 意思決定を予測すれば、プロセスを改善するために積極的な行動を取ることができる。 例えば、可能な意思決定の1つでボトルネックが発生している場合、決定を予測してボトルネックを回避できます。 しかし、このような運用支援への大きな可能性にもかかわらず、既存の意思決定手法は、決定の記述に重点を置いてきたが、予測ではなく、決定を説明する論理的表現を生成するために決定木を配置している。 本研究では,より高度な機械学習アルゴリズムを展開することにより,意思決定の予測能力を高め,積極的な運用支援を実現することを目的とする。 提案手法は, SHAP値を用いた予測決定についての説明を行い, 積極的な行動の誘発を支援する。 提案手法をサポートするWebアプリケーションを実装し,その実装によるアプローチの評価を行った。

Several decision points exist in business processes (e.g., whether a purchase order needs a manager's approval or not), and different decisions are made for different process instances based on their characteristics (e.g., a purchase order higher than $500 needs a manager approval). Decision mining in process mining aims to describe/predict the routing of a process instance at a decision point of the process. By predicting the decision, one can take proactive actions to improve the process. For instance, when a bottleneck is developing in one of the possible decisions, one can predict the decision and bypass the bottleneck. However, despite its huge potential for such operational support, existing techniques for decision mining have focused largely on describing decisions but not on predicting them, deploying decision trees to produce logical expressions to explain the decision. In this work, we aim to enhance the predictive capability of decision mining to enable proactive operational support by deploying more advanced machine learning algorithms. Our proposed approach provides explanations of the predicted decisions using SHAP values to support the elicitation of proactive actions. We have implemented a Web application to support the proposed approach and evaluated the approach using the implementation.
翻訳日:2022-11-01 15:41:01 公開日:2022-10-30
# STGC-GNNs:空間時間グランガー因果グラフを用いたGNNに基づく交通予測フレームワーク

STGC-GNNs: A GNN-based traffic prediction framework with a spatial-temporal Granger causality graph ( http://arxiv.org/abs/2210.16789v1 )

ライセンス: Link先を確認
Silu He, Qinyao Luo, Ronghua Du, Ling Zhao, Haifeng Li(参考訳) 交通予測の鍵は,道路網内を走行する交通流の時間動態を正確に表現することであり,道路網の空間依存性をモデル化することが重要である。 空間依存の本質は、道路網の他のノードによる交通情報伝達がどう影響するかを正確に記述することであり、gnnベースの交通予測モデルは、交通予測のベンチマークとして、メッセージパッシング機構を用いて交通情報を送信することで空間依存をモデル化する最も一般的な方法となっている。 しかし,既存の手法は局所的および静的な空間依存をモデル化し,長期予測に必要なグローバル・ダイナミック・トラフィック情報(GDTi)を送信できない。 課題は、特に長期的な伝送において、個々の輸送の不確実性のために、gdtiの正確な伝達を検出することの困難である。 本稿では,GDTiが動的に変化する交通流の下で安定な交通流の伝達因果関係(TCR)としてマクロ的に振る舞うという新しい仮説を提案する。 さらに,グローバルおよび動的空間依存をモデル化したTCRを表現するために,時空間グレンジャー因果関係(STGC)を提案する。 グローバルトランスミッションをモデル化するために,空間-時間アライメントアルゴリズムを用いて,tcrグローバルトランスミッションの因果順序と因果ラグをモデル化する。 動的空間依存を捉えるため,Granger因果性試験により,安定したTCRに基づく動的トラフィックフローを近似した。 3つのバックボーンモデルによる実験結果から,STGCを用いて空間依存をモデル化すると,45分と1時間で予測できるモデルよりも良好な結果が得られることがわかった。

The key to traffic prediction is to accurately depict the temporal dynamics of traffic flow traveling in a road network, so it is important to model the spatial dependence of the road network. The essence of spatial dependence is to accurately describe how traffic information transmission is affected by other nodes in the road network, and the GNN-based traffic prediction model, as a benchmark for traffic prediction, has become the most common method for the ability to model spatial dependence by transmitting traffic information with the message passing mechanism. However, existing methods model a local and static spatial dependence, which cannot transmit the global-dynamic traffic information (GDTi) required for long-term prediction. The challenge is the difficulty of detecting the precise transmission of GDTi due to the uncertainty of individual transport, especially for long-term transmission. In this paper, we propose a new hypothesis\: GDTi behaves macroscopically as a transmitting causal relationship (TCR) underlying traffic flow, which remains stable under dynamic changing traffic flow. We further propose spatial-temporal Granger causality (STGC) to express TCR, which models global and dynamic spatial dependence. To model global transmission, we model the causal order and causal lag of TCRs global transmission by a spatial-temporal alignment algorithm. To capture dynamic spatial dependence, we approximate the stable TCR underlying dynamic traffic flow by a Granger causality test. The experimental results on three backbone models show that using STGC to model the spatial dependence has better results than the original model for 45 min and 1 h long-term prediction.
翻訳日:2022-11-01 15:40:41 公開日:2022-10-30
# 容量制限認知・強化学習におけるレートゆがみ理論について

On Rate-Distortion Theory in Capacity-Limited Cognition & Reinforcement Learning ( http://arxiv.org/abs/2210.16877v1 )

ライセンス: Link先を確認
Dilip Arumugam, Mark K. Ho, Noah D. Goodman, Benjamin Van Roy(参考訳) 認知科学の文献を通じて、現実世界で活動する意思決定エージェントは、限られた情報処理能力と、無制限の認知資源や計算資源にアクセスできないという広く合意されている。 先行研究はこの事実からインスピレーションを得ており、境界レート制約の下で通信チャネルが動作するような行動やポリシーの情報理論モデルを活用している。 一方、平行な作業の行は、レートゆがみ理論から同じ原理に乗じて、学習対象の概念を通じて容量制限された意思決定を形式化することで、証明可能な効率的な学習アルゴリズムのためのベイズ的後悔の境界を促進する。 本稿では, 生体および人工エージェントの能力制限決定に関する情報理論モデルについて, 簡潔な調査を行い, 後者の視点を明らかにすることを目的としている。

Throughout the cognitive-science literature, there is widespread agreement that decision-making agents operating in the real world do so under limited information-processing capabilities and without access to unbounded cognitive or computational resources. Prior work has drawn inspiration from this fact and leveraged an information-theoretic model of such behaviors or policies as communication channels operating under a bounded rate constraint. Meanwhile, a parallel line of work also capitalizes on the same principles from rate-distortion theory to formalize capacity-limited decision making through the notion of a learning target, which facilitates Bayesian regret bounds for provably-efficient learning algorithms. In this paper, we aim to elucidate this latter perspective by presenting a brief survey of these information-theoretic models of capacity-limited decision making in biological and artificial agents.
翻訳日:2022-11-01 15:40:11 公開日:2022-10-30
# グラフニューラルネットワークによる分岐と境界におけるノードの比較学習

Learning to Compare Nodes in Branch and Bound with Graph Neural Networks ( http://arxiv.org/abs/2210.16934v1 )

ライセンス: Link先を確認
Abdel Ghani Labassi and Didier Ch\'etelat and Andrea Lodi(参考訳) 整数プログラミングにおける分岐とバウンドのアプローチは、次を探索するために空間の順序付け部分を必要とする。 本稿では,この問題に対処する新たなシアムグラフニューラルネットワークモデルを提案し,ノードを属性付き二部グラフとして表現する。 以前の作業と同様、私たちはモデルをトレーニングして、最適なソリューションに向かうダイビングオラクルを模倣します。 本手法は,ノードのランクに応じて探索される平易なフレームワークを用いて,インスタンスを解くことで評価する。 NPハードな3つのベンチマークにおいて,提案手法は,オープンソースソルバSCIPのデフォルトランキング関数よりも高速に解き,分岐木や分岐木を小さくし,競合する機械学習手法も実現している。 さらに、これらの結果はトレーニングに使用するインスタンスよりも大きなインスタンスに一般化される。 実験を再現するためのコードはhttps://github.com/ds4dm/learn2comparenodesにある。

Branch-and-bound approaches in integer programming require ordering portions of the space to explore next, a problem known as node comparison. We propose a new siamese graph neural network model to tackle this problem, where the nodes are represented as bipartite graphs with attributes. Similar to prior work, we train our model to imitate a diving oracle that plunges towards the optimal solution. We evaluate our method by solving the instances in a plain framework where the nodes are explored according to their rank. On three NP-hard benchmarks chosen to be particularly primal-difficult, our approach leads to faster solving and smaller branch- and-bound trees than the default ranking function of the open-source solver SCIP, as well as competing machine learning methods. Moreover, these results generalize to instances larger than used for training. Code for reproducing the experiments can be found at https://github.com/ds4dm/learn2comparenodes.
翻訳日:2022-11-01 15:39:58 公開日:2022-10-30
# 畳み込みニューラルネットワークを用いた報酬生成

Reward Shaping Using Convolutional Neural Network ( http://arxiv.org/abs/2210.16956v1 )

ライセンス: Link先を確認
Hani Sami, Hadi Otrok, Jamal Bentahar, Azzam Mourad, Ernesto Damiani(参考訳) 本稿では,畳み込みニューラルネットワーク(cnn)を用いた報酬生成機構であるvin-rs(value iteration network for reward shaping)を提案する。 提案したVIN-RSは、Hidden Markov Modelのメッセージパッシング機構を用いて、計算ラベルで訓練されたCNNを埋め込む。 CNNは環境の画像やグラフを処理して、シェーピング値を予測する。 報酬形成に関する最近の研究は、マルコフ決定過程(MDP)の表現と遷移行列の推定に関する訓練に制限がある。 VIN-RSの利点は、環境遷移行列を自動的に推論しながら、推定されたMDPから有効なポテンシャル関数を構築することである。 提案するvin-rsは,入力フレームやサンプルグラフから環境詳細を抽出しながら,自己学習畳み込みフィルタを用いて遷移行列を推定する。 1) 報酬形成にメッセージパッシングを用いた以前の成功,(2) CNN計画行動により, VIN-RS の CNN の訓練にこれらのメッセージを使用する。 テーブルゲームであるatari 2600とmujocoで、離散アクション空間と連続アクション空間の実験が行われている。 その結果,最先端技術と比較して学習速度と最大累積報酬が向上したことを示す。

In this paper, we propose Value Iteration Network for Reward Shaping (VIN-RS), a potential-based reward shaping mechanism using Convolutional Neural Network (CNN). The proposed VIN-RS embeds a CNN trained on computed labels using the message passing mechanism of the Hidden Markov Model. The CNN processes images or graphs of the environment to predict the shaping values. Recent work on reward shaping still has limitations towards training on a representation of the Markov Decision Process (MDP) and building an estimate of the transition matrix. The advantage of VIN-RS is to construct an effective potential function from an estimated MDP while automatically inferring the environment transition matrix. The proposed VIN-RS estimates the transition matrix through a self-learned convolution filter while extracting environment details from the input frames or sampled graphs. Due to (1) the previous success of using message passing for reward shaping; and (2) the CNN planning behavior, we use these messages to train the CNN of VIN-RS. Experiments are performed on tabular games, Atari 2600 and MuJoCo, for discrete and continuous action space. Our results illustrate promising improvements in the learning speed and maximum cumulative reward compared to the state-of-the-art.
翻訳日:2022-11-01 15:39:31 公開日:2022-10-30
# ViTASD: 自閉症スペクトラム障害顔面診断のためのロバスト・ビジョン・トランスフォーマーベースライン

ViTASD: Robust Vision Transformer Baselines for Autism Spectrum Disorder Facial Diagnosis ( http://arxiv.org/abs/2210.16943v1 )

ライセンス: Link先を確認
Xu Cao, Wenqian Ye, Elena Sizikova, Xue Bai, Megan Coffee, Hongwu Zeng, Jianguo Cao(参考訳) 自閉症スペクトラム障害(英: autism spectrum disorder、asd)は、世界中で非常に高い頻度で発症する神経発達障害である。 小児におけるASD顔分析の分野での研究の進歩は、確立されたベースラインの欠如により妨げられている。 本稿では,視覚変換器 (ViT) を小児型ASDの計算解析に用いることを提案する。 提示されたモデルはViTASDと呼ばれ、大きな表情データセットから知識を抽出し、モデル構造転送性を提供する。 特に、ViTASDは、患者の顔画像から特徴を抽出するためにバニラViTを使用し、ASD分析の堅牢性を高めるためにガウスプロセス層を備えた軽量デコーダを採用している。 ASD顔分析ベンチマークで行った大規模な実験により,本手法はASD顔分析における代表的アプローチよりも優れており,ViTASD-Lは新たな最先端技術を実現していることがわかった。 私たちのコードと事前トレーニングされたモデルはhttps://github.com/IrohXu/ViTASD.comで公開されています。

Autism spectrum disorder (ASD) is a lifelong neurodevelopmental disorder with very high prevalence around the world. Research progress in the field of ASD facial analysis in pediatric patients has been hindered due to a lack of well-established baselines. In this paper, we propose the use of the Vision Transformer (ViT) for the computational analysis of pediatric ASD. The presented model, known as ViTASD, distills knowledge from large facial expression datasets and offers model structure transferability. Specifically, ViTASD employs a vanilla ViT to extract features from patients' face images and adopts a lightweight decoder with a Gaussian Process layer to enhance the robustness for ASD analysis. Extensive experiments conducted on standard ASD facial analysis benchmarks show that our method outperforms all of the representative approaches in ASD facial analysis, while the ViTASD-L achieves a new state-of-the-art. Our code and pretrained models are available at https://github.com/IrohXu/ViTASD.
翻訳日:2022-11-01 15:22:53 公開日:2022-10-30
# パラメータ効率の良いチューニングによる優れた分類ヘッド

Parameter-Efficient Tuning Makes a Good Classification Head ( http://arxiv.org/abs/2210.16771v1 )

ライセンス: Link先を確認
Zhuoyi Yang, Ming Ding, Yanhui Guo, Qingsong Lv, Jie Tang(参考訳) 近年、事前訓練されたモデルは自然言語理解(NLU)のパラダイムに革命をもたらし、事前訓練されたバックボーン(例えばBERT)の後、ランダムに初期化された分類ヘッドを付加し、モデル全体を微調整する。 トレーニング済みのバックボーンは改善に大きく貢献するので,優れたトレーニング済みの分類ヘッドがトレーニングに役立てられることを自然に期待する。 しかし、バックボーンの最終層出力、すなわち分類ヘッドの入力は微調整中に大きく変化するため、通常のヘッドのみの事前訓練(LP-FT)は非効率である。 本稿では,パラメータ効率のよいチューニングにより,ランダムに初期化したヘッドを置き換えて,安定した性能向上を実現することができることを示す。 本実験では,パラメータ効率の調整を併用した分類ヘッドが,グルーとスーパーグルーの9タスクの性能を一貫して向上させることを示す。

In recent years, pretrained models revolutionized the paradigm of natural language understanding (NLU), where we append a randomly initialized classification head after the pretrained backbone, e.g. BERT, and finetune the whole model. As the pretrained backbone makes a major contribution to the improvement, we naturally expect a good pretrained classification head can also benefit the training. However, the final-layer output of the backbone, i.e. the input of the classification head, will change greatly during finetuning, making the usual head-only pretraining (LP-FT) ineffective. In this paper, we find that parameter-efficient tuning makes a good classification head, with which we can simply replace the randomly initialized heads for a stable performance gain. Our experiments demonstrate that the classification head jointly pretrained with parameter-efficient tuning consistently improves the performance on 9 tasks in GLUE and SuperGLUE.
翻訳日:2022-11-01 15:21:59 公開日:2022-10-30
# 臨床ノートからの医用コード予測--ヒューマン・コーダーから機械へ

Medical Codes Prediction from Clinical Notes: From Human Coders to Machines ( http://arxiv.org/abs/2210.16850v1 )

ライセンス: Link先を確認
Byung-Hak Kim(参考訳) 臨床ノートから医療コードを予測することは、現在の医療システム内のすべての医療提供組織にとって、実用的で不可欠な必要性である。 アノテーションの自動化は、今日の人間のプログラマが費やす膨大な時間と過大な労力を省きます。 しかし、最大の課題は、構造化されていないフリーテキスト臨床ノートから数千の高次元コードから適切な医療コードを直接識別することである。 この臨床ノートからの複雑な医療符号予測問題は、nlpコミュニティに大きな関心を集めており、最近のいくつかの研究は、本格的な深層学習に基づく方法の最先端のコード予測結果を示している。 この進歩は、自動機械学習システムが人間のプログラマの作業パフォーマンスからどこまで遠いのかという根本的な疑問を提起すると同時に、トランスフォーマーのような先進的なニューラルネットワークモデルに対して、現在の説明可能性手法がどの程度有効であるかという重要な疑問も提起する。 このことは、このレベルの説明可能性と予測結果の正確性は、プロの医療プログラマーから信頼を得るために重要であるため、コード予測をサポートする臨床ノートに正しいコードと参照を予測することである。

Prediction of medical codes from clinical notes is a practical and essential need for every healthcare delivery organization within current medical systems. Automating annotation will save significant time and excessive effort that human coders spend today. However, the biggest challenge is directly identifying appropriate medical codes from several thousands of high-dimensional codes from unstructured free-text clinical notes. This complex medical codes prediction problem from clinical notes has received substantial interest in the NLP community, and several recent studies have shown the state-of-the-art code prediction results of full-fledged deep learning-based methods. This progress raises the fundamental question of how far automated machine learning systems are from human coders' working performance, as well as the important question of how well current explainability methods apply to advanced neural network models such as transformers. This is to predict correct codes and present references in clinical notes that support code prediction, as this level of explainability and accuracy of the prediction outcomes is critical to gaining trust from professional medical coders.
翻訳日:2022-11-01 15:21:43 公開日:2022-10-30
# DiffusER: 編集ベースの再構成による離散拡散

DiffusER: Discrete Diffusion via Edit-based Reconstruction ( http://arxiv.org/abs/2210.16886v1 )

ライセンス: Link先を確認
Machel Reid, Vincent J. Hellendoorn, Graham Neubig(参考訳) テキスト生成では、一度に1つのトークンをスクラッチからテキストを生成するモデルが主要なパラダイムである。 パフォーマンスに欠けるにもかかわらず、これらのモデルは既存のテキストを改訂する能力に欠けており、多くの現実的なシナリオにおけるユーザビリティを制限している。 我々は、ディフューザ(diffusion via edit-based reconstruction)によってこの問題に対処しようとしている。ディフューザ(diffusion by edit-based reconstruction)は、デノージング拡散モデルに基づくテキストのための新しい編集ベースの生成モデルであり、デノージングステップのマルコフ連鎖を使って漸進的にデータを生成するモデルである。 DiffusERは一般的な強力な生成モデルであるだけでなく、機械翻訳、要約、スタイル転送にまたがるいくつかのタスクにおいて自己回帰モデルと競合する。 例えば、ディフューザによって、プロトタイプや不完全なシーケンスでユーザが条件付き生成を行えるようになり、以前の編集ステップに従って修正を続けることができることを実証する。

In text generation, models that generate text from scratch one token at a time are currently the dominant paradigm. Despite being performant, these models lack the ability to revise existing text, which limits their usability in many practical scenarios. We look to address this, with DiffusER (Diffusion via Edit-based Reconstruction), a new edit-based generative model for text based on denoising diffusion models -- a class of models that use a Markov chain of denoising steps to incrementally generate data. DiffusER is not only a strong generative model in general, rivalling autoregressive models on several tasks spanning machine translation, summarization, and style transfer; it can also perform other varieties of generation that standard autoregressive models are not well-suited for. For instance, we demonstrate that DiffusER makes it possible for a user to condition generation on a prototype, or an incomplete sequence, and continue revising based on previous edit steps.
翻訳日:2022-11-01 15:21:26 公開日:2022-10-30
# オープンドメイン対話における視点遷移による反事実データ拡張

Counterfactual Data Augmentation via Perspective Transition for Open-Domain Dialogues ( http://arxiv.org/abs/2210.16838v1 )

ライセンス: Link先を確認
Jiao Ou, Jinchao Zhang, Yang Feng, Jie Zhou(参考訳) オープンドメイン対話システムの構築には高品質な対話データセットが必要である。 対話データは、所定の対話履歴、特に異なる意味を持つ応答に対して、多種多様な応答を許容する。 しかし、ほとんどのシナリオで高品質なデータセットの収集は、労働集約的で時間がかかります。 本稿では,異なるセマンティクスによる高品質な応答を自動的に拡張するデータ拡張手法を提案する。 具体的には,まず,観察された応答視点を置換したものに置き換えることで,意味的に異なる応答を推定する。 さらに,データ選択手法は有害な拡張応答をフィルタリングする。 実験結果から,データ拡張手法は対話履歴の異なるセマンティクスで高品質な応答を増強し,複数の下流タスクにおいて競合的ベースラインを上回り得ることが示された。

The construction of open-domain dialogue systems requires high-quality dialogue datasets. The dialogue data admits a wide variety of responses for a given dialogue history, especially responses with different semantics. However, collecting high-quality such a dataset in most scenarios is labor-intensive and time-consuming. In this paper, we propose a data augmentation method to automatically augment high-quality responses with different semantics by counterfactual inference. Specifically, given an observed dialogue, our counterfactual generation model first infers semantically different responses by replacing the observed reply perspective with substituted ones. Furthermore, our data selection method filters out detrimental augmented responses. Experimental results show that our data augmentation method can augment high-quality responses with different semantics for a given dialogue history, and can outperform competitive baselines on multiple downstream tasks.
翻訳日:2022-11-01 15:13:03 公開日:2022-10-30
# グラフ再構成を用いたコンテキスト・ツー・ベクターによる単語埋め込みの改善

Using Context-to-Vector with Graph Retrofitting to Improve Word Embeddings ( http://arxiv.org/abs/2210.16848v1 )

ライセンス: Link先を確認
Jiangbin Zheng, Yile Wang, Ge Wang, Jun Xia, Yufei Huang, Guojiang Zhao, Yue Zhang, Stan Z. Li(参考訳) 大規模な事前訓練されたモデルから生成されるコンテキスト化された埋め込みは多くのタスクでうまく機能するが、従来の静的埋め込み(例えば、Skip-gram、Word2Vec)は計算コストの低減、デプロイメントの容易さ、安定性のために、低リソースで軽量な設定において重要な役割を果たす。 本稿では,単語埋め込みを改善することを目的とする。 1) 既存の事前学習モデルからのよりコンテキスト的な情報を、Context-to-Vecと呼ぶSkip-gramフレームワークに組み込む。 2)事前同義語知識と重み付きベクトル分布を用いて,トレーニングに依存しない静的組込みに対する後処理レトロフィッティング法を提案する。 本手法は,外在的および内在的タスクを通じて,ベースラインを大きなマージンで上回ることを示す。

Although contextualized embeddings generated from large-scale pre-trained models perform well in many tasks, traditional static embeddings (e.g., Skip-gram, Word2Vec) still play an important role in low-resource and lightweight settings due to their low computational cost, ease of deployment, and stability. In this paper, we aim to improve word embeddings by 1) incorporating more contextual information from existing pre-trained models into the Skip-gram framework, which we call Context-to-Vec; 2) proposing a post-processing retrofitting method for static embeddings independent of training by employing priori synonym knowledge and weighted vector distribution. Through extrinsic and intrinsic tasks, our methods are well proven to outperform the baselines by a large margin.
翻訳日:2022-11-01 15:12:51 公開日:2022-10-30
# MLP-Mixer ニューラルネットワークを用いたマルチビューマルチラベル異常ネットワークトラフィック分類

Multi-view Multi-label Anomaly Network Traffic Classification based on MLP-Mixer Neural Network ( http://arxiv.org/abs/2210.16719v1 )

ライセンス: Link先を確認
Yu Zheng, Zhangxuan Dang, Chunlei Peng, Chao Yang, Xinbo Gao(参考訳) ネットワークトラフィック分類は多くのネットワークセキュリティアプリケーションの基礎であり、サイバースペースセキュリティの分野で十分な注目を集めている。 畳み込みニューラルネットワーク(CNN)に基づく既存のネットワークトラフィック分類は、グローバルな情報関連を無視しながら、トラフィックデータの局所的なパターンを強調することが多い。 本稿では,MLP-Mixerを用いたマルチビューマルチラベルニューラルネットワークによるネットワークトラフィック分類を提案する。 提案手法は既存のCNN方式と比較して,従来の畳み込み動作よりもパケットの構造に整合したMLP-Mixer構造を採用する。 本手法では,パケットをパケットヘッダとパケット本体に分割し,パケットのフロー特性を異なるビューから入力する。 マルチラベル設定を用いて異なるシナリオを同時に学習し、異なるシナリオ間の相関を利用して分類性能を向上させる。 上記の特徴を生かして,エンドツーエンドのネットワークトラフィック分類手法を提案する。 3つの公開データセットについて実験を行い,本手法が優れた性能を実現することを示す。

Network traffic classification is the basis of many network security applications and has attracted enough attention in the field of cyberspace security. Existing network traffic classification based on convolutional neural networks (CNNs) often emphasizes local patterns of traffic data while ignoring global information associations. In this paper, we propose a MLP-Mixer based multi-view multi-label neural network for network traffic classification. Compared with the existing CNN-based methods, our method adopts the MLP-Mixer structure, which is more in line with the structure of the packet than the conventional convolution operation. In our method, the packet is divided into the packet header and the packet body, together with the flow features of the packet as input from different views. We utilize a multi-label setting to learn different scenarios simultaneously to improve the classification performance by exploiting the correlations between different scenarios. Taking advantage of the above characteristics, we propose an end-to-end network traffic classification method. We conduct experiments on three public datasets, and the experimental results show that our method can achieve superior performance.
翻訳日:2022-11-01 14:54:34 公開日:2022-10-30
# CLIP誘導を用いたStyleGANを用いたオンザフライ物体検出

On-the-fly Object Detection using StyleGAN with CLIP Guidance ( http://arxiv.org/abs/2210.16742v1 )

ライセンス: Link先を確認
Yuzhe Lu, Shusen Liu, Jayaraman J. Thiagarajan, Wesam Sakla, Rushil Anirudh(参考訳) 衛星画像上に物体検出器を構築するための完全自動化フレームワークを提案する。 我々は、現代の生成モデル(StyleGANなど)のパワーと、近年のマルチモーダル学習(CLIPなど)の進歩を融合して実現している。 深層生成モデルは、データ分散に関連するキーセマンティクスを効果的にエンコードするが、この情報はオブジェクト検出のような下流タスクに即座にアクセスできない。 本研究では、画像特徴とテキスト記述を関連付けるクリップの能力を利用して、生成ネットワーク内のニューロンを識別し、その後、検出器をオンザフライで構築する。

We present a fully automated framework for building object detectors on satellite imagery without requiring any human annotation or intervention. We achieve this by leveraging the combined power of modern generative models (e.g., StyleGAN) and recent advances in multi-modal learning (e.g., CLIP). While deep generative models effectively encode the key semantics pertinent to a data distribution, this information is not immediately accessible for downstream tasks, such as object detection. In this work, we exploit CLIP's ability to associate image features with text descriptions to identify neurons in the generator network, which are subsequently used to build detectors on-the-fly.
翻訳日:2022-11-01 14:54:19 公開日:2022-10-30
# 骨格能動認識のための時間視点交通計画

Temporal-Viewpoint Transportation Plan for Skeletal Few-shot Action Recognition ( http://arxiv.org/abs/2210.16820v1 )

ライセンス: Link先を確認
Lei Wang and Piotr Koniusz(参考訳) JEANIE (Joint tEmporal and cAmera viewpoiNt alIgnmEnt) による3次元骨格に基づく行動認識のためのFew-shot Learningパイプラインを提案する。 本研究では,3次元体継手の問合せとサポートシーケンスの相違を解消するために,クエリとサポートフレーム間の各スムーズな経路を共同でモデル化し,時間的およびシミュレーションされたカメラ視点空間における最適なアライメントを実現するダイナミック・タイム・ウォーピング法を提案する。 シーケンスは、ライトウェイトな線形グラフニューラルネットワークバックボーンである単純なスペクトルグラフ畳み込みに基づいて、時間的ブロックエンコーダで符号化される。 変換器の設定も含んでいます。 最後に,非関連配列のアライメントを防止しつつ,同一クラスのシーケンスのアライメントを促進する類似性に基づく損失を提案する。 NTU-60, NTU-120, Kinetics-skeleton および UWA3D Multiview Activity II の成績を示した。

We propose a Few-shot Learning pipeline for 3D skeleton-based action recognition by Joint tEmporal and cAmera viewpoiNt alIgnmEnt (JEANIE). To factor out misalignment between query and support sequences of 3D body joints, we propose an advanced variant of Dynamic Time Warping which jointly models each smooth path between the query and support frames to achieve simultaneously the best alignment in the temporal and simulated camera viewpoint spaces for end-to-end learning under the limited few-shot training data. Sequences are encoded with a temporal block encoder based on Simple Spectral Graph Convolution, a lightweight linear Graph Neural Network backbone. We also include a setting with a transformer. Finally, we propose a similarity-based loss which encourages the alignment of sequences of the same class while preventing the alignment of unrelated sequences. We show state-of-the-art results on NTU-60, NTU-120, Kinetics-skeleton and UWA3D Multiview Activity II.
翻訳日:2022-11-01 14:54:06 公開日:2022-10-30
# Time-rversed diffusioN tEnsor Transformer:Few-Shot Object Detectionの新しいTENET

Time-rEversed diffusioN tEnsor Transformer: A new TENET of Few-Shot Object Detection ( http://arxiv.org/abs/2210.16897v1 )

ライセンス: Link先を確認
Shan Zhang and Naila Murray and Lei Wang and Piotr Koniusz(参考訳) 本稿では,Few-shot Object Detectionの課題に対処する。 既存のFSODパイプライン (i)情報損失をもたらす平均プール表現を使用する、又は、 (ii)オブジェクトインスタンスを検出するのに役立つ位置情報を破棄する。 したがって、このようなパイプラインは、大きなクラス内外観や、サポートとクエリイメージ間の幾何学的バリエーションに敏感である。 このような欠点に対処するため,TENET (Time-rEversed diffusioN tEnsor Transformer) を提案する。 i)高次テンソル表現を形成し、高度に判別可能な多方向特徴発生をキャプチャし、 二 単一の平均プール型サポート埋め込みではなく、クエリイメージとサポートセット全体の相関関係を動的に抽出するトランスフォーマーを使用する。 また,高階表現を備えたTransformer Relation Head (TRH) を提案し,クエリ領域とサポートセット全体の相関を符号化し,オブジェクトインスタンスの位置変動に敏感に扱う。 当モデルでは,PASCAL VOC,FSOD,COCOの最先端結果が得られた。

In this paper, we tackle the challenging problem of Few-shot Object Detection. Existing FSOD pipelines (i) use average-pooled representations that result in information loss; and/or (ii) discard position information that can help detect object instances. Consequently, such pipelines are sensitive to large intra-class appearance and geometric variations between support and query images. To address these drawbacks, we propose a Time-rEversed diffusioN tEnsor Transformer (TENET), which i) forms high-order tensor representations that capture multi-way feature occurrences that are highly discriminative, and ii) uses a transformer that dynamically extracts correlations between the query image and the entire support set, instead of a single average-pooled support embedding. We also propose a Transformer Relation Head (TRH), equipped with higher-order representations, which encodes correlations between query regions and the entire support set, while being sensitive to the positional variability of object instances. Our model achieves state-of-the-art results on PASCAL VOC, FSOD, and COCO.
翻訳日:2022-11-01 14:53:45 公開日:2022-10-30
# メタラーニングによる皮膚画像からの皮膚病変の少ない分類法

Few-Shot Classification of Skin Lesions from Dermoscopic Images by Meta-Learning Representative Embeddings ( http://arxiv.org/abs/2210.16954v1 )

ライセンス: Link先を確認
Karthik Desingu and Mirunalini P. and Aravindan Chandrabose(参考訳) 稀な疾患と新規疾患の診断のための注釈付き画像と根拠真理は乏しい。 患者数が少ないことや、アノテート画像に対する臨床専門知識が限られていることを考えると、この傾向が予想される。 さらに、皮膚病変やその他の疾患分類データセットにおいて頻繁に発生する長い尾のクラス分布は、偏りのあるクラス先行による一般化の低下につながる。 少ないショット学習とメタラーニングは、低データ環境でうまく機能することを目指して、これらの問題を克服することを目的としている。 本稿では,皮膚鏡像の分類におけるメタラーニングの改善に着目する。 具体的には,メタトレーニングセットをベースラインで教師する手法を提案する。これにより,ネットワークは,画像の高度に代表的で一般化可能な特徴埋め込みを学習することができる。 我々は、典型的な機能組込みが複雑なメタ学習アルゴリズムよりも効果的であることを示す、文献の以前のいくつかの研究に従う。 そこで本研究では,本手法の有効性を実証的に証明し,これらの表現の上に訓練された単純な線形分類器であっても,通常のメタラーニング手法に勝ることを示す。

Annotated images and ground truth for the diagnosis of rare and novel diseases are scarce. This is expected to prevail, considering the small number of affected patient population and limited clinical expertise to annotate images. Further, the frequently occurring long-tailed class distributions in skin lesion and other disease classification datasets cause conventional training approaches to lead to poor generalization due to biased class priors. Few-shot learning, and meta-learning in general, aim to overcome these issues by aiming to perform well in low data regimes. This paper focuses on improving meta-learning for the classification of dermoscopic images. Specifically, we propose a baseline supervised method on the meta-training set that allows a network to learn highly representative and generalizable feature embeddings for images, that are readily transferable to new few-shot learning tasks. We follow some of the previous work in literature that posit that a representative feature embedding can be more effective than complex meta-learning algorithms. We empirically prove the efficacy of the proposed meta-training method on dermoscopic images for learning embeddings, and show that even simple linear classifiers trained atop these representations suffice to outperform some of the usual meta-learning methods.
翻訳日:2022-11-01 14:53:29 公開日:2022-10-30
# 進化的多目的アンサンブル学習による不公平の軽減

Mitigating Unfairness via Evolutionary Multi-objective Ensemble Learning ( http://arxiv.org/abs/2210.16754v1 )

ライセンス: Link先を確認
Zhang Qingquan, Liu Jialin, Zhang Zeqi, Wen Junyi, Mao Bifei, Yao Xin(参考訳) 機械学習における不公平さを緩和する文献では、学習モデルの予測を評価するために多くの公平性尺度が設計されており、公平モデルのトレーニングを導くためにも利用されている。 理論的、実験的に、精度と多重公正度尺度の間に矛盾や矛盾があることが示されている。 1つまたは複数の公正度対策を最適化することは、他の措置を犠牲にしたり、悪化させることがある。 2つの重要な問いは、精度と多重公正度を同時に最適化する方法、そして、検討された公正度をより効果的に最適化する方法である。 本稿では,公平性尺度間の葛藤を考慮した多目的学習問題として,緩和不公平性問題を考察する。 多目的進化学習フレームワークは、機械学習モデルの複数のメトリクス(正確性や公平性を含む)を同時に最適化するために使用される。 そして、学習モデルに基づいてアンサンブルを構築し、異なるメトリクスを自動的にバランスさせる。 8つのよく知られたデータセットに対する実証的な結果から、不公平を緩和するための最先端のアプローチと比較して、提案アルゴリズムは意思決定者に対して精度のトレードオフと複数の公正度測定値を提供することができる。 さらに、フレームワークが生成する高品質なモデルは、他のアンサンブル法よりも、すべての考慮された公平度メトリクス間のより良いトレードオフを達成するためにアンサンブルを構築するのに使うことができる。 私たちのコードはhttps://github.com/qingquan63/FairEMOLで公開されています。

In the literature of mitigating unfairness in machine learning, many fairness measures are designed to evaluate predictions of learning models and also utilised to guide the training of fair models. It has been theoretically and empirically shown that there exist conflicts and inconsistencies among accuracy and multiple fairness measures. Optimising one or several fairness measures may sacrifice or deteriorate other measures. Two key questions should be considered, how to simultaneously optimise accuracy and multiple fairness measures, and how to optimise all the considered fairness measures more effectively. In this paper, we view the mitigating unfairness problem as a multi-objective learning problem considering the conflicts among fairness measures. A multi-objective evolutionary learning framework is used to simultaneously optimise several metrics (including accuracy and multiple fairness measures) of machine learning models. Then, ensembles are constructed based on the learning models in order to automatically balance different metrics. Empirical results on eight well-known datasets demonstrate that compared with the state-of-the-art approaches for mitigating unfairness, our proposed algorithm can provide decision-makers with better tradeoffs among accuracy and multiple fairness metrics. Furthermore, the high-quality models generated by the framework can be used to construct an ensemble to automatically achieve a better tradeoff among all the considered fairness metrics than other ensemble methods. Our code is publicly available at https://github.com/qingquan63/FairEMOL
翻訳日:2022-11-01 14:47:32 公開日:2022-10-30
# 知識集約型nlpタスクのための高能率メモリ誘導トランス

An Efficient Memory-Augmented Transformer for Knowledge-Intensive NLP Tasks ( http://arxiv.org/abs/2210.16773v1 )

ライセンス: Link先を確認
Yuxiang Wu, Yu Zhao, Baotian Hu, Pasquale Minervini, Pontus Stenetorp and Sebastian Riedel(参考訳) 質問応答や対話など、多くの自然言語処理タスクには、外部知識へのアクセスが不可欠である。 既存の手法では、知識をパラメータに格納するパラメトリックモデルや、外部の知識ソースにアクセス可能な検索型モデルに依存することが多い。 パラメトリックおよび検索強化モデルは、計算効率と予測精度の点で相補的な長所を持つ。 両手法の強みを組み合わせるために,鍵値メモリに外部知識をエンコードし,高速な内部製品探索によるメモリクエリを実現するEMAT(Efficient Memory-Augmented Transformer)を提案する。 また、EMATが情報的キー値表現を符号化し、複数のメモリスロットを変換器に統合するための暗黙の戦略を学ぶための事前学習タスクも導入する。 質問応答や対話データセットなどの知識集約的なタスクの実験では、パラメトリックモデル(T5-base)を我々の手法で拡張するだけでより正確な結果(例えば、25.8 -> 44.3 EM on NQ)が得られ、高いスループット(例えば、1000クエリ/s on NQ)を維持している。 検索強化モデルと比較すると、EMATはボード全体で大幅に高速に動作し、WoWとELI5でより正確な結果が得られる。 コードとデータセットはhttps://github.com/で公開しています。 略称は、emat。

Access to external knowledge is essential for many natural language processing tasks, such as question answering and dialogue. Existing methods often rely on a parametric model that stores knowledge in its parameters, or use a retrieval-augmented model that has access to an external knowledge source. Parametric and retrieval-augmented models have complementary strengths in terms of computational efficiency and predictive accuracy. To combine the strength of both approaches, we propose the Efficient Memory-Augmented Transformer (EMAT) -- it encodes external knowledge into a key-value memory and exploits the fast maximum inner product search for memory querying. We also introduce pre-training tasks that allow EMAT to encode informative key-value representations, and to learn an implicit strategy to integrate multiple memory slots into the transformer. Experiments on various knowledge-intensive tasks such as question answering and dialogue datasets show that, simply augmenting parametric models (T5-base) using our method produces more accurate results (e.g., 25.8 -> 44.3 EM on NQ) while retaining a high throughput (e.g., 1000 queries/s on NQ). Compared to retrieval-augmented models, EMAT runs substantially faster across the board and produces more accurate results on WoW and ELI5. Our code and datasets are available at https://github. com/uclnlp/EMAT.
翻訳日:2022-11-01 14:46:25 公開日:2022-10-30
# クロスエンコーダによるバイリンガル語彙誘導の改善

Improving Bilingual Lexicon Induction with Cross-Encoder Reranking ( http://arxiv.org/abs/2210.16953v1 )

ライセンス: Link先を確認
Yaoyiran Li, Fangyu Liu, Ivan Vuli\'c, Anna Korhonen(参考訳) バイリンガル・レキシコン誘導(BLI)は,多言語NLPにおいて極めて重要な課題である。 現在の最先端BLI法は言語間単語の類似性を捉えるために言語間単語埋め込み(CLWE)の誘導に依存している。 1) 従来の静的モデル(vecmapなど)を介して、または 2)多言語前訓練言語モデル(mplm)からタイプレベルclweを抽出するか,あるいは 3) 前者の2つのオプションを組み合わせる。 本研究では, BLICEr (BLI with Cross-Encoder Re rank) と呼ばれる, 計算済みのCLWE空間に適用可能な半教師付きポストホックリグレード手法を提案する。 鍵となる考え方は、mPLMから言語間の語彙的知識を抽出し、元のCLWEと組み合わせることである。 この重要なステップは 1) 正の単語対(すなわち真訳)と元のclwe空間から誘導される硬い負の対からなる単語類似性データセットを作成する。 2)mPLM(例えばmBERTやXLM-R)をクロスエンコーダで微調整して類似度スコアを予測する。 推論では 3) CLWE空間の類似点とBLI調整クロスエンコーダの類似点を組み合わせる。 BLICErは、さまざまな言語にまたがる2つの標準BLIベンチマークにおいて、最先端の新たな結果を確立している。 また,異なるclweを有するblicerのロバスト性を検証する。

Bilingual lexicon induction (BLI) with limited bilingual supervision is a crucial yet challenging task in multilingual NLP. Current state-of-the-art BLI methods rely on the induction of cross-lingual word embeddings (CLWEs) to capture cross-lingual word similarities; such CLWEs are obtained 1) via traditional static models (e.g., VecMap), or 2) by extracting type-level CLWEs from multilingual pretrained language models (mPLMs), or 3) through combining the former two options. In this work, we propose a novel semi-supervised post-hoc reranking method termed BLICEr (BLI with Cross-Encoder Reranking), applicable to any precalculated CLWE space, which improves their BLI capability. The key idea is to 'extract' cross-lingual lexical knowledge from mPLMs, and then combine it with the original CLWEs. This crucial step is done via 1) creating a word similarity dataset, comprising positive word pairs (i.e., true translations) and hard negative pairs induced from the original CLWE space, and then 2) fine-tuning an mPLM (e.g., mBERT or XLM-R) in a cross-encoder manner to predict the similarity scores. At inference, we 3) combine the similarity score from the original CLWE space with the score from the BLI-tuned cross-encoder. BLICEr establishes new state-of-the-art results on two standard BLI benchmarks spanning a wide spectrum of diverse languages: it substantially outperforms a series of strong baselines across the board. We also validate the robustness of BLICEr with different CLWEs.
翻訳日:2022-11-01 14:45:56 公開日:2022-10-30
# ロバストなポイントクラウド分類のためのpoint-voxel適応的特徴抽象化

Point-Voxel Adaptive Feature Abstraction for Robust Point Cloud Classification ( http://arxiv.org/abs/2210.15514v2 )

ライセンス: Link先を確認
Lifa Zhu, Changwei Lin, Chen Zheng, Ninghua Yang(参考訳) ポイントクラウド分類では,学習に基づく手法が大きな進歩を遂げている。 しかし、現実世界のアプリケーションにおける複雑なシーンとセンサーの不正確さにより、ポイントクラウドデータは、閉塞、ノイズ、外れ値などの汚職に悩まされる。 本稿では,様々な腐敗下でのロバストなポイントクラウド分類のための,ポイントボクセル型適応型(pv-ada)機能抽象化を提案する。 具体的には、ポイントクラウドを反復的にボクセル化し、共有ローカルエンコーディングとトランスフォーマーでポイントボクセル特徴を抽出する。 次に,ポイントクラウドの特徴をロバストに集約して分類するために,適応型maxプールを提案する。 ModelNet-Cデータセットの実験では、PV-Adaは最先端の手法よりも優れています。 特に、PointCloud-C Challenge 2022 の ModelNet-C 分類トラックで 2^{nd}$ place をランク付けし、総合的精度 (OA) は0.865 である。 コードはhttps://github.com/zhulf0804/pv-adaで入手できる。

Great progress has been made in point cloud classification with learning-based methods. However, complex scene and sensor inaccuracy in real-world application make point cloud data suffer from corruptions, such as occlusion, noise and outliers. In this work, we propose Point-Voxel based Adaptive (PV-Ada) feature abstraction for robust point cloud classification under various corruptions. Specifically, the proposed framework iteratively voxelize the point cloud and extract point-voxel feature with shared local encoding and Transformer. Then, adaptive max-pooling is proposed to robustly aggregate the point cloud feature for classification. Experiments on ModelNet-C dataset demonstrate that PV-Ada outperforms the state-of-the-art methods. In particular, we rank the $2^{nd}$ place in ModelNet-C classification track of PointCloud-C Challenge 2022, with Overall Accuracy (OA) being 0.865. Code will be available at https://github.com/zhulf0804/PV-Ada.
翻訳日:2022-11-01 12:30:43 公開日:2022-10-30