このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220527となっている論文です。

PDF登録状況(公開日: 20220527)

TitleAuthorsAbstract論文公表日・翻訳日
# ベイズ法による腫瘍性pet分節の組織破壊評価

A Bayesian approach to tissue-fraction estimation for oncological PET segmentation ( http://arxiv.org/abs/2003.00317v3 )

ライセンス: Link先を確認
Ziping Liu, Joyce C. Mhlanga, Richard Laforest, Paul-Robert Derenoncourt, Barry A. Siegel, Abhinav K. Jha(参考訳) 腫瘍の分画は腫瘍学的petでは困難であり,低分解能と有限ボクセルサイズに起因する部分体積効果が主な原因である。 後者は組織破壊効果、すなわちボクセルは組織クラスを混合したものを含む。 従来のセグメンテーション法は通常、画像内の各ボクセルを特定の組織クラスに属するものとして割り当てるように設計されている。 したがって、これらの方法は本質的に組織破壊効果のモデル化に制限がある。 部分体積効果,特に組織破壊効果の計算の課題に対処し,腫瘍性pet分節の組織破壊評価へのベイズ的アプローチを提案する。 特に、このベイズ的アプローチは、画像の各ボクセル内にある腫瘍が占める分数体積の後方平均を推定する。 深層学習法を用いて実施した本手法は,肺がん患者のPET画像における原発性腫瘍の分画という文脈において,臨床的に現実的な2次元シミュレーションを用いて評価した。 その結果,U-net法を含む従来のPETセグメンテーション法では,腫瘍のセグメンテーションの課題において,腫瘍の断面積を正確に推定し,極めて優れていた。 さらに, 提案法は, 部分体積効果に比較的敏感であり, 異なる臨床スキャナー構成に対して, 信頼性の高い腫瘍セグメンテーションが得られた。 ACRIN 6668/RTOG 0235多施設臨床試験のステージIIB/III非小細胞肺癌の臨床像を用いて評価した。 その結果,Dice similarity coefficient (DSC) が0.82 (95 % CI: [0.78, 0.86]) の患者画像に対して, 提案法は, 他の検討方法よりも有意に優れていた。

Tumor segmentation in oncological PET is challenging, a major reason being the partial-volume effects that arise due to low system resolution and finite voxel size. The latter results in tissue-fraction effects, i.e. voxels contain a mixture of tissue classes. Conventional segmentation methods are typically designed to assign each voxel in the image as belonging to a certain tissue class. Thus, these methods are inherently limited in modeling tissue-fraction effects. To address the challenge of accounting for partial-volume effects, and in particular, tissue-fraction effects, we propose a Bayesian approach to tissue-fraction estimation for oncological PET segmentation. Specifically, this Bayesian approach estimates the posterior mean of fractional volume that the tumor occupies within each voxel of the image. The proposed method, implemented using a deep-learning-based technique, was first evaluated using clinically realistic 2-D simulation studies with known ground truth, in the context of segmenting the primary tumor in PET images of patients with lung cancer. The evaluation studies demonstrated that the method accurately estimated the tumor-fraction areas and significantly outperformed widely used conventional PET segmentation methods, including a U-net-based method, on the task of segmenting the tumor. In addition, the proposed method was relatively insensitive to partial-volume effects and yielded reliable tumor segmentation for different clinical-scanner configurations. The method was then evaluated using clinical images of patients with stage IIB/III non-small cell lung cancer from ACRIN 6668/RTOG 0235 multi-center clinical trial. Here, the results showed that the proposed method significantly outperformed all other considered methods and yielded accurate tumor segmentation on patient images with Dice similarity coefficient (DSC) of 0.82 (95 % CI: [0.78, 0.86]).
翻訳日:2022-12-27 20:26:51 公開日:2022-05-27
# フェデレーション学習におけるロバストネスとプライバシのための局所的および中央的微分プライバシー

Local and Central Differential Privacy for Robustness and Privacy in Federated Learning ( http://arxiv.org/abs/2009.03561v5 )

ライセンス: Link先を確認
Mohammad Naseri, Jamie Hayes, and Emiliano De Cristofaro(参考訳) フェデレートラーニング(FL)では、モデルの更新のみを交換しながらデータセットをローカルに保つことで、複数の参加者が機械学習モデルを協調的にトレーニングすることができる。 残念なことに、これは必ずしもプライバシーや堅牢性の脆弱性(例えば、メンバーシップ、プロパティ、バックドア攻撃など)から解放されるわけではない。 本稿では,FLにおけるプライバシーとロバスト性の両方を保護するために差分プライバシ(DP)をどの程度利用できるかを検討する。 そこで本研究では,ldp/cdp(local and central differential privacy)手法をflで評価し,その実現可能性と有効性を評価する。 実験の結果,DPの両変種は,保護・実用トレードオフのレベルが異なるが,他の堅牢性防御よりも効果的であることがわかった。 DPはまた、FLにおけるホワイトボックスメンバーシップ推論攻撃を緩和し、我々の研究は経験的にそれを初めて示した。 しかし、LDPもCDPも、財産推測を擁護するものではない。 全体として、我々の研究は、微分プライベートflにおける堅牢性/プライバシーと実用性の間のトレードオフを定量化する包括的な再利用可能な測定方法を提供します。

Federated Learning (FL) allows multiple participants to train machine learning models collaboratively by keeping their datasets local while only exchanging model updates. Alas, this is not necessarily free from privacy and robustness vulnerabilities, e.g., via membership, property, and backdoor attacks. This paper investigates whether and to what extent one can use differential Privacy (DP) to protect both privacy and robustness in FL. To this end, we present a first-of-its-kind evaluation of Local and Central Differential Privacy (LDP/CDP) techniques in FL, assessing their feasibility and effectiveness. Our experiments show that both DP variants do d fend against backdoor attacks, albeit with varying levels of protection-utility trade-offs, but anyway more effectively than other robustness defenses. DP also mitigates white-box membership inference attacks in FL, and our work is the first to show it empirically. Neither LDP nor CDP, however, defend against property inference. Overall, our work provides a comprehensive, re-usable measurement methodology to quantify the trade-offs between robustness/privacy and utility in differentially private FL.
翻訳日:2022-10-20 21:20:04 公開日:2022-05-27
# (参考訳) ファジィ心的セマンティック変換について

On Fuzzy Cardinal Semantic Transformations ( http://arxiv.org/abs/2206.11265v1 )

ライセンス: CC BY 4.0
Alexander Chunikhin, Vadym Zhytniuk(参考訳) 本研究では,ファジィ基数変換をファジィ意味数生成の基礎として,ファジィ基数変換の概念を導入する。 初期データのファジィ(抽象エンティティの基数)と基数意味演算子のパラメータのファジィ(ファジィ)の両方を考慮する。 また,離散ファジィ数と連続三角ファジィ数に対する基数意味変換も表現した。 複数の入力を持つ基数意味演算子におけるファジィ共通担体の形成原理が形成される。

The concept of fuzzy cardinal semantic transformation as a basis for creating fuzzy semantic numeration systems is introduced in this work. Both fuzziness of the initial data - cardinals of abstract entities - and fuzziness of the parameters of the cardinal semantic operators are considered. We also expressed cardinal semantic transformations for discrete fuzzy numbers and for continuous triangular fuzzy numbers. The principle of formation of the fuzzy common carry in the cardinal semantic operators with multiple inputs is formed.
翻訳日:2022-06-27 05:55:24 公開日:2022-05-27
# TNNに基づくニューロモルフィック感覚処理ユニットの設計フレームワークに向けて

Towards a Design Framework for TNN-Based Neuromorphic Sensory Processing Units ( http://arxiv.org/abs/2205.14248v1 )

ライセンス: Link先を確認
Prabhu Vellaisamy and John Paul Shen(参考訳) テンポラルニューラルネットワーク(TNN)は、高エネルギー効率で脳のような感覚処理を示すニューラルネットワークである。 本研究は、効率的なアプリケーション固有のTNNベースのニューロモーフィック・センサ処理ユニット(NSPU)を設計するためのカスタム設計フレームワークの開発に向けた研究である。 本稿では,UCR時系列クラスタリングのためのNSPU設計とMNIST画像分類への応用について検討する。 アプリケーション固有のNSPUを高速に設計する上で,効率的なソフトウェア・ハードウェア設計フローを実現するためのカスタムデザインフレームワークとツールの現在,EDAツールを活用してレイアウト後のネットリストとPPA(Power-Performance-area)メトリクスを得る方法が述べられている。 今後の研究方針も概説されている。

Temporal Neural Networks (TNNs) are spiking neural networks that exhibit brain-like sensory processing with high energy efficiency. This work presents the ongoing research towards developing a custom design framework for designing efficient application-specific TNN-based Neuromorphic Sensory Processing Units (NSPUs). This paper examines previous works on NSPU designs for UCR time-series clustering and MNIST image classification applications. Current ideas for a custom design framework and tools that enable efficient software-to-hardware design flow for rapid design space exploration of application-specific NSPUs while leveraging EDA tools to obtain post-layout netlist and power-performance-area (PPA) metrics are described. Future research directions are also outlined.
翻訳日:2022-06-26 15:19:41 公開日:2022-05-27
# evolution as a service: 組合せ最適化のためのプライバシ保存型遺伝的アルゴリズム

Evolution as a Service: A Privacy-Preserving Genetic Algorithm for Combinatorial Optimization ( http://arxiv.org/abs/2205.13948v1 )

ライセンス: Link先を確認
Bowen Zhao, Wei-Neng Chen, Feng-Feng Wei, Ximeng Liu, Qingqi Pei, Jun Zhang(参考訳) 遺伝的アルゴリズム(GA)のような進化的アルゴリズム(EA)は、組合せ最適化問題(COP)を扱うエレガントな方法を提供する。 しかし、専門知識とリソースによって制限されているため、ほとんどのユーザはCOPを解くのにEAを実装するのに十分な能力を持っていません。 直感的で有望なソリューションは、プライバシの懸念に苦しむ一方で、進化的な操作をクラウドサーバにアウトソースすることだ。 そこで本稿では,クラウドサーバがユーザのプライバシを犠牲にすることなく,ユーザのために進化的計算サービスをレンダリングする,新しいコンピューティングパラダイムであるevolution as a service (eaas)を提案する。 EaaSのアイデアにインスパイアされたこの論文は、COPのための新しいプライバシ保護GAであるPEGAを設計する。 具体的には、PEGAにより、競合GAを持つクラウドサーバにCOPをアウトソーシングし、プライバシー保護の方法で最適なソリューションを近似することができる。 PEGAの特徴は以下の通りである。 まず、専門知識と十分なリソースのないユーザは、彼女のCOPを解ける。 第2に、PEGAは最適化問題の内容、すなわちユーザのプライバシーを漏らさない。 第3に、PEGAは最適解を近似する従来のGAと同じ能力を持つ。 我々は,PEGAをツインサーバアーキテクチャで実装し,旅行セールスマン問題 (TSP, 広く知られているCOP) で評価する。 特に,暗号化暗号を利用してユーザのプライバシを保護し,GAの進化演算子を暗号化データ上でサポートするためのセキュアなコンピューティングプロトコルのスーツを慎重に設計する。 プライバシ分析は、PEGAがCOPの内容をクラウドサーバに公開していないことを示している。 4つのtspデータセットにおける実験的評価結果から,pegaはgaと同等の最適解近似効果を示した。

Evolutionary algorithms (EAs), such as the genetic algorithm (GA), offer an elegant way to handle combinatorial optimization problems (COPs). However, limited by expertise and resources, most users do not have enough capability to implement EAs to solve COPs. An intuitive and promising solution is to outsource evolutionary operations to a cloud server, whilst it suffers from privacy concerns. To this end, this paper proposes a novel computing paradigm, evolution as a service (EaaS), where a cloud server renders evolutionary computation services for users without sacrificing users' privacy. Inspired by the idea of EaaS, this paper designs PEGA, a novel privacy-preserving GA for COPs. Specifically, PEGA enables users outsourcing COPs to the cloud server holding a competitive GA and approximating the optimal solution in a privacy-preserving manner. PEGA features the following characteristics. First, any user without expertise and enough resources can solve her COPs. Second, PEGA does not leak contents of optimization problems, i.e., users' privacy. Third, PEGA has the same capability as the conventional GA to approximate the optimal solution. We implements PEGA falling in a twin-server architecture and evaluates it in the traveling salesman problem (TSP, a widely known COP). Particularly, we utilize encryption cryptography to protect users' privacy and carefully design a suit of secure computing protocols to support evolutionary operators of GA on encrypted data. Privacy analysis demonstrates that PEGA does not disclose the contents of the COP to the cloud server. Experimental evaluation results on four TSP datasets show that PEGA is as effective as the conventional GA in approximating the optimal solution.
翻訳日:2022-06-26 14:42:16 公開日:2022-05-27
# LiVeR:軽量車の検出とリアルタイムでの分類

LiVeR: Lightweight Vehicle Detection and Classification in Real-Time ( http://arxiv.org/abs/2206.06173v1 )

ライセンス: Link先を確認
Chandra Shekhar and Jagnyashini Debadarshini and Sudipta Saha(参考訳) 車両の検出と分類は、インテリジェントトランスポートシステムにおいて非常に重要なコンポーネントである。 既存のソリューションでは、重量とコストのかかる機器を使用するだけでなく、常にクラウド(インターネット)の接続と十分な電力供給に依存する。 このような依存関係は、屋外環境の可逆性や相関した広域操作の要件を考慮して、これらの解を根本的に非現実的にする。 技術的に健全で正確であることとは別に、ソリューションは軽量でコスト効率が高く、インストールが容易で、柔軟で、広範囲にわたる効率的な時間関連カバレッジをサポートする必要がある。 本研究では,これらすべての目標をまとめるIoT支援戦略を提案する。 トップダウンアプローチを採用し,まずは時間的関連のある低コスト広域計測のための軽量フレームワークを導入し,その概念を個別計測ユニットの開発に再利用した。 実験データを用いた大規模屋外計測とトレースベースシミュレーションにより,車両検出の精度は約98%,都市部における車両の分類の精度は最大93%であった。

Detection and classification of vehicles are very significant components in an Intelligent-Transportation System. Existing solutions not only use heavy-weight and costly equipment, but also largely depend on constant cloud (Internet) connectivity, as well as adequate uninterrupted power-supply. Such dependencies make these solutions fundamentally impractical considering the possible adversities of outdoor environment as well as requirement of correlated wide-area operation. For practical use, apart from being technically sound and accurate, a solution has to be lightweight, cost-effective, easy-to-install, flexible as well as supporting efficient time-correlated coverage over large area. In this work we propose an IoT-assisted strategy to fulfil all these goals together. We adopt a top-down approach where we first introduce a lightweight framework for time-correlated low-cost wide-area measurement and then reuse the concept for developing the individual measurement units. Our extensive outdoor measurement studies and trace-based simulation on the empirical data show about 98% accuracy in vehicle detection and upto 93% of accuracy in classification of the vehicles over moderately busy urban roads.
翻訳日:2022-06-19 23:32:36 公開日:2022-05-27
# TURJUMAN: ニューラルアラビア機械翻訳のための公開ツールキット

TURJUMAN: A Public Toolkit for Neural Arabic Machine Translation ( http://arxiv.org/abs/2206.03933v1 )

ライセンス: Link先を確認
El Moatez Billah Nagoudi, AbdelRahim Elmadany, Muhammad Abdul-Mageed(参考訳) 本稿では,20言語から現代標準アラビア語(MSA)への翻訳のためのニューラルネットワークTURJUMANを提案する。 turjumanは、最近導入されたテキストからテキストへのトランスフォーマーarat5モデルを活用し、アラビア語にデコードする強力な能力を持つ。 このツールキットは様々な復号法を採用する可能性を提供し、MSA翻訳のパラフレーズを付加価値として取得するのに適している。 TURJUMANを訓練するために,データ品質を確保するため,単純な意味的類似性手法を用いて公開されている並列データからサンプルを採取する。 これにより、新しい機械翻訳ベンチマークであるAraOPUS-20の準備とリリースが可能になります。 我々は、我々の翻訳ツールキット(TURJUMAN)とベンチマークデータセット(AraOPUS-20)を公開しています。

We present TURJUMAN, a neural toolkit for translating from 20 languages into Modern Standard Arabic (MSA). TURJUMAN exploits the recently-introduced text-to-text Transformer AraT5 model, endowing it with a powerful ability to decode into Arabic. The toolkit offers the possibility of employing a number of diverse decoding methods, making it suited for acquiring paraphrases for the MSA translations as an added value. To train TURJUMAN, we sample from publicly available parallel data employing a simple semantic similarity method to ensure data quality. This allows us to prepare and release AraOPUS-20, a new machine translation benchmark. We publicly release our translation toolkit (TURJUMAN) as well as our benchmark dataset (AraOPUS-20).
翻訳日:2022-06-12 09:37:13 公開日:2022-05-27
# 画像セマンティックセグメンテーションのためのCalibrated Bagging Deep Learning : COVID-19胸部X線画像のケーススタディ

Calibrated Bagging Deep Learning for Image Semantic Segmentation: A Case Study on COVID-19 Chest X-ray Image ( http://arxiv.org/abs/2206.00002v1 )

ライセンス: Link先を確認
Lucy Nwosu, Xiangfang Li, Lijun Qian, Seungchan Kim, Xishuang Dong(参考訳) 重症急性呼吸器症候群ウイルス2(SARS-CoV-2)は、新型コロナウイルス感染症(COVID-19)を引き起こす。 胸部X線(CXR)やCTなどの画像検査は、より効率的かつ包括的な方法で新型コロナウイルスの診断を容易にするために、臨床スタッフに有用な情報を提供することができる。 人工知能(AI)のブレークスルーとして、深層学習を用いて、CXRとCTデータを分析して、新型コロナウイルス感染症領域のセグメンテーションと疾患分類を行っている。 しかし, 医用画像処理などの安全クリティカルな応用において極めて重要である深層学習モデルの予測の不確実性については, 総合的な検討が行われていない。 本研究では,階層型深層学習とモデルキャリブレーションを統合した新しいアンサンブル深層学習モデルを提案し,セグメンテーション性能の向上だけでなく,予測の不確実性を低減した。 提案手法は,CXR画像セグメンテーションに関連付けられた大規模データセット上で検証されている。 実験の結果,提案手法はセグメンテーション性能を向上し,予測の不確かさを低減できることがわかった。

Severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) causes coronavirus disease 2019 (COVID-19). Imaging tests such as chest X-ray (CXR) and computed tomography (CT) can provide useful information to clinical staff for facilitating a diagnosis of COVID-19 in a more efficient and comprehensive manner. As a breakthrough of artificial intelligence (AI), deep learning has been applied to perform COVID-19 infection region segmentation and disease classification by analyzing CXR and CT data. However, prediction uncertainty of deep learning models for these tasks, which is very important to safety-critical applications like medical image processing, has not been comprehensively investigated. In this work, we propose a novel ensemble deep learning model through integrating bagging deep learning and model calibration to not only enhance segmentation performance, but also reduce prediction uncertainty. The proposed method has been validated on a large dataset that is associated with CXR image segmentation. Experimental results demonstrate that the proposed method can improve the segmentation performance, as well as decrease prediction uncertainties.
翻訳日:2022-06-12 09:36:44 公開日:2022-05-27
# 3Dプリンタの特性評価とX線CT

Characterization of 3D Printers and X-Ray Computerized Tomography ( http://arxiv.org/abs/2206.00041v1 )

ライセンス: Link先を確認
Sunita Khod, Akshay Dvivedi, Mayank Goswami(参考訳) 3dプリントのプロセスフローは、最高の印刷品質のためにいくつかの入力を必要とする。 これらの設定はサンプルからサンプル、プリンタからプリンタまで様々であり、ユーザの以前の経験に依存します。 3Dプリンティングの操作パラメータは最適性をテストするために変化する。 38個のサンプルは市販の3dプリンター4台でプリントされる。 (a)ウルティメーカ2拡張+ (b)デルタワスプ。 (c)E2を上げ、 (d)プロJet MJP。 サンプルプロファイルは、既知の多孔性を持つ立方体と球体の大きさの均一分布と非一様分布を含む。 これらのサンプルはX線CTシステムを用いてスキャンされる。 AIに基づくセグメンテーションコードを用いて機能画像解析を行う (a)これら3Dプリンタを特徴付ける (b) 3本の歯の3次元表面粗さと自然堆積層を有する砂岩小石(河床から)を印刷試料値と比較した。 歯は最高品質です。 その結果, ProJet MJPは, 表面粗さが最小であり, ポーシティ値にほぼ近い印刷試料の最高の品質が得られることがわかった。 予想通り、100%充填密度値、印刷や層の高さに最適な空間解像度、最小ノズル速度は3Dプリンティングの最高の品質を与える。

The 3D printing process flow requires several inputs for the best printing quality. These settings may vary from sample to sample, printer to printer, and depend upon users' previous experience. The involved operational parameters for 3D Printing are varied to test the optimality. Thirty-eight samples are printed using four commercially available 3D printers, namely: (a) Ultimaker 2 Extended+, (b) Delta Wasp, (c) Raise E2, and (d) ProJet MJP. The sample profiles contain uniform and non-uniform distribution of the assorted size of cubes and spheres with a known amount of porosity. These samples are scanned using X-Ray Computed Tomography system. Functional Imaging analysis is performed using AI-based segmentation codes to (a) characterize these 3D printers and (b) find Three-dimensional surface roughness of three teeth and one sandstone pebble (from riverbed) with naturally deposited layers is also compared with printed sample values. Teeth has best quality. It is found that ProJet MJP gives the best quality of printed samples with the least amount of surface roughness and almost near to the actual porosity value. As expected, 100% infill density value, best spatial resolution for printing or Layer height, and minimum nozzle speed give the best quality of 3D printing.
翻訳日:2022-06-12 09:36:22 公開日:2022-05-27
# (参考訳) マイクロアレイ発現データからの遺伝子選択:適応k-nearest近傍を用いた多目的pso

Gene selection from microarray expression data: A Multi-objective PSO with adaptive K-nearest neighborhood ( http://arxiv.org/abs/2205.15020v1 )

ライセンス: CC BY 4.0
Yasamin Kowsari, Sanaz Nakhodchi, Davoud Gholamiangonabadi(参考訳) がん検出は医療分野における重要な研究の1つである。 異なるがんの正確な検出は、より良い治療施設と患者に対するリスク最小化を提供する上で有用である。 本稿では,遺伝子発現データを用いてヒト癌疾患の分類問題を扱う。 マイクロアレイデータセットを解析し,がん疾患を効果的に分類するための新しい手法を提案する。 この新しい手法は、まずSignal to Noise Ratio (SNR)を用いて、非冗長遺伝子の小さなサブセットのリストを見つける。 正常化後,多目的粒子群最適化(MOPSO)を用いて特徴選択を行い,がんの分類に適応的K-Nearest Neighborhood(KNN)を用いる。 本手法は,特徴量を削減することにより,がん分類の分類精度を向上させる。 提案手法は5つのがんデータセットで癌疾患を分類することによって評価される。 その結果,データセットの分類精度が向上する最新の手法と比較した。

Cancer detection is one of the key research topics in the medical field. Accurate detection of different cancer types is valuable in providing better treatment facilities and risk minimization for patients. This paper deals with the classification problem of human cancer diseases by using gene expression data. It is presented a new methodology to analyze microarray datasets and efficiently classify cancer diseases. The new method first employs Signal to Noise Ratio (SNR) to find a list of a small subset of non-redundant genes. Then, after normalization, it is used Multi-Objective Particle Swarm Optimization (MOPSO) for feature selection and employed Adaptive K-Nearest Neighborhood (KNN) for cancer disease classification. This method improves the classification accuracy of cancer classification by reducing the number of features. The proposed methodology is evaluated by classifying cancer diseases in five cancer datasets. The results are compared with the most recent approaches, which increases the classification accuracy in each dataset.
翻訳日:2022-06-05 07:23:42 公開日:2022-05-27
# (参考訳) 説明可能なランキング・ランキングモデルのための設計空間

A Design Space for Explainable Ranking and Ranking Models ( http://arxiv.org/abs/2205.15305v1 )

ライセンス: CC BY 4.0
I. Al Hazwani (1 and 2), J. Schmid (1), M. Sachdeva (1) and J. Bernard (1 and 2) ((1) University of Zurich, (2) Digital Society Initiative)(参考訳) 項目ランキングシステムは、複数基準の意思決定タスクでユーザを支援する。 ユーザは、システムのエラーやバイアスを避けながら、ユーザの好みを良く反映するために、ランキングやランキングアルゴリズムを信頼する必要がある。 しかし今日では、エンドユーザー、モデル開発者、アナリストがランキングを説明するのに役立つアプローチはごくわずかである。 本稿では,レコメンダシステム,説明可能なai,可視化研究の観点から説明アプローチの研究を報告し,項目ランキングの解説者のための最初のクロスドメインデザイン空間を提案する。 さらに,デザイン空間の記述力を活用して特徴付けする。 a) 既存の説明者及び b) 説明課題のランク付けに関わる3つの主要なユーザグループ デザインスペースのジェネレーティブなパワーは、将来のデザイナーや開発者がこの弱い搾取されたスペースでよりターゲット指向のソリューションを作るための手段です。

Item ranking systems support users in multi-criteria decision-making tasks. Users need to trust rankings and ranking algorithms to reflect user preferences nicely while avoiding systematic errors and biases. However, today only few approaches help end users, model developers, and analysts to explain rankings. We report on the study of explanation approaches from the perspectives of recommender systems, explainable AI, and visualization research and propose the first cross-domain design space for explainers of item rankings. In addition, we leverage the descriptive power of the design space to characterize a) existing explainers and b) three main user groups involved in ranking explanation tasks. The generative power of the design space is a means for future designers and developers to create more target-oriented solutions in this only weakly exploited space.
翻訳日:2022-06-05 07:15:50 公開日:2022-05-27
# (参考訳) マルチスケールヴォクセルによる脳活動からの自然画像再構成のためのデコード

Multiscale Voxel Based Decoding For Enhanced Natural Image Reconstruction From Brain Activity ( http://arxiv.org/abs/2205.14177v1 )

ライセンス: CC BY 4.0
Mali Halac, Murat Isik, Hasan Ayaz, Anup Das(参考訳) 機能的磁気共鳴画像(fmri)による脳活動からの知覚画像の再構成は,特に自然画像では困難である。 既存の方法はしばしば、低い忠実度でぼやけたり、理解不能な再構築をもたらす。 本研究では,既存のオブジェクト復号法と画像再構成法を融合した画像再構成手法を提案する。 これは、クラス条件生成逆数ネットワークとニューラルスタイル転送を用いて、再構成された画像をデコードされた画像カテゴリに条件付けすることで達成される。 提案手法は,再構成画像のセマンティックな類似性を向上し,画像再構成の一般的な枠組みとして利用できることを示す。

Reconstructing perceived images from human brain activity monitored by functional magnetic resonance imaging (fMRI) is hard, especially for natural images. Existing methods often result in blurry and unintelligible reconstructions with low fidelity. In this study, we present a novel approach for enhanced image reconstruction, in which existing methods for object decoding and image reconstruction are merged together. This is achieved by conditioning the reconstructed image to its decoded image category using a class-conditional generative adversarial network and neural style transfer. The results indicate that our approach improves the semantic similarity of the reconstructed images and can be used as a general framework for enhanced image reconstruction.
翻訳日:2022-06-05 06:19:30 公開日:2022-05-27
# (参考訳) 私たちは誰ですか。 国会討論における一人称複数代名詞の紹介の曖昧化

Who is we? Disambiguating the referents of first person plural pronouns in parliamentary debates ( http://arxiv.org/abs/2205.14182v1 )

ライセンス: CC BY-SA 4.0
Ines Rehbein, Josef Ruppenhofer and Julian Bernauer(参考訳) 本稿では,政治演説における1人称複数代名詞の修辞的用法について検討する。 代名詞参照を曖昧にするためのアノテーションスキーマを提案し、我々のスキーマを使用してドイツ連邦議会の議論の注釈付きコーパスを作成する。 そして、我々のコーパスを使って、議会の討論会における代名詞参照を自動解決することを学ぶ。 我々は、コーパスをさらに拡大し、予備結果を報告するために、弱い監督でデータ拡張の利用を探求する。

This paper investigates the use of first person plural pronouns as a rhetorical device in political speeches. We present an annotation schema for disambiguating pronoun references and use our schema to create an annotated corpus of debates from the German Bundestag. We then use our corpus to learn to automatically resolve pronoun referents in parliamentary debates. We explore the use of data augmentation with weak supervision to further expand our corpus and report preliminary results.
翻訳日:2022-06-05 06:09:56 公開日:2022-05-27
# (参考訳) FlowNet-PET:PET画像における呼吸運動補正のための教師なし学習

FlowNet-PET: Unsupervised Learning to Perform Respiratory Motion Correction in PET Imaging ( http://arxiv.org/abs/2205.14147v1 )

ライセンス: CC BY-SA 4.0
Teaghan O'Briain, Carlos Uribe, Kwang Moo Yi, Jonas Teuwen, Ioannis Sechopoulos, and Magdalena Bazalova-Carter(参考訳) PET画像における呼吸運動の補正のために,解釈可能で教師なしの深層学習技術であるFlowNet-PETを構築した。 このネットワークは、異なる呼吸振幅範囲から2つのPETフレーム間の光の流れを予測するために訓練された。 その結果、トレーニングされたモデルでは、振り返り式PET画像から動き補正された単一ビンにグループ化され、非ゲート画像と類似のカウント統計を持つ最終画像が得られたが、当初観察されたぼやけた効果は得られなかった。 概念実証として、flownet-petは擬人化されたデジタルファントムデータに適用され、補正を定量化するために堅牢なメトリクスを設計することができた。 予測された光流と地上の真実とを比較すると、中央の絶対誤差は画素やスライス幅よりも小さく、ファントムでは横隔膜運動が21mmであった。 この改善は,運動のない画像と比較し,腫瘍の結合(iou)上の交点を計算し,補正前後の非運動腫瘍容積内における閉鎖活性および変動係数(cov)を算出した。 ネットワークによって提供される平均的な相対的な改善は、iou、total activity、covのそれぞれ54%、90%、および76%であった。 結果は、従来のふりかえりフェーズのバイナリアプローチと比較された。 FlowNet-PETはリフレクションバイニングと同様の結果を得たが、スキャン期間の6分の1しか必要なかった。 トレーニングと分析に使用されるコードとデータが公開されている(https://github.com/teaghan/FlowNet_PET)。

To correct for breathing motion in PET imaging, an interpretable and unsupervised deep learning technique, FlowNet-PET, was constructed. The network was trained to predict the optical flow between two PET frames from different breathing amplitude ranges. As a result, the trained model groups different retrospectively-gated PET images together into a motion-corrected single bin, providing a final image with similar counting statistics as a non-gated image, but without the blurring effects that were initially observed. As a proof-of-concept, FlowNet-PET was applied to anthropomorphic digital phantom data, which provided the possibility to design robust metrics to quantify the corrections. When comparing the predicted optical flows to the ground truths, the median absolute error was found to be smaller than the pixel and slice widths, even for the phantom with a diaphragm movement of 21 mm. The improvements were illustrated by comparing against images without motion and computing the intersection over union (IoU) of the tumors as well as the enclosed activity and coefficient of variation (CoV) within the no-motion tumor volume before and after the corrections were applied. The average relative improvements provided by the network were 54%, 90%, and 76% for the IoU, total activity, and CoV, respectively. The results were then compared against the conventional retrospective phase binning approach. FlowNet-PET achieved similar results as retrospective binning, but only required one sixth of the scan duration. The code and data used for training and analysis has been made publicly available (https://github.com/teaghan/FlowNet_PET).
翻訳日:2022-06-05 05:57:24 公開日:2022-05-27
# (参考訳) L混合外乱変数を用いた制約付きランゲヴィンアルゴリズム

Constrained Langevin Algorithms with L-mixing External Random Variables ( http://arxiv.org/abs/2205.14192v1 )

ライセンス: CC BY 4.0
Yuping Zheng, Andrew Lamperski(参考訳) ランゲヴィンアルゴリズムは付加雑音を付加した勾配降下法であり、マルコフ・チェイン・モンテカルロ(MCMC)サンプリング、最適化、学習で広く用いられている。 近年,非凸最適化学習のためのLangevinアルゴリズムの漸近解析が広く研究されている。 iidデータ変数の場合、コンパクト凸領域上の非凸損失のある制約付き問題に対して、ランジュバンアルゴリズムはその対象分布 [22] から $o(t^{-1/4} (\log t)^{1/2}) の偏差を達成する。 本稿では,非凸損失に対する$O(T^{-1/2} \log T)$の差分を$L$混合データ変数とポリヘドラル制約(必ずしも有界ではない)で求める。 この偏差は、我々の収束速度が非凸最適化のための制約付きランゲヴィンアルゴリズムに関する以前の研究よりも速いことを示している。

Langevin algorithms are gradient descent methods augmented with additive noise, and are widely used in Markov Chain Monte Carlo (MCMC) sampling, optimization, and learning. In recent years, the non-asymptotic analysis of Langevin algorithms for non-convex optimization learning has been extensively explored. For constrained problems with non-convex losses over compact convex domain in the case of IID data variables, Langevin algorithm achieves a deviation of $O(T^{-1/4} (\log T)^{1/2})$ from its target distribution [22]. In this paper, we obtain a deviation of $O(T^{-1/2} \log T)$ in $1$-Wasserstein distance for non-convex losses with $L$-mixing data variables and polyhedral constraints (which are not necessarily bounded). This deviation indicates that our convergence rate is faster than those in the previous works on constrained Langevin algorithms for non-convex optimization.
翻訳日:2022-06-05 05:36:22 公開日:2022-05-27
# (参考訳) マルチモーダルマスクオートエンコーダは転送可能表現を学習する

Multimodal Masked Autoencoders Learn Transferable Representations ( http://arxiv.org/abs/2205.14204v1 )

ライセンス: CC BY 4.0
Xinyang Geng, Hao Liu, Lisa Lee, Dale Schuurams, Sergey Levine, Pieter Abbeel(参考訳) 多様なマルチモーダルデータから学ぶスケーラブルなモデルの構築は、依然としてオープンな課題である。 視覚言語データの場合、支配的なアプローチは、それぞれのモダリティに対して別々のエンコーダを訓練する対照的な学習目標に基づいている。 効果的な対照的な学習手法では、データ拡張によってサンプリングバイアスが導入され、下流タスクのパフォーマンスが低下する可能性がある。 さらに、これらの手法は画像テキストのペアに制限されており、広く利用できないデータを活用できない。 本稿では,モダリティ固有のエンコーダやコントラスト学習を使わずに,マスクドトークン予測によって純粋にトレーニングされた大規模マルチモーダルモデルが,下流タスクの転送可能表現を学習できるかどうかを検討する。 本稿では,マルチモーダルマスク付きオートエンコーダ(M3AE)という,シンプルでスケーラブルなネットワークアーキテクチャを提案する。 我々は,大規模画像テキストデータセット上で訓練されたm3aeの実証研究を行い,m3aeが下流タスクによく伝達される一般化表現を学習できることを見出した。 驚くべきことに、M3AEは2つのデータモダリティの共同トレーニングにより、標準的なマスキング比が15%のBERTに比べて高いテキストマスク比(50-90%)の恩恵を受けている。 また,学習表現が画像と言語の両方から有意な情報を取り入れていることを示す質的分析も提供する。 最後に、モデルサイズとトレーニング時間を大きくしたM3AEのスケーラビリティと、ペア画像テキストデータとペアデータの両方でトレーニングする柔軟性を実証する。

Building scalable models to learn from diverse, multimodal data remains an open challenge. For vision-language data, the dominant approaches are based on contrastive learning objectives that train a separate encoder for each modality. While effective, contrastive learning approaches introduce sampling bias depending on the data augmentations used, which can degrade performance on downstream tasks. Moreover, these methods are limited to paired image-text data, and cannot leverage widely-available unpaired data. In this paper, we investigate whether a large multimodal model trained purely via masked token prediction, without using modality-specific encoders or contrastive learning, can learn transferable representations for downstream tasks. We propose a simple and scalable network architecture, the Multimodal Masked Autoencoder (M3AE), which learns a unified encoder for both vision and language data via masked token prediction. We provide an empirical study of M3AE trained on a large-scale image-text dataset, and find that M3AE is able to learn generalizable representations that transfer well to downstream tasks. Surprisingly, we find that M3AE benefits from a higher text mask ratio (50-90%), in contrast to BERT whose standard masking ratio is 15%, due to the joint training of two data modalities. We also provide qualitative analysis showing that the learned representation incorporates meaningful information from both image and language. Lastly, we demonstrate the scalability of M3AE with larger model size and training time, and its flexibility to train on both paired image-text data as well as unpaired data.
翻訳日:2022-06-05 05:34:21 公開日:2022-05-27
# (参考訳) ALMA:複合マルチエージェントタスクの階層的学習

ALMA: Hierarchical Learning for Composite Multi-Agent Tasks ( http://arxiv.org/abs/2205.14205v1 )

ライセンス: CC BY 4.0
Shariq Iqbal, Robby Costales, Fei Sha(参考訳) 近年のマルチエージェント強化学習(MARL)の進歩にもかかわらず、複雑な領域での協調は依然として課題である。 MARLにおける作業は、エージェントが環境内の他のすべてのエージェントやエンティティと相互作用するタスクの解決に重点を置いていることが多いが、実世界のタスクは、しばしば複数のローカルエージェントインタラクション(サブタスク)のインスタンスで構成されており、各エージェントは、環境内の他のすべてのタスクを排除して、1つのサブタスクに集中することができる。 エージェントは特定のサブタスクに割り当てられ、各エージェントは割り当てられたサブタスクのみに対して生産的に作用する。 この分解された意思決定は強い構造的帰納的バイアスをもたらし、エージェント観察空間を著しく減少させ、サブタスクの新たな構成をユニークなものとして扱うのではなく、トレーニング中にサブタスク固有のポリシーを再利用し構成することを奨励する。 構造化タスクを活用するための一般的な学習方法であるalmaを紹介する。 ALMAは高レベルのサブタスク割り当てポリシーと低レベルのエージェントポリシーを同時に学習する。 ALMAは,多くの困難な環境において高度な協調行動を学び,高いベースラインを達成している。 ALMAのモジュール性は、新しい環境設定をより一般化することを可能にする。 最後に、ALMAは個別に訓練されたアロケーションとアクションポリシーを統合することができるが、最高のパフォーマンスは、すべてのコンポーネントを共同でトレーニングすることで得られる。

Despite significant progress on multi-agent reinforcement learning (MARL) in recent years, coordination in complex domains remains a challenge. Work in MARL often focuses on solving tasks where agents interact with all other agents and entities in the environment; however, we observe that real-world tasks are often composed of several isolated instances of local agent interactions (subtasks), and each agent can meaningfully focus on one subtask to the exclusion of all else in the environment. In these composite tasks, successful policies can often be decomposed into two levels of decision-making: agents are allocated to specific subtasks and each agent acts productively towards their assigned subtask alone. This decomposed decision making provides a strong structural inductive bias, significantly reduces agent observation spaces, and encourages subtask-specific policies to be reused and composed during training, as opposed to treating each new composition of subtasks as unique. We introduce ALMA, a general learning method for taking advantage of these structured tasks. ALMA simultaneously learns a high-level subtask allocation policy and low-level agent policies. We demonstrate that ALMA learns sophisticated coordination behavior in a number of challenging environments, outperforming strong baselines. ALMA's modularity also enables it to better generalize to new environment configurations. Finally, we find that while ALMA can integrate separately trained allocation and action policies, the best performance is obtained only by training all components jointly.
翻訳日:2022-06-05 05:20:29 公開日:2022-05-27
# (参考訳) ターゲット適応設計

Targeted Adaptive Design ( http://arxiv.org/abs/2205.14208v1 )

ライセンス: CC BY 4.0
Carlo Graziani and Marieme Ngom(参考訳) 現代の先進的製造と先端材料設計は、しばしば最適な構造、特性、性能パラメータをもたらす設定のために比較的高次元のプロセス制御パラメータ空間を探索する必要がある。 前者から後者へのマッピングは、ノイズの実験や高価なシミュレーションから決定されなければならない。 本稿では,制御空間から設計空間への未知の関数を,所定の許容範囲内で所望の設計特徴を生成する最適制御設定を定量化して,高価なノイズ測定により確認しなければならない数学的枠組みに抽象化する。 この最適サンプリングタスクを実行する新しいアルゴリズムであるターゲット適応設計(TAD)について述べる。 TADは、各反復段階で未知のマッピングのガウス過程サロゲートモデルを作成し、新しい制御設定のバッチを実験的にサンプリングし、ターゲット設計のログ予測可能性の更新を最適化する。 tadは、許容ボックス内に収まる不確実性のある解を見つけるか、将来の予測情報を用いて探索空間が無解で枯渇したかどうかを判定する。 したがって、TADは、ベイズ最適化や最適実験設計と本質的に異なる方法で探査・探査の緊張を具現化している。

Modern advanced manufacturing and advanced materials design often require searches of relatively high-dimensional process control parameter spaces for settings that result in optimal structure, property, and performance parameters. The mapping from the former to the latter must be determined from noisy experiments or from expensive simulations. We abstract this problem to a mathematical framework in which an unknown function from a control space to a design space must be ascertained by means of expensive noisy measurements, which locate optimal control settings generating desired design features within specified tolerances, with quantified uncertainty. We describe targeted adaptive design (TAD), a new algorithm that performs this optimal sampling task. TAD creates a Gaussian process surrogate model of the unknown mapping at each iterative stage, proposing a new batch of control settings to sample experimentally and optimizing the updated log-predictive likelihood of the target design. TAD either stops upon locating a solution with uncertainties that fit inside the tolerance box or uses a measure of expected future information to determine that the search space has been exhausted with no solution. TAD thus embodies the exploration-exploitation tension in a manner that recalls, but is essentially different from, Bayesian optimization and optimal experimental design.
翻訳日:2022-06-05 05:01:15 公開日:2022-05-27
# (参考訳) 生成モデルを持つKLエントロピー規則化RLは最小値である

KL-Entropy-Regularized RL with a Generative Model is Minimax Optimal ( http://arxiv.org/abs/2205.14211v1 )

ライセンス: CC BY 4.0
Tadashi Kozuno, Wenhao Yang, Nino Vieillard, Toshinori Kitamura, Yunhao Tang, Jincheng Mei, Pierre M\'enard, Mohammad Gheshlaghi Azar, Michal Valko, R\'emi Munos, Olivier Pietquin, Matthieu Geist, Csaba Szepesv\'ari(参考訳) 本研究では,モデルなし強化学習のサンプル複雑性を生成モデルを用いて検討し,解析する。 特に,geist et al. (2019) と vieillard et al. (2020a) によるミラー降下値反復 (mdvi) を分析し,kullback-leibler divergence と entropy regularization を用いた。 我々の分析によると、$\varepsilon$が十分小さい場合、$\varepsilon$-optimal Policyを見つけるのはほぼ最小値である。 これは、分散還元のない単純なモデル自由アルゴリズムが、考慮された設定の下でほぼ極小最適であることを示す最初の理論的結果である。

In this work, we consider and analyze the sample complexity of model-free reinforcement learning with a generative model. Particularly, we analyze mirror descent value iteration (MDVI) by Geist et al. (2019) and Vieillard et al. (2020a), which uses the Kullback-Leibler divergence and entropy regularization in its value and policy updates. Our analysis shows that it is nearly minimax-optimal for finding an $\varepsilon$-optimal policy when $\varepsilon$ is sufficiently small. This is the first theoretical result that demonstrates that a simple model-free algorithm without variance-reduction can be nearly minimax-optimal under the considered setting.
翻訳日:2022-06-05 04:58:04 公開日:2022-05-27
# (参考訳) Diffusion-LMによるテキスト生成制御の改善

Diffusion-LM Improves Controllable Text Generation ( http://arxiv.org/abs/2205.14217v1 )

ライセンス: CC BY 4.0
Xiang Lisa Li, John Thickstun, Ishaan Gulrajani, Percy Liang, Tatsunori B. Hashimoto(参考訳) 言語モデル(LM)の振る舞いを再学習せずに制御することは、自然言語生成において大きな問題である。 最近の研究は、単純な文の属性(感情など)を制御することに成功したが、複雑なきめ細かい制御(構文構造など)はほとんど進歩していない。 そこで我々はDiffusion-LMと呼ばれる連続拡散に基づく非自己回帰型言語モデルを開発した。 拡散-LMは、連続領域における拡散モデルの成功に基づいて、ガウスベクトルの列を単語ベクトルに反復的に分解し、中間潜在変数の列を生成する。 これらの中間変数の連続的階層的性質により、単純な勾配に基づくアルゴリズムで複雑な制御可能な生成タスクを実行できる。 我々は6つの難解な細粒度制御タスクに対して, diffusion-lm の制御が成功していることを示す。

Controlling the behavior of language models (LMs) without re-training is a major open problem in natural language generation. While recent works have demonstrated successes on controlling simple sentence attributes (e.g., sentiment), there has been little progress on complex, fine-grained controls (e.g., syntactic structure). To address this challenge, we develop a new non-autoregressive language model based on continuous diffusions that we call Diffusion-LM. Building upon the recent successes of diffusion models in continuous domains, Diffusion-LM iteratively denoises a sequence of Gaussian vectors into word vectors, yielding a sequence of intermediate latent variables. The continuous, hierarchical nature of these intermediate variables enables a simple gradient-based algorithm to perform complex, controllable generation tasks. We demonstrate successful control of Diffusion-LM for six challenging fine-grained control tasks, significantly outperforming prior work.
翻訳日:2022-06-05 04:23:30 公開日:2022-05-27
# (参考訳) 弱教師付き名前付きエンティティ認識のためのスパース条件付き隠れマルコフモデル

Sparse Conditional Hidden Markov Model for Weakly Supervised Named Entity Recognition ( http://arxiv.org/abs/2205.14228v1 )

ライセンス: CC BY 4.0
Yinghao Li, Le Song, Chao Zhang(参考訳) 名前付きエンティティ認識メソッドは、手動でアノテートされたラベルを見ることなく、ラベルモデルをトレーニングし、複数のノイズラベル関数(LF)のトークンアノテーションを集約する。 うまく機能させるためには、ラベルモデルは、性能の低いLFを低くしながら、文脈的に識別し、強調する必要がある。 しかし、基礎的な真実が欠如しているため、LFを評価することは困難である。 本稿では,スパース条件付き隠れマルコフモデル (Sparse-CHMM) を提案する。 他のHMMベースの手法として放出行列全体を予測するのではなく、Sparse-CHMMはLFの信頼性スコアである対角要素の推定に重点を置いている。 スパーススコアは、予め定義された拡張関数を持つフルフレッジエミッション行列に拡張される。 また、重み付けされたXORスコアを用いて、不正確な物質を観測するLFの確率を追跡する。 Sparse-CHMMは教師なし学習によって最適化され、3段階のトレーニングパイプラインでトレーニングの困難を減らし、モデルが局所的な最適状態に陥るのを防ぐ。 Wrenchベンチマークのベースラインと比較すると、Sparse-CHMMは5つの包括的なデータセットで平均F1スコアの改善を3.01達成している。 実験の結果, Sparse-CHMMの各成分は有効であり, 推定LF信頼度は真のLF F1スコアと強く相関していることがわかった。

Weakly supervised named entity recognition methods train label models to aggregate the token annotations of multiple noisy labeling functions (LFs) without seeing any manually annotated labels. To work well, the label model needs to contextually identify and emphasize well-performed LFs while down-weighting the under-performers. However, evaluating the LFs is challenging due to the lack of ground truths. To address this issue, we propose the sparse conditional hidden Markov model (Sparse-CHMM). Instead of predicting the entire emission matrix as other HMM-based methods, Sparse-CHMM focuses on estimating its diagonal elements, which are considered as the reliability scores of the LFs. The sparse scores are then expanded to the full-fledged emission matrix with pre-defined expansion functions. We also augment the emission with weighted XOR scores, which track the probabilities of an LF observing incorrect entities. Sparse-CHMM is optimized through unsupervised learning with a three-stage training pipeline that reduces the training difficulty and prevents the model from falling into local optima. Compared with the baselines in the Wrench benchmark, Sparse-CHMM achieves a 3.01 average F1 score improvement on five comprehensive datasets. Experiments show that each component of Sparse-CHMM is effective, and the estimated LF reliabilities strongly correlate with true LF F1 scores.
翻訳日:2022-06-05 03:50:54 公開日:2022-05-27
# (参考訳) FedControl: 制御理論がフェデレーションラーニングと出会うとき

FedControl: When Control Theory Meets Federated Learning ( http://arxiv.org/abs/2205.14236v1 )

ライセンス: CC BY 4.0
Adnan Ben Mansour, Gaia Carenini, Alexandre Duplessis and David Naccache(参考訳) 現在最も人気のあるフェデレーション学習アルゴリズムは、モデルパラメータの座標平均化を用いている。 ローカル学習のパフォーマンスと進化に応じてクライアントのコントリビューションを差別化することで、このアプローチから離れます。 この手法は制御理論から着想を得ており、その分類性能はIIDフレームワークで広く評価され、FedAvgと比較される。

To date, the most popular federated learning algorithms use coordinate-wise averaging of the model parameters. We depart from this approach by differentiating client contributions according to the performance of local learning and its evolution. The technique is inspired from control theory and its classification performance is evaluated extensively in IID framework and compared with FedAvg.
翻訳日:2022-06-05 03:32:08 公開日:2022-05-27
# (参考訳) ベイズ推定のための正規化フローを持つ決定論的ランジュバンモンテカルロ

Deterministic Langevin Monte Carlo with Normalizing Flows for Bayesian Inference ( http://arxiv.org/abs/2205.14240v1 )

ライセンス: CC BY 4.0
Uros Seljak, Richard D.P. Grumitt, Biwei Dai(参考訳) 本稿では,Langevin方程式の確率項を決定論的密度勾配項に置き換え,高確率ベイズ推定アルゴリズムを提案する。 粒子密度は、微分可能で高次元の一般化特性を有する正規化流(nf)を用いて現在の粒子位置から評価される。 我々はNFプレコンディショニングとNFベースのMetropolis-Hastingsのアップデートを活用し、より高速で偏りのない収束を実現する。 本手法は, 美術品の採取方法と競合することを示す。

We propose a general purpose Bayesian inference algorithm for expensive likelihoods, replacing the stochastic term in the Langevin equation with a deterministic density gradient term. The particle density is evaluated from the current particle positions using a Normalizing Flow (NF), which is differentiable and has good generalization properties in high dimensions. We take advantage of NF preconditioning and NF based Metropolis-Hastings updates for a faster and unbiased convergence. We show on various examples that the method is competitive against state of the art sampling methods.
翻訳日:2022-06-05 03:26:43 公開日:2022-05-27
# (参考訳) ステルスな裏口攻撃から守る

Defending Against Stealthy Backdoor Attacks ( http://arxiv.org/abs/2205.14246v1 )

ライセンス: CC BY 4.0
Sangeet Sagar, Abhinav Bhatt, Abhijith Srinivas Bidaralli(参考訳) セキュリティの脅威に対する防御は、最近の研究の関心である。 近年の研究では、自然言語処理(nlp)モデルに対して、それに対して防御しながら攻撃することは、いまだにキャットムースゲームであることを示している。 バックドア攻撃は、ニューラルネットワークがトリガーを含む特定のサンプルに対して特定の方法で実行され、他のサンプルで正常な結果が得られるような攻撃である。 そこで本研究では,このような攻撃に対して有効な防御戦略をいくつか提示する。 本手法は,攻撃された入力に対する性能を著しく低下させると同時に,良性入力に対する同様の性能を維持できることを示す。 また、いくつかの防御策はランタイムが極めて少なく、元の入力と類似性が維持されていることも示しています。

Defenses against security threats have been an interest of recent studies. Recent works have shown that it is not difficult to attack a natural language processing (NLP) model while defending against them is still a cat-mouse game. Backdoor attacks are one such attack where a neural network is made to perform in a certain way on specific samples containing some triggers while achieving normal results on other samples. In this work, we present a few defense strategies that can be useful to counter against such an attack. We show that our defense methodologies significantly decrease the performance on the attacked inputs while maintaining similar performance on benign inputs. We also show that some of our defenses have very less runtime and also maintain similarity with the original inputs.
翻訳日:2022-06-05 03:09:58 公開日:2022-05-27
# (参考訳) 音声に対する人間の皮質反応を効果的に説明する自己教師型音声モデル

Self-supervised models of audio effectively explain human cortical responses to speech ( http://arxiv.org/abs/2205.14252v1 )

ライセンス: CC BY 4.0
Aditya R. Vaidya, Shailee Jain, Alexander G. Huth(参考訳) 自己教師型言語モデルは、言語理解時の高次皮質反応を予測するのに非常に効果的である。 しかしながら、人間の脳における低レベルの聴覚処理の最良のモデルは、手作りの音響フィルタまたは教師付きオーディオニューラルネットワークの表現に依存する。 本研究では,自己教師型音声表現学習(SSL)の進歩に乗じて,人間の聴覚システムの最先端モデルを新たに構築する。 APC, wav2vec, wav2vec 2.0, HuBERTの中間層からの音響ベースライン, 音韻特性, 教師付きモデルと比較すると, 聴覚野(AC)内のfMRI記録において, 常に最高の予測性能が得られる。 低レベルの聴覚処理に関わる脳領域は初期のsslモデル層を好むが、高レベルの意味領域は後層を好む。 これらの傾向は、モデルが表現深度に沿って複数の言語レベル(音響、音声、語彙)で情報をエンコードする能力に起因していることを示す。 これらの結果は,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を効果的に捉えていることを示す。

Self-supervised language models are very effective at predicting high-level cortical responses during language comprehension. However, the best current models of lower-level auditory processing in the human brain rely on either hand-constructed acoustic filters or representations from supervised audio neural networks. In this work, we capitalize on the progress of self-supervised speech representation learning (SSL) to create new state-of-the-art models of the human auditory system. Compared against acoustic baselines, phonemic features, and supervised models, representations from the middle layers of self-supervised models (APC, wav2vec, wav2vec 2.0, and HuBERT) consistently yield the best prediction performance for fMRI recordings within the auditory cortex (AC). Brain areas involved in low-level auditory processing exhibit a preference for earlier SSL model layers, whereas higher-level semantic areas prefer later layers. We show that these trends are due to the models' ability to encode information at multiple linguistic levels (acoustic, phonetic, and lexical) along their representation depth. Overall, these results show that self-supervised models effectively capture the hierarchy of information relevant to different stages of speech processing in human cortex.
翻訳日:2022-06-05 03:03:41 公開日:2022-05-27
# (参考訳) 深層学習モデルの対称性とその内部表現について

On the Symmetries of Deep Learning Models and their Internal Representations ( http://arxiv.org/abs/2205.14258v1 )

ライセンス: CC BY 4.0
Charles Godfrey, Davis Brown, Tegan Emerson, Henry Kvinge(参考訳) 対称性は、幅広い複雑なシステムの探索において基本的な道具である。 機械学習では、モデルとデータの両方で対称性が研究されている。 本稿では,モデルファミリーのアーキテクチャから生じる対称性と,そのファミリーの内部データ表現の対称性を結びつける。 これはモデルの基本対称性群の集合を計算し、それをモデルの \emph{intertwiner groups} と呼ぶ。 これらはそれぞれ、モデルの特定の非線形層から生じ、異なる非線形性は異なる対称群をもたらす。 これらの群は、モデルが表す基礎関数が一定であるが、モデル内部のデータの内部表現が変化するような方法でモデルの重みを変化させる。 我々は、同じアーキテクチャを持つモデル間の隠れた状態間の類似性を調べる一連の実験を通して、データの内部表現に相互に結合する。 我々の研究は、ネットワークの対称性が、そのネットワークのデータ表現の対称性に伝播されることを示唆し、アーキテクチャが学習と予測プロセスにどのように影響するかをよりよく理解する。 最後に、ReLUネットワークでは、任意の線形結合ではなく、隠れ層における活性化に基づくモデル解釈可能性探索を集中させる一般的な手法の正当性を推測する。

Symmetry has been a fundamental tool in the exploration of a broad range of complex systems. In machine learning, symmetry has been explored in both models and data. In this paper we seek to connect the symmetries arising from the architecture of a family of models with the symmetries of that family's internal representation of data. We do this by calculating a set of fundamental symmetry groups, which we call the \emph{intertwiner groups} of the model. Each of these arises from a particular nonlinear layer of the model and different nonlinearities result in different symmetry groups. These groups change the weights of a model in such a way that the underlying function that the model represents remains constant but the internal representations of data inside the model may change. We connect intertwiner groups to a model's internal representations of data through a range of experiments that probe similarities between hidden states across models with the same architecture. Our work suggests that the symmetries of a network are propagated into the symmetries in that network's representation of data, providing us with a better understanding of how architecture affects the learning and prediction process. Finally, we speculate that for ReLU networks, the intertwiner groups may provide a justification for the common practice of concentrating model interpretability exploration on the activation basis in hidden layers rather than arbitrary linear combinations thereof.
翻訳日:2022-06-05 02:40:28 公開日:2022-05-27
# (参考訳) グラフニューラルネットワークを用いた画像キーポイントマッチング

Image Keypoint Matching using Graph Neural Networks ( http://arxiv.org/abs/2205.14275v1 )

ライセンス: CC BY 4.0
Nancy Xu, Giannis Nikolentzos, Michalis Vazirgiannis, and Henrik Bostr\"om(参考訳) 画像マッチングはコンピュータビジョンにおける多くのタスクの重要な要素であり、その主な目的は、異なる自然画像から抽出された特徴間の対応を見つけることである。 画像がグラフとして表現される場合、画像マッチングは、過去に深く研究されてきたグラフマッチングの問題に沸騰する。 近年、グラフニューラルネットワークは、グラフマッチングタスクにおいて大きな可能性を示しており、画像マッチングにも適用されている。 本稿では,画像マッチング問題に対するグラフニューラルネットワークを提案する。 提案手法は,まず局所ノード埋め込みを用いてキーポイント間の最初のソフト対応を生成し,その後,一連のグラフニューラルネットワーク層を用いて初期対応を反復的に洗練する。 提案手法は,キーポイントアノテーションを用いて自然画像データセットの手法を評価し,最先端モデルと比較して予測精度を犠牲にすることなく推論時間を高速化することを示す。

Image matching is a key component of many tasks in computer vision and its main objective is to find correspondences between features extracted from different natural images. When images are represented as graphs, image matching boils down to the problem of graph matching which has been studied intensively in the past. In recent years, graph neural networks have shown great potential in the graph matching task, and have also been applied to image matching. In this paper, we propose a graph neural network for the problem of image matching. The proposed method first generates initial soft correspondences between keypoints using localized node embeddings and then iteratively refines the initial correspondences using a series of graph neural network layers. We evaluate our method on natural image datasets with keypoint annotations and show that, in comparison to a state-of-the-art model, our method speeds up inference times without sacrificing prediction accuracy.
翻訳日:2022-06-05 02:39:23 公開日:2022-05-27
# ペインフルインテリジェンス:AIが人間の苦しみについて教えてくれるもの

Painful intelligence: What AI can tell us about human suffering ( http://arxiv.org/abs/2205.15409v1 )

ライセンス: Link先を確認
Aapo Hyv\"arinen(参考訳) この本は、人間の苦しみや精神的苦痛を理解するために、現代の人工知能理論(AI)を使用している。 人間と高度なAIエージェントは、目標を達成するために世界に関する情報を処理し、報酬を得る。 この本は、比較的一般の聴衆にこの理論をアクセスしやすくすることを目的としており、関連する科学的背景のみを必要とする。 本書は、苦痛は主にフラストレーションによって引き起こされるという仮定から始まる。 フラストレーション(フラストレーション)とは、エージェント(AIであれ人間であれ)が目標や期待した報酬を達成するのに失敗したことを指す。 世界の圧倒的な複雑さ、限られた計算資源、良いデータの不足のためにフラストレーションは避けられない。 特に、そのような制限は、現実世界で行動するエージェントが制御不能、予測不能、不確実性に対処しなければならないことを意味する。 このようなモデリングの基本は、学習の概念や環境への適応である。 AIは機械学習を使用しているが、人間と動物は進化のメカニズムと通常の学習の組み合わせで適応する。 フラストレーションは基本的にシステムが学習に使用するエラー信号です。 本書は、学習アルゴリズムの様々な側面と限界、および苦痛に関するそれらの影響を探求する。 書籍の最後には、計算理論は、人間の苦痛を減らす様々な介入や訓練方法を導出するために用いられる。 フラストレーションの量は、どのように軽減できるかを示す単純な方程式によって表される。 続く介入は仏教やストア哲学によって提案されたものと非常によく似ており、マインドフルネスの想起を含んでいる。 したがって、この本は、なぜそのような哲学や想いが人間の苦しみを和らげるのかを正当化する計算理論の解説と解釈できる。

This book uses the modern theory of artificial intelligence (AI) to understand human suffering or mental pain. Both humans and sophisticated AI agents process information about the world in order to achieve goals and obtain rewards, which is why AI can be used as a model of the human brain and mind. This book intends to make the theory accessible to a relatively general audience, requiring only some relevant scientific background. The book starts with the assumption that suffering is mainly caused by frustration. Frustration means the failure of an agent (whether AI or human) to achieve a goal or a reward it wanted or expected. Frustration is inevitable because of the overwhelming complexity of the world, limited computational resources, and scarcity of good data. In particular, such limitations imply that an agent acting in the real world must cope with uncontrollability, unpredictability, and uncertainty, which all lead to frustration. Fundamental in such modelling is the idea of learning, or adaptation to the environment. While AI uses machine learning, humans and animals adapt by a combination of evolutionary mechanisms and ordinary learning. Even frustration is fundamentally an error signal that the system uses for learning. This book explores various aspects and limitations of learning algorithms and their implications regarding suffering. At the end of the book, the computational theory is used to derive various interventions or training methods that will reduce suffering in humans. The amount of frustration is expressed by a simple equation which indicates how it can be reduced. The ensuing interventions are very similar to those proposed by Buddhist and Stoic philosophy, and include mindfulness meditation. Therefore, this book can be interpreted as an exposition of a computational theory justifying why such philosophies and meditation reduce human suffering.
翻訳日:2022-06-01 13:27:08 公開日:2022-05-27
# ネットワークエッジにおける連合学習のためのコミュニケーション・ラーニングトレードオフに向けて

Towards Communication-Learning Trade-off for Federated Learning at the Network Edge ( http://arxiv.org/abs/2205.14271v1 )

ライセンス: Link先を確認
Jianyang Ren, Wanli Ni, and Hui Tian(参考訳) 本稿では,限られたリソースを持つローカルユーザに対して,ネットワークプルーニングを適用する無線フェデレーション学習(FL)システムについて検討する。 プルーニングはfl遅延を減らすのに有用であるが、情報損失による学習性能も低下する。 これにより,コミュニケーションと学習のトレードオフ問題が発生する。 そこで本研究では,flの収束率を非凸損失関数で導出することにより,ネットワークプルーニングとパケットエラーが学習性能に及ぼす影響を定量化する。 次に、flレイテンシとfl性能の重み付け和を最小化するために、プルーニング制御と帯域割り当てのためのクローズドフォームソリューションを提案する。 最後に数値的な結果から 1) 提案手法は, コスト削減と精度保証の観点から, ベンチマークを上回ることができる。 2) 刈り取り速度が高いと通信オーバーヘッドは少なくなり, flの精度も低下する。

In this letter, we study a wireless federated learning (FL) system where network pruning is applied to local users with limited resources. Although pruning is beneficial to reduce FL latency, it also deteriorates learning performance due to the information loss. Thus, a trade-off problem between communication and learning is raised. To address this challenge, we quantify the effects of network pruning and packet error on the learning performance by deriving the convergence rate of FL with a non-convex loss function. Then, closed-form solutions for pruning control and bandwidth allocation are proposed to minimize the weighted sum of FL latency and FL performance. Finally, numerical results demonstrate that 1) our proposed solution can outperform benchmarks in terms of cost reduction and accuracy guarantee, and 2) a higher pruning rate would bring less communication overhead but also worsen FL accuracy, which is consistent with our theoretical analysis.
翻訳日:2022-05-31 18:42:07 公開日:2022-05-27
# 再構成可能な統合電子舌とその果汁・ワインの迅速分析への応用

A reconfigurable integrated electronic tongue and its use in accelerated analysis of juices and wines ( http://arxiv.org/abs/2205.15018v1 )

ライセンス: Link先を確認
Gianmarco Gabrieli, Michal Muszynski, Patrick W. Ruch(参考訳) 小型化とモノのインターネット(IoT)のトレンドを利用した電子舌(ET)は、飲料のような複雑な多成分液体の脆弱な化学分析を約束する。 本研究では,低選択性高分子センサアレイの過渡電位応答から手作り特徴抽出と,トレーニングされた機械学習モデルをクラウドバックエンドやエッジデバイスに展開するためのデータパイプラインを組み合わせる。 センサアレイは, 異なる有機酸に対する感受性を示し, 感性記述子に基づく教師付き学習による試料の識別, 熟成ジュースの消費者受容性の予測など, フルーツジュースとワインのフィンガープリンティングにおいて興味深い性能を示した。 製品認証,品質管理,および官能評価のサポートは,多成分液体の複雑な性質のキャラクタリゼーションを促進する統合電子舌の恩恵を受けるであろう応用の1つである。

Potentiometric electronic tongues (ETs) leveraging trends in miniaturization and internet of things (IoT) bear promise for facile mobile chemical analysis of complex multicomponent liquids, such as beverages. In this work, hand-crafted feature extraction from the transient potentiometric response of an array of low-selective miniaturized polymeric sensors is combined with a data pipeline for deployment of trained machine learning models on a cloud back-end or edge device. The sensor array demonstrated sensitivity to different organic acids and exhibited interesting performance for the fingerprinting of fruit juices and wines, including differentiation of samples through supervised learning based on sensory descriptors and prediction of consumer acceptability of aged juice samples. Product authentication, quality control and support of sensory evaluation are some of the applications that are expected to benefit from integrated electronic tongues that facilitate the characterization of complex properties of multi-component liquids.
翻訳日:2022-05-31 18:06:42 公開日:2022-05-27
# 局所予測による特徴とオブジェクト境界の教師なし学習

Unsupervised learning of features and object boundaries from local prediction ( http://arxiv.org/abs/2205.14195v1 )

ライセンス: Link先を確認
Heiko H. Sch\"utt and Wei Ji Ma(参考訳) 視覚システムは、画像から抽出する特徴と、位置を(プロト)オブジェクトに分類する方法の両方を学ぶ必要がある。 これらの2つの側面は通常別々に扱われるが、予測可能性については両者の手がかりとして議論される。 特徴とバウンダリを同じモデルに組み込むため、各因子が追加のバイナリ変数とペアリングされるペアワイズマルコフ確率場モデルを用いて特徴写像の層をモデル化し、その因子をオン/オフに切り替える。 2つの対比学習目標のうちの1つを用いて、マルコフ確率場因子の特徴とパラメータを、さらなる監視信号なしで画像から学習できる。 この損失に基づいて浅層ニューラルネットワークによって学習された特徴は、局所平均、反対色、gaborのようなストライプパターンである。 さらに,スイッチ変数を推定することにより,位置間の接続性を推定できる。 この接続から推測される輪郭は、輪郭に関するトレーニングなしでバークレー分断データベース(BSDS500)上で非常によく機能する。 したがって、空間を越えた予測計算はセグメンテーションと特徴学習の両方を補助し、これらの予測を最適化するために訓練されたモデルは人間の視覚システムと類似性を示す。 網膜視野は側方接続による空間上の予測を実装できるのではないかと推測する。

A visual system has to learn both which features to extract from images and how to group locations into (proto-)objects. Those two aspects are usually dealt with separately, although predictability is discussed as a cue for both. To incorporate features and boundaries into the same model, we model a layer of feature maps with a pairwise Markov random field model in which each factor is paired with an additional binary variable, which switches the factor on or off. Using one of two contrastive learning objectives, we can learn both the features and the parameters of the Markov random field factors from images without further supervision signals. The features learned by shallow neural networks based on this loss are local averages, opponent colors, and Gabor-like stripe patterns. Furthermore, we can infer connectivity between locations by inferring the switch variables. Contours inferred from this connectivity perform quite well on the Berkeley segmentation database (BSDS500) without any training on contours. Thus, computing predictions across space aids both segmentation and feature learning, and models trained to optimize these predictions show similarities to the human visual system. We speculate that retinotopic visual cortex might implement such predictions over space through lateral connections.
翻訳日:2022-05-31 17:57:59 公開日:2022-05-27
# スパースマルチタスク回帰の選択的推論とニューロイメージングへの応用

Selective Inference for Sparse Multitask Regression with Applications in Neuroimaging ( http://arxiv.org/abs/2205.14220v1 )

ライセンス: Link先を確認
Snigdha Panigrahi, Natasha Stewart, Chandra Sekhar Sripada, Elizaveta Levina(参考訳) マルチタスク学習は、同じ特徴セットから関連する応答変数のセットをモデル化し、各応答変数を個別に扱う方法と比較して予測性能とモデリング精度を向上させるために頻繁に使用される。 マルチタスク学習がシングルタスクの代替よりも強力な推論をもたらす可能性にもかかわらず、この分野の先行研究は不確実性定量化をほとんど省略している。 本論文は神経イメージングにおける一般的なマルチタスク問題であり,脳コネクトームデータと複数の認知タスクスコア(または他の被験者レベルの評価)の関係を理解することを目的としている。 我々は,この問題に対処するための選択的推論のためのフレームワークを提案する。 (i)スパーシティ誘導ペナルティを通じて、各タスクに関連するコヴァリエートを共同で特定すること。 (ii)推定スパーシティ構造に基づくモデルにおいて有効な推論を行う。 提案手法は,選択可能確率を導出する選択イベントの精細化に基づく,推論のための新しい条件付き手続きを提供する。 これにより、単一の凸最適化問題によって解ける最大極大推定方程式を近似的に推定し、ほぼ正しいカバレッジで信頼区間を効率的に形成することができる。 思春期認知脳発達(ABCD)研究のシミュレーションデータとデータの両方に適用すると、選択推論手法は、データ分割などの一般的な代替手段よりも厳密な信頼区間が得られる。 また,選択推論によるマルチタスク学習により,単一タスク法よりも真の信号をより正確に復元できることを示す。

Multi-task learning is frequently used to model a set of related response variables from the same set of features, improving predictive performance and modeling accuracy relative to methods that handle each response variable separately. Despite the potential of multi-task learning to yield more powerful inference than single-task alternatives, prior work in this area has largely omitted uncertainty quantification. Our focus in this paper is a common multi-task problem in neuroimaging, where the goal is to understand the relationship between multiple cognitive task scores (or other subject-level assessments) and brain connectome data collected from imaging. We propose a framework for selective inference to address this problem, with the flexibility to: (i) jointly identify the relevant covariates for each task through a sparsity-inducing penalty, and (ii) conduct valid inference in a model based on the estimated sparsity structure. Our framework offers a new conditional procedure for inference, based on a refinement of the selection event that yields a tractable selection-adjusted likelihood. This gives an approximate system of estimating equations for maximum likelihood inference, solvable via a single convex optimization problem, and enables us to efficiently form confidence intervals with approximately the correct coverage. Applied to both simulated data and data from the Adolescent Cognitive Brain Development (ABCD) study, our selective inference methods yield tighter confidence intervals than commonly used alternatives, such as data splitting. We also demonstrate through simulations that multi-task learning with selective inference can more accurately recover true signals than single-task methods.
翻訳日:2022-05-31 17:53:54 公開日:2022-05-27
# 一般化された削減:階層的クラスタリングを公平にし、低コストでバランスをとる

Generalized Reductions: Making any Hierarchical Clustering Fair and Balanced with Low Cost ( http://arxiv.org/abs/2205.14198v1 )

ライセンス: Link先を確認
Marina Knittel, John P. Dickerson, MohammadTaghi Hajiaghayi(参考訳) クラスタリングは、最新の統計分析パイプラインの基本構成要素である。 公正なクラスタリングは、近年、機械学習コミュニティから多くの注目を集めている。 私たちは、2020年にNeurIPSからAhmadianらによって得られた結果に続いて、階層的クラスタリングの文脈でフェアネスを研究した最初の人です。 dasguptaのコスト関数(おそらく最も一般的な階層的クラスタリング評価の理論的指標の1つ)を用いて結果を評価した。 我々の研究は、これまでの$o(n^{5/6}poly\log(n))$フェア近似を、任意の定数$\delta\in(0,1)$に対してほぼ多対数な$o(n^\delta poly\log(n))$フェア近似に大幅に改善した。 この結果は、コストフェアネスのトレードオフを確立し、以前の作業よりも広い公正性の制約にまで拡張します。 また,既存の階層的クラスタリングを変更する方法を示し,階層内の任意のレベルにわたって公平性とクラスタバランスを保証する。

Clustering is a fundamental building block of modern statistical analysis pipelines. Fair clustering has seen much attention from the machine learning community in recent years. We are some of the first to study fairness in the context of hierarchical clustering, after the results of Ahmadian et al. from NeurIPS in 2020. We evaluate our results using Dasgupta's cost function, perhaps one of the most prevalent theoretical metrics for hierarchical clustering evaluation. Our work vastly improves the previous $O(n^{5/6}poly\log(n))$ fair approximation for cost to a near polylogarithmic $O(n^\delta poly\log(n))$ fair approximation for any constant $\delta\in(0,1)$. This result establishes a cost-fairness tradeoff and extends to broader fairness constraints than the previous work. We also show how to alter existing hierarchical clusterings to guarantee fairness and cluster balance across any level in the hierarchy.
翻訳日:2022-05-31 17:53:13 公開日:2022-05-27
# ロバストPhi-Divergence MDP

Robust Phi-Divergence MDPs ( http://arxiv.org/abs/2205.14202v1 )

ライセンス: Link先を確認
Chin Pang Ho, Marek Petrik, Wolfram Wiesemann(参考訳) 近年,ロバストマルコフ決定プロセス(mdps)が,不確実性に影響を受ける動的決定問題のモデリングフレームワークとして注目されている。 古典的なMDPは、既知の遷移カーネルによる確率過程を通して力学をモデル化することでしか確率性を考慮しないが、ロバストなMDPは、所定のあいまい性集合から最も有害な遷移カーネルを最適化することで曖昧性も考慮している。 本稿では,s-rectangular ambiguity setを用いたロバストmdpのための新しい解フレームワークを開発し,ロバストなベルマン更新とsimplex射影の列に問題を分解する。 phi-divergence ambiguity 集合に対応する単純射影に存在するリッチな構造をエクスプロットすることにより、関連するs-正方形ロバスト MDP が最先端の商用解法や最近の一階解法よりも大幅に高速に解けることを示す。

In recent years, robust Markov decision processes (MDPs) have emerged as a prominent modeling framework for dynamic decision problems affected by uncertainty. In contrast to classical MDPs, which only account for stochasticity by modeling the dynamics through a stochastic process with a known transition kernel, robust MDPs additionally account for ambiguity by optimizing in view of the most adverse transition kernel from a prescribed ambiguity set. In this paper, we develop a novel solution framework for robust MDPs with s-rectangular ambiguity sets that decomposes the problem into a sequence of robust Bellman updates and simplex projections. Exploiting the rich structure present in the simplex projections corresponding to phi-divergence ambiguity sets, we show that the associated s-rectangular robust MDPs can be solved substantially faster than with state-of-the-art commercial solvers as well as a recent first-order solution scheme, thus rendering them attractive alternatives to classical MDPs in practical applications.
翻訳日:2022-05-31 17:52:54 公開日:2022-05-27
# 競合勾配最適化

Competitive Gradient Optimization ( http://arxiv.org/abs/2205.14232v1 )

ライセンス: Link先を確認
Abhijeet Vyas and Kamyar Azizzadenesheli(参考訳) ゼロサムゲームにおける定常点への収束問題について検討する。 我々は,ゼロサムゲームにおける2人のプレイヤー間の相互作用を組み込んだ最適化手法である競争勾配最適化(CGO)を提案する。 我々は,cgoの前駆者が勾配降下上昇 (gda) 変種に退化することを示しながら,cgoとその収束特性の連続時間解析を行う。 我々は定常点への収束率を提供し、さらに収束解析を提供する、$\alpha$-coherent関数の一般化クラスを提案する。 厳密な$\alpha$-コヒーレント関数に対しては、アルゴリズムが鞍点に収束することを示す。 さらに, 楽観的変種である楽観的 cgo (ocgo) を提案し, 関数の$\alpha$-coherent クラスにおいて, サドル点への収束率を示す。

We study the problem of convergence to a stationary point in zero-sum games. We propose competitive gradient optimization (CGO ), a gradient-based method that incorporates the interactions between the two players in zero-sum games for optimization updates. We provide continuous-time analysis of CGO and its convergence properties while showing that in the continuous limit, CGO predecessors degenerate to their gradient descent ascent (GDA) variants. We provide a rate of convergence to stationary points and further propose a generalized class of $\alpha$-coherent function for which we provide convergence analysis. We show that for strictly $\alpha$-coherent functions, our algorithm convergences to a saddle point. Moreover, we propose optimistic CGO (OCGO), an optimistic variant, for which we show convergence rate to saddle points in $\alpha$-coherent class of functions.
翻訳日:2022-05-31 17:51:06 公開日:2022-05-27
# 対話システムにおける高速・軽量回答テキスト検索

Fast and Light-Weight Answer Text Retrieval in Dialogue Systems ( http://arxiv.org/abs/2205.14226v1 )

ライセンス: Link先を確認
Hui Wan, Siva Sankalp Patel, J. William Murdock, Saloni Potdar, Sachindra Joshi(参考訳) 対話システムは、特に手動でキュレートされた応答が得られない要求に遭遇する場合、テキストのコーパスを検索して、ユーザ要求に関連する情報を見つけることができる。 ニューラルネットワークの高密度検索や再ランクのための最先端技術には、数億のパラメータを持つディープラーニングモデルが含まれる。 しかし、このようなモデルを産業規模で運用することは困難で費用がかかる。特に、個別にカスタマイズされた対話システムの多くをサポートする必要があるクラウドサービスには、それぞれ独自のテキストコーパスがある。 我々は,比較的安価なハードウェア上で,高度なニューラルネットワークの高密度検索システムが効果的に動作するようにするための取り組みについて報告する。 先進的な代替産業ソリューションと比較し、効果的で高速でコスト効率の良いソリューションを提供できることを示した。

Dialogue systems can benefit from being able to search through a corpus of text to find information relevant to user requests, especially when encountering a request for which no manually curated response is available. The state-of-the-art technology for neural dense retrieval or re-ranking involves deep learning models with hundreds of millions of parameters. However, it is difficult and expensive to get such models to operate at an industrial scale, especially for cloud services that often need to support a big number of individually customized dialogue systems, each with its own text corpus. We report our work on enabling advanced neural dense retrieval systems to operate effectively at scale on relatively inexpensive hardware. We compare with leading alternative industrial solutions and show that we can provide a solution that is effective, fast, and cost-efficient.
翻訳日:2022-05-31 16:59:50 公開日:2022-05-27
# StarGraph: 大規模知識グラフのための粗大な表現方法

StarGraph: A Coarse-to-Fine Representation Method for Large-Scale Knowledge Graph ( http://arxiv.org/abs/2205.14209v1 )

ライセンス: Link先を確認
Hongzhu Li, Xiangrui Gao, Yafeng Deng(参考訳) 知識グラフ(KG)の従来の表現学習アルゴリズムは、各エンティティを固有の埋め込みベクトルにマッピングし、近隣エンティティに含まれる豊富な情報を無視する。 本稿では,大規模知識グラフに周辺情報を活用し,より優れた実体表現を実現する手法であるStarGraphを提案する。 中心となる考え方は、近隣情報をサンプリングと処理の異なるレベルに分割することであり、一般化された粗粒度情報と独自の細粒度情報を組み合わせて各ノードに効率的なサブグラフを生成する。 さらに,サブグラフの処理とエンティティ表現の取得のために自己アテンションネットワークが提案され,従来の方法でのエンティティ埋め込みを置き換えるために使用される。 提案手法は,ogbl-wikikg2データセットの有効性を検証する。 コードはhttps://github.com/hzli-ucas/StarGraphで入手できる。

Conventional representation learning algorithms for knowledge graphs (KG) map each entity to a unique embedding vector, ignoring the rich information contained in neighbor entities. We propose a method named StarGraph, which gives a novel way to utilize the neighborhood information for large-scale knowledge graphs to get better entity representations. The core idea is to divide the neighborhood information into different levels for sampling and processing, where the generalized coarse-grained information and unique fine-grained information are combined to generate an efficient subgraph for each node. In addition, a self-attention network is proposed to process the subgraphs and get the entity representations, which are used to replace the entity embeddings in conventional methods. The proposed method achieves the best results on the ogbl-wikikg2 dataset, which validates the effectiveness of it. The code is now available at https://github.com/hzli-ucas/StarGraph
翻訳日:2022-05-31 16:59:37 公開日:2022-05-27
# パーソナライズされたページランクグラフアテンションネットワーク

Personalized PageRank Graph Attention Networks ( http://arxiv.org/abs/2205.14259v1 )

ライセンス: Link先を確認
Julie Choi(参考訳) 過去数年間、表現学習に対するグラフニューラルネットワーク(GNN)への関心が高まっている。 GNNはグラフ構造化データから学ぶための汎用的で効率的なフレームワークを提供する。 しかし、GNNは通常、過剰なスムーシングを避けるために、各ノードの非常に限られた近傍の情報のみを使用する。 より多くの情報をモデルに提供するには、より大きな近所が望ましいだろう。 本研究では,グラフアテンションネットワーク (gats) にパーソナライズされたページランク (ppr) の限界分布を組み込むことにより,オーバースムーシングを導入することなく,より大きな隣接情報を反映する。 直感的には、パーソナライズされたPageRankに基づくメッセージアグリゲーションは、無限に多くの近傍アグリゲーション層に対応する。 我々のモデルは、広く使用されている4つのベンチマークデータセットにおいて、様々なベースラインモデルよりも優れていることを示す。 私たちの実装はオンラインで公開されています。

There has been a rising interest in graph neural networks (GNNs) for representation learning over the past few years. GNNs provide a general and efficient framework to learn from graph-structured data. However, GNNs typically only use the information of a very limited neighborhood for each node to avoid over-smoothing. A larger neighborhood would be desirable to provide the model with more information. In this work, we incorporate the limit distribution of Personalized PageRank (PPR) into graph attention networks (GATs) to reflect the larger neighbor information without introducing over-smoothing. Intuitively, message aggregation based on Personalized PageRank corresponds to infinitely many neighborhood aggregation layers. We show that our models outperform a variety of baseline models for four widely used benchmark datasets. Our implementation is publicly available online.
翻訳日:2022-05-31 16:59:20 公開日:2022-05-27
# NeuPSL: 神経確率的ソフト論理

NeuPSL: Neural Probabilistic Soft Logic ( http://arxiv.org/abs/2205.14268v1 )

ライセンス: Link先を確認
Connor Pryor, Charles Dickens, Eriq Augustine, Alon Albalak, William Wang, Lise Getoor(参考訳) 我々は,ニューラル確率的ソフト論理(NeuPSL)を提案する。ニューラルシンボリック(NeSy)フレームワークは,最先端のシンボル推論と深層ニューラルネットワークの低レベル認識を一体化したものである。 ニューラル表現とシンボリック表現の境界を明示的にモデル化するために、ニューラル推論とシンボリック推論を組み合わせたエネルギーベースモデルの一般的なファミリーであるnesyエネルギーベースモデルを導入する。 このフレームワークを用いて、ニューラルネットワークとシンボリックパラメータ学習と推論をシームレスに統合する方法を示す。 我々は広範囲な経験的評価を行い,NeuPSLが既存のジョイント推論法よりも優れており,ほぼ全ての設定においてばらつきが著しく低いことを示す。

We present Neural Probabilistic Soft Logic (NeuPSL), a novel neuro-symbolic (NeSy) framework that unites state-of-the-art symbolic reasoning with the low-level perception of deep neural networks. To explicitly model the boundary between neural and symbolic representations, we introduce NeSy Energy-Based Models, a general family of energy-based models that combine neural and symbolic reasoning. Using this framework, we show how to seamlessly integrate neural and symbolic parameter learning and inference. We perform an extensive empirical evaluation and show that NeuPSL outperforms existing methods on joint inference and has significantly lower variance in almost all settings.
翻訳日:2022-05-31 16:57:09 公開日:2022-05-27
# モーメントムスティフェル最適化と適切な直交姿勢と最適輸送への応用

Momentum Stiefel Optimizer, with Applications to Suitably-Orthogonal Attention, and Optimal Transport ( http://arxiv.org/abs/2205.14173v1 )

ライセンス: Link先を確認
Lingkai Kong, Yuqing Wang, Molei Tao(参考訳) スティーフェル多様体上の最適化の問題、すなわち直交制約を満たす(必ずしも正方でない)行列の函数を最小化する問題は、部分的にはリッチ機械学習応用のために広く研究されている。 しかし, 思考的に設計された連続ダイナミクスと離散ダイナミクスの相互作用に基づいて, 新たなアプローチが提案されている。 これは本質的に運動量を加えた勾配ベースのオプティマイザにつながる。 この方法は多様体構造を正確に保存するが、一般的に使用される射影や引き算は必要とせず、既存のアルゴリズムと比較して計算コストが低い。 適応学習率への一般化も示されている。 各種の実践課題において, プレザントパフォーマンスが観察される。 例えば、訓練済みの視覚変換器(Dosovitskiy et al. 2022)の注意頭部に直交制約を配置すると、最適化器を使用する場合、その性能が著しく向上し、各頭部は内部で直交するが、必ずしも他の頭部に直交するわけではないことが分かる。 このオプティマイザはまた、プロジェクションのRobust Wasserstein Distance [Paty & Cuturi 2019][Lin et al. 2020]をハイディムに役立てています。 最適な輸送手段が より効果的です

The problem of optimization on Stiefel manifold, i.e., minimizing functions of (not necessarily square) matrices that satisfy orthogonality constraints, has been extensively studied, partly due to rich machine learning applications. Yet, a new approach is proposed based on, for the first time, an interplay between thoughtfully designed continuous and discrete dynamics. It leads to a gradient-based optimizer with intrinsically added momentum. This method exactly preserves the manifold structure but does not require commonly used projection or retraction, and thus having low computational costs when compared to existing algorithms. Its generalization to adaptive learning rates is also demonstrated. Pleasant performances are observed in various practical tasks. For instance, we discover that placing orthogonal constraints on attention heads of trained-from-scratch Vision Transformer [Dosovitskiy et al. 2022] could remarkably improve its performance, when our optimizer is used, and it is better that each head is made orthogonal within itself but not necessarily to other heads. This optimizer also makes the useful notion of Projection Robust Wasserstein Distance [Paty & Cuturi 2019][Lin et al. 2020] for high-dim. optimal transport even more effective.
翻訳日:2022-05-31 16:23:28 公開日:2022-05-27
# ニューラル分解オラクルによる制御可能なテキスト生成

Controllable Text Generation with Neurally-Decomposed Oracle ( http://arxiv.org/abs/2205.14219v1 )

ライセンス: Link先を確認
Tao Meng, Sidi Lu, Nanyun Peng and Kai-Wei Chang(参考訳) 我々はNeurAlly-Decomposed Oracle (NADO) を用いた自動回帰生成モデルを制御する汎用的で効率的なフレームワークを提案する。 事前学習されたベース言語モデルとシーケンスレベルのboolean oracle関数が与えられた場合、私たちは、oracle関数をトークンレベルのガイダンスに分解して、テキスト生成のベースモデルを制御することを提案します。 具体的には、トークンレベルのガイダンスは、ベースモデルからサンプルをサンプルとしてトレーニングされたニューラルネットワークによって近似され、追加の補助ラベル付きデータを必要としない。 制御可能な生成のためのベースモデルにトークンレベルのガイダンスを組み込むための閉形式最適解を提案する。 さらに、NADOの近似品質が制御可能な生成結果に与える影響を理論的に分析する。 1) 語彙制約付きテキスト生成と(2) 形式制御付き機械翻訳の2つの応用実験により,本フレームワークは,高次品質を維持しつつ,ベースモデルを与えられたオラクルへ効率的に誘導することを示した。

We propose a general and efficient framework to control auto-regressive generation models with NeurAlly-Decomposed Oracle (NADO). Given a pre-trained base language model and a sequence-level boolean oracle function, we propose to decompose the oracle function into token-level guidance to steer the base model in text generation. Specifically, the token-level guidance is approximated by a neural model trained with examples sampled from the base model, demanding no additional auxiliary labeled data. We present the closed-form optimal solution to incorporate the token-level guidance into the base model for controllable generation. We further provide a theoretical analysis of how the approximation quality of NADO affects the controllable generation results. Experiments conducted on two applications: (1) text generation with lexical constraints and (2) machine translation with formality control demonstrate that our framework efficiently guides the base model towards the given oracle while maintaining high generation quality.
翻訳日:2022-05-31 16:23:01 公開日:2022-05-27
# 探索戦略を再定義する学習による証明と理論の学習

Learning to Find Proofs and Theorems by Learning to Refine Search Strategies ( http://arxiv.org/abs/2205.14229v1 )

ライセンス: Link先を確認
Jonathan Laurent and Andr\'e Platzer(参考訳) 非決定論的プログラムとして表現される高水準のエキスパート戦略を洗練するために,alphazero型エージェントが自己学習する自動定理証明と推論プログラム合成のための新しいアプローチを提案する。 類似教師エージェントは、学習者にとって適切な関連性と難易度のあるタスクを生成するための自己学習を行う。 これにより、最小限のドメイン知識を活用して、トレーニングデータが利用できない、あるいは合成が難しい問題に取り組むことができる。 本稿では,命令型プログラムのループ不変合成問題と,ニューラルネットワークを用いて教師と解法の両方を洗練する手法について述べる。

We propose a new approach to automated theorem proving and deductive program synthesis where an AlphaZero-style agent is self-training to refine a high-level expert strategy expressed as a nondeterministic program. An analogous teacher agent is self-training to generate tasks of suitable relevance and difficulty for the learner. This allows leveraging minimal amounts of domain knowledge to tackle problems for which training data is unavailable or hard to synthesize. We illustrate our approach on the problem of loop invariant synthesis for imperative programs and using neural networks to refine both the teacher and solver strategies.
翻訳日:2022-05-31 16:16:07 公開日:2022-05-27
# Exemplar Free Class Agnostic Counting

Exemplar Free Class Agnostic Counting ( http://arxiv.org/abs/2205.14212v1 )

ライセンス: Link先を確認
Viresh Ranjan and Minh Hoai(参考訳) テスト時に新しいオブジェクトカテゴリのオブジェクトを、そのカテゴリのラベル付きトレーニングデータにアクセスせずにカウントすることを目的としたクラス非依存カウントの課題に取り組む。 従来のクラス非依存カウント手法は、完全に自動化された環境では機能せず、計算に高価なテスト時間適応を必要とする。 これらの課題に対処するため,我々は,完全に自動で動作し,テスト時間適応を必要としない視覚カウンタを提案する。 提案手法は,まず画像中のオブジェクトの繰り返しから例を識別し,次に繰り返しオブジェクトをカウントする。 本稿では,その先駆者を特定するための新しい地域提案ネットワークを提案する。 実例を同定した後、密度推定に基づく視覚的カウンタを用いて対応するカウントを求める。 FSC-147データセットに対する提案手法の評価を行い,既存手法と比較して優れた性能を示す。

We tackle the task of Class Agnostic Counting, which aims to count objects in a novel object category at test time without any access to labeled training data for that category. All previous class agnostic counting methods cannot work in a fully automated setting, and require computationally expensive test time adaptation. To address these challenges, we propose a visual counter which operates in a fully automated setting and does not require any test time adaptation. Our proposed approach first identifies exemplars from repeating objects in an image, and then counts the repeating objects. We propose a novel region proposal network for identifying the exemplars. After identifying the exemplars, we obtain the corresponding count by using a density estimation based Visual Counter. We evaluate our proposed approach on FSC-147 dataset, and show that it achieves superior performance compared to the existing approaches.
翻訳日:2022-05-31 16:13:31 公開日:2022-05-27
# 個人とビザンチンの協調的意思決定

Private and Byzantine-Proof Cooperative Decision-Making ( http://arxiv.org/abs/2205.14174v1 )

ライセンス: Link先を確認
Abhimanyu Dubey and Alex Pentland(参考訳) 協調バンディット問題(collaborative bandit problem)は、複数腕のバンディットと同時に相互作用するエージェント群が遅延でネットワークを介して通信するマルチエージェント決定問題である。 この問題の中心的な考え方は、コミュニケーションを効率的に活用し、単独で行動することよりも改善するアルゴリズムを設計することである。 本稿では,2つの条件下での確率的バンディット問題について検討する。 (a)行為の順序に関して、代理人が通信を非公開にしたいときは、 (b) エージェントがビザンチンである場合、すなわち、(統計的に)誤った情報を提供する。 これら2つの問題設定に対して、最適後悔を得る上限有界アルゴリズムを提供する。 a) 差別的に私的かつ (b)ビザンチン剤に耐性がある。 我々の分散アルゴリズムはエージェント間の接続のネットワークに関する情報を必要としないため、大規模な動的システムにスケーラブルである。 我々は、アルゴリズムをランダムグラフの競合ベンチマークでテストし、既存のロバストアルゴリズムよりも優れた性能を示す。 当社の作業が、プライバシを維持する分散型意思決定システムを構築するための重要なステップになることを期待しています。

The cooperative bandit problem is a multi-agent decision problem involving a group of agents that interact simultaneously with a multi-armed bandit, while communicating over a network with delays. The central idea in this problem is to design algorithms that can efficiently leverage communication to obtain improvements over acting in isolation. In this paper, we investigate the stochastic bandit problem under two settings - (a) when the agents wish to make their communication private with respect to the action sequence, and (b) when the agents can be byzantine, i.e., they provide (stochastically) incorrect information. For both these problem settings, we provide upper-confidence bound algorithms that obtain optimal regret while being (a) differentially-private and (b) tolerant to byzantine agents. Our decentralized algorithms require no information about the network of connectivity between agents, making them scalable to large dynamic systems. We test our algorithms on a competitive benchmark of random graphs and demonstrate their superior performance with respect to existing robust algorithms. We hope that our work serves as an important step towards creating distributed decision-making systems that maintain privacy.
翻訳日:2022-05-31 15:29:10 公開日:2022-05-27
# サンプリングによる訓練されたreluニューラルネットワークの目的関数の最適化

Optimizing Objective Functions from Trained ReLU Neural Networks via Sampling ( http://arxiv.org/abs/2205.14189v1 )

ライセンス: Link先を確認
Georgia Perakis and Asterios Tsiourvas(参考訳) 本稿では、ReLUアクティベーションを用いたトレーニングニューラルネットワークを最適化するスケーラブルなサンプリングベースアルゴリズムを提案する。 まず,reluニューラルネットワークの分割線形構造を生かした反復アルゴリズムを提案し,サンプリングにより初期混合整数最適化問題 (mip) を複数の解き易い線形最適化問題 (lps) に還元する。 その後、各反復で計算されたLP解の近傍を探索することにより、このアプローチを拡張した。 この手法により、初期MIP問題をより小さく簡単に解けるMIPに還元する2番目の拡張アルゴリズムを考案できる。 手法の収束を解析的に示し,サンプル複雑性の保証を提供する。 また、最先端のMIP手法と比較することにより、アルゴリズムの性能を検証する。 最後に, サンプリングアルゴリズムを, MIP ベースの手法のウォームスタートに効果的に利用する方法を示す。

This paper introduces scalable, sampling-based algorithms that optimize trained neural networks with ReLU activations. We first propose an iterative algorithm that takes advantage of the piecewise linear structure of ReLU neural networks and reduces the initial mixed-integer optimization problem (MIP) into multiple easy-to-solve linear optimization problems (LPs) through sampling. Subsequently, we extend this approach by searching around the neighborhood of the LP solution computed at each iteration. This scheme allows us to devise a second, enhanced algorithm that reduces the initial MIP problem into smaller, easier-to-solve MIPs. We analytically show the convergence of the methods and we provide a sample complexity guarantee. We also validate the performance of our algorithms by comparing them against state-of-the-art MIP-based methods. Finally, we show computationally how the sampling algorithms can be used effectively to warm-start MIP-based methods.
翻訳日:2022-05-31 15:28:55 公開日:2022-05-27
# MIP-GNN - Combinatorのソリューションを導くためのデータ駆動フレームワーク

MIP-GNN: A Data-Driven Framework for Guiding Combinatorial Solvers ( http://arxiv.org/abs/2205.14210v1 )

ライセンス: Link先を確認
Elias B. Khalil, Christopher Morris, Andrea Lodi(参考訳) 混合整数プログラミング(MIP)技術は組合せ最適化問題の定式化と解法を提供する。 一般的には信頼性が高いが、最先端のMIP解法は手作りのヒューリスティックスに多くの決定を基づき、興味のある問題のインスタンス分布における共通パターンを無視している。 本稿では,データ駆動型インサイトによる問題解決のための汎用フレームワークであるMIP-GNNを提案する。 与えられた混合整数線形プログラム(MILP)の変数制約相互作用を二部グラフとして符号化することにより、最先端のグラフニューラルネットワークアーキテクチャを利用して、変数バイアス、すなわち、(ほぼ)最適解のコンポーネントワイド平均を予測し、バイナリMILPの最適解において、変数が0または1に設定される可能性を示す。 逆に、一度訓練された1つのモデルから生じる予測バイアスは、ヒューリスティック成分を置き換えて解法を導出するために使用される。 我々は、mip-gnnを最先端のmipソルバに統合し、ノード選択やウォームスタートなどのタスクに適用し、挑戦的なバイナリミルプの2つのクラスにおけるソルバのデフォルト設定と比較して大幅に改善した。

Mixed-integer programming (MIP) technology offers a generic way of formulating and solving combinatorial optimization problems. While generally reliable, state-of-the-art MIP solvers base many crucial decisions on hand-crafted heuristics, largely ignoring common patterns within a given instance distribution of the problem of interest. Here, we propose MIP-GNN, a general framework for enhancing such solvers with data-driven insights. By encoding the variable-constraint interactions of a given mixed-integer linear program (MILP) as a bipartite graph, we leverage state-of-the-art graph neural network architectures to predict variable biases, i.e., component-wise averages of (near) optimal solutions, indicating how likely a variable will be set to 0 or 1 in (near) optimal solutions of binary MILPs. In turn, the predicted biases stemming from a single, once-trained model are used to guide the solver, replacing heuristic components. We integrate MIP-GNN into a state-of-the-art MIP solver, applying it to tasks such as node selection and warm-starting, showing significant improvements compared to the default setting of the solver on two classes of challenging binary MILPs.
翻訳日:2022-05-31 15:28:36 公開日:2022-05-27
# 双方向最適化はループから利益を得るか

Will Bilevel Optimizers Benefit from Loops ( http://arxiv.org/abs/2205.14224v1 )

ライセンス: Link先を確認
Kaiyi Ji, Mingrui Liu, Yingbin Liang, Lei Ying(参考訳) バイレベル最適化は、さまざまな機械学習問題を解決する強力なツールとして生まれました。 現在一般的な2レベル最適化ツールである aid-bio と itd-bio の2つは、自然に1つまたは2つのサブプロブレムを解決し、その結果、これらの問題をループ(多くのイテレーションが必要)で解決するか、ループ(数回のイテレーションしか要らない)なしで解決するかは、全体的な計算効率に大きな影響を与えます。 文献における既存の研究は、これらの実装選択のいくつかのみをカバーしており、利用可能な複雑さの境界は、異なる実装間で厳密な比較を可能にするには不十分である。 本稿では,まず,AID-BiOとITD-BiOの両方に対して,ループのすべての実装選択に適用可能な統一収束解析を確立する。 次に、各実装の計算複雑性を特徴付けるために結果の専門化を行い、その比較を明示する。 その結果,aid-bioでは,内部関数の最適点を推定するループは全体の効率に有益であるが,更新ステップごとに複雑度が高くなり,外層ヘッセン逆ベクトル積を近似するループは勾配複雑性を減少させることがわかった。 itd-bioでは、2つのループは常に共存しており、上界と下界の収束は、そのようなループが消滅する収束誤差を保証するために必要であることを示している。 我々の数値実験は我々の理論結果をさらに裏付ける。

Bilevel optimization has arisen as a powerful tool for solving a variety of machine learning problems. Two current popular bilevel optimizers AID-BiO and ITD-BiO naturally involve solving one or two sub-problems, and consequently, whether we solve these problems with loops (that take many iterations) or without loops (that take only a few iterations) can significantly affect the overall computational efficiency. Existing studies in the literature cover only some of those implementation choices, and the complexity bounds available are not refined enough to enable rigorous comparison among different implementations. In this paper, we first establish unified convergence analysis for both AID-BiO and ITD-BiO that are applicable to all implementation choices of loops. We then specialize our results to characterize the computational complexity for all implementations, which enable an explicit comparison among them. Our result indicates that for AID-BiO, the loop for estimating the optimal point of the inner function is beneficial for overall efficiency, although it causes higher complexity for each update step, and the loop for approximating the outer-level Hessian-inverse-vector product reduces the gradient complexity. For ITD-BiO, the two loops always coexist, and our convergence upper and lower bounds show that such loops are necessary to guarantee a vanishing convergence error, whereas the no-loop scheme suffers from an unavoidable non-vanishing convergence error. Our numerical experiments further corroborate our theoretical results.
翻訳日:2022-05-31 15:27:31 公開日:2022-05-27
# 軌道予測のための半教師付きセマンティクス学習

Semi-supervised Semantics-guided Adversarial Training for Trajectory Prediction ( http://arxiv.org/abs/2205.14230v1 )

ライセンス: Link先を確認
Ruochen Jiao, Xiangguo Liu, Takami Sato, Qi Alfred Chen and Qi Zhu(参考訳) 周囲の物体の軌道を予測することは、自動運転や他の多くの自律システムにおいて重要な課題である。 近年の研究では、歴史トラジェクトリに小さな工芸的な摂動を導入した軌道予測に対する敵対攻撃が、将来の軌道予測を著しく誤解させ、最終的には安全でない計画をもたらすことが示されている。 しかし、この重要な安全クリティカルなタスクの堅牢性向上に対処した作品はほとんどない。 本稿では,軌道予測のための最初の逆方向学習法を提案する。 イメージタスクにおける典型的な対角的トレーニングと比較すると,よりランダムな入力や,クラスラベルの欠如が問題となっている。 これらの課題に対処するため,我々は,半教師付きadversarial autoencoderに基づく手法を提案する。 我々の半教師付きセマンティクスによる敵攻撃訓練手法は、敵攻撃の影響を効果的に軽減し、通常、目に見えない攻撃を含む様々な攻撃に対するシステムの敵の堅牢性を改善することができることを示す。 このような意味論的アーキテクチャと堅牢な一般化の進歩は、堅牢な予測モデルを開発し、安全な意思決定を可能にする上で重要なステップであると考えています。

Predicting the trajectories of surrounding objects is a critical task in self-driving and many other autonomous systems. Recent works demonstrate that adversarial attacks on trajectory prediction, where small crafted perturbations are introduced to history trajectories, may significantly mislead the prediction of future trajectories and ultimately induce unsafe planning. However, few works have addressed enhancing the robustness of this important safety-critical task. In this paper, we present the first adversarial training method for trajectory prediction. Compared with typical adversarial training on image tasks, our work is challenged by more random inputs with rich context, and a lack of class labels. To address these challenges, we propose a method based on a semi-supervised adversarial autoencoder that models disentangled semantic features with domain knowledge and provides additional latent labels for the adversarial training. Extensive experiments with different types of attacks demonstrate that our semi-supervised semantics-guided adversarial training method can effectively mitigate the impact of adversarial attacks and generally improve the system's adversarial robustness to a variety of attacks, including unseen ones. We believe that such semantics-guided architecture and advancement in robust generalization is an important step for developing robust prediction models and enabling safe decision making.
翻訳日:2022-05-31 15:19:59 公開日:2022-05-27
# 流体シミュレーションにおける物理インフォームニューラルネットワークの経験報告:落とし穴とフラストレーション

Experience report of physics-informed neural networks in fluid simulations: pitfalls and frustration ( http://arxiv.org/abs/2205.14249v1 )

ライセンス: Link先を確認
Pi-Yueh Chuang, Lorena A. Barba(参考訳) 深層学習ブームは,2つの領域を統合することを熱望する計算流体力学の研究者や実践者の動機となっている。 論文の報告の多くはpinn法の適用による肯定的な結果を示しているが、我々の実験はそのような楽観主義を阻害した。 本稿では,2次元Taylor-Green vortex at $Re = 100$と2次元シリンダーフロー at $Re = 200$という2つの基本的なフロー問題をPINNを用いて解決する,いわゆる難解な物語を示す。 PINN法は2次元Taylor-Green渦問題を許容できる結果で解き、この流れを精度と性能のベンチマークとして使用した。 ピン法の精度を16 \times 16$の有限差分シミュレーションの精度に合わせるために、約32時間のトレーニングが必要とされた。 一方, 2次元シリンダー流れは物理的に解くことさえできなかった。 PINN法は定常流解法のように振る舞うことができ, 渦沈み現象を捉えなかった。 私たちの経験を共有することで、PINNメソッドがまだ進行中であることを強調したいと思います。 現実世界の問題に対してPINNを実現するためには、さらなる作業が必要である。

The deep learning boom motivates researchers and practitioners of computational fluid dynamics eager to integrate the two areas.The PINN (physics-informed neural network) method is one such attempt. While most reports in the literature show positive outcomes of applying the PINN method, our experiments with it stifled such optimism. This work presents our not-so-successful story of using PINN to solve two fundamental flow problems: 2D Taylor-Green vortex at $Re = 100$ and 2D cylinder flow at $Re = 200$. The PINN method solved the 2D Taylor-Green vortex problem with acceptable results, and we used this flow as an accuracy and performance benchmark. About 32 hours of training were required for the PINN method's accuracy to match the accuracy of a $16 \times 16$ finite-difference simulation, which took less than 20 seconds. The 2D cylinder flow, on the other hand, did not even result in a physical solution. The PINN method behaved like a steady-flow solver and did not capture the vortex shedding phenomenon. By sharing our experience, we would like to emphasize that the PINN method is still a work-in-progress. More work is needed to make PINN feasible for real-world problems.
翻訳日:2022-05-31 14:39:08 公開日:2022-05-27
# FadMan: 複数の分散ネットワークにわたるフェデレーション異常検出

FadMan: Federated Anomaly Detection across Multiple Attributed Networks ( http://arxiv.org/abs/2205.14196v1 )

ライセンス: Link先を確認
Nannan Wu, Ning Zhang, Wenjun Wang, Lixin Fan, Qiang Yang(参考訳) anomaly subgraph detectionは、コンピュータネットワークのサイバー攻撃からソーシャルネットワークの悪意のある活動まで、さまざまなアプリケーションで広く使われている。 複数の属性ネットワークにまたがるフェデレートされた異常検出の必要性が高まっているにもかかわらず、この問題に対するアプローチは限られている。 フェデレート異常検出は2つの大きな課題に直面している。 ひとつは、ほとんどの業界における孤立したデータは、データプライバシとセキュリティのために他の業界との共有が制限されていることだ。 もう1つは、データ統合に基づく集中型アプローチトレーニングのほとんどです。 フェデレートされた異常検出の主な考え方は、ローカルデータ所有者からパブリックな異常に関するプライベートな異常を、パブリックな異常からフェデレートされたローカルな異常まで、サーバ内の属性ネットワークから整列させることである。 各プライベート属性ネットワークにおいて、検出された異常部分グラフは、パブリック属性ネットワーク内の異常部分グラフと整列される。 重要な公開異常部分グラフは、ローカルなプライベートデータ漏洩を防止しつつ、フェデレーションされたプライベートな異常に対して選択される。 提案するアルゴリズムfadmanは,多数のプライベートノードと異なる特徴を持つパブリックノードを対象とした垂直フェデレーション学習フレームワークであり,複数の属性付きネットワーク上での異常検出と5つの実世界データセットを用いた属性なしネットワークでの異常検出の2つのタスクで検証される。 最初のシナリオでは、fadmanは10%のノイズレベルにおいて少なくとも12%の精度で競合手法を上回る。 第2のシナリオでは,異常なノードの分布を解析した結果,同日における交通異常のノードが大学院生の入試のイベントと関連していることがわかった。

Anomaly subgraph detection has been widely used in various applications, ranging from cyber attack in computer networks to malicious activities in social networks. Despite an increasing need for federated anomaly detection across multiple attributed networks, only a limited number of approaches are available for this problem. Federated anomaly detection faces two major challenges. One is that isolated data in most industries are restricted share with others for data privacy and security. The other is most of the centralized approaches training based on data integration. The main idea of federated anomaly detection is aligning private anomalies from local data owners on the public anomalies from the attributed network in the server through public anomalies to federate local anomalies. In each private attributed network, the detected anomaly subgraph is aligned with an anomaly subgraph in the public attributed network. The significant public anomaly subgraphs are selected for federated private anomalies while preventing local private data leakage. The proposed algorithm FadMan is a vertical federated learning framework for public node aligned with many private nodes of different features, and is validated on two tasks correlated anomaly detection on multiple attributed networks and anomaly detection on an attributeless network using five real-world datasets. In the first scenario, FadMan outperforms competitive methods by at least 12% accuracy at 10% noise level. In the second scenario, by analyzing the distribution of abnormal nodes, we find that the nodes of traffic anomalies are associated with the event of postgraduate entrance examination on the same day.
翻訳日:2022-05-31 14:15:51 公開日:2022-05-27
# クレジットカード不正検出のためのディープニューラルネットワークとK-Nearest隣人の組み合わせ

A Combination of Deep Neural Networks and K-Nearest Neighbors for Credit Card Fraud Detection ( http://arxiv.org/abs/2205.15300v1 )

ライセンス: Link先を確認
Dinara Rzayeva, Saber Malekzadeh(参考訳) クレジットカードによる不正取引の検出は、金融機関、組織、企業にとって大きな問題の1つとなった。 グローバル・ファイナンス・システムは非キャッシュ取引に強く結びついており、オンライン・オペレーション・詐欺のメーカーは顧客の財務情報にアクセスするためのより効果的な方法を発明している。 クレジットカード詐欺検出の大きな問題は、不正取引の数が本物より大幅に少ないことである。 本研究の目的は,新しいデータセット上に,アンダーサンプリングアルゴリズム,K-nearest Neighbor Algorithm(KNN),Deep Neural Network(KNN)を含む新しい手法を実装することである。 性能評価の結果、DNNモデルは正確な精度(98.12%)を示し、提案手法が不正取引を検出する優れた能力を示している。

Detection of a Fraud transaction on credit cards became one of the major problems for financial institutions, organizations and companies. As the global financial system is highly connected to non-cash transactions and online operations fraud makers invent more effective ways to access customers' finances. The main problem in credit card fraud detection is that the number of fraud transactions is significantly lower than genuine ones. The aim of the paper is to implement new techniques, which contains of under-sampling algorithms, K-nearest Neighbor Algorithm (KNN) and Deep Neural Network (KNN) on new obtained dataset. The performance evaluation showed that DNN model gives precise high accuracy (98.12%), which shows the good ability of presented method to detect fraudulent transactions.
翻訳日:2022-05-31 14:10:07 公開日:2022-05-27
# ラテントダイナミクスの側情報を有する多能率RL

Provably Sample-Efficient RL with Side Information about Latent Dynamics ( http://arxiv.org/abs/2205.14237v1 )

ライセンス: Link先を確認
Yao Liu, Dipendra Misra, Miro Dud\'ik, Robert E. Schapire(参考訳) 例えば、ロボットが自分のカメラから観察しながら、フロアプランにアクセスしながら、建物内の特定の部屋に行くように指示された場合のように、rlエージェントが状態空間の構造に関する抽象的な知識にアクセスできるような環境で強化学習(rl)について研究する。 我々は、この設定を、決定論的であると仮定する抽象シミュレータ(例えば、フロアプランを移動する単純なモデルなど)からの伝達強化学習として定式化するが、ターゲットドメインの潜在状態のダイナミクスを(環境確率性を考慮して)ほぼ未知の(有界な)摂動を捉えるためにのみ必要である。 重要なことに、対象領域における観測の構造に関する事前の知識は、潜伏状態の特定に使用できること以外は仮定しない(復号写像は未知である)。 これらの仮定の下では、ターゲット領域におけるロバストなポリシーを学習するTASIDと呼ばれるアルゴリズムが提案され、サンプルの複雑さは地平線上の多項式であり、いくつかの事前知識がなければ不可能な状態の数に依存している。 合成実験では,本アルゴリズムの諸特性を検証し,「フルシミュレータ」へのアクセスを必要とする転送RLアルゴリズム(つまり,観測をシミュレートするアルゴリズム)を経験的に上回っていることを示す。

We study reinforcement learning (RL) in settings where observations are high-dimensional, but where an RL agent has access to abstract knowledge about the structure of the state space, as is the case, for example, when a robot is tasked to go to a specific room in a building using observations from its own camera, while having access to the floor plan. We formalize this setting as transfer reinforcement learning from an abstract simulator, which we assume is deterministic (such as a simple model of moving around the floor plan), but which is only required to capture the target domain's latent-state dynamics approximately up to unknown (bounded) perturbations (to account for environment stochasticity). Crucially, we assume no prior knowledge about the structure of observations in the target domain except that they can be used to identify the latent states (but the decoding map is unknown). Under these assumptions, we present an algorithm, called TASID, that learns a robust policy in the target domain, with sample complexity that is polynomial in the horizon, and independent of the number of states, which is not possible without access to some prior knowledge. In synthetic experiments, we verify various properties of our algorithm and show that it empirically outperforms transfer RL algorithms that require access to "full simulators" (i.e., those that also simulate observations).
翻訳日:2022-05-31 13:26:35 公開日:2022-05-27
# (参考訳) 確率的逐次二次計画における漸近収束率と統計的推論

Asymptotic Convergence Rate and Statistical Inference for Stochastic Sequential Quadratic Programming ( http://arxiv.org/abs/2205.13687v1 )

ライセンス: CC BY 4.0
Sen Na, Michael W. Mahoney(参考訳) 対象が確率的であり,制約が決定論的である制約付き非線形最適化問題を解くために,確率的逐次二次計画 (stosqp) アルゴリズムを適用する。 目的の勾配と Hessian を推定するために,各イテレーションで1つのサンプルしか利用できない,完全に確率的な設定について検討する。 例えば、$\beta_t\leq \bar{\alpha}_t \leq \beta_t+\chi_t$ であり、ここで$\beta_t$, $\chi_t=o(\beta_t)$ は決定論的順序である。 また、StoSQPは、例えばスケッチ・アンド・プロジェクト法のようなランダム化反復解法によってニュートンシステムの不正確な解法を許容し、不正確なニュートン方向の近似誤差は不要である。 この一般的なStoSQPフレームワークでは,その最終反復に対する漸近収束率を確立し,最悪の繰り返しの複雑さを副生成物として,統計的推論を行う。 特に、適切に崩壊する $\beta_t,\chi_t$ とすると、 (i)StoSQPスキームは、少なくとも$O(1/\epsilon^4)$繰り返して$\epsilon$-stationarityを達成することができる。 (ii)漸近的に、ほぼ確実に、$\|(x_t -x^\star, \lambda_t\lambda^\star)\| = O(\sqrt{\beta_t\log(1/\beta_t)})+O(\chi_t/\beta_t)$, ここで$(x_t,\lambda_t)$は、原始双対StoSQPイテレートである。 3) 1/\sqrt{\beta_t}\cdot (x_t -x^\star, \lambda_t - \lambda^\star)$ は非自明な共分散行列を持つ平均零ガウス分布に収束する。 さらに、その分布関数の収束を定量的に測定するために、$(x_t, \lambda_t)$ のberry-esseenバウンドを確立する。 また、共分散行列の実用的推定器を提供し、そこから$(x^\star, \lambda^\star)$の信頼区間を $\{(x_t,\lambda_t)\}_t$ を使って構築することができる。 我々の定理はCUTEstテストセットの非線形問題を用いて検証される。

We apply a stochastic sequential quadratic programming (StoSQP) algorithm to solve constrained nonlinear optimization problems, where the objective is stochastic and the constraints are deterministic. We study a fully stochastic setup, where only a single sample is available in each iteration for estimating the gradient and Hessian of the objective. We allow StoSQP to select a random stepsize $\bar{\alpha}_t$ adaptively, such that $\beta_t\leq \bar{\alpha}_t \leq \beta_t+\chi_t$, where $\beta_t$, $\chi_t=o(\beta_t)$ are prespecified deterministic sequences. We also allow StoSQP to solve Newton system inexactly via randomized iterative solvers, e.g., with the sketch-and-project method; and we do not require the approximation error of inexact Newton direction to vanish. For this general StoSQP framework, we establish the asymptotic convergence rate for its last iterate, with the worst-case iteration complexity as a byproduct; and we perform statistical inference. In particular, with proper decaying $\beta_t,\chi_t$, we show that: (i) the StoSQP scheme can take at most $O(1/\epsilon^4)$ iterations to achieve $\epsilon$-stationarity; (ii) asymptotically and almost surely, $\|(x_t -x^\star, \lambda_t - \lambda^\star)\| = O(\sqrt{\beta_t\log(1/\beta_t)})+O(\chi_t/\beta_t)$, where $(x_t,\lambda_t)$ is the primal-dual StoSQP iterate; (iii) the sequence $1/\sqrt{\beta_t}\cdot (x_t -x^\star, \lambda_t - \lambda^\star)$ converges to a mean zero Gaussian distribution with a nontrivial covariance matrix. Moreover, we establish the Berry-Esseen bound for $(x_t, \lambda_t)$ to measure quantitatively the convergence of its distribution function. We also provide a practical estimator for the covariance matrix, from which the confidence intervals of $(x^\star, \lambda^\star)$ can be constructed using iterates $\{(x_t,\lambda_t)\}_t$. Our theorems are validated using nonlinear problems in CUTEst test set.
翻訳日:2022-05-31 08:53:02 公開日:2022-05-27
# (参考訳) ピアスワイドI.d.帯域における安全注意点検出

Safety Aware Changepoint Detection for Piecewise i.i.d. Bandits ( http://arxiv.org/abs/2205.13689v1 )

ライセンス: CC BY 4.0
Subhojyoti Mukherjee(参考訳) 本稿では,安全制約下での盗賊の断片的設定について考察する。 この部分的設定では、いくつかのまたはすべての腕の平均が同時に変化する有限個の変化点が存在する。 ここでは,任意のラウンドにおいて累積報酬がデフォルトのアクション報酬の定数値を超えるような安全制約をこの設定に導入する。 そこで本研究では,安全制約を満たし,変更点を検知し,変更点数や位置を知らずに再開する2つの適応アルゴリズムを提案する。 我々は、我々のアルゴリズムに後悔の限界を与え、その境界がsafe banditとslitwise i.i.d. bandit literatureのそれと同等であることを示す。 また、この設定に対する最初のマッチングローワーバウンダリも提供します。 実証的に,安全対応アルゴリズムは,安全制約を満たさない最先端の適応型アルゴリズムと同様に機能することを示した。

In this paper, we consider the setting of piecewise i.i.d. bandits under a safety constraint. In this piecewise i.i.d. setting, there exists a finite number of changepoints where the mean of some or all arms change simultaneously. We introduce the safety constraint studied in \citet{wu2016conservative} to this setting such that at any round the cumulative reward is above a constant factor of the default action reward. We propose two actively adaptive algorithms for this setting that satisfy the safety constraint, detect changepoints, and restart without the knowledge of the number of changepoints or their locations. We provide regret bounds for our algorithms and show that the bounds are comparable to their counterparts from the safe bandit and piecewise i.i.d. bandit literature. We also provide the first matching lower bounds for this setting. Empirically, we show that our safety-aware algorithms perform similarly to the state-of-the-art actively adaptive algorithms that do not satisfy the safety constraint.
翻訳日:2022-05-31 08:51:09 公開日:2022-05-27
# (参考訳) FedFormer:強化学習への注意を伴うコンテキストフェデレーション

FedFormer: Contextual Federation with Attention in Reinforcement Learning ( http://arxiv.org/abs/2205.13697v1 )

ライセンス: CC BY 4.0
Liam Hebert, Lukasz Golab, Pascal Poupart, Robin Cohen(参考訳) 連合強化学習における中核的な問題は、複数のエージェントからの洞察をひとつに集約する方法を定義することである。 これは、各エージェントのモデル重量の平均を1つの共通モデル(fedavg)にすることで行われる。 そこで我々は,Transformer Attention を利用した新しいフェデレーション戦略であるFedFormerを提案する。 このようにして、我々は、現在のエージェントの環境および学習関係に関する他のエージェントの貢献を注意深く評価し、より効果的で効率的なフェデレーションを提供する。 我々はメタワールド環境における手法を評価し,fedavgおよび非フェデレートソフトアクタ批判シングルエージェント法に対して,そのアプローチが著しい改善をもたらすことを見出した。 我々の結果は、Soft Actor Critiqueと比較すると、FedFormerは、フェデレーション学習のプライバシー制約を守りながら、パフォーマンスが良くなっている。 さらに,特定のタスクにおけるエージェントプールの増加による効率のほぼ線形改善を示す。 これとは対照的に、FedAvgはスケール時に顕著な改善をしない。

A core issue in federated reinforcement learning is defining how to aggregate insights from multiple agents into one. This is commonly done by taking the average of each participating agent's model weights into one common model (FedAvg). We instead propose FedFormer, a novel federation strategy that utilizes Transformer Attention to contextually aggregate embeddings from models originating from different learner agents. In so doing, we attentively weigh contributions of other agents with respect to the current agent's environment and learned relationships, thus providing more effective and efficient federation. We evaluate our methods on the Meta-World environment and find that our approach yields significant improvements over FedAvg and non-federated Soft Actor Critique single agent methods. Our results compared to Soft Actor Critique show that FedFormer performs better while still abiding by the privacy constraints of federated learning. In addition, we demonstrate nearly linear improvements in effectiveness with increased agent pools in certain tasks. This is contrasted by FedAvg, which fails to make noticeable improvements when scaled.
翻訳日:2022-05-31 08:49:22 公開日:2022-05-27
# (参考訳) SemEval-2022 Task 2におけるHiJoNLP:多言語事前学習言語モデルを用いた多語表現の慣用性の検出

HiJoNLP at SemEval-2022 Task 2: Detecting Idiomaticity of Multiword Expressions using Multilingual Pretrained Language Models ( http://arxiv.org/abs/2205.13708v1 )

ライセンス: CC BY 4.0
Minghuan Tan(参考訳) 本稿では,多言語事前学習言語モデル上でのMWEの文脈的表現からのみ慣用性を検出する手法について述べる。 実験の結果,より大きなモデルの方が慣用性検出に有効であることが判明した。 しかし、モデルの上位層を使用することでパフォーマンスが向上するとは限らない。 多言語シナリオでは、異なる言語の収束は一貫性がなく、リッチリソース言語は他の言語よりも大きな利点がある。

This paper describes an approach to detect idiomaticity only from the contextualized representation of a MWE over multilingual pretrained language models. Our experiments find that larger models are usually more effective in idiomaticity detection. However, using a higher layer of the model may not guarantee a better performance. In multilingual scenarios, the convergence of different languages are not consistent and rich-resource languages have big advantages over other languages.
翻訳日:2022-05-31 08:34:25 公開日:2022-05-27
# (参考訳) オフビートマルチエージェント強化学習

Off-Beat Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2205.13718v1 )

ライセンス: CC BY 4.0
Wei Qiu, Weixun Wang, Rundong Wang, Bo An, Yujing Hu, Svetlana Obraztsova, Zinovi Rabinovich, Jianye Hao, Yingfeng Chen, Changjie Fan(参考訳) 本研究では,オフビート動作が普及している環境でのモデルフリーマルチエージェント強化学習(MARL)について検討する。 実行期間中、環境の変化は、アクション実行と同期しないが影響を受けます。 このような設定は多くの現実世界の問題においてユビキタスである。 しかし、ほとんどのMARL法は、アクションは推論の直後に実行され、しばしば非現実的であり、オフビートアクションとマルチエージェント協調の破滅的な失敗につながると仮定する。 このギャップを埋めるために、オフビート動作を伴うMARLのためのアルゴリズムフレームワークを開発する。 次に,モデルレスMARLアルゴリズムのための新しいエピソードメモリLeGEMを提案する。 LeGEMはエージェントの個々の経験を利用してエージェントのエピソード記憶を構築する。 非マルコフ的報酬の問題を緩和し,新たな報酬再分配方式により,オフビート行動によって引き起こされる困難な時間的クレジット割当問題に対処することにより,マルチエージェント学習を促進する。 我々は,Stag-Hunter Game,Quarry Game,Afforestation Game,StarCraft IIマイクロマネジメントタスクなど,オフビートアクションを伴うさまざまなマルチエージェントシナリオ上でLeGEMを評価する。 実験の結果,LeGEMはマルチエージェント調整を著しく促進し,先行性能を実現し,試料効率が向上した。

We investigate model-free multi-agent reinforcement learning (MARL) in environments where off-beat actions are prevalent, i.e., all actions have pre-set execution durations. During execution durations, the environment changes are influenced by, but not synchronised with, action execution. Such a setting is ubiquitous in many real-world problems. However, most MARL methods assume actions are executed immediately after inference, which is often unrealistic and can lead to catastrophic failure for multi-agent coordination with off-beat actions. In order to fill this gap, we develop an algorithmic framework for MARL with off-beat actions. We then propose a novel episodic memory, LeGEM, for model-free MARL algorithms. LeGEM builds agents' episodic memories by utilizing agents' individual experiences. It boosts multi-agent learning by addressing the challenging temporal credit assignment problem raised by the off-beat actions via our novel reward redistribution scheme, alleviating the issue of non-Markovian reward. We evaluate LeGEM on various multi-agent scenarios with off-beat actions, including Stag-Hunter Game, Quarry Game, Afforestation Game, and StarCraft II micromanagement tasks. Empirical results show that LeGEM significantly boosts multi-agent coordination and achieves leading performance and improved sample efficiency.
翻訳日:2022-05-31 08:26:03 公開日:2022-05-27
# (参考訳) ファウンデーションモデルは秘密を守るのに役立つか?

Can Foundation Models Help Us Achieve Perfect Secrecy? ( http://arxiv.org/abs/2205.13722v1 )

ライセンス: CC0 1.0
Simran Arora and Christopher R\'e(参考訳) 機械学習の鍵となる約束は、ユーザーをパーソナルなタスクで支援する能力である。 正確な予測を行うために必要な個人的なコンテキストは、しばしばセンシティブであるため、プライバシを保護するシステムが必要です。 金の標準的なプライバシー保護システムは完全な秘密を満たしており、システムとのインタラクションは敵に追加の個人情報を明かさない。 この保証は、同じ基盤データ上で複数の個人的なタスクを実行しても守るべきです。 しかし、プライバシーと品質は、個人業務のために既存のシステムでは緊張しているようだ。 ニューラルモデルは通常、うまく機能するために多くのトレーニングを必要とするが、個々のユーザは限られた規模のデータを持っているため、システムは複数のユーザの集約データから学ぶことを提案している。 これは完全な秘密性に反し、ここ数年、学者はプライバシーの統計的概念(つまり、ユーザーの個人情報を学習する確率は合理的に低い)を用いてこれらのソリューションを擁護してきた。 これらのソリューションの脆弱性を考慮し、基礎モデルによって実現された最近のゼロ・ツー・ファウサンプル適応技術を用いて、強力な完全秘密保証が達成できるかどうかを考察する。 そこで我々は,パーソナルタスクのためのフレームワークであるfocusを提案する。 一般的なプライバシのベンチマークから判断すると、アプローチは完全な機密性を満たし、7つのタスクのうち6つで強力な協調学習ベースラインと競合する。 提案を実証的に分析し、タスクタイプ間の機会と制限を強調し、帰納バイアスとサイズをモデル化します。

A key promise of machine learning is the ability to assist users with personal tasks. Because the personal context required to make accurate predictions is often sensitive, we require systems that protect privacy. A gold standard privacy-preserving system will satisfy perfect secrecy, meaning that interactions with the system provably reveal no additional private information to adversaries. This guarantee should hold even as we perform multiple personal tasks over the same underlying data. However, privacy and quality appear to be in tension in existing systems for personal tasks. Neural models typically require lots of training to perform well, while individual users typically hold a limited scale of data, so the systems propose to learn from the aggregate data of multiple users. This violates perfect secrecy and instead, in the last few years, academics have defended these solutions using statistical notions of privacy -- i.e., the probability of learning private information about a user should be reasonably low. Given the vulnerabilities of these solutions, we explore whether the strong perfect secrecy guarantee can be achieved using recent zero-to-few sample adaptation techniques enabled by foundation models. In response, we propose FOCUS, a framework for personal tasks. Evaluating on popular privacy benchmarks, we find the approach, satisfying perfect secrecy, competes with strong collaborative learning baselines on 6 of 7 tasks. We empirically analyze the proposal, highlighting the opportunities and limitations across task types, and model inductive biases and sizes.
翻訳日:2022-05-31 07:38:28 公開日:2022-05-27
# (参考訳) DLTTA:クロスドメイン医療画像におけるテスト時間適応のための動的学習率

DLTTA: Dynamic Learning Rate for Test-time Adaptation on Cross-domain Medical Images ( http://arxiv.org/abs/2205.13723v1 )

ライセンス: CC BY 4.0
Hongzheng Yang, Cheng Chen, Meirui Jiang, Quande Liu, Jianfeng Cao, Pheng Ann Heng, Qi Dou(参考訳) テストタイム適応(TTA)は、異なる機関の医療画像の試験時間におけるクロスドメイン分布シフトに効果的に取り組む上で、ますます重要なトピックとなっている。 従来のTTA手法では、すべてのテストサンプルに対して一定の学習率を使用するという共通の制限がある。 このようなプラクティスは、テストデータが順次到着する可能性があるため、分散シフトのスケールが頻繁に変化するため、TTAに準最適である。 そこで本研究では,DLTTAと呼ばれる,テスト時間適応のための動的学習率調整手法を提案する。 具体的には、DLTTAは、与えられたテストサンプルの誤差を効果的に測定するメモリバンクベースの推定スキームを備えている。 この推定誤差に基づいて、各試験試料に対して適切な適応度を達成するために、動的学習率調整戦略を開発する。 網膜光コヒーレンス断層撮影(OCT),病理像分類,前立腺MRIの3つの課題に対して,DLTTAの有効性と適用性について検討した。 本手法は,現在のテスト時間適応法よりも,効率良く高速なテスト時間適応を実現し,一貫した性能向上を実現する。 コードは、https://github.com/med-air/DLTTAで入手できる。

Test-time adaptation (TTA) has increasingly been an important topic to efficiently tackle the cross-domain distribution shift at test time for medical images from different institutions. Previous TTA methods have a common limitation of using a fixed learning rate for all the test samples. Such a practice would be sub-optimal for TTA, because test data may arrive sequentially therefore the scale of distribution shift would change frequently. To address this problem, we propose a novel dynamic learning rate adjustment method for test-time adaptation, called DLTTA, which dynamically modulates the amount of weights update for each test image to account for the differences in their distribution shift. Specifically, our DLTTA is equipped with a memory bank based estimation scheme to effectively measure the discrepancy of a given test sample. Based on this estimated discrepancy, a dynamic learning rate adjustment strategy is then developed to achieve a suitable degree of adaptation for each test sample. The effectiveness and general applicability of our DLTTA is extensively demonstrated on three tasks including retinal optical coherence tomography (OCT) segmentation, histopathological image classification, and prostate 3D MRI segmentation. Our method achieves effective and fast test-time adaptation with consistent performance improvement over current state-of-the-art test-time adaptation methods. Code is available at: https://github.com/med-air/DLTTA.
翻訳日:2022-05-31 07:10:23 公開日:2022-05-27
# (参考訳) 混合多層注意を伴う多重分岐型多重融合ネットワークの画像再構成

Image Reconstruction of Multi Branch Feature Multiplexing Fusion Network with Mixed Multi-layer Attention ( http://arxiv.org/abs/2205.13738v1 )

ライセンス: CC BY-SA 4.0
Yuxi Cai, Huicheng Lai(参考訳) 画像超解像再構成は畳み込みニューラルネットワークの強力な非線形表現能力によって従来の手法よりも優れた結果が得られる。 しかし、既存のアルゴリズムには、段階的特徴の活用不足、ネットワーク性能向上のための初期段階的特徴融合の重要性の無視、再構成過程における高周波情報に注意を払うネットワークの欠如など、いくつかの問題もある。 そこで本研究では,多層多層注意(mbmfn)を混合したマルチブランチ特徴多重融合ネットワークを提案し,特徴の多層化と異なる特徴量の多段融合を実現する。 ネットワークの性能をさらに向上させるため,チャネル情報の損失を効果的に回避するだけでなく,鍵チャネル情報に注意を払い,そのメリットを享受できる,軽量で拡張された残留チャネルアテンション(lerca)を提案する。 最後に、エッジテクスチャやその他の詳細の復元を強化するために、再構築プロセスに注意機構を導入する。 いくつかのベンチマークセットで多くの実験が行われ、他の高度な再構成アルゴリズムと比較すると、アルゴリズムは高い競合性を持つ客観的指標を生成し、より詳細なテクスチャ情報を復元する。

Image super-resolution reconstruction achieves better results than traditional methods with the help of the powerful nonlinear representation ability of convolution neural network. However, some existing algorithms also have some problems, such as insufficient utilization of phased features, ignoring the importance of early phased feature fusion to improve network performance, and the inability of the network to pay more attention to high-frequency information in the reconstruction process. To solve these problems, we propose a multi-branch feature multiplexing fusion network with mixed multi-layer attention (MBMFN), which realizes the multiple utilization of features and the multistage fusion of different levels of features. To further improve the networks performance, we propose a lightweight enhanced residual channel attention (LERCA), which can not only effectively avoid the loss of channel information but also make the network pay more attention to the key channel information and benefit from it. Finally, the attention mechanism is introduced into the reconstruction process to strengthen the restoration of edge texture and other details. A large number of experiments on several benchmark sets show that, compared with other advanced reconstruction algorithms, our algorithm produces highly competitive objective indicators and restores more image detail texture information.
翻訳日:2022-05-31 06:44:33 公開日:2022-05-27
# (参考訳) DeepSAT: SATのためのEDA駆動学習フレームワーク

DeepSAT: An EDA-Driven Learning Framework for SAT ( http://arxiv.org/abs/2205.13745v1 )

ライセンス: CC BY 4.0
Min Li, Zhengyuan Shi, Qiuxia Lai, Sadaf Khan, Qiang Xu(参考訳) 本稿では,boolean satisfiability (sat)問題に対する新しいエンドツーエンド学習フレームワークであるdeepsatを提案する。 比較的弱いSATインスタンスで訓練された既存のソリューションとは異なり、SAT解決のための電子設計自動化(EDA)分野の知識を応用することを提案する。 具体的には、SATインスタンスを最適化・インバータグラフ(AIG)にプリプロセスする高度な論理合成アルゴリズムを利用する。 これにより、トレーニングセットとテストセットは統一的な分布を持ち、学習モデルはSATインスタンスの様々なソースのテストセットにうまく一般化できる。 次に、条件付きベルヌーイ分布の積であるSAT解の分布を考察する。 本研究では,2つの極性プロトタイプを用いた有向非巡回グラフニューラルネットワークを条件付きSATモデリングに適用し,条件付き生成モデルを用いてSAT解法を近似する。 生成モデルを効果的に訓練するために,論理シミュレーションツールを用いて,aigにおけるノードの確率は,論理'1'を高い監督として求める。 我々は様々なSATインスタンスについて広範な実験を行った。 DeepSATは、最先端の学習ベースのSATソリューション、特に大規模または多様な分布を持つSATインスタンスに一般化された場合、大幅な精度向上を実現している。

We present DeepSAT, a novel end-to-end learning framework for the Boolean satisfiability (SAT) problem. Unlike existing solutions trained on random SAT instances with relatively weak supervisions, we propose applying the knowledge of the well-developed electronic design automation (EDA) field for SAT solving. Specifically, we first resort to advanced logic synthesis algorithms to pre-process SAT instances into optimized and-inverter graphs (AIGs). By doing so, our training and test sets have a unified distribution, thus the learned model can generalize well to test sets of various sources of SAT instances. Next, we regard the distribution of SAT solutions being a product of conditional Bernoulli distributions. Based on this observation, we approximate the SAT solving procedure with a conditional generative model, leveraging a directed acyclic graph neural network with two polarity prototypes for conditional SAT modeling. To effectively train the generative model, with the help of logic simulation tools, we obtain the probabilities of nodes in the AIG being logic '1' as rich supervision. We conduct extensive experiments on various SAT instances. DeepSAT achieves significant accuracy improvements over state-of-the-art learning-based SAT solutions, especially when generalized to SAT instances that are large or with diverse distributions.
翻訳日:2022-05-31 06:31:05 公開日:2022-05-27
# (参考訳) 実戦におけるゲーム学習のためのNLU:初期評価

NLU for Game-based Learning in Real: Initial Evaluations ( http://arxiv.org/abs/2205.13754v1 )

ライセンス: CC BY 4.0
Eda Okur, Saurav Sahay, Lama Nachman(参考訳) プレイベースのインタラクション用に設計されたインテリジェントシステムは、ユーザとその周囲をコンテキスト的に認識する必要がある。 対話型対話システム(sds)は,ユーザとの効果的な目標指向コミュニケーションをリアルタイムに行うために重要である。 このような対話エージェントの現実世界(すなわち、その内)への展開では、特にタスク固有のデータセットが限定的に存在するため、目標指向SDSパイプラインの自然言語理解(NLU)モジュールの改善が不可欠である。 本研究では,最近提案されたトランスフォーマーベースマルチタスクNLUアーキテクチャの利点について検討する。 評価データセットは,ゲームベースの学習環境におけるプレイベースインタラクションを通じて,基本的な数学概念を実践する子供たちから収集した。 概念実証ゲームデータセットと実世界の展開データセットのnlu性能を調査し,期待した性能低下を観察した。 より単純なベースラインアプローチと比較して、dual intentとentity transformer(diet)アーキテクチャは、これらのドメイン固有のゲームデータセットのインテント認識タスクにおいて、現実世界のデータを扱うのに十分な堅牢性を示している。

Intelligent systems designed for play-based interactions should be contextually aware of the users and their surroundings. Spoken Dialogue Systems (SDS) are critical for these interactive agents to carry out effective goal-oriented communication with users in real-time. For the real-world (i.e., in-the-wild) deployment of such conversational agents, improving the Natural Language Understanding (NLU) module of the goal-oriented SDS pipeline is crucial, especially with limited task-specific datasets. This study explores the potential benefits of a recently proposed transformer-based multi-task NLU architecture, mainly to perform Intent Recognition on small-size domain-specific educational game datasets. The evaluation datasets were collected from children practicing basic math concepts via play-based interactions in game-based learning settings. We investigate the NLU performances on the initial proof-of-concept game datasets versus the real-world deployment datasets and observe anticipated performance drops in-the-wild. We have shown that compared to the more straightforward baseline approaches, Dual Intent and Entity Transformer (DIET) architecture is robust enough to handle real-world data to a large extent for the Intent Recognition task on these domain-specific in-the-wild game datasets.
翻訳日:2022-05-31 06:17:21 公開日:2022-05-27
# (参考訳) 正確なポリマー特性予測のための学習記述子を用いた周期グラフとしての高分子の表現

Representing Polymers as Periodic Graphs with Learned Descriptors for Accurate Polymer Property Predictions ( http://arxiv.org/abs/2205.13757v1 )

ライセンス: CC BY 4.0
Evan R. Antoniuk, Peggy Li, Bhavya Kailkhura, Anna M. Hiszpanski(参考訳) 革新的な新しいポリマーの発見に機械学習を利用するという大きな課題の1つは、高分子材料の複雑な構造を正確に表現することが難しいことである。 様々な手作りのポリマー表現が研究されているが、高分子構造の周期性や、人間の特徴設計を必要とせずに高分子ディスクリプタを開発するための理想的な解決策はまだ見つかっていない。 本研究では,周期性高分子グラフ表現の開発を通じて,これらの問題に取り組む。 高分子特性予測のためのパイプラインは, ポリマーの周期性を自然に説明するポリマーグラフ表現と, グラフ深層学習の力を利用して化学関連ポリマー記述子を自動的に学習するメッセージ通過ニューラルネットワーク(MPNN)で構成されている。 10のポリマー特性の多種多様なデータセットにおいて, このポリマーグラフ表現は, 予測誤差を平均20%低減した手書き表現よりも一貫して優れていた。 この結果から, 周期性を直接表現することで化学直観を組み込むことにより, ポリマー特性予測の精度と信頼性が著しく向上したことを示す。 また、高分子グラフ表現とメッセージパッシングニューラルネットワークアーキテクチャを組み合わせることで、人間の直観と一致する有意義なポリマー特徴を自動的に抽出し、ヒト由来の特徴よりも優れることを示す。 この研究は、ポリマーの特異な化学構造を捉えるために特別に最適化された化学ディスクリプタを使用することで可能な予測能力の進歩を浮き彫りにしている。

One of the grand challenges of utilizing machine learning for the discovery of innovative new polymers lies in the difficulty of accurately representing the complex structures of polymeric materials. Although a wide array of hand-designed polymer representations have been explored, there has yet to be an ideal solution for how to capture the periodicity of polymer structures, and how to develop polymer descriptors without the need for human feature design. In this work, we tackle these problems through the development of our periodic polymer graph representation. Our pipeline for polymer property predictions is comprised of our polymer graph representation that naturally accounts for the periodicity of polymers, followed by a message-passing neural network (MPNN) that leverages the power of graph deep learning to automatically learn chemically-relevant polymer descriptors. Across a diverse dataset of 10 polymer properties, we find that this polymer graph representation consistently outperforms hand-designed representations with a 20% average reduction in prediction error. Our results illustrate how the incorporation of chemical intuition through directly encoding periodicity into our polymer graph representation leads to a considerable improvement in the accuracy and reliability of polymer property predictions. We also demonstrate how combining polymer graph representations with message-passing neural network architectures can automatically extract meaningful polymer features that are consistent with human intuition, while outperforming human-derived features. This work highlights the advancement in predictive capability that is possible if using chemical descriptors that are specifically optimized for capturing the unique chemical structure of polymers.
翻訳日:2022-05-31 05:52:40 公開日:2022-05-27
# (参考訳) 自己回帰トランスフォーマーと推論時間検索によるタンパク質適合性予測

Tranception: protein fitness prediction with autoregressive transformers and inference-time retrieval ( http://arxiv.org/abs/2205.13760v1 )

ライセンス: CC BY 4.0
Pascal Notin, Mafalda Dias, Jonathan Frazer, Javier Marchena-Hurtado, Aidan Gomez, Debora S. Marks, Yarin Gal(参考訳) タンパク質配列の適合環境を正確にモデル化する能力は、ヒト変異株の病原性への影響の定量化から、ウイルスの免疫エスケープ変異の予測、新しい生物療法タンパク質の設計まで、幅広い応用に不可欠である。 複数の配列アライメントで訓練されたタンパク質配列の深層生成モデルは、これらの課題に対処するための最も成功したアプローチである。 これらの手法の性能は、信頼性の高いトレーニングのために十分に深く多様なアライメントが利用可能であることに起因している。 したがって、その潜在的な範囲は、多くのタンパク質ファミリーが整列することが困難であるという事実によって制限される。 多様なファミリーから大量の非整合タンパク質配列を訓練した大規模な言語モデルは、これらの問題に対処し、最終的にはパフォーマンスギャップを橋渡しする可能性を示す。 本稿では,自己回帰予測と推論における相同配列の検索を応用した,新しいトランスフォーマティブアーキテクチャであるtransceptionを導入する。 複数の変異体に対する顕著なパフォーマンス向上、浅いアライメントに対するロバスト性、インデルのスコアリング能力などを考えると、我々のアプローチは既存のアプローチよりもかなりの範囲を確保できる。 より広い範囲のタンパク質ファミリーでより厳密なモデルテストを可能にするため、変異効果の多重化アッセイの広範なセットであるProteinGymを開発し、既存のベンチマークと比較すると、アッセイの数と多様性の両方を著しく増加させる。

The ability to accurately model the fitness landscape of protein sequences is critical to a wide range of applications, from quantifying the effects of human variants on disease likelihood, to predicting immune-escape mutations in viruses and designing novel biotherapeutic proteins. Deep generative models of protein sequences trained on multiple sequence alignments have been the most successful approaches so far to address these tasks. The performance of these methods is however contingent on the availability of sufficiently deep and diverse alignments for reliable training. Their potential scope is thus limited by the fact many protein families are hard, if not impossible, to align. Large language models trained on massive quantities of non-aligned protein sequences from diverse families address these problems and show potential to eventually bridge the performance gap. We introduce Tranception, a novel transformer architecture leveraging autoregressive predictions and retrieval of homologous sequences at inference to achieve state-of-the-art fitness prediction performance. Given its markedly higher performance on multiple mutants, robustness to shallow alignments and ability to score indels, our approach offers significant gain of scope over existing approaches. To enable more rigorous model testing across a broader range of protein families, we develop ProteinGym -- an extensive set of multiplexed assays of variant effects, substantially increasing both the number and diversity of assays compared to existing benchmarks.
翻訳日:2022-05-31 05:37:07 公開日:2022-05-27
# (参考訳) IGLU 2022: NeurIPS 2022における協調環境における対話型基底言語理解

IGLU 2022: Interactive Grounded Language Understanding in a Collaborative Environment at NeurIPS 2022 ( http://arxiv.org/abs/2205.13771v1 )

ライセンス: CC BY 4.0
Julia Kiseleva and Alexey Skrynnik and Artem Zholus and Shrestha Mohanty and Negar Arabzadeh and Marc-Alexandre C\^ot\'e and Mohammad Aliannejadi and Milagro Teruel and Ziming Li and Mikhail Burtsev and Maartje ter Hoeve and Zoya Volovikova and Aleksandr Panov and Yuxuan Sun and Kavya Srinet and Arthur Szlam and Ahmed Awadallah(参考訳) 人間の知性は、新しいタスクや環境に迅速に適応する能力を持っている。 非常に若い頃から、人間は新たなスキルを身につけ、他人の行動を真似たり、自然言語による指示に従うことで新しいタスクを解く方法を学ぶ。 そこで本研究では,協調環境におけるIGLU: Interactive Grounded Language Understandingを提案する。 競争の主目的は、協調的な環境で接地された自然言語命令を提供しながらタスクの解決を学習する対話型エンボディエージェントの開発方法にアプローチすることである。 課題の複雑さを理解するために、それをサブタスクに分割して、参加者に実現できるようにしました。 この研究課題は、自然言語理解と生成(NLU/G)と強化学習(RL)という、NeurIPSコミュニティに深く関係している2つの分野に自然に関連している。 したがって、提案された課題は、AIにおける重要な課題の1つにアプローチするために、2つのコミュニティをまとめることができる。 この課題のもう1つの重要な側面は、競争者が開発するエージェントの最終的な評価として、人間によるループ評価を実行することへの献身である。

Human intelligence has the remarkable ability to adapt to new tasks and environments quickly. Starting from a very young age, humans acquire new skills and learn how to solve new tasks either by imitating the behavior of others or by following provided natural language instructions. To facilitate research in this direction, we propose IGLU: Interactive Grounded Language Understanding in a Collaborative Environment. The primary goal of the competition is to approach the problem of how to develop interactive embodied agents that learn to solve a task while provided with grounded natural language instructions in a collaborative environment. Understanding the complexity of the challenge, we split it into sub-tasks to make it feasible for participants. This research challenge is naturally related, but not limited, to two fields of study that are highly relevant to the NeurIPS community: Natural Language Understanding and Generation (NLU/G) and Reinforcement Learning (RL). Therefore, the suggested challenge can bring two communities together to approach one of the crucial challenges in AI. Another critical aspect of the challenge is the dedication to perform a human-in-the-loop evaluation as a final evaluation for the agents developed by contestants.
翻訳日:2022-05-31 04:23:39 公開日:2022-05-27
# (参考訳) 転移学習を用いた胸部CT画像からの重症度を有するCOVID-19患者の分類

Classification of COVID-19 Patients with their Severity Level from Chest CT Scans using Transfer Learning ( http://arxiv.org/abs/2205.13774v1 )

ライセンス: CC BY 4.0
Mansi Gupta, Aman Swaraj, Karan Verma(参考訳) 背景と目的:パンデミックの間、人工知能(ai)アプローチとバイオメディカルサイエンスが組み合わさったアプローチは、医療システムや医師の負担を軽減する上で重要な役割を果たす。 新型コロナウイルスの急速な拡大は、病院のベッドやその他の医療機器の需要の増加につながった。 しかし、医療施設は限られているため、感染症の重症度に応じて患者を診断することが推奨されている。 このことを念頭に置いて、私たちはcovid-19の検出と、胸部ctスキャンとディープラーニング事前学習モデルを用いた重症度評価に関する研究を共有しています。 対象は,Non-COVID,Servere COVID,Non-Severe COVIDの3種類で,そのうち714のCT像がNon-COVIDのカテゴリ,713のCT像がNon-Sever COVIDのカテゴリ,539のCT像がServere COVIDのカテゴリである。 方法:全ての画像は、Contrast Limited Histogram Equalization (CLAHE) アプローチを用いて、最初に前処理される。 事前処理された画像はvgg-16ネットワークに送られ、特徴を抽出する。 最後に、検索した特徴を分類し、10倍のクロスバリデーション(CV)を持つ支持ベクトルマシン(SVM)を用いて精度を評価する。 結果と結論:本研究では,前処理,特徴抽出,分類についてよく知られた戦略を組み合わせることで,疾患の顕著な成功率と重症度認識を96.05%(非severe新型コロナウイルス像97.7%,重症covid-19画像93%)で達成した。 したがって、このモデルは、放射線科医がcovid-19とその重症度を検出するのに役立ちます。

Background and Objective: During pandemics, the use of artificial intelligence (AI) approaches combined with biomedical science play a significant role in reducing the burden on the healthcare systems and physicians. The rapid increment in cases of COVID-19 has led to an increase in demand for hospital beds and other medical equipment. However, since medical facilities are limited, it is recommended to diagnose patients as per the severity of the infection. Keeping this in mind, we share our research in detecting COVID-19 as well as assessing its severity using chest-CT scans and Deep Learning pre-trained models. Dataset: We have collected a total of 1966 CT Scan images for three different class labels, namely, Non-COVID, Severe COVID, and Non-Severe COVID, out of which 714 CT images belong to the Non-COVID category, 713 CT images are for Non-Severe COVID category and 539 CT images are of Severe COVID category. Methods: All of the images are initially pre-processed using the Contrast Limited Histogram Equalization (CLAHE) approach. The pre-processed images are then fed into the VGG-16 network for extracting features. Finally, the retrieved characteristics are categorized and the accuracy is evaluated using a support vector machine (SVM) with 10-fold cross-validation (CV). Result and Conclusion: In our study, we have combined well-known strategies for pre-processing, feature extraction, and classification which brings us to a remarkable success rate of disease and its severity recognition with an accuracy of 96.05% (97.7% for Non-Severe COVID-19 images and 93% for Severe COVID-19 images). Our model can therefore help radiologists detect COVID-19 and the extent of its severity.
翻訳日:2022-05-31 04:03:29 公開日:2022-05-27
# (参考訳) BEVFusion:シンプルでロバストなLiDARカメラフュージョンフレームワーク

BEVFusion: A Simple and Robust LiDAR-Camera Fusion Framework ( http://arxiv.org/abs/2205.13790v1 )

ライセンス: CC0 1.0
Tingting Liang, Hongwei Xie, Kaicheng Yu, Zhongyu Xia, Zhiwei Lin, Yongtao Wang, Tao Tang, Bing Wang, Zhi Tang(参考訳) カメラとLiDAR情報の融合は、3Dオブジェクト検出タスクのデファクトスタンダードになっている。 現在の手法では、LiDARセンサーの点雲をクエリとして利用し、画像空間の機能を活用している。 しかし、この基礎となる仮定は、現在の融合フレームワークが、マイナーやメジャーに関わらず、LiDARの誤動作が発生した場合の予測を生成できないことを人々は理解している。 これにより、デプロイメント能力を現実的な自律運転シナリオに根本的に制限する。 対照的に,カメラストリームはLiDARデータの入力に依存しないため,従来の手法の欠点に対処する,驚くほど単純かつ斬新な融合フレームワークであるBEVFusionを提案する。 通常のトレーニング環境下では,我々のフレームワークが最先端の手法を上回ることを実証的に示す。 様々なLiDARの故障をシミュレートする堅牢性トレーニング設定の下では、我々のフレームワークは最先端の手法を15.7%から28.9%まで大幅に上回っている。 我々の知る限りでは、我々は初めて現実的なLiDARの誤動作を処理し、後処理の手順を使わずに現実的なシナリオにデプロイできる。 コードはhttps://github.com/ADLab-AutoDrive/BEVFusion.comから入手できる。

Fusing the camera and LiDAR information has become a de-facto standard for 3D object detection tasks. Current methods rely on point clouds from the LiDAR sensor as queries to leverage the feature from the image space. However, people discover that this underlying assumption makes the current fusion framework infeasible to produce any prediction when there is a LiDAR malfunction, regardless of minor or major. This fundamentally limits the deployment capability to realistic autonomous driving scenarios. In contrast, we propose a surprisingly simple yet novel fusion framework, dubbed BEVFusion, whose camera stream does not depend on the input of LiDAR data, thus addressing the downside of previous methods. We empirically show that our framework surpasses the state-of-the-art methods under the normal training settings. Under the robustness training settings that simulate various LiDAR malfunctions, our framework significantly surpasses the state-of-the-art methods by 15.7% to 28.9% mAP. To the best of our knowledge, we are the first to handle realistic LiDAR malfunction and can be deployed to realistic scenarios without any post-processing procedure. The code is available at https://github.com/ADLab-AutoDrive/BEVFusion.
翻訳日:2022-05-31 03:53:18 公開日:2022-05-27
# (参考訳) 最寄りのゼロショット推論

Nearest Neighbor Zero-Shot Inference ( http://arxiv.org/abs/2205.13792v1 )

ライセンス: CC BY 4.0
Weijia Shi, Julian Michael, Suchin Gururangan, Luke Zettlemoyer(参考訳) 言語モデル(LM)を用いたゼロショット推論にk-nearest neighbor(kNN)検索拡張(Khandelwal et al., 2021)を用いた簡易かつ効果的な手法であるkNN-Promptを導入する。 我々のアプローチの鍵は、各分類ラベルを自然言語トークンのセットに自動的に関連付けることで、下流タスクにスパースkn分布を利用するファジィ動詞化器の導入である。 11種類のエンドタスク(スパンニングテキスト分類、事実検索、質問応答)で、GPT-2でkNN-Promptを使用すると、ゼロショットベースラインよりも大きなパフォーマンスが向上する(平均すると平均して14%の改善)。 大規模な実験により,kNN-Promptはドメイン適応に有効であり,さらに,kNN検索に使用するモデルのサイズに応じて,検索のメリットが増加することが示された。 全体として,検索による言語モデルの拡張はゼロショット推論に大きな利益をもたらす可能性を示し,より大きな検索モデルがさらに大きな利益をもたらす可能性がある。

We introduce kNN-Prompt, a simple and effective technique to use k-nearest neighbor (kNN) retrieval augmentation (Khandelwal et al., 2021) for zero-shot inference with language models (LMs). Key to our approach is the introduction of fuzzy verbalizers which leverage the sparse kNN distribution for downstream tasks by automatically associating each classification label with a set of natural language tokens. Across eleven diverse end-tasks (spanning text classification, fact retrieval and question answering), using kNN-Prompt with GPT-2 Large yields significant performance boosts over zero-shot baselines (14% absolute improvement over the base LM on average). Extensive experiments show that kNN-Prompt is effective for domain adaptation with no further training, and that the benefits of retrieval increase with the size of the model used for kNN retrieval. Overall, we show that augmenting a language model with retrieval can bring significant gains for zero-shot inference, with the possibility that larger retrieval models may yield even greater benefits.
翻訳日:2022-05-31 03:35:55 公開日:2022-05-27
# (参考訳) prune and distill: ラット視覚野および深層神経系における画像情報の類似的再構成

Prune and distill: similar reformatting of image information along rat visual cortex and deep neural networks ( http://arxiv.org/abs/2205.13816v1 )

ライセンス: CC BY 4.0
Paolo Muratore, Sina Tafazoli, Eugenio Piasini, Alessandro Laio and Davide Zoccolan(参考訳) 視覚物体認識は神経科学とコンピュータビジョンの両方で広く研究されている。 近年,この課題において最も一般的な人工神経系である深層畳み込みニューラルネットワーク(deep convolutional neural networks:cnns)は,視覚野の腹側の流れである脳における機能的類似物の優れたモデルを提供することが示されている。 このことは、CNNや腹腔内の流れを流れるときに視覚情報の改革の基礎となる共通原則が何かという疑問を引き起こしている。 ここでは、CNNまたは視覚野の内部表現で知られているいくつかの顕著な統計パターンを考察し、他のシステムでそれらを探す。 CNNでは, 腹側流のラットホモログに沿った対象表現の内在次元(ID)が, 2つの異なる伸展収縮相を示すことが示されている。 逆に, cnnでは, ラット大脳皮質でのこれまでの観察と一致して, トレーニングの結果, 単一単位の低レベルから中レベルの画像情報の蒸留とアクティブなプルーニング(idの増加を模倣する)が達成されることを示した。 以上の結果から,CNNと視覚野は,物体表現の次元展開・縮小と画像情報の再構成に類似した密接な関係があることが示唆された。

Visual object recognition has been extensively studied in both neuroscience and computer vision. Recently, the most popular class of artificial systems for this task, deep convolutional neural networks (CNNs), has been shown to provide excellent models for its functional analogue in the brain, the ventral stream in visual cortex. This has prompted questions on what, if any, are the common principles underlying the reformatting of visual information as it flows through a CNN or the ventral stream. Here we consider some prominent statistical patterns that are known to exist in the internal representations of either CNNs or the visual cortex and look for them in the other system. We show that intrinsic dimensionality (ID) of object representations along the rat homologue of the ventral stream presents two distinct expansion-contraction phases, as previously shown for CNNs. Conversely, in CNNs, we show that training results in both distillation and active pruning (mirroring the increase in ID) of low- to middle-level image information in single units, as representations gain the ability to support invariant discrimination, in agreement with previous observations in rat visual cortex. Taken together, our findings suggest that CNNs and visual cortex share a similarly tight relationship between dimensionality expansion/reduction of object representations and reformatting of image information.
翻訳日:2022-05-31 03:19:09 公開日:2022-05-27
# (参考訳) 正規化フローを用いた日内電力価格の多変量確率予測

Multivariate Probabilistic Forecasting of Intraday Electricity Prices using Normalizing Flows ( http://arxiv.org/abs/2205.13826v1 )

ライセンス: CC BY 4.0
Eike Cramer, Dirk Witthaut, Alexander Mitsos, Manuel Dahmen(参考訳) 電気は時間軸や規制の異なる様々な市場で取引されている。 再生可能エネルギーの普及により、短期貿易がますます重要になる。 ドイツでは、日内電力価格は通常、エペックススポット市場の日内価格の前後で異なる時間ごとのパターンで変動する。 本研究は,日頭契約の日内価格差をモデル化する確率論的モデリング手法を提案する。 各日頭価格間隔の4つの15分間隔を4次元のジョイント分布として考慮し、出現する時間パターンをキャプチャする。 その結果得られる非自明で多変量価格差分布は正規化フロー、すなわち条件付き多変量密度推定と確率的回帰を組み合わせた深い生成モデルを用いて学習される。 正規化フローは、歴史的データの選択、ガウスコプラ、ガウス回帰モデルと比較される。 異なるモデルのうち、正規化フローは傾向を最も正確に識別し、最も狭い予測間隔を持つ。 特に、正規化フローは稀な価格ピークを特定する唯一のアプローチである。 最後に, 外部の影響要因の影響を考察し, これらの要因のほとんどが, 個々に無視できる影響を見出した。 価格差の実現の直接的な歴史とすべての入力要因の組み合わせだけが、予測の顕著な改善につながる。

Electricity is traded on various markets with different time horizons and regulations. Short-term trading becomes increasingly important due to higher penetration of renewables. In Germany, the intraday electricity price typically fluctuates around the day-ahead price of the EPEX spot markets in a distinct hourly pattern. This work proposes a probabilistic modeling approach that models the intraday price difference to the day-ahead contracts. The model captures the emerging hourly pattern by considering the four 15 min intervals in each day-ahead price interval as a four-dimensional joint distribution. The resulting nontrivial, multivariate price difference distribution is learned using a normalizing flow, i.e., a deep generative model that combines conditional multivariate density estimation and probabilistic regression. The normalizing flow is compared to a selection of historical data, a Gaussian copula, and a Gaussian regression model. Among the different models, the normalizing flow identifies the trends most accurately and has the narrowest prediction intervals. Notably, the normalizing flow is the only approach that identifies rare price peaks. Finally, this work discusses the influence of different external impact factors and finds that, individually, most of these factors have negligible impact. Only the immediate history of the price difference realization and the combination of all input factors lead to notable improvements in the forecasts.
翻訳日:2022-05-31 03:05:38 公開日:2022-05-27
# (参考訳) 動的モデルの非現実的解析:コピュラスと境界

Counterfactual Analysis in Dynamic Models: Copulas and Bounds ( http://arxiv.org/abs/2205.13832v1 )

ライセンス: CC BY 4.0
Martin Haugh and Raghav Singal(参考訳) 構造因果モデル (scm) における因果機構の明示的なモデルを提供し, 利益の反事実量(cqis)を推定することを目的としている。 因果機構の基礎として,いくつかの標準依存構造,すなわちコプラを提案する。 これらの基本ケースはより興味深いコピュラを構築するのに使うことができるが、一般的には数え切れないほど多くのコピュラが存在し、cqiを束縛するための最適化問題を定式化する。 我々の最終的なゴールは、潜在状態を持つかもしれない動的モデルの反実的推論であり、例えば、これらのモデルのフィルタリング/平滑化/サンプリング手法が因果メカニズムのモデリングと統合できることを示します。 具体的には,隠れマルコフモデルによる「カジノの暖房」を考慮し,リニアプログラミング(LP)を用いて,カジノの勝利に対する不正行為による下限と上限を構築する。 これらの境界は、lps内のコプラを時間に依存しないものに制限する場合、かなり厳しい。 我々は,CS をモデル化するための Gumbel-max 機構の独自性について,Oberst と Sontag [18] のオープンな疑問に否定的に答えるために,CS に従う SCM の全空間を特徴付けることができる。 我々の研究は疫学や法理学に応用されており、より一般的には反実的非政治評価において、強化学習コミュニティへの関心が高まりつつある。

We provide an explicit model of the causal mechanism in a structural causal model (SCM) with the goal of estimating counterfactual quantities of interest (CQIs). We propose some standard dependence structures, i.e. copulas, as base cases for the causal mechanism. While these base cases can be used to construct more interesting copulas, there are uncountably many copulas in general and so we formulate optimization problems for bounding the CQIs. As our ultimate goal is counterfactual reasoning in dynamic models which may have latent-states, we show by way of example that filtering / smoothing / sampling methods for these models can be integrated with our modeling of the causal mechanism. Specifically, we consider the "cheating-at-the-casino" application of a hidden Markov model and use linear programming (LP) to construct lower and upper bounds on the casino's winnings due to cheating. These bounds are considerably tighter when we constrain the copulas in the LPs to be time-independent. We can characterize the entire space of SCMs obeying counterfactual stability (CS), and we use it to negatively answer the open question of Oberst and Sontag [18] regarding the uniqueness of the Gumbel-max mechanism for modeling CS. Our work has applications in epidemiology and legal reasoning, and more generally in counterfactual off-policy evaluation, a topic of increasing interest in the reinforcement learning community.
翻訳日:2022-05-31 02:50:41 公開日:2022-05-27
# (参考訳) ディープQ-ネットワークを用いたトリックタイキングゲームウィザードにおけるバイディングとプレイ戦略の改善

Improving Bidding and Playing Strategies in the Trick-Taking game Wizard using Deep Q-Networks ( http://arxiv.org/abs/2205.13834v1 )

ライセンス: CC BY 4.0
Jonas Schumacher, Marco Pleines(参考訳) 本研究では、別途入札とプレイのフェーズを持つトリックテイクゲームウィザードを、2つのインターリーブ部分可観測マルコフ決定プロセス(pomdp)によってモデル化する。 ディープQネットワークワークス(DQN)は、非定常環境の課題に対処できる自己改善エージェントの強化に使用される。 アルゴリズムを互いに比較するために、入札とトリックカウントの精度を監視し、実際の報酬と強く相関し、明確に定義された上と下のパフォーマンスバウンドを提供する。 訓練されたDQNエージェントは、ランダムベースラインとルールベースのヒューリスティックの両方を残して、自己プレイの66%から87%の精度を達成する。 また, 入札時のプレーヤ位置に関する強い情報非対称性も明らかにした。 不完全情報ゲームのマルコフ特性を克服するため、長い短期記憶(LSTM)ネットワークを実装し、歴史的情報を意思決定プロセスに統合する。 また、環境の状態をサンプリングし、ゲームが完全な情報設定になるようにして前方方向のツリー探索を行う。 驚いたことに、どちらのアプローチも基本的なDQNエージェントの性能を超えない。

In this work, the trick-taking game Wizard with a separate bidding and playing phase is modeled by two interleaved partially observable Markov decision processes (POMDP). Deep Q-Networks (DQN) are used to empower self-improving agents, which are capable of tackling the challenges of a highly non-stationary environment. To compare algorithms between each other, the accuracy between bid and trick count is monitored, which strongly correlates with the actual rewards and provides a well-defined upper and lower performance bound. The trained DQN agents achieve accuracies between 66% and 87% in self-play, leaving behind both a random baseline and a rule-based heuristic. The conducted analysis also reveals a strong information asymmetry concerning player positions during bidding. To overcome the missing Markov property of imperfect-information games, a long short-term memory (LSTM) network is implemented to integrate historic information into the decision-making process. Additionally, a forward-directed tree search is conducted by sampling a state of the environment and thereby turning the game into a perfect information setting. To our surprise, both approaches do not surpass the performance of the basic DQN agent.
翻訳日:2022-05-31 02:23:13 公開日:2022-05-27
# (参考訳) マイクロコントローラのエネルギー効率を考慮した適応型ランダムフォレスト

Adaptive Random Forests for Energy-Efficient Inference on Microcontrollers ( http://arxiv.org/abs/2205.13838v1 )

ライセンス: CC BY 4.0
Francesco Daghero, Alessio Burrello, Chen Xie, Luca Benini, Andrea Calimera, Enrico Macii, Massimo Poncino, Daniele Jahier Pagliari(参考訳) ランダムフォレスト(RF)は、ハードウェアフレンドリーな操作と実用的なタスクにおける高い精度のため、低消費電力組み込みデバイスで機械学習モデルとして広く使用されている。 rfの精度はしばしば内部弱い学習者(決定木)の数によって増加するが、推論遅延とエネルギー消費量の比例的に増加するコストがかかる。 ほとんどのアプリケーションでは、入力が等しく分類することが難しいとは限らないため、そのようなコストを軽減できる。 したがって、大きなRFはハードインプットにのみ必要であり、簡単な入力には無駄であることが多い。 本研究では,RFの早期停止機構を提案し,高い分類信頼度に達すると推論が終了し,簡単な入力のために実行される弱い学習者の数を削減した。 早期に停止する信頼閾値は、省エネか正確性のいずれかを優先するために実行時に制御できる。 本手法は, 単コアRISC-Vマイクロコントローラ上での3種類の組込み型分類タスクに適用し, エネルギーを38%から90%以上まで削減し, 精度は0.5%以下とした。 また,提案手法は従来の適応型ML法よりも優れていることを示す。

Random Forests (RFs) are widely used Machine Learning models in low-power embedded devices, due to their hardware friendly operation and high accuracy on practically relevant tasks. The accuracy of a RF often increases with the number of internal weak learners (decision trees), but at the cost of a proportional increase in inference latency and energy consumption. Such costs can be mitigated considering that, in most applications, inputs are not all equally difficult to classify. Therefore, a large RF is often necessary only for (few) hard inputs, and wasteful for easier ones. In this work, we propose an early-stopping mechanism for RFs, which terminates the inference as soon as a high-enough classification confidence is reached, reducing the number of weak learners executed for easy inputs. The early-stopping confidence threshold can be controlled at runtime, in order to favor either energy saving or accuracy. We apply our method to three different embedded classification tasks, on a single-core RISC-V microcontroller, achieving an energy reduction from 38% to more than 90% with a drop of less than 0.5% in accuracy. We also show that our approach outperforms previous adaptive ML methods for RFs.
翻訳日:2022-05-31 02:11:03 公開日:2022-05-27
# (参考訳) Semeval-2022 Task 1: CODWOE -- 辞書と単語埋め込みの比較

Semeval-2022 Task 1: CODWOE -- Comparing Dictionaries and Word Embeddings ( http://arxiv.org/abs/2205.13858v1 )

ライセンス: CC BY-SA 4.0
Timothee Mickus and Kees van Deemter and Mathieu Constant and Denis Paperno(参考訳) 単語の埋め込みは多くのタスクでNLPの最先端の技術を進歩させてきた。 密度の高い神経表現の内容を理解することは、計算意味論コミュニティにとって最も関心がある。 辞書で見られるように、不透明な単語ベクトルを人間可読な定義に関連付けることを提案する。 この問題は自然に2つのサブタスクに分割する:定義を埋め込みに変換し、埋め込みを定義に変換する。 このタスクは、同質に訓練された同種の埋め込みセットを使用して、多言語設定で実行された。

Word embeddings have advanced the state of the art in NLP across numerous tasks. Understanding the contents of dense neural representations is of utmost interest to the computational semantics community. We propose to focus on relating these opaque word vectors with human-readable definitions, as found in dictionaries. This problem naturally divides into two subtasks: converting definitions into embeddings, and converting embeddings into definitions. This task was conducted in a multilingual setting, using comparable sets of embeddings trained homogeneously.
翻訳日:2022-05-31 01:59:30 公開日:2022-05-27
# (参考訳) 隠れ状態と観測不能遷移を持つ確率システム

Probabilistic Systems with Hidden State and Unobservable Transitions ( http://arxiv.org/abs/2205.13871v1 )

ライセンス: CC BY-SA 4.0
Rebecca Bernemann, Barbara K\"onig, Matthias Schaffeld, Torben Weis(参考訳) 我々は、隠れ状態と観測不可能な遷移を持つ確率的系を、特に観測者が認識できない状態変化を許容する観測不可能な可観測的遷移(英語版)(unobservable {\epsilon}-transitions)を許容する隠れマルコフモデル(HMM)の拡張とみなす。 エプシロンループの存在により、この追加機能は理論を複雑化し、対応する確率空間と確率変数を慎重に設定する必要がある。 特に、観測(hmmに対するビタビアルゴリズムの一般化)によって与えられた最も可能性の高い説明を決定するアルゴリズムと、観測(ボーム・ウェルチアルゴリズムの一般化)に基づいて与えられたモデルの確率に適応するパラメータ学習方法を提案する。 後者のアルゴリズムは、与えられた観測値がパラメータの調整後に高い(または等しい)確率を持つことを保証し、その正確性はいわゆるemアルゴリズムから直接導出することができる。

We consider probabilistic systems with hidden state and unobservable transitions, an extension of Hidden Markov Models (HMMs) that in particular admits unobservable {\epsilon}-transitions (also called null transitions), allowing state changes of which the observer is unaware. Due to the presence of {\epsilon}-loops this additional feature complicates the theory and requires to carefully set up the corresponding probability space and random variables. In particular we present an algorithm for determining the most probable explanation given an observation (a generalization of the Viterbi algorithm for HMMs) and a method for parameter learning that adapts the probabilities of a given model based on an observation (a generalization of the Baum-Welch algorithm). The latter algorithm guarantees that the given observation has a higher (or equal) probability after adjustment of the parameters and its correctness can be derived directly from the so-called EM algorithm.
翻訳日:2022-05-31 01:39:43 公開日:2022-05-27
# (参考訳) TraClets: 軌跡分類のためのコンピュータビジョンのパワーを損なう

TraClets: Harnessing the power of computer vision for trajectory classification ( http://arxiv.org/abs/2205.13880v1 )

ライセンス: CC BY 4.0
Ioannis Kontopoulos, Antonios Makris, Konstantinos Tserpes, Vania Bogorny(参考訳) 近年、新しいモバイルデバイスやトラッキングセンサーが登場し、大量のデータが毎日作成されている。 したがって、この広大な情報の海を潜り抜け、洞察と意味のある情報を生み出す新しい手法が現れる必要がある。 この目的のために、研究者は追跡データを注釈付けできる軌道分類アルゴリズムを何年もかけて開発してきた。 同様に、コンピュータビジョン技術を用いて、直観的な人間の方法で軌跡を分類するために、トラクレットと呼ばれる軌跡の画像表現を利用する新しい方法論が提示されている。 いくつかの実世界のデータセットを用いて提案手法を評価し、その分類性能を他の最先端軌跡分類アルゴリズムと比較する。 実験の結果, トラクレットは, トラジェクトリ分類の汎用的, 高精度な手法として, 最先端技術に匹敵する, あるいはほとんどの場合において, 分類性能を達成していることがわかった。

Due to the advent of new mobile devices and tracking sensors in recent years, huge amounts of data are being produced every day. Therefore, novel methodologies need to emerge that dive through this vast sea of information and generate insights and meaningful information. To this end, researchers have developed several trajectory classification algorithms over the years that are able to annotate tracking data. Similarly, in this research, a novel methodology is presented that exploits image representations of trajectories, called TraClets, in order to classify trajectories in an intuitive humans way, through computer vision techniques. Several real-world datasets are used to evaluate the proposed approach and compare its classification performance to other state-of-the-art trajectory classification algorithms. Experimental results demonstrate that TraClets achieves a classification performance that is comparable to, or in most cases, better than the state-of-the-art, acting as a universal, high-accuracy approach for trajectory classification.
翻訳日:2022-05-31 01:23:45 公開日:2022-05-27
# (参考訳) reddit投稿のうつ病トリアージに対するプロセス知識を用いたフォローアップ質問生成の学習

Learning to Automate Follow-up Question Generation using Process Knowledge for Depression Triage on Reddit Posts ( http://arxiv.org/abs/2205.13884v1 )

ライセンス: CC BY-SA 4.0
Shrey Gupta, Anmol Agarwal, Manas Gaur, Kaushik Roy, Vignesh Narayanan, Ponnurangam Kumaraguru, Amit Sheth(参考訳) 深層言語モデル(DLM)を駆使した会話エージェント(CA)は、メンタルヘルス分野において大きな可能性を秘めている。 主に、CAは患者に情報提供や治療に使われてきた。 しかし、精神保健専門医(MHP)が臨床現場でしばしば開始し指導するフォローアップ質問(FQ)の制御を必要とするため、メンタルヘルストリアージを支援するためのCAの有用性は、既存の研究では検討されていない。 うつの文脈では,精神保健調査におけるプロセス知識と組み合わせたDLMは,PHQ-9データセットの質問に対する類似性と最長の共通サブシーケンスマッチングに基づいて12.54%と9.37%の優れたFQを生成する。 プロセス知識との結合にもかかわらず、DLMは幻覚、すなわち冗長で無関係で安全でないFQを生成する傾向にある。 臨床プロセス知識に準拠したFQを生成するために,既存のデータセットを用いてDLMを訓練する課題を示す。 この制限に対処するため,我々はmhps と共同で phq-9 ベースの拡張データセット primate を作成した。 PRIMATEには、PHQ-9データセットの特定の質問が、ユーザーのメンタルヘルス状態に関する最初の記述で既に回答されているかどうかに関するアノテーションが含まれている。 我々は,dlmを教師付き設定でトレーニングするためにprimateを用いて,phq-9質問のどれがユーザの投稿から直接回答可能で,どれがユーザからのさらなる情報を必要とするかを識別した。 MCCスコアに基づく評価分析により, PRIMATEはPHQ-9において, トリアージ支援に適した制御FQ生成に向けて生成DLMを誘導する問題を特定するのに適していることが示された。 この研究の一部として作成されたデータセット: https://github.com/primate-mh/primate2022

Conversational Agents (CAs) powered with deep language models (DLMs) have shown tremendous promise in the domain of mental health. Prominently, the CAs have been used to provide informational or therapeutic services to patients. However, the utility of CAs to assist in mental health triaging has not been explored in the existing work as it requires a controlled generation of follow-up questions (FQs), which are often initiated and guided by the mental health professionals (MHPs) in clinical settings. In the context of depression, our experiments show that DLMs coupled with process knowledge in a mental health questionnaire generate 12.54% and 9.37% better FQs based on similarity and longest common subsequence matches to questions in the PHQ-9 dataset respectively, when compared with DLMs without process knowledge support. Despite coupling with process knowledge, we find that DLMs are still prone to hallucination, i.e., generating redundant, irrelevant, and unsafe FQs. We demonstrate the challenge of using existing datasets to train a DLM for generating FQs that adhere to clinical process knowledge. To address this limitation, we prepared an extended PHQ-9 based dataset, PRIMATE, in collaboration with MHPs. PRIMATE contains annotations regarding whether a particular question in the PHQ-9 dataset has already been answered in the user's initial description of the mental health condition. We used PRIMATE to train a DLM in a supervised setting to identify which of the PHQ-9 questions can be answered directly from the user's post and which ones would require more information from the user. Using performance analysis based on MCC scores, we show that PRIMATE is appropriate for identifying questions in PHQ-9 that could guide generative DLMs towards controlled FQ generation suitable for aiding triaging. Dataset created as a part of this research: https://github.com/primate-mh/Primate2022
翻訳日:2022-05-31 01:04:28 公開日:2022-05-27
# (参考訳) 合成グラフデータセット生成における協調交渉によるバイアス低減

Bias Reduction via Cooperative Bargaining in Synthetic Graph Dataset Generation ( http://arxiv.org/abs/2205.13901v1 )

ライセンス: CC BY 4.0
Axel Wassington and Sergi Abadal(参考訳) 一般に、データセットから堅牢な結論を引き出すには、分析された全人口をそのデータセット上で表現する必要がある。 この条件を満たさないデータセットを持つことは、通常、選択バイアスにつながる。 さらに、グラフは様々な問題をモデル化するために使われてきた。 合成グラフは、選択バイアスを克服するために利用可能な実グラフデータセットを拡張するために使用できるが、バイアスのない合成データセットの生成は、現在のツールと複雑である。 本研究では,異なるメトリクスを持つグラフの偶数表現を持つ合成グラフデータセットを探索する手法を提案する。 得られたデータセットは、グラフ処理テクニックを、異なるグラフニューラルネットワーク(gnn)モデルの精度や、異なるグラフ処理アクセラレーションフレームワークによって得られるスピードアップとしてベンチマークするために使われる。

In general, to draw robust conclusions from a dataset, all the analyzed population must be represented on said dataset. Having a dataset that does not fulfill this condition normally leads to selection bias. Additionally, graphs have been used to model a wide variety of problems. Although synthetic graphs can be used to augment available real graph datasets to overcome selection bias, the generation of unbiased synthetic datasets is complex with current tools. In this work, we propose a method to find a synthetic graph dataset that has an even representation of graphs with different metrics. The resulting dataset can then be used, among others, for benchmarking graph processing techniques as the accuracy of different Graph Neural Network (GNN) models or the speedups obtained by different graph processing acceleration frameworks.
翻訳日:2022-05-31 00:48:59 公開日:2022-05-27
# (参考訳) (De-)決定スタンプアンサンブルのためのランダム化平滑化

(De-)Randomized Smoothing for Decision Stump Ensembles ( http://arxiv.org/abs/2205.13909v1 )

ライセンス: CC BY 4.0
Mikl\'os Z. Horv\'ath, Mark Niklas M\"uller, Marc Fischer, Martin Vechev(参考訳) ツリーベースのモデルは金融や医療といった多くの高リスクアプリケーションドメインで使われており、堅牢性と解釈性が最も重要である。 しかし、そのロバスト性を改善し、証明する手法は、ニューラルネットワークにフォーカスするものとは対照的に、厳格に検討されていない。 この重要な課題を目標として,決定的スムーズ化を提案する。 ランダム化平滑化に関するこれまでのほとんどの研究は、入力ランダム化に基づく任意のベースモデルの評価に重点を置いていたが、我々の研究の重要な洞察は、決定スタンプアンサンブルが動的プログラミングによる正確かつ効率的な評価を可能にすることである。 重要なのは,実世界においてユビキタスな設定である数値的およびカテゴリー的特徴の上にも,決定論的ロバストネス証明を得ることである。 さらに,ランダム化下の平滑化決定スランプに対するmle-optimal training法を導出し,証明可能なロバスト性を改善するための2つの促進手法を提案する。 広範な実験結果から,本手法は,木ベースモデルにおいて最先端の手法よりも高い認証精度が得られることがわかった。 私たちはANONYMIZEDですべてのコードとトレーニングされたモデルをリリースします。

Tree-based models are used in many high-stakes application domains such as finance and medicine, where robustness and interpretability are of utmost importance. Yet, methods for improving and certifying their robustness are severely under-explored, in contrast to those focusing on neural networks. Targeting this important challenge, we propose deterministic smoothing for decision stump ensembles. Whereas most prior work on randomized smoothing focuses on evaluating arbitrary base models approximately under input randomization, the key insight of our work is that decision stump ensembles enable exact yet efficient evaluation via dynamic programming. Importantly, we obtain deterministic robustness certificates, even jointly over numerical and categorical features, a setting ubiquitous in the real world. Further, we derive an MLE-optimal training method for smoothed decision stumps under randomization and propose two boosting approaches to improve their provable robustness. An extensive experimental evaluation shows that our approach yields significantly higher certified accuracies than the state-of-the-art for tree-based models. We release all code and trained models at ANONYMIZED.
翻訳日:2022-05-31 00:36:50 公開日:2022-05-27
# (参考訳) 2点フィードバックによるオンラインゼロオーダー最適化のためのL1ランダム化による勾配推定器

A gradient estimator via L1-randomization for online zero-order optimization with two point feedback ( http://arxiv.org/abs/2205.13910v1 )

ライセンス: CC0 1.0
Arya Akhavan, Evgenii Chzhen, Massimiliano Pontil, Alexandre B. Tsybakov(参考訳) 本研究は凸関数とリプシッツ関数のオンラインゼロ次最適化を研究する。 2つの関数評価と$\ell_1$-sphereのランダム化に基づく新しい勾配推定器を提案する。 実現可能な集合の異なる測度とリプシッツの仮定を考えると、通常の勾配に代えてオンラインミラー降下アルゴリズムを推定器で解析する。 ゼロ次オラクルの雑音に対する仮定は,ノイズのキャンセルと逆方向雑音の2種類を考慮する。 問題の全パラメータに適応した,任意の時間かつデータ駆動型アルゴリズムを提供する。 これまで文献で研究されていたノイズキャンセリングの場合、この保証は--\citet{duchi2015} と \citet{shamir17} によって得られた非適応アルゴリズムの最先端境界と同等かそれ以上である。 我々の分析は、明示定数を持つ$\ell_1$-球面上の一様測度に対する新しいポアンカー型不等式を導出することに基づいている。

This work studies online zero-order optimization of convex and Lipschitz functions. We present a novel gradient estimator based on two function evaluation and randomization on the $\ell_1$-sphere. Considering different geometries of feasible sets and Lipschitz assumptions we analyse online mirror descent algorithm with our estimator in place of the usual gradient. We consider two types of assumptions on the noise of the zero-order oracle: canceling noise and adversarial noise. We provide an anytime and completely data-driven algorithm, which is adaptive to all parameters of the problem. In the case of canceling noise that was previously studied in the literature, our guarantees are either comparable or better than state-of-the-art bounds obtained by~\citet{duchi2015} and \citet{Shamir17} for non-adaptive algorithms. Our analysis is based on deriving a new Poincar\'e type inequality for the uniform measure on the $\ell_1$-sphere with explicit constants, which may be of independent interest.
翻訳日:2022-05-30 23:57:46 公開日:2022-05-27
# (参考訳) 有向非巡回グラフにおける高速因果方向学習

Fast Causal Orientation Learning in Directed Acyclic Graphs ( http://arxiv.org/abs/2205.13919v1 )

ライセンス: CC BY 4.0
Ramin Safaeian, Saber Salehkaleybar, Mahmoud Tabandeh(参考訳) 一連の変数間の因果関係は一般に有向非巡回グラフによって表される。 因果DAGのいくつかのエッジの向きは、観測データやインターベンショナルデータから分かる。 いわゆるmeekルールを反復的に適用することで、さらなるエッジを指向することができる。 COL(Causal Orientation Learning)と呼ばれる先進エッジからエッジの向きを推定することは、様々な因果発見タスクにおいて一般的な問題である。 これらのタスクでは、複数のCOL問題を解決する必要があるため、Meekルールを適用するのに時間がかかる可能性がある。 本稿では,COL問題の解法として活用できるMeek関数を導入する。 特に、これらの関数には望ましい性質があることを示し、Meekルールを適用するプロセスの高速化を可能にします。 特に,Meek関数を適用した動的プログラミング(DP)手法を提案する。 さらに,提案手法を応用して,介入の結果として指向できるエッジ数に対する低境界を提示する。 また,ある方向のエッジが因果DAGに属するかどうかを確認する手法を提案する。 実験の結果,提案手法は,実行時間の観点から,いくつかの因果発見タスクにおいて,過去の作業よりも優れていた。

Causal relationships among a set of variables are commonly represented by a directed acyclic graph. The orientations of some edges in the causal DAG can be discovered from observational/interventional data. Further edges can be oriented by iteratively applying so-called Meek rules. Inferring edges' orientations from some previously oriented edges, which we call Causal Orientation Learning (COL), is a common problem in various causal discovery tasks. In these tasks, it is often required to solve multiple COL problems and therefore applying Meek rules could be time-consuming. Motivated by Meek rules, we introduce Meek functions that can be utilized in solving COL problems. In particular, we show that these functions have some desirable properties, enabling us to speed up the process of applying Meek rules. In particular, we propose a dynamic programming (DP) based method to apply Meek functions. Moreover, based on the proposed DP method, we present a lower bound on the number of edges that can be oriented as a result of intervention. We also propose a method to check whether some oriented edges belong to a causal DAG. Experimental results show that the proposed methods can outperform previous work in several causal discovery tasks in terms of running-time.
翻訳日:2022-05-30 23:36:42 公開日:2022-05-27
# (参考訳) CREAM: クラス再活性化マッピングによるオブジェクトローカライゼーションの弱さ

CREAM: Weakly Supervised Object Localization via Class RE-Activation Mapping ( http://arxiv.org/abs/2205.13922v1 )

ライセンス: CC BY 4.0
Jilan Xu, Junlin Hou, Yuejie Zhang, Rui Feng, Rui-Wei Zhao, Tao Zhang, Xuequan Lu, Shang Gao(参考訳) Weakly Supervised Object Localization (WSOL)は、オブジェクトを画像レベルの監視でローカライズすることを目的としている。 既存の作品は、主に分類モデルから派生したクラスアクティベーションマッピング(cam)に依存している。 しかし、CAMベースの手法は通常、オブジェクトの最も差別的な部分(すなわち不完全局所化問題)に焦点を当てる。 本稿では, 差別的でない前景領域と背景領域のアクティベーション値の混合と, この問題が関係していることを実証的に証明する。 そこで本研究では,統合オブジェクト領域の活性化値を高めるために,クラスタリングに基づく新しいアプローチであるクラス再活性化マッピング(CREAM)を提案する。 この目的のために,クラス固有のフォアグラウンドと背景コンテキストの埋め込みをクラスタセントロイドとして導入する。 CAM誘導運動量保存戦略を開発し、トレーニング中の文脈埋め込みを学習する。 推定段階では、再活性化写像はガウス混合モデルの下でパラメータ推定問題として定式化され、教師なし期待最大化に基づくソフトクラスタリングアルゴリズムを導出することで解決できる。 CREAMを様々なWSOLアプローチに統合することで、本手法は性能を大幅に改善する。 CREAMは、CUB、ILSVRC、OpenImagesベンチマークデータセットの最先端のパフォーマンスを達成する。 コードはhttps://github.com/Jazzcharles/CREAM.comから入手できる。

Weakly Supervised Object Localization (WSOL) aims to localize objects with image-level supervision. Existing works mainly rely on Class Activation Mapping (CAM) derived from a classification model. However, CAM-based methods usually focus on the most discriminative parts of an object (i.e., incomplete localization problem). In this paper, we empirically prove that this problem is associated with the mixup of the activation values between less discriminative foreground regions and the background. To address it, we propose Class RE-Activation Mapping (CREAM), a novel clustering-based approach to boost the activation values of the integral object regions. To this end, we introduce class-specific foreground and background context embeddings as cluster centroids. A CAM-guided momentum preservation strategy is developed to learn the context embeddings during training. At the inference stage, the re-activation mapping is formulated as a parameter estimation problem under Gaussian Mixture Model, which can be solved by deriving an unsupervised Expectation-Maximization based soft-clustering algorithm. By simply integrating CREAM into various WSOL approaches, our method significantly improves their performance. CREAM achieves the state-of-the-art performance on CUB, ILSVRC and OpenImages benchmark datasets. Code will be available at https://github.com/Jazzcharles/CREAM.
翻訳日:2022-05-30 23:35:38 公開日:2022-05-27
# (参考訳) 非凸フェデレーション学習におけるクライアント選択:最適アンバイアスサンプリング戦略のための収束分析の改善

Client Selection in Nonconvex Federated Learning: Improved Convergence Analysis for Optimal Unbiased Sampling Strategy ( http://arxiv.org/abs/2205.13925v1 )

ライセンス: CC BY 4.0
Lin Wang, YongXin Guo, Tao Lin, Xiaoying Tang(参考訳) Federated Learning(FL)は、分散機械学習パラダイムで、訓練に参加するクライアントのサブセットを選択して、コミュニケーションの負担を軽減する。 しかし、flへの部分的なクライアント参加は収束を妨げることがあり、この目的の不整合はサンプリング法に関する既存の研究では分析されていない。 この問題に対処するために,実践的参加客の目的の収束行動に着目した改良型分析手法を提案する。 さらに, この収束解析に基づいて, クライアントの勾配の多様性と局所的分散に比例するサンプリング確率を持つfeedsrc-dという新しい非バイアスサンプリング戦略を提案する。 FedSRC-Dは、与えられた境界に対する非IID FLの非凸設定における最適なアンバイアスサンプリングを可能にする。 具体的には、FedSRC-D は$\mathop{O}(\frac{G^2}{\epsilon^2}+\frac{1}{\epsilon^{2/3}}) を FedAvg の SOTA 収束速度より高く、$\mathop{O}(\frac{G^2}{\epsilon^2}) を他の非バイアスサンプリング法より高くする。 我々は、合成データセットと実データの両方の実験で結果を裏付ける。

Federated learning (FL) is a distributed machine learning paradigm that selects a subset of clients to participate in training to reduce communication burdens. However, partial client participation in FL causes \emph{objective inconsistency}, which can hinder the convergence, while this objective inconsistency has not been analyzed in existing studies on sampling methods. To tackle this issue, we propose an improved analysis method that focuses on the convergence behavior of the practical participated client's objective. Moreover, based on our convergence analysis, we give a novel unbiased sampling strategy, i.e., FedSRC-D, whose sampling probability is proportional to the client's gradient diversity and local variance. FedSRC-D is provable the optimal unbiased sampling in non-convex settings for non-IID FL with respect to the given bounds. Specifically, FedSRC-D achieves $\mathop{O}(\frac{G^2}{\epsilon^2}+\frac{1}{\epsilon^{2/3}})$ higher than SOTA convergence rate of FedAvg, and $\mathop{O}(\frac{G^2}{\epsilon^2})$ higher than other unbiased sampling methods. We corroborate our results with experiments on both synthetic and real data sets.
翻訳日:2022-05-30 23:22:51 公開日:2022-05-27
# (参考訳) 確率変換器:RNAのフォールディングと分子設計のための相違と分布のモデル化

Probabilistic Transformer: Modelling Ambiguities and Distributions for RNA Folding and Molecule Design ( http://arxiv.org/abs/2205.13927v1 )

ライセンス: CC BY-SA 4.0
J\"org K. H. Franke, Frederic Runge, Frank Hutter(参考訳) 私たちの世界は曖昧であり、これはアルゴリズムのトレーニングに使用するデータに反映されます。 これは、収集されたデータがノイズ測定や測定手法の違いによって影響を受ける自然過程をモデル化しようとするときに特に当てはまる。 例えばRNAの折り畳みでは、単一のヌクレオチド配列が複数の構造に折り畳まれることがある。 この曖昧さは、予測モデルはモデルに類似した確率特性を持つべきであることを示唆している。 そこで本稿では,最も成功したディープラーニングモデルであるTransformerを拡張し,あいまいさやデータ分布に対応する階層型潜在分布を提案する。 本研究は,RNA折り畳み技術による合成作業に対するアプローチの利点を示し,その特性に基づく分子設計における生成能力を示す。

Our world is ambiguous and this is reflected in the data we use to train our algorithms. This is especially true when we try to model natural processes where collected data is affected by noisy measurements and differences in measurement techniques. Sometimes, the process itself can be ambiguous, such as in the case of RNA folding, where a single nucleotide sequence can fold into multiple structures. This ambiguity suggests that a predictive model should have similar probabilistic characteristics to match the data it models. Therefore, we propose a hierarchical latent distribution to enhance one of the most successful deep learning models, the Transformer, to accommodate ambiguities and data distributions. We show the benefits of our approach on a synthetic task, with state-of-the-art results in RNA folding, and demonstrate its generative capabilities on property-based molecule design, outperforming existing work.
翻訳日:2022-05-30 22:40:33 公開日:2022-05-27
# (参考訳) クラスタリングに基づくドメイン適応による深層顔認識

Deep face recognition with clustering based domain adaptation ( http://arxiv.org/abs/2205.13937v1 )

ライセンス: CC BY 4.0
Mei Wang, Weihong Deng(参考訳) 深層畳み込みニューラルネットワーク(cnns)による顔認識タスクの進歩にもかかわらず、これらのモデルは、インターネットから収集されたトレーニング画像が、照明条件、ポーズ、画質の異なるためテスト画像とは異なる現実のタスクにおいて、しばしば課題に直面している。 これらの要因は、トレーニング(ソースドメイン)とテスト(ターゲットドメイン)データベース間のドメインの相違を高め、学習したモデルをアプリケーション内で退化させる。 一方、ラベル付き対象データがないため、事前学習モデルを直接微調整することは困難で実用的ではない。 本稿では,ソースドメインとターゲットドメインがクラスを共有しない,顔認識タスク用に設計されたクラスタリングに基づく新しいドメイン適応手法を提案する。 本手法は,グローバルに特徴領域を調整し,その間,局所的に対象クラスタを識別することで,識別対象特徴を効果的に学習する。 具体的には、まず、大域的領域差を最小化し、領域ギャップを最小化し、より信頼性の高いクラスタリング表現を学習し、次いで、単純化されたスペクトルクラスタリング法を適用して、ドメイン不変特徴空間における擬似ラベルを生成し、最終的に識別対象表現を学習する。 GBU, IJB-A/B/C, RFWデータベースの総合的な実験により, 提案手法の有効性が明らかとなった。 GBUデータセットの最先端性能は、目標トレーニングデータからの教師なし適応のみにより達成される。

Despite great progress in face recognition tasks achieved by deep convolution neural networks (CNNs), these models often face challenges in real world tasks where training images gathered from Internet are different from test images because of different lighting condition, pose and image quality. These factors increase domain discrepancy between training (source domain) and testing (target domain) database and make the learnt models degenerate in application. Meanwhile, due to lack of labeled target data, directly fine-tuning the pre-learnt models becomes intractable and impractical. In this paper, we propose a new clustering-based domain adaptation method designed for face recognition task in which the source and target domain do not share any classes. Our method effectively learns the discriminative target feature by aligning the feature domain globally, and, at the meantime, distinguishing the target clusters locally. Specifically, it first learns a more reliable representation for clustering by minimizing global domain discrepancy to reduce domain gaps, and then applies simplified spectral clustering method to generate pseudo-labels in the domain-invariant feature space, and finally learns discriminative target representation. Comprehensive experiments on widely-used GBU, IJB-A/B/C and RFW databases clearly demonstrate the effectiveness of our newly proposed approach. State-of-the-art performance of GBU data set is achieved by only unsupervised adaptation from the target training data.
翻訳日:2022-05-30 22:37:26 公開日:2022-05-27
# (参考訳) 分散・非協調型認知無線リソースアロケーションのための深層強化学習

Deep Reinforcement Learning for Distributed and Uncoordinated Cognitive Radios Resource Allocation ( http://arxiv.org/abs/2205.13944v1 )

ライセンス: CC BY 4.0
Ankita Tondwalkar and Andres Kwasinski(参考訳) 本稿では,学習中のエージェントの相互作用が非定常環境につながる可能性がある認知型無線ネットワークによって提示されるマルチエージェント環境に対する,新しい深層強化学習に基づくリソース割り当て手法を提案する。 この作業で提示されるリソース割り当て技術は分散しており、他のエージェントとの調整を必要としない。 提案アルゴリズムは, 無線環境間の非協調的動的相互作用から生じる非定常マルチエージェント環境における平衡ポリシに, 任意の時間で収束する, 深層強化学習に特有な側面を考察して示す。 シミュレーションの結果,提案手法は同等のテーブルベースのQ-ラーニングアルゴリズムと比較して学習性能が向上し,99%のケースで十分長い学習時間で最適方針を見出すことができた。 さらにシミュレーションでは、同等のテーブルベースの実装と同じパフォーマンスを達成するために、DQLアプローチでは学習ステップの半数未満を必要としています。 また,非協調対話型マルチラジオシナリオでは,標準の1エージェント深層強化学習手法では収束が得られないことが示されている。

This paper presents a novel deep reinforcement learning-based resource allocation technique for the multi-agent environment presented by a cognitive radio network where the interactions of the agents during learning may lead to a non-stationary environment. The resource allocation technique presented in this work is distributed, not requiring coordination with other agents. It is shown by considering aspects specific to deep reinforcement learning that the presented algorithm converges in an arbitrarily long time to equilibrium policies in a non-stationary multi-agent environment that results from the uncoordinated dynamic interaction between radios through the shared wireless environment. Simulation results show that the presented technique achieves a faster learning performance compared to an equivalent table-based Q-learning algorithm and is able to find the optimal policy in 99% of cases for a sufficiently long learning time. In addition, simulations show that our DQL approach requires less than half the number of learning steps to achieve the same performance as an equivalent table-based implementation. Moreover, it is shown that the use of a standard single-agent deep reinforcement learning approach may not achieve convergence when used in an uncoordinated interacting multi-radio scenario
翻訳日:2022-05-30 21:58:01 公開日:2022-05-27
# (参考訳) 教師なし領域適応のためのサイクルラベル整合ネットワーク

Cycle Label-Consistent Networks for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2205.13957v1 )

ライセンス: CC BY 4.0
Mei Wang, Weihong Deng(参考訳) ドメイン適応は、異なる分布を持つラベルなしターゲットドメインの分類子を学ぶためにラベル付きソースドメインを活用することを目的としている。 以前のメソッドは、大域的あるいはクラス的アライメントによって、2つのドメイン間の分布にほとんどマッチする。 しかしながら、グローバルアライメントメソッドはきめ細かいクラス間重なりを達成できず、疑似ラベルによって管理されるクラスアライメントメソッドは信頼性を保証できない。 本稿では,2つのクロスドメイン近距離セントロイド分類手法を適用して,対象領域における識別のための信頼性の高い自己教師信号を生成する,分類ラベルのサイクル一貫性を利用する,シンプルで効率的なドメイン適応手法(CLCN)を提案する。 サイクルラベル一貫性損失は、ソースドメインとターゲットドメイン間の統計的に類似した潜伏表現につながるソースサンプルの地下構造ラベルと擬似ラベルとの整合性を強化する。 この新たな損失は、計算オーバーヘッドのほとんどない既存の分類ネットワークに簡単に追加できる。 MNIST-USPS-SVHN, Office-31, Office-Home, Image CLEF-DAベンチマークに対するアプローチの有効性を示す。 提案手法は, 誤りラベル付きサンプルの負の影響を緩和し, より識別的な特徴を学習し, Office-31では9.4%, Image CLEF-DAでは6.3%, ソースのみのモデルでは絶対的に改善できることを確認した。

Domain adaptation aims to leverage a labeled source domain to learn a classifier for the unlabeled target domain with a different distribution. Previous methods mostly match the distribution between two domains by global or class alignment. However, global alignment methods cannot achieve a fine-grained class-to-class overlap; class alignment methods supervised by pseudo-labels cannot guarantee their reliability. In this paper, we propose a simple yet efficient domain adaptation method, i.e. Cycle Label-Consistent Network (CLCN), by exploiting the cycle consistency of classification label, which applies dual cross-domain nearest centroid classification procedures to generate a reliable self-supervised signal for the discrimination in the target domain. The cycle label-consistent loss reinforces the consistency between ground-truth labels and pseudo-labels of source samples leading to statistically similar latent representations between source and target domains. This new loss can easily be added to any existing classification network with almost no computational overhead. We demonstrate the effectiveness of our approach on MNIST-USPS-SVHN, Office-31, Office-Home and Image CLEF-DA benchmarks. Results validate that the proposed method can alleviate the negative influence of falsely-labeled samples and learn more discriminative features, leading to the absolute improvement over source-only model by 9.4% on Office-31 and 6.3% on Image CLEF-DA.
翻訳日:2022-05-30 21:34:40 公開日:2022-05-27
# (参考訳) トランスファーラーニングを用いたスペイン語顧客支援文字の句読解

Punctuation Restoration in Spanish Customer Support Transcripts using Transfer Learning ( http://arxiv.org/abs/2205.13961v1 )

ライセンス: CC BY 4.0
Xiliang Zhu, Shayna Gardiner, David Rossouw, Tere Rold\'an, Simon Corston-Oliver(参考訳) 自動音声認識(ASR)システムは通常、可読性に乏しい不動文字を生成する。 さらに,低リソース言語,特にドメイン固有のアプリケーションにおいて,句読点復元システムの構築は困難である。 本稿では,リアルタイム顧客支援転写サービス用に設計されたスペイン語句読点復元システムを提案する。 カスタマサポートドメインにおけるスペイン語写本のデータスパーシティに対処するために,トランスファーラーニングに基づく2つの戦略を紹介する。 1) ドメイン外スペイン語テキストデータを用いたドメイン適応 2) ドメイン内英語転写データを活用した言語間変換学習 実験の結果,これらの手法により,スペインの句読点復元システムの精度が向上した。

Automatic Speech Recognition (ASR) systems typically produce unpunctuated transcripts that have poor readability. In addition, building a punctuation restoration system is challenging for low-resource languages, especially for domain-specific applications. In this paper, we propose a Spanish punctuation restoration system designed for a real-time customer support transcription service. To address the data sparsity of Spanish transcripts in the customer support domain, we introduce two transfer-learning-based strategies: 1) domain adaptation using out-of-domain Spanish text data; 2) cross-lingual transfer learning leveraging in-domain English transcript data. Our experiment results show that these strategies improve the accuracy of the Spanish punctuation restoration system.
翻訳日:2022-05-30 21:01:06 公開日:2022-05-27
# (参考訳) Video2StyleGAN: ローカルとグローバルの変動をビデオで遠ざける

Video2StyleGAN: Disentangling Local and Global Variations in a Video ( http://arxiv.org/abs/2205.13996v1 )

ライセンス: CC BY 4.0
Rameen Abdal, Peihao Zhu, Niloy J. Mitra, Peter Wonka(参考訳) 事前訓練されたStyleGANジェネレータを用いた画像編集は、顔編集の強力なパラダイムとして登場し、年齢、表現、照明などの不整合制御を提供する。 しかし、このアプローチは直接ビデオ操作には適用できない。 顔の位置,顔のポーズ,局所的な表情に対するきめ細やかな制御が欠如していることが主な欠点である,という仮説を立てる。 本研究では,複数の(相対的な)空間(つまり位置空間,w+空間,s空間)をまたいで作業することで,事前学習されたスタイルガンを用いて,そのような細粒度制御が実現可能であることを実証する。 この実現可能なコンポーネントに基づいて,対象画像の同一性において,局所的および大域的位置と表現を再現する対象画像と駆動映像(s)を再生するvideo2styleganを導入する。 提案手法の有効性を複数の難易度シナリオで評価し,代替手法に対する明確な改善を示す。

Image editing using a pretrained StyleGAN generator has emerged as a powerful paradigm for facial editing, providing disentangled controls over age, expression, illumination, etc. However, the approach cannot be directly adopted for video manipulations. We hypothesize that the main missing ingredient is the lack of fine-grained and disentangled control over face location, face pose, and local facial expressions. In this work, we demonstrate that such a fine-grained control is indeed achievable using pretrained StyleGAN by working across multiple (latent) spaces (namely, the positional space, the W+ space, and the S space) and combining the optimization results across the multiple spaces. Building on this enabling component, we introduce Video2StyleGAN that takes a target image and driving video(s) to reenact the local and global locations and expressions from the driving video in the identity of the target image. We evaluate the effectiveness of our method over multiple challenging scenarios and demonstrate clear improvements over alternative approaches.
翻訳日:2022-05-30 20:51:16 公開日:2022-05-27
# (参考訳) 階層から公正へのプロトタイプベース分類

Prototype Based Classification from Hierarchy to Fairness ( http://arxiv.org/abs/2205.13997v1 )

ライセンス: CC BY 4.0
Mycal Tucker, Julie Shah(参考訳) 人工ニューラルネットは、多くの種類のデータを表現し分類することができるが、しばしば特定のアプリケーション(例えば「フェア」または「階層」分類)に適合する。 例えば、階層型分類器は、保護されたフィールドを遮蔽する公平な分類器に容易に変換できない。 この研究への私たちの貢献は、既存の特殊分類器を一般化して、マルチコンセプト関係のスペクトルを学習可能な統一モデルを生成する、新しいニューラルネットワークアーキテクチャ、概念サブスペースネットワーク(CSN)です。 csnは,概念の独立性,階層的分類器への変換,さらには1つの分類器内で公平性と階層構造を両立させることによって,公正な分類が可能であることを実証する。 CSNは、解釈可能性を促進する既存のプロトタイプベースの分類器にインスパイアされている。

Artificial neural nets can represent and classify many types of data but are often tailored to particular applications -- e.g., for "fair" or "hierarchical" classification. Once an architecture has been selected, it is often difficult for humans to adjust models for a new task; for example, a hierarchical classifier cannot be easily transformed into a fair classifier that shields a protected field. Our contribution in this work is a new neural network architecture, the concept subspace network (CSN), which generalizes existing specialized classifiers to produce a unified model capable of learning a spectrum of multi-concept relationships. We demonstrate that CSNs reproduce state-of-the-art results in fair classification when enforcing concept independence, may be transformed into hierarchical classifiers, or even reconcile fairness and hierarchy within a single classifier. The CSN is inspired by existing prototype-based classifiers that promote interpretability.
翻訳日:2022-05-30 20:31:17 公開日:2022-05-27
# (参考訳) Archimax Copulas の推測とサンプリング

Inference and Sampling for Archimax Copulas ( http://arxiv.org/abs/2205.14025v1 )

ライセンス: CC BY 4.0
Yuting Ng, Ali Hasan, Vahid Tarokh(参考訳) 分散のバルクとテールの両方における多変量依存性を理解することは、アルゴリズムが不適切な観測に頑健であることを保証するなど、多くのアプリケーションにとって重要な問題である。 アルキマックスコプラ(Archimax copulas)は、分布のバルクと尾の同時モデリングを可能にする正確な表現を持つ分布の族である。 実際には2つを分離する代わりに、バルクから追加の情報を取り入れることで、観測が限られている尾の推測を改善することができる。 アーキマックスコプラの確率的表現に基づいて,非パラメトリック推論法とサンプリングアルゴリズムを開発した。 我々の知る限り、提案手法は、高度に柔軟でスケーラブルな推論とサンプリングアルゴリズムを可能にする最初の方法であり、実用的な設定でArchimax copulasを利用できる。 実験により, 最先端密度モデリング手法と比較し, 提案手法は高次元データへのスケーリングにおいて, 尾部を効果的に外挿することを示した。 提案アルゴリズムは,医療や安全性など,分布のバルクとテールの相互作用を理解するための様々な用途に応用可能であることが示唆された。

Understanding multivariate dependencies in both the bulk and the tails of a distribution is an important problem for many applications, such as ensuring algorithms are robust to observations that are infrequent but have devastating effects. Archimax copulas are a family of distributions endowed with a precise representation that allows simultaneous modeling of the bulk and the tails of a distribution. Rather than separating the two as is typically done in practice, incorporating additional information from the bulk may improve inference of the tails, where observations are limited. Building on the stochastic representation of Archimax copulas, we develop a non-parametric inference method and sampling algorithm. Our proposed methods, to the best of our knowledge, are the first that allow for highly flexible and scalable inference and sampling algorithms, enabling the increased use of Archimax copulas in practical settings. We experimentally compare to state-of-the-art density modeling techniques, and the results suggest that the proposed method effectively extrapolates to the tails while scaling to higher dimensional data. Our findings suggest that the proposed algorithms can be used in a variety of applications where understanding the interplay between the bulk and the tails of a distribution is necessary, such as healthcare and safety.
翻訳日:2022-05-30 20:11:18 公開日:2022-05-27
# (参考訳) wikibaseの統合を促進するオントロジ設計 - 履歴データのための実例-

Ontology Design Facilitating Wikibase Integration -- and a Worked Example for Historical Data ( http://arxiv.org/abs/2205.14032v1 )

ライセンス: CC BY-SA 4.0
Cogan Shimizu, Andrew Eells, Seila Gonzalez, Lu Zhou, Pascal Hitzler, Alicia Sheill, Catherine Foley, Dean Rehberger(参考訳) Wikibase - Wikidataの基盤となるソフトウェア - は知識グラフの作成と管理のための強力なプラットフォームである。 しかし、クラウドソースの知識グラフ作成シナリオを念頭に置いて開発されており、特に、オントロジーの形で厳密に制御された高品質なスキーマを課すようなユースケースには設計されておらず、実際、独立に開発されたオントロジーは必ずしもwikibaseアプローチにシームレスにマッピングするわけではない。 本稿では,従来のオントロジーモデリングとwikibaseプラットフォーム,すなわちパラダイムギャップを橋渡しする一連の \emph{axiom} パターンと,使用手順と履歴データの実例を組み合わせるために必要な重要な材料を提供する。

Wikibase -- which is the software underlying Wikidata -- is a powerful platform for knowledge graph creation and management. However, it has been developed with a crowd-sourced knowledge graph creation scenario in mind, which in particular means that it has not been designed for use case scenarios in which a tightly controlled high-quality schema, in the form of an ontology, is to be imposed, and indeed, independently developed ontologies do not necessarily map seamlessly to the Wikibase approach. In this paper, we provide the key ingredients needed in order to combine traditional ontology modeling with use of the Wikibase platform, namely a set of \emph{axiom} patterns that bridge the paradigm gap, together with usage instructions and a worked example for historical data.
翻訳日:2022-05-30 20:09:42 公開日:2022-05-27
# (参考訳) 群不変maxフィルタリング

Group-invariant max filtering ( http://arxiv.org/abs/2205.14039v1 )

ライセンス: CC BY 4.0
Jameson Cahill, Joseph W. Iverson, Dustin G. Mixon, Daniel Packer(参考訳) 実内積空間 $v$ と群 $g$ の線型等長性が与えられたとき、maxフィルタと呼ばれる$v$ 上で $g$ 不変実値関数の族を構築する。 v=\mathbb{r}^d$ と $g$ が有限である場合、適切なマックスフィルタバンクは軌道を分離し、商計量においてビリプシッツでさえもである。 V=L^2(\mathbb{R}^d)$ と $G$ が変換作用素群である場合、最大フィルタは、マラットによって導入された散乱変換のような微分同相歪みに対する安定性を示す。 マックスフィルタは, 理論上および実際上において, 様々な分類タスクによく適合する。

Given a real inner product space $V$ and a group $G$ of linear isometries, we construct a family of $G$-invariant real-valued functions on $V$ that we call max filters. In the case where $V=\mathbb{R}^d$ and $G$ is finite, a suitable max filter bank separates orbits, and is even bilipschitz in the quotient metric. In the case where $V=L^2(\mathbb{R}^d)$ and $G$ is the group of translation operators, a max filter exhibits stability to diffeomorphic distortion like that of the scattering transform introduced by Mallat. We establish that max filters are well suited for various classification tasks, both in theory and in practice.
翻訳日:2022-05-30 19:45:46 公開日:2022-05-27
# (参考訳) 半教師付き音声認識のためのコントラストシアームネットワーク

Contrastive Siamese Network for Semi-supervised Speech Recognition ( http://arxiv.org/abs/2205.14054v1 )

ライセンス: CC BY 4.0
Soheil Khorram, Jaeyoung Kim, Anshuman Tripathi, Han Lu, Qian Zhang, Hasim Sak(参考訳) 本稿では,音声認識におけるラベルなし音響データを活用するアーキテクチャである,コントラスト型シアムネットワークを提案する。 c-siamは、2つの同一トランスフォーマーエンコーダの出力を一致させて音声から高レベル言語情報を抽出する最初のネットワークである。 1) 入力のマスキングと出力の整合を対照的な損失で行うこと、(2) 目標ブランチに停止勾配演算を組み込むこと、(3) 拡張ブランチに余分に学習可能な変換を行うこと、(4) ショートカット学習問題を防止するために新しい時間拡張関数を導入すること、を含む。 我々は、Libri-light 60kの教師なしデータと、LibriSpeech 100hrs/960hrsの教師付きデータを用いて、c-siamや他の最高のパフォーマンスシステムを比較する。 実験の結果、c-siamはwav2vecベースラインに対して20%の単語誤り率改善をもたらすことがわかった。 450Mパラメータのc-siamネットワークは、600Mパラメータの最先端ネットワークと比較して、競合的な結果が得られる。

This paper introduces contrastive siamese (c-siam) network, an architecture for leveraging unlabeled acoustic data in speech recognition. c-siam is the first network that extracts high-level linguistic information from speech by matching outputs of two identical transformer encoders. It contains augmented and target branches which are trained by: (1) masking inputs and matching outputs with a contrastive loss, (2) incorporating a stop gradient operation on the target branch, (3) using an extra learnable transformation on the augmented branch, (4) introducing new temporal augment functions to prevent the shortcut learning problem. We use the Libri-light 60k unsupervised data and the LibriSpeech 100hrs/960hrs supervised data to compare c-siam and other best-performing systems. Our experiments show that c-siam provides 20% relative word error rate improvement over wav2vec baselines. A c-siam network with 450M parameters achieves competitive results compared to the state-of-the-art networks with 600M parameters.
翻訳日:2022-05-30 19:44:44 公開日:2022-05-27
# (参考訳) 早期停止を伴うメンバーシップ推論における異常過パラメータ化

Benign Overparameterization in Membership Inference with Early Stopping ( http://arxiv.org/abs/2205.14055v1 )

ライセンス: CC BY 4.0
Jasper Tan, Daniel LeJeune, Blake Mason, Hamid Javadi, Richard G. Baraniuk(参考訳) ニューラルネットワークのプライバシは、その正確さと相反するのでしょうか? 本研究では,トレーニングデータに関する潜在的プライベート情報を抽出することを目的とした,ニューラルネットワークのMI攻撃に対する脆弱性に対して,トレーニングエポックとパラメータの数が与える影響について検討する。 まず、トレーニング期間とパラメータの数によって、プライバシ利用のトレードオフが個々に引き起こされる様子をデモします。 しかし、驚くべきことに、両社が共同で調整することで、このプライバシー利用のトレードオフを排除できることも示しています。 具体的には、トレーニング期間の数を注意深く調整することで、過剰パラメータ化が固定一般化エラーのモデルプライバシを増加させる可能性がある。 理論的にこれらの現象をよりよく理解するために,線形分類器の漸近挙動を解析し,高次元ロジスティック回帰におけるサンプル特異的損失閾値MI攻撃の特徴付けに応用する強力な新しい退行解析ツールを開発した。 実践者に対しては,MIリスクを推定し,MI攻撃を防ぐためのトレーニングエポック数を調整するための低オーバーヘッド手順を導入する。

Does a neural network's privacy have to be at odds with its accuracy? In this work, we study the effects the number of training epochs and parameters have on a neural network's vulnerability to membership inference (MI) attacks, which aim to extract potentially private information about the training data. We first demonstrate how the number of training epochs and parameters individually induce a privacy-utility trade-off: more of either improves generalization performance at the expense of lower privacy. However, remarkably, we also show that jointly tuning both can eliminate this privacy-utility trade-off. Specifically, with careful tuning of the number of training epochs, more overparameterization can increase model privacy for fixed generalization error. To better understand these phenomena theoretically, we develop a powerful new leave-one-out analysis tool to study the asymptotic behavior of linear classifiers and apply it to characterize the sample-specific loss threshold MI attack in high-dimensional logistic regression. For practitioners, we introduce a low-overhead procedure to estimate MI risk and tune the number of training epochs to guard against MI attacks.
翻訳日:2022-05-30 19:30:51 公開日:2022-05-27
# (参考訳) スクイード準ガウス安定分布の有限混合

Finite mixture of skewed sub-Gaussian stable distributions ( http://arxiv.org/abs/2205.14067v1 )

ライセンス: CC BY 4.0
Mahdi Teimouri(参考訳) スクイード部分ガウス分布の有限混合について提案する。 有限混合モデルのパラメータの最大確率推定は、期待最大化アルゴリズムによって計算される。 提案モデルは正規分布と歪正規分布の有限混合を含む。 提案モデルの尾部は学生のt分布よりも重いため、堅牢なモデルベースクラスタリングのための強力なモデルとして使用できる。 提案モデルの性能はクラスタリングシミュレーションデータと2組の実データによって実証される。

We propose the finite mixture of skewed sub-Gaussian stable distributions. The maximum likelihood estimator for the parameters of proposed finite mixture model is computed through the expectation-maximization algorithm. The proposed model contains the finite mixture of normal and skewed normal distributions. Since the tails of proposed model is heavier than even the Student's t distribution, it can be used as a powerful model for robust model-based clustering. Performance of the proposed model is demonstrated by clustering simulation data and two sets of real data.
翻訳日:2022-05-30 18:24:10 公開日:2022-05-27
# (参考訳) 民間パートナーシップ強化のための故障条件下における知的車両の多基準意思決定

Multi-criteria Decision-making of Intelligent Vehicles under Fault Condition Enhancing Public-private Partnership ( http://arxiv.org/abs/2205.14070v1 )

ライセンス: CC BY 4.0
Xin Tao, Mladen \v{C}i\v{c}i\'c, Jonas M{\aa}rtensson(参考訳) 自動化、電化、デジタル化に関する車両技術の発展に伴い、車両はより複雑で不確実で頻繁に発生する故障に晒されつつも、よりインテリジェントになっている。 本稿では,故障条件下での車両の保守計画について検討し,多基準意思決定問題として定式化する。 道路網における経路探索により保守判断を行い、車両故障の不確実性を考慮したリスクアセスメントに基づいて評価する。 特に,公共の時間的損失のリスクと,公共部門と民間部門の懸念を表すミッション遅延のリスクという2つの基準を検討する。 車両の故障による交通渋滞とそれに対応するけん引過程を評価するために,公共時間損失モデルを開発した。 非支配的な決定のパレート最適セットは、決定のリスクを評価することによって導かれる。 実世界のシナリオから導いた数値実験により,問題の妥当性と提案手法の有効性を実証する。 実験の結果,公道での車両故障の危険性を無視すると,交通の密集度が低下するリスクが高まることが示された。 提案手法では, ミッション遅延のリスクが低く, 公的な時間的損失のリスクを著しく低減するために, 代替決定を導出することができる。 本研究は, 民間部門と公共部門との協調意思決定を通じて, より持続可能な交通システムを構築することを目的としている。

With the development of vehicular technologies on automation, electrification, and digitalization, vehicles are becoming more intelligent while being exposed to more complex, uncertain, and frequently occurring faults. In this paper, we look into the maintenance planning of an operating vehicle under fault condition and formulate it as a multi-criteria decision-making problem. The maintenance decisions are generated by route searching in road networks and evaluated based on risk assessment considering the uncertainty of vehicle breakdowns. Particularly, we consider two criteria, namely the risk of public time loss and the risk of mission delay, representing the concerns of the public sector and the private sector, respectively. A public time loss model is developed to evaluate the traffic congestion caused by a vehicle breakdown and the corresponding towing process. The Pareto optimal set of non-dominated decisions is derived by evaluating the risk of the decisions. We demonstrate the relevance of the problem and the effectiveness of the proposed method by numerical experiments derived from real-world scenarios. The experiments show that neglecting the risk of vehicle breakdown on public roads can cause a high risk of public time loss in dense traffic flow. With the proposed method, alternate decisions can be derived to reduce the risks of public time loss significantly with a low increase in the risk of mission delay. This study aims at catalyzing public-private partnership through collaborative decision-making between the private sector and the public sector, thus archiving a more sustainable transportation system in the future.
翻訳日:2022-05-30 17:12:59 公開日:2022-05-27
# (参考訳) UAlberta at SemEval 2022 Task 2: Leveraging Glosses and Translations for Multilingual Idiomaticity Detection (英語)

UAlberta at SemEval 2022 Task 2: Leveraging Glosses and Translations for Multilingual Idiomaticity Detection ( http://arxiv.org/abs/2205.14084v1 )

ライセンス: CC BY-SA 4.0
Bradley Hauer, Seeratpal Jaura, Talgat Omarov, Grzegorz Kondrak(参考訳) 本稿では,SemEval-2022タスク2における多言語慣用性検出のためのアルバータ大学システムについて述べる。 第1の方法は、慣用的表現が非複合的であるという仮定のもとに、表現の個々の単語の意味に関する情報をバイナリ分類器に統合する。 さらに,リテラル表現と慣用表現の違いを仮定すると,第2の方法は文脈で表現を翻訳し,語彙的知識ベースを用いて翻訳がリテラルであるかどうかを判断する。 我々のアプローチは言語現象に根ざしており、既存の語彙知識の源泉を活用している。 その結果,両アプローチ,特に前者に対するサポートが得られた。

We describe the University of Alberta systems for the SemEval-2022 Task 2 on multilingual idiomaticity detection. Working under the assumption that idiomatic expressions are noncompositional, our first method integrates information on the meanings of the individual words of an expression into a binary classifier. Further hypothesizing that literal and idiomatic expressions translate differently, our second method translates an expression in context, and uses a lexical knowledge base to determine if the translation is literal. Our approaches are grounded in linguistic phenomena, and leverage existing sources of lexical knowledge. Our results offer support for both approaches, particularly the former.
翻訳日:2022-05-30 16:48:24 公開日:2022-05-27
# (参考訳) 単一ガウス過程を超えたベイズ最適化のためのサロゲートモデリング

Surrogate modeling for Bayesian optimization beyond a single Gaussian process ( http://arxiv.org/abs/2205.14090v1 )

ライセンス: CC BY 4.0
Qin Lu, Konstantinos D. Polyzos, Bingcong Li, Georgios B. Giannakis(参考訳) ベイズ最適化(BO)は、高価な評価コストでブラックボックス関数を最適化する利点を十分に文書化している。 このような機能はハイパーパラメータチューニング、薬物発見、ロボティクスなど、さまざまなアプリケーションで登場します。 boはベイズサーロゲートモデルにヒンジを付けてクエリポイントを順次選択し、探索と検索空間の活用のバランスをとる。 既存のほとんどの研究は単一のガウス過程(GP)ベースの代理モデルに依存しており、そこではカーネル関数の形式は通常ドメイン知識を用いて事前選択される。 このような設計プロセスをバイパスするために,gpsのアンサンブル(e)を活用し,オンザフライに適合するサロゲートモデルを適応的に選択する。 次に、このEGPに基づく関数後部を用いた次の評価入力の取得を、追加の設計パラメータを必要としないトンプソンサンプリング(TS)によって行う。 拡張性のある関数サンプリングを実現するため、GPモデル毎にランダムな特徴ベースのカーネル近似を利用する。 新規なEGP-TSは、容易に並列動作が可能である。 提案するegp-tsのグローバル最適化への収束をさらに確立するために,シーケンシャルおよび並列環境におけるベイズ後悔の概念に基づいて解析を行う。 合成関数のテストと実世界の応用は,提案手法の利点を示す。

Bayesian optimization (BO) has well-documented merits for optimizing black-box functions with an expensive evaluation cost. Such functions emerge in applications as diverse as hyperparameter tuning, drug discovery, and robotics. BO hinges on a Bayesian surrogate model to sequentially select query points so as to balance exploration with exploitation of the search space. Most existing works rely on a single Gaussian process (GP) based surrogate model, where the kernel function form is typically preselected using domain knowledge. To bypass such a design process, this paper leverages an ensemble (E) of GPs to adaptively select the surrogate model fit on-the-fly, yielding a GP mixture posterior with enhanced expressiveness for the sought function. Acquisition of the next evaluation input using this EGP-based function posterior is then enabled by Thompson sampling (TS) that requires no additional design parameters. To endow function sampling with scalability, random feature-based kernel approximation is leveraged per GP model. The novel EGP-TS readily accommodates parallel operation. To further establish convergence of the proposed EGP-TS to the global optimum, analysis is conducted based on the notion of Bayesian regret for both sequential and parallel settings. Tests on synthetic functions and real-world applications showcase the merits of the proposed method.
翻訳日:2022-05-30 16:40:06 公開日:2022-05-27
# (参考訳) 深層学習による脳デコーディングの一般化

Generalizing Brain Decoding Across Subjects with Deep Learning ( http://arxiv.org/abs/2205.14102v1 )

ライセンス: CC BY 4.0
Richard Csaky, Mats Van Es, Oiwi Parker Jones, Mark Woolrich(参考訳) 脳画像データから実験変数を復号する手法が普及しており、脳-コンピュータインタフェースや神経表現の研究に応用されている。 復号は通常主題特異的であり、主題よりも一般化していない。 本稿では,クロスサブジェクト復号を実現する手法について検討する。 脳磁図(MEG)データを用いて15名の被験者で118種類の画像が観察された。 各画像の表示後の1sウィンドウ全体のトレーニングを行い、WaveNetアーキテクチャの分類への適応実験を行った。 また,グループモデルにおける主題変動の学習支援における主題埋め込みの利用について検討した。 対象モデルとグループレベルのモデル間のパフォーマンスギャップを埋めるためには,ディープラーニングと主題埋め込みが不可欠であることを示す。 重要なモデルは、データが少ない未確認の被検体でテストした場合、被検体モデルより優れている。 このようなグループモデリングのポテンシャルは、より大きなデータセットでさらに高い。 さらに,モデルにエンコードされた時空間的およびスペクトル的情報に対する洞察を得るために,置換特徴量の利用が重要であることを実証し,より優れた生理的解釈を可能にした。 実験コードはすべてhttps://github.com/ricsinaruto/MEG-group-decodeで入手できる。

Decoding experimental variables from brain imaging data is gaining popularity, with applications in brain-computer interfaces and the study of neural representations. Decoding is typically subject-specific and does not generalise well over subjects. Here, we investigate ways to achieve cross-subject decoding. We used magnetoencephalography (MEG) data where 15 subjects viewed 118 different images, with 30 examples per image. Training on the entire 1s window following the presentation of each image, we experimented with an adaptation of the WaveNet architecture for classification. We also investigated the use of subject embedding to aid learning of subject variability in the group model. We show that deep learning and subject embedding are crucial to closing the performance gap between subject and group-level models. Importantly group models outperform subject models when tested on an unseen subject with little available data. The potential of such group modelling is even higher with bigger datasets. Furthermore, we demonstrate the use of permutation feature importance to gain insight into the spatio-temporal and spectral information encoded in the models, enabling better physiological interpretation. All experimental code is available at https://github.com/ricsinaruto/MEG-group-decode.
翻訳日:2022-05-30 16:39:00 公開日:2022-05-27
# (参考訳) サイクル変異:サイクル誘導による進化的置換

Cycle Mutation: Evolving Permutations via Cycle Induction ( http://arxiv.org/abs/2205.14125v1 )

ライセンス: CC BY 4.0
Vincent A. Cicirello(参考訳) 進化的アルゴリズムは、候補解の集団の進化をシミュレートすることで問題を解決する。 我々は,巡回セールスパーソン問題 (tsp) や二次代入問題 (qap) や最大の共通部分グラフ (lcs) などの代入問題といった順序問題に対する順列の進化に焦点を当てた。 本稿では, サイクル交叉演算子にインスピレーションを与える新しい突然変異演算子であるサイクル突然変異と, 置換サイクルの概念を提案する。 我々は, 適応的ランドスケープ分析を用いて, サイクル変異が最適である問題特性を探索する。 前提条件として,サイクル距離,$k$サイクル距離,サイクル編集距離という,新しい置換距離尺度を開発した。 適応的ランドスケープ分析は、サイクル変異が順序問題よりも割当問題やマッピング問題に適していると予測する。 本研究は,QAP や LCS などの問題に対するサイクル変異の強度,TSP などの問題に対する制限,および一般的に用いられる代替品よりも局所的最適性が低いこと,などの知見を実験的に検証した。 我々は、サイクル変異をオープンソースのchips-n-salsaライブラリに、新しい距離メトリクスをオープンソースのjavapermutationtoolsライブラリに統合します。

Evolutionary algorithms solve problems by simulating the evolution of a population of candidate solutions. We focus on evolving permutations for ordering problems like the traveling salesperson problem (TSP), as well as assignment problems like the quadratic assignment problem (QAP) and largest common subgraph (LCS). We propose cycle mutation, a new mutation operator whose inspiration is the well known cycle crossover operator, and the concept of a permutation cycle. We use fitness landscape analysis to explore the problem characteristics for which cycle mutation works best. As a prerequisite, we develop new permutation distance measures: cycle distance, $k$-cycle distance, and cycle edit distance. The fitness landscape analysis predicts that cycle mutation is better suited for assignment and mapping problems than it is for ordering problems. We experimentally validate these findings showing cycle mutation's strengths on problems like QAP and LCS, and its limitations on problems like the TSP, while also showing that it is less prone to local optima than commonly used alternatives. We integrate cycle mutation into the open-source Chips-n-Salsa library, and the new distance metrics into the open-source JavaPermutationTools library.
翻訳日:2022-05-30 16:15:13 公開日:2022-05-27
# (参考訳) PSLは死んだ。 ロングライブpsl

PSL is Dead. Long Live PSL ( http://arxiv.org/abs/2205.14136v1 )

ライセンス: CC BY 4.0
Kevin Smith, Hai Lin, Praveen Tiwari, Marjorie Sayer, Claudionor Coelho(参考訳) プロパティ仕様言語(Property Specification Language、PSL)は、主に独立したドメイン(例えば、正式なハードウェア検証)で使われている時間論理の形式である。 本稿では,機械学習技術とpslモニタを融合することにより,pslを連続的な領域に拡張できることを示す。 この手法を機械学習に基づく異常検出に適用し、連続変数からリアルタイムストリーミングイベントのシナリオを分析し、システムの異常挙動を検出する。 フォーマルなモデルで機械学習を使用することで、機械学習手法と時間の意味論の両方の長所を活用できる。 一方、機械学習技術は連続変数上の分布を生成し、その分布からの逸脱として異常を捉えることができる。 一方、形式的手法は、機械学習技術では容易に学べない離散的時間的行動と関係を特徴付けることができる。 興味深いことに、機械学習によって検出された異常と使用される時間表現は離散イベントである。 我々は、異常検出機械学習システムのための通常のデータサイエンスパッケージと連動して動作する時間モニタリングパッケージ(TEF)を実装し、イベント間の時間的相関の正確な解釈を行うことができることを示す。

Property Specification Language (PSL) is a form of temporal logic that has been mainly used in discrete domains (e.g. formal hardware verification). In this paper, we show that by merging machine learning techniques with PSL monitors, we can extend PSL to work on continuous domains. We apply this technique in machine learning-based anomaly detection to analyze scenarios of real-time streaming events from continuous variables in order to detect abnormal behaviors of a system. By using machine learning with formal models, we leverage the strengths of both machine learning methods and formal semantics of time. On one hand, machine learning techniques can produce distributions on continuous variables, where abnormalities can be captured as deviations from the distributions. On the other hand, formal methods can characterize discrete temporal behaviors and relations that cannot be easily learned by machine learning techniques. Interestingly, the anomalies detected by machine learning and the underlying time representation used are discrete events. We implemented a temporal monitoring package (TEF) that operates in conjunction with normal data science packages for anomaly detection machine learning systems, and we show that TEF can be used to perform accurate interpretation of temporal correlation between events.
翻訳日:2022-05-30 15:45:02 公開日:2022-05-27
# 非参照超解像度画像品質評価のためのテクスチュラル・ストラクチャー・ジョイント学習

Textural-Structural Joint Learning for No-Reference Super-Resolution Image Quality Assessment ( http://arxiv.org/abs/2205.13847v1 )

ライセンス: Link先を確認
Yuqing Liu, Qi Jia, Shanshe Wang, Siwei Ma and Wen Gao(参考訳) 画像超解像(SR)は近年広く研究されている。 しかし、知覚品質の信頼性と正確な基準が欠如していることから、様々なSR手法の性能を正確に推定することは困難である。 既存の SR 画像品質評価 (IQA) メトリクスは、通常、様々な SR 変性状況を記述する適応能力を持たない視覚感受性領域を区別することなく、特定の種類の劣化に焦点を当てる。 本稿では,視覚知覚において重要な役割を担う画像SRのテクスチャ的・構造的劣化に着目し,TSNetと呼ばれる品質予測のためのテクスチャ的・構造的情報を共同で探索するデュアルストリームネットワークを設計する。 画像の重要な領域に注意を払っている人間の視覚システム(HVS)を模倣することにより、視覚に敏感な領域をより区別しやすくするための空間的注意機構を開発し、予測精度を向上させる。 特徴正規化(F-Norm)も、SR特徴の空間的相関を調査し、ネットワーク表現能力を高めるために開発された。 実験の結果,提案したTSNetは現状のIQA法よりも視覚的品質を正確に予測し,人間の視点との整合性を示した。 ソースコードはhttp://github.com/yuqing-liu-dut/nriqa_srで入手できる。

Image super-resolution (SR) has been widely investigated in recent years. However, it is challenging to fairly estimate the performances of various SR methods, as the lack of reliable and accurate criteria for perceptual quality. Existing SR image quality assessment (IQA) metrics usually concentrate on the specific kind of degradation without distinguishing the visual sensitive areas, which have no adaptive ability to describe the diverse SR degeneration situations. In this paper, we focus on the textural and structural degradation of image SR which acts as a critical role for visual perception, and design a dual stream network to jointly explore the textural and structural information for quality prediction, dubbed TSNet. By mimicking the human vision system (HVS) that pays more attention to the significant areas of the image, we develop the spatial attention mechanism to make the visual-sensitive areas more distinguishable, which improves the prediction accuracy. Feature normalization (F-Norm) is also developed to investigate the inherent spatial correlation of SR features and boost the network representation capacity. Experimental results show the proposed TSNet predicts the visual quality more accurate than the state-of-the-art IQA methods, and demonstrates better consistency with the human's perspective. The source code will be made available at http://github.com/yuqing-liu-dut/NRIQA_SR.
翻訳日:2022-05-30 15:30:52 公開日:2022-05-27
# 冗長な視覚情報付加による可視化データのパターン検索

Finding Patterns in Visualized Data by Adding Redundant Visual Information ( http://arxiv.org/abs/2205.13856v1 )

ライセンス: Link先を確認
Salomon Eisler, Joachim Meyer(参考訳) 本稿では,グラフの視覚的探索において,ラインチャート内の特定の,一般的に記述されたパターンの検出を容易にするために,冗長な情報を追加する手法である"PATRED"を提案する。 我々は,9つの距離指標(ユークリッド,ピアソン,相互情報,ジャカードなど)と,「根拠真理」として機能するデータ科学者の判断を用いて,冗長性の追加方法が異なるこの手法の異なるバージョンを比較した。 その結果、データサイエンティストの平均ランキングと相関関係(R2)、F1スコア、相互情報)で分析した。 一部の距離メトリクスは、冗長な情報の追加によって一貫して恩恵を受ける一方で、特定のタイプのデータ摂動に対してのみ強化されるものもある。 その結果,視覚探索中の時系列データのパターン識別を改善するために冗長性を追加することの価値が示された。

We present "PATRED", a technique that uses the addition of redundant information to facilitate the detection of specific, generally described patterns in line-charts during the visual exploration of the charts. We compared different versions of this technique, that differed in the way redundancy was added, using nine distance metrics (such as Euclidean, Pearson, Mutual Information and Jaccard) with judgments from data scientists which served as the "ground truth". Results were analyzed with correlations (R2), F1 scores and Mutual Information with the average ranking by the data scientists. Some distance metrics consistently benefit from the addition of redundant information, while others are only enhanced for specific types of data perturbations. The results demonstrate the value of adding redundancy to improve the identification of patterns in time-series data during visual exploration.
翻訳日:2022-05-30 15:30:29 公開日:2022-05-27
# モデルに基づく特徴抽出による病変分類:軟組織弾性の差分アフィン不変モデル

Lesion classification by model-based feature extraction: A differential affine invariant model of soft tissue elasticity ( http://arxiv.org/abs/2205.14029v1 )

ライセンス: Link先を確認
Weiguo Cao, Marc J. Pomeroy, Zhengrong Liang, Yongfeng Gao, Yongyi Shi, Jiaxing Tan, Fangfang Han, Jing Wang, Jianhua Ma, Hongbin Lu, Almas F. Abbasi, and Perry J. Pickhardt(参考訳) 軟組織の弾性は, 健全な組織と有害な組織を区別する特性として広く考えられており, 超音波エラストグラフィー, 磁気共鳴エラストグラフィ, 光コヒーレンスエラストグラフィーなど, 様々な弾性画像モダリティを動機付けている。 本稿では,CT画像による弾性のモデリングをモデルベース特徴抽出機械学習(ML)による病変の識別に応用する手法を提案する。 本モデルは,生体内の波動変動下での軟組織弾性を模倣するために,微分多様体内の動的非剛性(または弾性)変形を記述する。 このモデルに基づき、ct画像から第1および第2次微分によって定義される2つのテンソルにより3つの局所変形不変量を構築し、新しい信号抑圧法により正規化後の弾性特徴マップを生成する。 モデルに基づく弾性画像特徴を特徴地図から抽出し、機械学習に供給して病変分類を行う。 大腸ポリープ(44例, 良性43例)と肺結節(46例, 良性20例)の2つの病理学的に証明された画像データセットを用いて, モデルに基づく病変分類を行った。 このモデルアプローチの結果、ポリープの94.2 %、結節の87.4 %の受信者の動作特性の曲線下の領域のスコアに達し、既存の10の病変分類法に対して平均利得は5 %から30 %となった。 組織弾性のモデリングによる病変のml分化の促進は目覚ましいものであり、病変のml分化のための他の組織特性へのモデリング戦略を探求する大きな可能性を示している。

The elasticity of soft tissues has been widely considered as a characteristic property to differentiate between healthy and vicious tissues and, therefore, motivated several elasticity imaging modalities, such as Ultrasound Elastography, Magnetic Resonance Elastography, and Optical Coherence Elastography. This paper proposes an alternative approach of modeling the elasticity using Computed Tomography (CT) imaging modality for model-based feature extraction machine learning (ML) differentiation of lesions. The model describes a dynamic non-rigid (or elastic) deformation in differential manifold to mimic the soft tissues elasticity under wave fluctuation in vivo. Based on the model, three local deformation invariants are constructed by two tensors defined by the first and second order derivatives from the CT images and used to generate elastic feature maps after normalization via a novel signal suppression method. The model-based elastic image features are extracted from the feature maps and fed to machine learning to perform lesion classifications. Two pathologically proven image datasets of colon polyps (44 malignant and 43 benign) and lung nodules (46 malignant and 20 benign) were used to evaluate the proposed model-based lesion classification. The outcomes of this modeling approach reached the score of area under the curve of the receiver operating characteristics of 94.2 % for the polyps and 87.4 % for the nodules, resulting in an average gain of 5 % to 30 % over ten existing state-of-the-art lesion classification methods. The gains by modeling tissue elasticity for ML differentiation of lesions are striking, indicating the great potential of exploring the modeling strategy to other tissue properties for ML differentiation of lesions.
翻訳日:2022-05-30 15:30:13 公開日:2022-05-27
# OpenCalib: 自動運転のためのマルチセンサーキャリブレーションツールボックス

OpenCalib: A multi-sensor calibration toolbox for autonomous driving ( http://arxiv.org/abs/2205.14087v1 )

ライセンス: Link先を確認
Guohang Yan, Liu Zhuochun, Chengjie Wang, Chunlei Shi, Pengjin Wei, Xinyu Cai, Tao Ma, Zhizheng Liu, Zebin Zhong, Yuqian Liu, Ming Zhao, Zheng Ma, Yikang Li(参考訳) 正確なセンサーキャリブレーションは、自動運転車のマルチセンサー認識およびローカライゼーションシステムに必須である。 センサの内在パラメータキャリブレーションはセンサ内部のマッピング関係を得るためのものであり、外在パラメータキャリブレーションは2つ以上のセンサを統一された空間座標系に変換するためのものである。 ほとんどのセンサーは、センサー測定の精度を確保するために設置後に調整する必要がある。 この目的のために,様々なセンサキャリブレーション手法の豊富なセットを含む校正ツールボックスOpenCalibを提案する。 OpenCalibは、手動キャリブレーションツール、自動キャリブレーションツール、ファクトリキャリブレーションツール、さまざまなアプリケーションシナリオ用のオンラインキャリブレーションツールをカバーしている。 同時に,キャリブレーション精度を評価し,キャリブレーションアルゴリズムの精度を向上させるため,対応するベンチマークデータセットを作成した。 本稿では,このツールボックスの特徴とキャリブレーション方法を紹介する。 私たちの知る限り、この領域における自動運転関連のキャリブレーションアプローチの完全なセットを含む、初めてのオープンソースのキャリブレーションコードベースです。 このツールボックスが、自動運転研究者に役立つことを願っています。 コミュニティに利益をもたらすため、GitHubでコードをオープンソースにしています。 コードはhttps://github.com/PJLab-ADG/SensorsCalibration.comで入手できる。

Accurate sensor calibration is a prerequisite for multi-sensor perception and localization systems for autonomous vehicles. The intrinsic parameter calibration of the sensor is to obtain the mapping relationship inside the sensor, and the extrinsic parameter calibration is to transform two or more sensors into a unified spatial coordinate system. Most sensors need to be calibrated after installation to ensure the accuracy of sensor measurements. To this end, we present OpenCalib, a calibration toolbox that contains a rich set of various sensor calibration methods. OpenCalib covers manual calibration tools, automatic calibration tools, factory calibration tools, and online calibration tools for different application scenarios. At the same time, to evaluate the calibration accuracy and subsequently improve the accuracy of the calibration algorithm, we released a corresponding benchmark dataset. This paper introduces various features and calibration methods of this toolbox. To our knowledge, this is the first open-sourced calibration codebase containing the full set of autonomous-driving-related calibration approaches in this area. We wish that the toolbox could be helpful to autonomous driving researchers. We have open-sourced our code on GitHub to benefit the community. Code is available at https://github.com/PJLab-ADG/SensorsCalibration.
翻訳日:2022-05-30 15:29:40 公開日:2022-05-27
# グラフニューラルネットワーク解釈における一貫性について

On Consistency in Graph Neural Network Interpretation ( http://arxiv.org/abs/2205.13733v1 )

ライセンス: Link先を確認
Tianxiang Zhao, Dongsheng Luo, Xiang Zhang, Suhang Wang(参考訳) 近年,グラフニューラルネットワーク(GNN)の予測の背後にある理論的根拠が注目されている。 インスタンスレベルのGNN説明は、ターゲットのGNNが予測に頼っているノードやエッジなどの重要な入力要素を発見することを目的としている。 これらの同定されたサブ構造は、GNNの振る舞いの解釈を提供することができる。 様々なアルゴリズムが提案されているが、その多くはオリジナルの予測を保存できる最小部分グラフを探索することでこのタスクを形式化する。 帰納バイアスはこのフレームワークで深く根付いており、同じ出力は2つの入力が同じ論理の下で処理されることを保証することはできない。 その結果、彼らは急激な説明をし、一貫した説明をしない危険がある。 弱いパフォーマンスのGNNを説明するためにそれらを適用することは、これらの問題をさらに増幅する。 この問題に対処するために,我々はより忠実で一貫したGNNの説明を得ることを提案する。 因果関係の観点からのGNNの予測を精査した結果,分布シフトのような潜伏変数の収束効果と,元の入力と異なる因果要因の2つの典型的理由が説明された。 共起効果と多様な因果的理性の両方が内部表現に符号化されているという観察により,埋め込みの整列による簡易かつ効果的な対策を提案する。 この新たな目的は、既存のGNN説明アルゴリズムに無駄なく組み込むことができる。 絶対距離に基づく簡易バージョンとアンカーに基づく分散対応バージョンの両方を実装した。 5ドルのデータセットに関する実験は、その効果を検証し、理論的分析により、設計におけるより忠実な説明目的を最適化していることが示され、提案のアプローチをさらに正当化している。

Uncovering rationales behind predictions of graph neural networks (GNNs) has received increasing attention over recent years. Instance-level GNN explanation aims to discover critical input elements, like nodes or edges, that the target GNN relies upon for making predictions. These identified sub-structures can provide interpretations of GNN's behavior. Though various algorithms are proposed, most of them formalize this task by searching the minimal subgraph which can preserve original predictions. An inductive bias is deep-rooted in this framework: the same output cannot guarantee that two inputs are processed under the same rationale. Consequently, they have the danger of providing spurious explanations and fail to provide consistent explanations. Applying them to explain weakly-performed GNNs would further amplify these issues. To address the issues, we propose to obtain more faithful and consistent explanations of GNNs. After a close examination on predictions of GNNs from the causality perspective, we attribute spurious explanations to two typical reasons: confounding effect of latent variables like distribution shift, and causal factors distinct from the original input. Motivated by the observation that both confounding effects and diverse causal rationales are encoded in internal representations, we propose a simple yet effective countermeasure by aligning embeddings. This new objective can be incorporated into existing GNN explanation algorithms with no effort. We implement both a simplified version based on absolute distance and a distribution-aware version based on anchors. Experiments on $5$ datasets validate its effectiveness, and theoretical analysis shows that it is in effect optimizing a more faithful explanation objective in design, which further justifies the proposed approach.
翻訳日:2022-05-30 15:26:10 公開日:2022-05-27
# 2プレーヤゼロサムマルコフゲームのための正規化グラディエントDescent Ascent

Regularized Gradient Descent Ascent for Two-Player Zero-Sum Markov Games ( http://arxiv.org/abs/2205.13746v1 )

ライセンス: Link先を確認
Sihan Zeng, Thinh T. Doan, Justin Romberg(参考訳) 2人プレイのゼロサムマルコフゲームにおいてナッシュ平衡を求める問題について検討する。 ミニマックス最適化プログラムとして定式化されているため、この問題を解決するための自然なアプローチは、各プレイヤーに対する勾配降下/上昇を交互に行うことである。 しかし、対象関数の非凸性/非凸性のため、この方法の理論的理解は限られている。 本稿では,マルコフゲームにおけるエントロピー規則化された変種を解くことを検討する。 正規化は最適化のランドスケープに構造を導入し、ソリューションをより識別しやすくし、問題をより効率的に解決できるようにする。 我々の主な貢献は、正規化パラメータの適切な選択の下で、勾配降下上昇アルゴリズムが元の非正規化問題のナッシュ平衡に収束することを示すことである。 正規化を伴わない勾配降下上昇アルゴリズムの既存の収束境界を大幅に改善するアルゴリズムの最後の繰り返しの有限時間性能を明示的に特徴付ける。 最後に,アルゴリズムの収束の加速を示す数値シミュレーションを用いて解析を補完する。

We study the problem of finding the Nash equilibrium in a two-player zero-sum Markov game. Due to its formulation as a minimax optimization program, a natural approach to solve the problem is to perform gradient descent/ascent with respect to each player in an alternating fashion. However, due to the non-convexity/non-concavity of the underlying objective function, theoretical understandings of this method are limited. In our paper, we consider solving an entropy-regularized variant of the Markov game. The regularization introduces structure into the optimization landscape that make the solutions more identifiable and allow the problem to be solved more efficiently. Our main contribution is to show that under proper choices of the regularization parameter, the gradient descent ascent algorithm converges to the Nash equilibrium of the original unregularized problem. We explicitly characterize the finite-time performance of the last iterate of our algorithm, which vastly improves over the existing convergence bound of the gradient descent ascent algorithm without regularization. Finally, we complement the analysis with numerical simulations that illustrate the accelerated convergence of the algorithm.
翻訳日:2022-05-30 15:25:42 公開日:2022-05-27
# AsyncFeded: ユークリッド距離に基づく適応重み集約による非同期フェデレーション学習

AsyncFedED: Asynchronous Federated Learning with Euclidean Distance based Adaptive Weight Aggregation ( http://arxiv.org/abs/2205.13797v1 )

ライセンス: Link先を確認
Qiyuan Wang, Qianqian Yang, Shibo He, Zhiguo Shui, Jiming Chen(参考訳) 非同期フェデレーション学習フレームワークでは、サーバがクライアントから更新を受けたら、同期設定のようにすべての更新が到着するのを待つのではなく、グローバルモデルを更新する。 これにより、様々な計算能力を持つ異種デバイスが、舗装せずにローカルモデルをトレーニングし、トレーニングプロセスのスピードアップが可能になる。 しかし,本手法では,現在のグローバルモデルよりも古い一組のスタイルウェイトに基づいて,新たに到着した更新を計算し,モデルの収束を損なう可能性のあるスタイルモデル問題を導入する。 本稿では,asyncfededと呼ばれる適応重み集約アルゴリズムを用いた非同期フェデレーション学習フレームワークを提案する。 我々の知る限りでは、この集計法は、安定モデルと現在のグローバルモデルの間のユークリッド距離によって測定された到着した勾配の安定度と、実行された局所的エポックの数を考慮に入れた最初のものである。 一般の非凸損失関数を仮定すると,提案手法の収束を理論的に証明する。 提案したAsyncFededの有効性を,既存の3つの課題に対する手法と比較して,収束率とモデル精度の観点から検証した。

In an asynchronous federated learning framework, the server updates the global model once it receives an update from a client instead of waiting for all the updates to arrive as in the synchronous setting. This allows heterogeneous devices with varied computing power to train the local models without pausing, thereby speeding up the training process. However, it introduces the stale model problem, where the newly arrived update was calculated based on a set of stale weights that are older than the current global model, which may hurt the convergence of the model. In this paper, we present an asynchronous federated learning framework with a proposed adaptive weight aggregation algorithm, referred to as AsyncFedED. To the best of our knowledge this aggregation method is the first to take the staleness of the arrived gradients, measured by the Euclidean distance between the stale model and the current global model, and the number of local epochs that have been performed, into account. Assuming general non-convex loss functions, we prove the convergence of the proposed method theoretically. Numerical results validate the effectiveness of the proposed AsyncFedED in terms of the convergence rate and model accuracy compared to the existing methods for three considered tasks.
翻訳日:2022-05-30 15:25:24 公開日:2022-05-27
# 高精度・完全インピーダンス制御のためのハイブリッド逆ダイナミクスモデルのエンドツーエンド学習

End-to-End Learning of Hybrid Inverse Dynamics Models for Precise and Compliant Impedance Control ( http://arxiv.org/abs/2205.13804v1 )

ライセンス: Link先を確認
Moritz Reuss, Niels van Duijkeren, Robert Krug, Philipp Becker, Vaisakh Shaj and Gerhard Neumann(参考訳) 逆ダイナミクスモデルがロボット制御のトラッキング性能を向上させることはよく知られている。 これらのモデルは、例えば剛体力学のようなよく理解されたコンポーネントと、スティックスリップ摩擦や機械的柔軟性などの捕獲が困難な効果からなるロボット力学を正確に捉える必要がある。 このような効果はヒステリシスと部分的可観測性を示し、特にモデル化が困難である。 したがって、物理的な事前とデータ駆動アプローチを組み合わせたハイブリッドモデルは、この設定に特に適しています。 本稿では,リカレントニューラルネットワークアーキテクチャと組み合わせた剛体力学モデルの完全物理的に一貫性のある慣性パラメータを同定し,ネットワークメモリを用いた非モデル化部分可観測効果をキャプチャすることのできる,新しいハイブリッドモデル定式化を提案する。 7自由度マニピュレータにおける最先端逆動力学モデルに対する我々のアプローチを比較する。 最適実験設計手法を用いて得られたデータセットを用いて,共同学習法のオフライントルク予測と一般化能力の精度について検討した。 実システムにおける制御実験において、インピーダンス制御のフィードフォワード項としてモデルを評価し、与えられたトラッキング精度を達成するためにフィードバックゲインを劇的に削減できることを示す。

It is well-known that inverse dynamics models can improve tracking performance in robot control. These models need to precisely capture the robot dynamics, which consist of well-understood components, e.g., rigid body dynamics, and effects that remain challenging to capture, e.g., stick-slip friction and mechanical flexibilities. Such effects exhibit hysteresis and partial observability, rendering them, particularly challenging to model. Hence, hybrid models, which combine a physical prior with data-driven approaches are especially well-suited in this setting. We present a novel hybrid model formulation that enables us to identify fully physically consistent inertial parameters of a rigid body dynamics model which is paired with a recurrent neural network architecture, allowing us to capture unmodeled partially observable effects using the network memory. We compare our approach against state-of-the-art inverse dynamics models on a 7 degree of freedom manipulator. Using data sets obtained through an optimal experiment design approach, we study the accuracy of offline torque prediction and generalization capabilities of joint learning methods. In control experiments on the real system, we evaluate the model as a feed-forward term for impedance control and show the feedback gains can be drastically reduced to achieve a given tracking accuracy.
翻訳日:2022-05-30 15:25:05 公開日:2022-05-27
# fakeWeather: 自律システムのカメラレンズ上の気象条件をエミュレートするディープニューラルネットワークの敵攻撃

fakeWeather: Adversarial Attacks for Deep Neural Networks Emulating Weather Conditions on the Camera Lens of Autonomous Systems ( http://arxiv.org/abs/2205.13807v1 )

ライセンス: Link先を確認
Alberto Marchisio and Giovanni Caramia and Maurizio Martina and Muhammad Shafique(参考訳) 近年、ディープニューラルネットワーク(DNN)は多くのアプリケーションで顕著なパフォーマンスを達成し、いくつかの研究で悪意のある攻撃に対する脆弱性が強化されている。 本稿では,自然気象条件の影響をエミュレートし,DNNを誤解させる可塑性摂動を導入する。 このような大気の摂動がカメラのレンズに与える影響を観察することで、雨、雪、ヘイルの効果を偽装する異なるマスクを作るパターンをモデル化する。 我々の攻撃によって引き起こされる摂動は見えるが、その存在は自然現象と関連しているため、特に完全自律型および無人の車両にとって壊滅的なものである。 提案する複数の畳み込みニューラルネットワークとカプセルネットワークモデルに対するフェイクウェザー攻撃を検証し,そのような摂動の存在下での精度低下を報告した。 当社の作業では,安全クリティカルなアプリケーションや自律システムでは特に深刻なdnnに対する新たなセキュリティ脅威が導入されています。

Recently, Deep Neural Networks (DNNs) have achieved remarkable performances in many applications, while several studies have enhanced their vulnerabilities to malicious attacks. In this paper, we emulate the effects of natural weather conditions to introduce plausible perturbations that mislead the DNNs. By observing the effects of such atmospheric perturbations on the camera lenses, we model the patterns to create different masks that fake the effects of rain, snow, and hail. Even though the perturbations introduced by our attacks are visible, their presence remains unnoticed due to their association with natural events, which can be especially catastrophic for fully-autonomous and unmanned vehicles. We test our proposed fakeWeather attacks on multiple Convolutional Neural Network and Capsule Network models, and report noticeable accuracy drops in the presence of such adversarial perturbations. Our work introduces a new security threat for DNNs, which is especially severe for safety-critical applications and autonomous systems.
翻訳日:2022-05-30 15:23:46 公開日:2022-05-27
# 適応ネットワーク分割によるフェーダルマルチエージェント強化学習による信号制御

Feudal Multi-Agent Reinforcement Learning with Adaptive Network Partition for Traffic Signal Control ( http://arxiv.org/abs/2205.13836v1 )

ライセンス: Link先を確認
Jinming Ma, Feng Wu(参考訳) マルチエージェント強化学習 (MARL) を応用し, 複数エージェントが協調して交通流の最適化を行うマルチセクション交通信号制御において大きな可能性を示した。 グローバルな協力を促進するため、以前の作業では、トラフィックネットワークを複数のリージョンに分割し、封建的構造におけるエージェントのポリシーを学ぶ。 しかし、静的ネットワークパーティションは動的トラフィックフローに適応できないため、時間とともに頻繁に変更される。 そこで本研究では,適応型ネットワーク分割を用いた新しいMARL手法を提案する。 具体的には、まずトラフィックフローに応じてネットワークを複数のリージョンに分割する。 そこで我々は,グラフニューラルネットワーク(GNN)を直接使用してネットワークパーティションを生成する手法と,モンテカルロ木探索(MCTS)を用いて,GNNが計算した基準で最高のパーティションを求める手法を提案する。 そして、動的ネットワーク分割によって与えられる様々な入力の次元を扱うために、GNNを用いてQmixの変種を設計する。 最後に,各パーティショニングのエージェントを管理し,グローバルな協力を促進するために封建階層を用いる。 これによってエージェントは,実際に必要なトラフィックフローに適応することができる。 本手法は,3都市の交通網と実世界の交通網の両方で実証的に評価し,文献で広く用いられている。 提案手法は,トラヒック信号制御の先駆的手法に比べて,平均走行時間と待ち行列長の点で優れた性能が得られることを確認した。

Multi-agent reinforcement learning (MARL) has been applied and shown great potential in multi-intersections traffic signal control, where multiple agents, one for each intersection, must cooperate together to optimize traffic flow. To encourage global cooperation, previous work partitions the traffic network into several regions and learns policies for agents in a feudal structure. However, static network partition fails to adapt to dynamic traffic flow, which will changes frequently over time. To address this, we propose a novel feudal MARL approach with adaptive network partition. Specifically, we first partition the network into several regions according to the traffic flow. To do this, we propose two approaches: one is directly to use graph neural network (GNN) to generate the network partition, and the other is to use Monte-Carlo tree search (MCTS) to find the best partition with criteria computed by GNN. Then, we design a variant of Qmix using GNN to handle various dimensions of input, given by the dynamic network partition. Finally, we use a feudal hierarchy to manage agents in each partition and promote global cooperation. By doing so, agents are able to adapt to the traffic flow as required in practice. We empirically evaluate our method both in a synthetic traffic grid and real-world traffic networks of three cities, widely used in the literature. Our experimental results confirm that our method can achieve better performance, in terms of average travel time and queue length, than several leading methods for traffic signal control.
翻訳日:2022-05-30 15:23:27 公開日:2022-05-27
# マルチアーメッドバンドにおけるレグレットの公平性と福祉的定量化

Fairness and Welfare Quantification for Regret in Multi-Armed Bandits ( http://arxiv.org/abs/2205.13930v1 )

ライセンス: Link先を確認
Siddharth Barman, Arindam Khan, Arnab Maiti and Ayush Sawarni(参考訳) 我々は後悔の概念をウェルファリスト的な視点で拡張する。 本研究は,従来のマルチアーム・バンディット(MAB)フレームワークに着目し,基本的な福祉機能,すなわちナッシュ社会福祉(NSW)機能を適用して,バンディットアルゴリズムの性能を定量化する。 これはアルゴリズムのパフォーマンスを期待される報酬の幾何学的平均と同等にすることに対応し、nash regretの研究へと繋がる。 NSWは公平性の公理を満たすことが知られているため、提案手法は平均的(累積的な)後悔の実用的考察を補完し、アルゴリズムは期待される報酬の算術平均を通して評価される。 この研究は、play $t$の地平線を考えると、mabインスタンスのアームの数を表す$o \left( \sqrt{\frac{k \log t}}{t}} \right)$というnashの後悔を達成するアルゴリズムを開発した。 どんなアルゴリズムでも、ナッシュの後悔はその平均的な後悔(am-gmの不等式)と同じであるので、ナッシュの後悔に対する平均的な後悔の上限は、ナッシュの後悔にも当てはまる。 したがって、ナッシュの後悔の保証は本質的にきつい。 さらに、nashの後悔を保証したanytimeアルゴリズムを、$o \left( \sqrt{\frac{k\log t}}{t}} \log t \right)$で開発する。

We extend the notion of regret with a welfarist perspective. Focussing on the classic multi-armed bandit (MAB) framework, the current work quantifies the performance of bandit algorithms by applying a fundamental welfare function, namely the Nash social welfare (NSW) function. This corresponds to equating algorithm's performance to the geometric mean of its expected rewards and leads us to the study of Nash regret, defined as the difference between the -- a priori unknown -- optimal mean (among the arms) and the algorithm's performance. Since NSW is known to satisfy fairness axioms, our approach complements the utilitarian considerations of average (cumulative) regret, wherein the algorithm is evaluated via the arithmetic mean of its expected rewards. This work develops an algorithm that, given the horizon of play $T$, achieves a Nash regret of $O \left( \sqrt{\frac{{k \log T}}{T}} \right)$, here $k$ denotes the number of arms in the MAB instance. Since, for any algorithm, the Nash regret is at least as much as its average regret (the AM-GM inequality), the known lower bound on average regret holds for Nash regret as well. Therefore, our Nash regret guarantee is essentially tight. In addition, we develop an anytime algorithm with a Nash regret guarantee of $O \left( \sqrt{\frac{{k\log T}}{T}} \log T \right)$.
翻訳日:2022-05-30 15:23:00 公開日:2022-05-27
# 感度解析を用いたスタンドアロンニューラルode

Standalone Neural ODEs with Sensitivity Analysis ( http://arxiv.org/abs/2205.13933v1 )

ライセンス: Link先を確認
Rym Jaroudi, Luk\'a\v{s} Mal\'y, Gabriel Eilertsen, Tomas B. Johansson, Jonas Unger, George Baravdish(参考訳) 本稿では,完全深部ニューラルネットワークを記述可能な連続深部ニューラルネットワークモデルであるStandalone Neural ODE(sNODE)を提案する。 これは、新しい非線形共役勾配(NCG)降下最適化スキームを用いて、モデルの重みの滑らかさを改善するためにソボレフ勾配を組み込むことができる。 また、神経感受性問題の一般的な定式化を行い、NCGトレーニングでどのように使用されるかを示す。 この感度解析は、ネットワーク全体の不確実性伝播の信頼性を測り、モデルロバスト性の研究や敵攻撃の発生に使用できる。 評価の結果,新しい定式化は,resnetモデルと比較して頑健性と性能の向上につながり,説明可能性の向上による機械学習の設計と開発に新たな機会が開けることが示された。

This paper presents the Standalone Neural ODE (sNODE), a continuous-depth neural ODE model capable of describing a full deep neural network. This uses a novel nonlinear conjugate gradient (NCG) descent optimization scheme for training, where the Sobolev gradient can be incorporated to improve smoothness of model weights. We also present a general formulation of the neural sensitivity problem and show how it is used in the NCG training. The sensitivity analysis provides a reliable measure of uncertainty propagation throughout a network, and can be used to study model robustness and to generate adversarial attacks. Our evaluations demonstrate that our novel formulations lead to increased robustness and performance as compared to ResNet models, and that it opens up for new opportunities for designing and developing machine learning with improved explainability.
翻訳日:2022-05-30 15:22:15 公開日:2022-05-27
# データ要約の指導的探索

Guided Exploration of Data Summaries ( http://arxiv.org/abs/2205.13956v1 )

ライセンス: Link先を確認
Brit Youngmann, Sihem Amer-Yahia, and Aur\'elien Personnaz(参考訳) データ要約は、入力データセットの解釈可能および代表的サブセットを生成するプロセスである。 通常は、最善の要約を見つける目的で、ワンショットのプロセスに従って実行される。 有用な要約は k 個の一様集合を含み、一括して表現できる。 一様性は解釈可能性に対処し、多様性は表現性に対処する。 データが高度に多様で大きい場合、サマリを見つけることは難しい作業です。 本研究では,データ要約への探索データ解析(EDA)の適用性を検討した。Eda4Sumは,データ累積ユーティリティの最大化を目標として,連続的に連結要約を生成しようとするデータ要約のガイド付き探索の問題である。 EdA4Sumはワンショット要約を一般化する。 2つのアプローチの1つで解決することを提案します (i)各ステップで最も有用な要約を選択するtop1sum 2 深層強化学習で政策を訓練するRSSumは、各ステップにおいて多種多様な新しい統一セットの収集を行うエージェントに報奨を与える。 これらのアプローチをワンショット要約とトップパフォーマンスedaソリューションと比較する。 3つの大きなデータセットで広範な実験を行います。 私たちの結果は、非常に大きなデータを要約するアプローチの優位性と、ドメインエキスパートにガイダンスを提供する必要性を示しています。

Data summarization is the process of producing interpretable and representative subsets of an input dataset. It is usually performed following a one-shot process with the purpose of finding the best summary. A useful summary contains k individually uniform sets that are collectively diverse to be representative. Uniformity addresses interpretability and diversity addresses representativity. Finding such as summary is a difficult task when data is highly diverse and large. We examine the applicability of Exploratory Data Analysis (EDA) to data summarization and formalize Eda4Sum, the problem of guided exploration of data summaries that seeks to sequentially produce connected summaries with the goal of maximizing their cumulative utility. EdA4Sum generalizes one-shot summarization. We propose to solve it with one of two approaches: (i) Top1Sum which chooses the most useful summary at each step; (ii) RLSum which trains a policy with Deep Reinforcement Learning that rewards an agent for finding a diverse and new collection of uniform sets at each step. We compare these approaches with one-shot summarization and top-performing EDA solutions. We run extensive experiments on three large datasets. Our results demonstrate the superiority of our approaches for summarizing very large data, and the need to provide guidance to domain experts.
翻訳日:2022-05-30 15:22:02 公開日:2022-05-27
# カーネルヒルベルト空間の再現におけるクープマン作用素回帰による学習力学系

Learning Dynamical Systems via Koopman Operator Regression in Reproducing Kernel Hilbert Spaces ( http://arxiv.org/abs/2205.14027v1 )

ライセンス: Link先を確認
Vladimir Kostic, Pietro Novelli, Andreas Maurer, Carlo Ciliberto, Lorenzo Rosasco, Massimiliano Pontil(参考訳) 我々はマルコフ連鎖としてモデル化された力学系のクラスについて検討し、対応する転移(英語版)(Koopman, operator)を介して不変分布を許容する。 このような演算子を再構成するデータ駆動アルゴリズムはよく知られているが、統計的学習との関係はほとんど解明されていない。 動的システムの有限データ軌跡からクープマン作用素を学ぶためのフレームワークを定式化する。 この作用素を再生核ヒルベルト空間に制限することを考慮し、異なる推定者が自然に生じるリスクの概念を導入する。 リスクとクープマン作用素のスペクトル分解の推定を関連付ける。 これらの観測は、還元ランク演算子回帰(RRR)推定器を動機付けている。 提案する推定器の学習境界を導出し,混合係数を用いてi.i.d.設定と非i.i.d.設定の両方を保持する。 以上の結果から,RRRは予測およびモード分解の数値実験で確認された他の広く用いられている推定値よりも有益である可能性が示唆された。

We study a class of dynamical systems modelled as Markov chains that admit an invariant distribution via the corresponding transfer, or Koopman, operator. While data-driven algorithms to reconstruct such operators are well known, their relationship with statistical learning is largely unexplored. We formalize a framework to learn the Koopman operator from finite data trajectories of the dynamical system. We consider the restriction of this operator to a reproducing kernel Hilbert space and introduce a notion of risk, from which different estimators naturally arise. We link the risk with the estimation of the spectral decomposition of the Koopman operator. These observations motivate a reduced-rank operator regression (RRR) estimator. We derive learning bounds for the proposed estimator, holding both in i.i.d. and non i.i.d. settings, the latter in terms of mixing coefficients. Our results suggest RRR might be beneficial over other widely used estimators as confirmed in numerical experiments both for forecasting and mode decomposition.
翻訳日:2022-05-30 15:21:34 公開日:2022-05-27
# 低楕円拡散によるグラフのキャプチャ

Capturing Graphs with Hypo-Elliptic Diffusions ( http://arxiv.org/abs/2205.14092v1 )

ライセンス: Link先を確認
Csaba Toth, Darrick Lee, Celia Hacker, Harald Oberhauser(参考訳) グラフニューラルネットワーク内の畳み込み層は、局所的な近傍構造に関する情報を集約することで操作される。 これらのランダムウォークの分布はグラフラプラシアンを用いて定義される拡散方程式に従って進化する。 低楕円拡散に関する古典的な数学的結果を利用して、このアプローチを拡張する。 この結果、テンソル値のグラフ作用素が新しくなり、これは下楕円グラフラプラシアンと呼ばれる。 理論的保証と効率的な低ランク近似アルゴリズムを提供する。 特にこれは、プーリングにロバストなグラフの長距離依存性をキャプチャする構造化アプローチを提供する。 提案手法は, 長大な推論を必要とするデータセット上のグラフトランスフォーマーと競合するが, ノードの2次性とは対照的に, エッジ数で線形にしかスケールしないことを示す。

Convolutional layers within graph neural networks operate by aggregating information about local neighbourhood structures; one common way to encode such substructures is through random walks. The distribution of these random walks evolves according to a diffusion equation defined using the graph Laplacian. We extend this approach by leveraging classic mathematical results about hypo-elliptic diffusions. This results in a novel tensor-valued graph operator, which we call the hypo-elliptic graph Laplacian. We provide theoretical guarantees and efficient low-rank approximation algorithms. In particular, this gives a structured approach to capture long-range dependencies on graphs that is robust to pooling. Besides the attractive theoretical properties, our experiments show that this method competes with graph transformers on datasets requiring long-range reasoning but scales only linearly in the number of edges as opposed to quadratically in nodes.
翻訳日:2022-05-30 15:21:17 公開日:2022-05-27
# ランダム森林に対するロバストな反事実的説明

Robust Counterfactual Explanations for Random Forests ( http://arxiv.org/abs/2205.14116v1 )

ライセンス: Link先を確認
Alexandre Forel, Axel Parmentier, Thibaut Vidal(参考訳) 否定的な説明は、訓練された分類器の結果を反転させるために特徴ベクトルを変更する方法を記述する。 これらの説明を生成するために、いくつかのヒューリスティックで最適な方法が提案されている。 しかし、分類器の再訓練時の反実的説明の堅牢性はまだ研究されていない。 本研究の目的は,アルゴリズム的不確実性に頑健なランダム林に対する反事実的説明を得ることである。 本研究では,アンサンブルモデルのロバスト性とベース学習者のロバスト性との関係を考察し,確率制約付き最適化問題として,ロバストな対実的説明の生成を考察する。 経験的性能に優れた実用的手法を開発し,切り株の単純なランダム林に対する有限サンプルおよび漸近保証を提供する。 我々は、既存の手法が驚くほど低いロバスト性をもたらすことを示している: 多くのデータセットにおいて、単純対実の妥当性は50 %以下であり、多くの特徴を持つ大問題インスタンスでは20 %以下になる可能性がある。 可能性が高くても、反事実的説明はしばしばアルゴリズムの不確実性に対して低いロバスト性を示す。 対照的に,本手法は,反実的説明から初期観測までの距離をわずかに増加させるだけで,高いロバスト性を実現する。 さらに,反事実的説明のロバスト性と特徴の予測的重要性との関係を強調する。

Counterfactual explanations describe how to modify a feature vector in order to flip the outcome of a trained classifier. Several heuristic and optimal methods have been proposed to generate these explanations. However, the robustness of counterfactual explanations when the classifier is re-trained has yet to be studied. Our goal is to obtain counterfactual explanations for random forests that are robust to algorithmic uncertainty. We study the link between the robustness of ensemble models and the robustness of base learners and frame the generation of robust counterfactual explanations as a chance-constrained optimization problem. We develop a practical method with good empirical performance and provide finite-sample and asymptotic guarantees for simple random forests of stumps. We show that existing methods give surprisingly low robustness: the validity of naive counterfactuals is below $50\%$ on most data sets and can fall to $20\%$ on large problem instances with many features. Even with high plausibility, counterfactual explanations often exhibit low robustness to algorithmic uncertainty. In contrast, our method achieves high robustness with only a small increase in the distance from counterfactual explanations to their initial observations. Furthermore, we highlight the connection between the robustness of counterfactual explanations and the predictive importance of features.
翻訳日:2022-05-30 15:21:03 公開日:2022-05-27
# LEAF + AIO:モバイル拡張現実のためのエッジ支援型エネルギー認識物体検出

LEAF + AIO: Edge-Assisted Energy-Aware Object Detection for Mobile Augmented Reality ( http://arxiv.org/abs/2205.13770v1 )

ライセンス: Link先を確認
Haoxin Wang, BaekGyu Kim, Jiang Xie, Zhu Han(参考訳) 今日、ディープラーニングベースのモバイル拡張現実(mar)アプリケーションは、非常にエネルギーを消費するので、モバイルデバイスにはほとんど適用されていない。 本稿では,marデバイスがcpu周波数,計算モデルサイズ,画像オフロード頻度などの設定を,ユーザの好み,カメラサンプリング率,利用可能な無線リソースに基づいて動的に変更可能な,エッジベースのエネルギアウェアmarシステムを設計する。 提案した動的MAR構成適応は、遅延や検出精度などのMAR性能指標を劣化させることなく、複数のMARクライアントのフレーム当たりのエネルギー消費を最小限に抑えることができる。 mar構成、ユーザ選好、カメラサンプリング率、エネルギー消費の相互作用を徹底的に分析するため、我々はこの知識を最大限に活用するために、marデバイスのための最初の包括的な分析エネルギーモデルを提案する。 提案した解析モデルに基づいて,MAR構成適応とサーバ無線リソース割り当てを誘導するLEAF最適化アルゴリズムを設計する。 画像オフロード周波数オーケストレータは、LEAFと協調して、エッジベースのオブジェクト検出呼び出しを適応的に制御し、MARデバイスのエネルギー効率をさらに向上するために開発された。 提案する解析モデルとアルゴリズムの性能を検証するために,広範な評価を行った。

Today very few deep learning-based mobile augmented reality (MAR) applications are applied in mobile devices because they are significantly energy-guzzling. In this paper, we design an edge-based energy-aware MAR system that enables MAR devices to dynamically change their configurations, such as CPU frequency, computation model size, and image offloading frequency based on user preferences, camera sampling rates, and available radio resources. Our proposed dynamic MAR configuration adaptations can minimize the per frame energy consumption of multiple MAR clients without degrading their preferred MAR performance metrics, such as latency and detection accuracy. To thoroughly analyze the interactions among MAR configurations, user preferences, camera sampling rate, and energy consumption, we propose, to the best of our knowledge, the first comprehensive analytical energy model for MAR devices. Based on the proposed analytical model, we design a LEAF optimization algorithm to guide the MAR configuration adaptation and server radio resource allocation. An image offloading frequency orchestrator, coordinating with the LEAF, is developed to adaptively regulate the edge-based object detection invocations and to further improve the energy efficiency of MAR devices. Extensive evaluations are conducted to validate the performance of the proposed analytical model and algorithms.
翻訳日:2022-05-30 15:19:58 公開日:2022-05-27
# 非マルコフ政策占有対策

Non-Markovian policies occupancy measures ( http://arxiv.org/abs/2205.13950v1 )

ライセンス: Link先を確認
Romain Laroche, Remi Tachet des Combes, Jacob Buckman(参考訳) 強化学習(RL)における研究の中心的対象はマルコフの政策であり、エージェントの行動は記憶のない確率分布から選択され、現在の状態にのみ条件付けられる。 マルコフの政策の族は興味をそそられるほど広く、分析に適するほど単純である。 しかしながら、RLは、ポリシーのアンサンブル、オプションに対するポリシー、オンラインで更新されたポリシーなど、より複雑なポリシーを含むことが多い。 我々の主な貢献は、マルコフの政策、すなわちそれで収集された遷移サンプルの分布の占有度が、マルコフの政策によって等価に生成できることを証明することである。 この結果により、マルコフポリシークラスに関する定理は、非マルコフポリシークラスに直接拡張することができ、特にリプレイバッファやデータセットを含む証明を大幅に単純化することができる。 このような応用例を強化学習の分野に適用する。

A central object of study in Reinforcement Learning (RL) is the Markovian policy, in which an agent's actions are chosen from a memoryless probability distribution, conditioned only on its current state. The family of Markovian policies is broad enough to be interesting, yet simple enough to be amenable to analysis. However, RL often involves more complex policies: ensembles of policies, policies over options, policies updated online, etc. Our main contribution is to prove that the occupancy measure of any non-Markovian policy, i.e., the distribution of transition samples collected with it, can be equivalently generated by a Markovian policy. This result allows theorems about the Markovian policy class to be directly extended to its non-Markovian counterpart, greatly simplifying proofs, in particular those involving replay buffers and datasets. We provide various examples of such applications to the field of Reinforcement Learning.
翻訳日:2022-05-30 15:19:20 公開日:2022-05-27
# MPI-Parallel 応用における自発非同期性解析のための探索手法

Exploring Techniques for the Analysis of Spontaneous Asynchronicity in MPI-Parallel Applications ( http://arxiv.org/abs/2205.13963v1 )

ライセンス: Link先を確認
Ayesha Afzal, Georg Hager, Gerhard Wellein, Stefano Markidis(参考訳) 本稿では,大規模並列(mpi)プログラムのダイナミクスを識別,分類,特徴付けするために,データ分析と機械学習技術を用いた手法の有用性について検討する。 この目的のために、我々は2つの異なるスーパーコンピュータプラットフォーム上で、通常の計算通信構造を持つマイクロベンチマークとリアルプロキシアプリケーションを実行し、関連する観測対象として、プロセス毎のパフォーマンスとMPI時間を選択する。 主成分分析,クラスタリング手法,相関関数,および新たな「位相空間プロット」を用いて,完全MPIトレースよりもはるかに小さいデータセットからデシンクロナイゼーションパターン(あるいはその欠如)を容易に識別できることを示す。 また,本手法は並列プログラム力学のより一般的な分類へと導く。

This paper studies the utility of using data analytics and machine learning techniques for identifying, classifying, and characterizing the dynamics of large-scale parallel (MPI) programs. To this end, we run microbenchmarks and realistic proxy applications with the regular compute-communicate structure on two different supercomputing platforms and choose the per-process performance and MPI time per time step as relevant observables. Using principal component analysis, clustering techniques, correlation functions, and a new "phase space plot," we show how desynchronization patterns (or lack thereof) can be readily identified from a data set that is much smaller than a full MPI trace. Our methods also lead the way towards a more general classification of parallel program dynamics.
翻訳日:2022-05-30 15:19:04 公開日:2022-05-27
# 圧縮近赤外スペクトル分類のための深部符号化パターン設計

Deep Coding Patterns Design for Compressive Near-Infrared Spectral Classification ( http://arxiv.org/abs/2205.14069v1 )

ライセンス: Link先を確認
Jorge Bacca, Alejandra Hernandez-Rojas, Henry Arguello(参考訳) 圧縮スペクトルイメージング(csi:compressive spectral imaging)は、従来のシステムが近赤外スペクトルのような高コストのスペクトル領域を認識するための、魅力的な圧縮・センシング技術として登場した。 近年,スペクトル分類は,計測に埋め込まれたスペクトル情報量を考慮して圧縮領域内で直接行うことができ,再構成ステップをスキップできることが示されている。 従って、分類品質はセンシングステップで使用される符号化パターンのセットに直接依存する。 そこで本研究では,CSIにおける符号化パターンとネットワークパラメータを協調的に設計し,組込み近赤外圧縮測定から直接スペクトル分類を行うことを提案する。 3次元符号化開口分光画像(3D-CASSI)システムにおける広範囲なシミュレーションにより、提案設計が従来の設計とランダムな設計を最大10%の精度で上回ることを示した。

Compressive spectral imaging (CSI) has emerged as an attractive compression and sensing technique, primarily to sense spectral regions where traditional systems result in highly costly such as in the near-infrared spectrum. Recently, it has been shown that spectral classification can be performed directly in the compressive domain, considering the amount of spectral information embedded in the measurements, skipping the reconstruction step. Consequently, the classification quality directly depends on the set of coding patterns employed in the sensing step. Therefore, this work proposes an end-to-end approach to jointly design the coding patterns used in CSI and the network parameters to perform spectral classification directly from the embedded near-infrared compressive measurements. Extensive simulation on the three-dimensional coded aperture snapshot spectral imaging (3D-CASSI) system validates that the proposed design outperforms traditional and random design in up to 10% of classification accuracy.
翻訳日:2022-05-30 15:18:51 公開日:2022-05-27
# 状態-作用空間における無記憶確率政策による無限ホリゾンポムdpの解法

Solving infinite-horizon POMDPs with memoryless stochastic policies in state-action space ( http://arxiv.org/abs/2205.14098v1 )

ライセンス: Link先を確認
Johannes M\"uller, Guido Mont\'ufar(参考訳) 完全可観測マルコフ決定過程における逆最適化は、状態-作用周波数のポリトープ上の線形プログラムと等価である。 部分的に観測可能なマルコフ決定過程とメモリレス確率ポリシーの場合と同様の視点で、この問題は多項式制約を受ける線形対象の最適化として最近定式化された。 そこで我々は,状態空間(ROSA)におけるリワード最適化のアプローチを提案する。 この手法をmazeナビゲーションタスクで実験的にテストする。 ROSAは計算効率が良く,既存の手法に比べて安定性が向上していることがわかった。

Reward optimization in fully observable Markov decision processes is equivalent to a linear program over the polytope of state-action frequencies. Taking a similar perspective in the case of partially observable Markov decision processes with memoryless stochastic policies, the problem was recently formulated as the optimization of a linear objective subject to polynomial constraints. Based on this we present an approach for Reward Optimization in State-Action space (ROSA). We test this approach experimentally in maze navigation tasks. We find that ROSA is computationally efficient and can yield stability improvements over other existing methods.
翻訳日:2022-05-30 15:18:35 公開日:2022-05-27
# (参考訳) Spartan: 正規化による分散性

Spartan: Differentiable Sparsity via Regularized Transportation ( http://arxiv.org/abs/2205.14107v1 )

ライセンス: CC BY 4.0
Kai Sheng Tai, Taipeng Tian, Ser-Nam Lim(参考訳) 本稿では,スパースニューラルネットワークモデルを所定の間隔でトレーニングする方法であるSpartanを提案する。 スパルタンは,(1)正則化最適輸送問題による低次パラメータのソフトトップkマスキング,(2)前方通過におけるハードスパシフィケーションを伴う2つの平均パラメータ更新の2つの手法の組み合わせに基づいている。 このスキームは, 早期に学習者が様々な空間パターンを探索し, 柔らかいトップk近似が訓練の過程で徐々に高度化されるにつれて, パラメータ最適化へのバランスシフトが固定された空間マスクに対して行われる。 スパルタは、非構造とブロック構造の両方の空間配置ポリシーや、パラメータごとのコストの線形モデルによって仲介される一般的なコスト感受性の空間配置など、様々な空間配置ポリシーに対応するのに十分な柔軟性がある。 ImageNet-1K分類では、スパルタは95%のスパース ResNet-50 モデルと90%のブロックススパース ViT-B/16 モデルを生成し、完全密集トレーニングと比較して絶対的なトップ1精度の損失は1%未満である。

We present Spartan, a method for training sparse neural network models with a predetermined level of sparsity. Spartan is based on a combination of two techniques: (1) soft top-k masking of low-magnitude parameters via a regularized optimal transportation problem and (2) dual averaging-based parameter updates with hard sparsification in the forward pass. This scheme realizes an exploration-exploitation tradeoff: early in training, the learner is able to explore various sparsity patterns, and as the soft top-k approximation is gradually sharpened over the course of training, the balance shifts towards parameter optimization with respect to a fixed sparsity mask. Spartan is sufficiently flexible to accommodate a variety of sparsity allocation policies, including both unstructured and block structured sparsity, as well as general cost-sensitive sparsity allocation mediated by linear models of per-parameter costs. On ImageNet-1K classification, Spartan yields 95% sparse ResNet-50 models and 90% block sparse ViT-B/16 models while incurring absolute top-1 accuracy losses of less than 1% compared to fully dense training.
翻訳日:2022-05-30 15:16:51 公開日:2022-05-27
# LiDARレンジ画像による完全畳み込み1段3次元物体検出

Fully Convolutional One-Stage 3D Object Detection on LiDAR Range Images ( http://arxiv.org/abs/2205.13764v1 )

ライセンス: Link先を確認
Zhi Tian, Xiangxiang Chu, Xiaoming Wang, Xiaolin Wei, Chunhua Shen(参考訳) 我々は、FCOS-LiDARと呼ばれる自律走行シーンのLiDAR点雲に対して、シンプルで効果的な完全畳み込み型1段3次元物体検出器を提案する。 鳥眼ビュー(BEV)を使用する支配的な方法とは異なり、提案する検出器は、LiDAR点のレンジビュー(RV、すなわちレンジイメージ)から物体を検出する。 レンジビューのコンパクトさと、LiDARセンサーの自動運転車でのサンプリングプロセスとの互換性のため、レンジビューベースのオブジェクト検出器は、バニラ2Dコンボリューションを単に活用することで実現でき、複雑なボキセル化操作やスパースコンボリューションを伴うBEVベースの方法から離れることができる。 RVベースの3D検出器が標準の2D畳み込みだけで、最先端のBEVベースの検出器に匹敵する性能を達成できることを示す。 さらに重要なことに、以前の範囲のビューベースの検出器のほとんどは、単一フレームのポイントのクラウドにのみ焦点を合わせている。 本研究では、この課題を、新しい範囲ビュー投影機構を用いて解決し、レンジビューベース検出器に複数フレームの点雲を融合させることの利点を初めて実証する。 提案手法の優位性を示す大規模な実験を行い, RVベースの3D検出器が現行の主流のBEVベースの検出器と良好に比較できることを示す。

We present a simple yet effective fully convolutional one-stage 3D object detector for LiDAR point clouds of autonomous driving scenes, termed FCOS-LiDAR. Unlike the dominant methods that use the bird-eye view (BEV), our proposed detector detects objects from the range view (RV, a.k.a. range image) of the LiDAR points. Due to the range view's compactness and compatibility with the LiDAR sensors' sampling process on self-driving cars, the range view-based object detector can be realized by solely exploiting the vanilla 2D convolutions, departing from the BEV-based methods which often involve complicated voxelization operations and sparse convolutions. For the first time, we show that an RV-based 3D detector with standard 2D convolutions alone can achieve comparable performance to state-of-the-art BEV-based detectors while being significantly faster and simpler. More importantly, almost all previous range view-based detectors only focus on single-frame point clouds, since it is challenging to fuse multi-frame point clouds into a single range view. In this work, we tackle this challenging issue with a novel range view projection mechanism, and for the first time demonstrate the benefits of fusing multi-frame point clouds for a range-view based detector. Extensive experiments on nuScenes show the superiority of our proposed method and we believe that our work can be strong evidence that an RV-based 3D detector can compare favourably with the current mainstream BEV-based detectors.
翻訳日:2022-05-30 14:58:44 公開日:2022-05-27
# リモートセンシング画像変化検出のためのsemantic-aware dense representation learning

Semantic-aware Dense Representation Learning for Remote Sensing Image Change Detection ( http://arxiv.org/abs/2205.13769v1 )

ライセンス: Link先を確認
Hao Chen, Wenyuan Li, Song Chen and Zhenwei Shi(参考訳) ディープラーニングに基づく変化検出(CD)モデルのトレーニングはラベル付きデータに大きく依存する。 コンテンポラリートランスファー学習に基づくCDラベル不足の軽減手法 : ImageNet事前学習を中心に 最近のトレンドは、リモートセンシング(RS)データを使用して、教師付きまたは自己教師型学習(SSL)を通じて、ドメイン内の表現を取得することである。 ここでは,画像からラベルへのマッピングを学習する従来の教師付き事前学習とは異なり,意味的監督を対比的に活用する。 通常、RS画像の様々な場所に複数の関心の対象(例えば、建物)が分散している。 複数のクラスバランス点をサンプリングし,RS画像CDに対する意味認識事前学習を提案する。 空間情報を欠いた画像レベルの表現を操作する代わりに、画素レベルの横断的一貫性と横断的識別を制約し、空間感性のある特徴を学習し、下流の高密度CDの恩恵を受ける。 照度不変特徴の学習とは別に,背景スワッピングを用いた合成ビューを通じて,無関係な背景変化に影響を受けない一貫したフォアグラウンド特徴を実現する。 また,前景の土地被覆等を識別するための識別表現も行う。 我々は,rsコミュニティで自由に利用可能な大規模画像マスクペアを事前学習のために収集する。 3つのCDデータセットの大規模な実験により,本手法の有効性が検証された。 ImageNet、ドメイン内の監視、SSLメソッドよりも優れています。 実験の結果,CDにおけるデータ不足は良好に軽減された。 特に、100%データを用いたベースライン(ランダム)よりも20%のトレーニングデータで競合する結果が得られる。 定量的および定性的な結果から,事前学習データに残されている領域ギャップでさえも,学習済みモデルの下流画像への一般化能を示す。 私たちのコードは公開します。

Training deep learning-based change detection (CD) model heavily depends on labeled data. Contemporary transfer learning-based methods to alleviate the CD label insufficiency mainly upon ImageNet pre-training. A recent trend is using remote sensing (RS) data to obtain in-domain representations via supervised or self-supervised learning (SSL). Here, different from traditional supervised pre-training that learns the mapping from image to label, we leverage semantic supervision in a contrastive manner. There are typically multiple objects of interest (e.g., buildings) distributed in varying locations in RS images. We propose dense semantic-aware pre-training for RS image CD via sampling multiple class-balanced points. Instead of manipulating image-level representations that lack spatial information, we constrain pixel-level cross-view consistency and cross-semantic discrimination to learn spatially-sensitive features, thus benefiting downstream dense CD. Apart from learning illumination invariant features, we fulfill consistent foreground features insensitive to irrelevant background changes via a synthetic view using background swapping. We additionally achieve discriminative representations to distinguish foreground land-covers and others. We collect large-scale image-mask pairs freely available in the RS community for pre-training. Extensive experiments on three CD datasets verify the effectiveness of our method. Ours significantly outperforms ImageNet, in-domain supervision, and several SSL methods. Empirical results indicate ours well alleviates data insufficiency in CD. Notably, we achieve competitive results using only 20% training data than baseline (random) using 100% data. Both quantitative and qualitative results demonstrate the generalization ability of our pre-trained model to downstream images even remaining domain gaps with the pre-training data. Our Code will make public.
翻訳日:2022-05-30 14:57:58 公開日:2022-05-27
# 長手型視覚認識に関する調査

A Survey on Long-Tailed Visual Recognition ( http://arxiv.org/abs/2205.13775v1 )

ライセンス: Link先を確認
Lu Yang, He Jiang, Qing Song, Jun Guo(参考訳) データへの強い依存は、現在ディープラーニングの開発を制限している大きな理由の1つです。 データ品質はディープラーニングモデルの影響を直接的に支配し,データ品質に影響を与える要因の1つである。 長い尾を持つ現象は、自然界における権力法則の出現によるものである。 この場合、ディープラーニングモデルの性能は、しばしばヘッドクラスに支配されるが、テールクラスの学習は著しく過小評価されている。 すべてのクラスを適切に学習するために、多くの研究者がロングテール問題を研究し、事前に取り組んだ。 本稿では,長期データ分布に起因する問題に着目し,代表的な長期画像認識データセットを整理し,主流の長期研究を要約する。 具体的には,これらの研究を表現学習の観点から10のカテゴリに分け,各カテゴリのハイライトと限界を概説する。 さらに,不均衡を評価するための4つの定量的指標について検討し,Gini係数を用いてデータセットの長期性を評価することを提案する。 Gini係数に基づいて、過去10年間に提案された20の広義および大規模視覚データセットを定量的に検討し、長い尾の現象が広く、十分に研究されていないことを発見した。 最後に,さらに多くのアイデアを読者に提供するために,ロングテール学習の開発に向けて,いくつかの今後の方向性を示す。

The heavy reliance on data is one of the major reasons that currently limit the development of deep learning. Data quality directly dominates the effect of deep learning models, and the long-tailed distribution is one of the factors affecting data quality. The long-tailed phenomenon is prevalent due to the prevalence of power law in nature. In this case, the performance of deep learning models is often dominated by the head classes while the learning of the tail classes is severely underdeveloped. In order to learn adequately for all classes, many researchers have studied and preliminarily addressed the long-tailed problem. In this survey, we focus on the problems caused by long-tailed data distribution, sort out the representative long-tailed visual recognition datasets and summarize some mainstream long-tailed studies. Specifically, we summarize these studies into ten categories from the perspective of representation learning, and outline the highlights and limitations of each category. Besides, we have studied four quantitative metrics for evaluating the imbalance, and suggest using the Gini coefficient to evaluate the long-tailedness of a dataset. Based on the Gini coefficient, we quantitatively study 20 widely-used and large-scale visual datasets proposed in the last decade, and find that the long-tailed phenomenon is widespread and has not been fully studied. Finally, we provide several future directions for the development of long-tailed learning to provide more ideas for readers.
翻訳日:2022-05-30 14:57:32 公開日:2022-05-27
# 顔認識システムを騙すのは簡単だ!

Face Morphing: Fooling a Face Recognition System Is Simple! ( http://arxiv.org/abs/2205.13796v1 )

ライセンス: Link先を確認
Stefan H\"ormann, Tianlin Kong, Torben Teepe, Fabian Herzog, Martin Knoche, Gerhard Rigoll(参考訳) State-of-the-art Face Recognition (FR) アプローチは、2つの顔が同一のアイデンティティに属しているかどうかを予測し、プロトコルの難易度に応じて92%から100%の精度が得られた。 しかし、変形した顔に露出すると、その精度は著しく低下し、特に2つのアイデンティティに類似するように生成される。 変形顔を生成するために、単純な事前学習されたFRモデルをGAN(Generative Adversarial Network)に統合し、顔変形のためのいくつかの損失関数を修正する。 従来の研究とは対照的に、我々のアプローチと分析は、同じ民族性と性別を持つ正面の対に限ったものではない。 我々の定性的かつ定量的な結果は、制約のないシナリオにおいても、我々のアプローチが2つの顔間のシームレスな変化を達成することを証明している。 より単純なFRモデルの特徴を顔形態形成に用いながら,近年のFRシステムにおいても,55~70%の精度で顔形状の識別に苦慮していることを示す。 さらに、FRシステムを知ることで、顔の変形攻撃に対して特に脆弱になる、というさらなる知見も提供します。

State-of-the-art face recognition (FR) approaches have shown remarkable results in predicting whether two faces belong to the same identity, yielding accuracies between 92% and 100% depending on the difficulty of the protocol. However, the accuracy drops substantially when exposed to morphed faces, specifically generated to look similar to two identities. To generate morphed faces, we integrate a simple pretrained FR model into a generative adversarial network (GAN) and modify several loss functions for face morphing. In contrast to previous works, our approach and analyses are not limited to pairs of frontal faces with the same ethnicity and gender. Our qualitative and quantitative results affirm that our approach achieves a seamless change between two faces even in unconstrained scenarios. Despite using features from a simpler FR model for face morphing, we demonstrate that even recent FR systems struggle to distinguish the morphed face from both identities obtaining an accuracy of only 55-70%. Besides, we provide further insights into how knowing the FR system makes it particularly vulnerable to face morphing attacks.
翻訳日:2022-05-30 14:57:13 公開日:2022-05-27
# tracknet:マルチターゲットマルチカメラ車両追跡のためのトリプレットメトリックベース手法

TrackNet: A Triplet metric-based method for Multi-Target Multi-Camera Vehicle Tracking ( http://arxiv.org/abs/2205.13857v1 )

ライセンス: Link先を確認
David Serrano, Francesc Net, Juan Antonio Rodr\'iguez and Igor Ugarte(参考訳) 本稿では,交通映像からのマルチターゲットマルチカメラ(MTMC)車両追跡手法であるTrackNetを提案する。 カメラ間の車両追跡は、視界、スケール、速度のばらつき、および閉塞や騒音条件によって難しい課題であることが判明した。 提案手法は,まずFaster R-CNNを用いて車両のフレーム・バイ・フレーム検出を行い,次いでKalmanフィルタを用いて1台のカメラで検出を追跡し,最終的に3重メトリック学習戦略によりトラックをマッチングする。 我々は,ai都市チャレンジフレームワークにおけるトラックネットの実験を行い,0.4733の競合idf1結果を示す。

We present TrackNet, a method for Multi-Target Multi-Camera (MTMC) vehicle tracking from traffic video sequences. Cross-camera vehicle tracking has proved to be a challenging task due to perspective, scale and speed variance, as well occlusions and noise conditions. Our method is based on a modular approach that first detects vehicles frame-by-frame using Faster R-CNN, then tracks detections through single camera using Kalman filter, and finally matches tracks by a triplet metric learning strategy. We conduct experiments on TrackNet within the AI City Challenge framework, and present competitive IDF1 results of 0.4733.
翻訳日:2022-05-30 14:56:53 公開日:2022-05-27
# 3DILG: 3次元生成モデリングのための不規則遅延格子

3DILG: Irregular Latent Grids for 3D Generative Modeling ( http://arxiv.org/abs/2205.13914v1 )

ライセンス: Link先を確認
Biao Zhang, Matthias Nie{\ss}ner, Peter Wonka(参考訳) ニューラルネットワークとして3次元形状を符号化するための新しい表現を提案する。 この表現はトランスアーキテクチャと互換性があり、形状再構成と形状生成の両方の利点があるように設計されている。 既存のニューラルフィールドの作業は、格子ベースの表現であり、遅延は正規格子上で定義される。 対照的に、不規則なグリッド上での潜在性を定義し、表現がスパースかつ適応的になるようにします。 点雲からの形状復元の文脈において,不規則な格子上に構築した形状表現は,再構成精度の観点からグリッドベース手法により改善される。 形状生成では, 自己回帰確率モデルを用いて高品質な形状生成を促進する。 アートの現在の状況を改善する、さまざまなアプリケーションを示します。 まず,高解像度画像からの確率的形状再構成の結果を示す。 第二に、超低解像度画像に条件付確率モデルを訓練する。 第3に、我々のモデルをカテゴリー条件付き生成に適用する。 すべての確率論的実験により、精細で高品質な形状を生成でき、生成的3次元形状モデリングにおける新しい技術が得られることが確認された。

We propose a new representation for encoding 3D shapes as neural fields. The representation is designed to be compatible with the transformer architecture and to benefit both shape reconstruction and shape generation. Existing works on neural fields are grid-based representations with latents defined on a regular grid. In contrast, we define latents on irregular grids, enabling our representation to be sparse and adaptive. In the context of shape reconstruction from point clouds, our shape representation built on irregular grids improves upon grid-based methods in terms of reconstruction accuracy. For shape generation, our representation promotes high-quality shape generation using auto-regressive probabilistic models. We show different applications that improve over the current state of the art. First, we show results for probabilistic shape reconstruction from a single higher resolution image. Second, we train a probabilistic model conditioned on very low resolution images. Third, we apply our model to category-conditioned generation. All probabilistic experiments confirm that we are able to generate detailed and high quality shapes to yield the new state of the art in generative 3D shape modeling.
翻訳日:2022-05-30 14:56:40 公開日:2022-05-27
# 長期的行動予測のための未来変圧器

Future Transformer for Long-term Action Anticipation ( http://arxiv.org/abs/2205.14022v1 )

ライセンス: Link先を確認
Dayoung Gong, Joonseok Lee, Manjin Kim, Seong Jong Ha, Minsu Cho(参考訳) ビデオから将来のアクションを予測するタスクは、他の人と対話する現実世界のエージェントにとって不可欠である。 遠未来の行動を予測する場合、人間は通常、行動の系列全体、すなわち過去の観察された行動だけでなく、将来的な行動についても長期的な関係を考える。 同様の考え方として、全ての入力フレームと出力トークンに対してグローバルに注意を向け、将来のアクションの数分のシーケンスを予測できる、future transformer(futr)と呼ばれるアクション予測のエンドツーエンドの注意モデルを提案する。 従来の自己回帰モデルとは異なり、提案手法は並列復号法における未来の行動列全体を予測し、より正確かつ高速な予測を可能にする。 本手法は,Breakfastと50 Saladsの2つの標準ベンチマークで評価し,最先端の結果を得た。

The task of predicting future actions from a video is crucial for a real-world agent interacting with others. When anticipating actions in the distant future, we humans typically consider long-term relations over the whole sequence of actions, i.e., not only observed actions in the past but also potential actions in the future. In a similar spirit, we propose an end-to-end attention model for action anticipation, dubbed Future Transformer (FUTR), that leverages global attention over all input frames and output tokens to predict a minutes-long sequence of future actions. Unlike the previous autoregressive models, the proposed method learns to predict the whole sequence of future actions in parallel decoding, enabling more accurate and fast inference for long-term anticipation. We evaluate our method on two standard benchmarks for long-term action anticipation, Breakfast and 50 Salads, achieving state-of-the-art results.
翻訳日:2022-05-30 14:56:27 公開日:2022-05-27
# 半グローバルマッチング結果を用いたステレオマッチングのための微調整型ディープラーニングモデル

Fine-tuning deep learning models for stereo matching using results from semi-global matching ( http://arxiv.org/abs/2205.14051v1 )

ライセンス: Link先を確認
Hessah Albanwan, Rongjun Qin(参考訳) ディープラーニング (DL) 法は, 高い精度でステレオ画像マッチングを行うために広く研究されている。 しかしながら、その転送性/一般化能力は、トレーニングデータで見られるインスタンスによって制限される。 衛星画像では, 場所, 内容, 土地被覆, 空間パターンにばらつきがあるため, 性能への影響が期待できる。 トレーニングデータの数と多様性の増大は、常にオプションであるが、高コストでリモートセンシングにおいて、地道差が制限されているため、すべての場所において地道を求めることはほぼ不可能である。 そこで,様々な種類のステレオデータを処理するために,センサスベースセミグローバルマッチング(sgm)のような古典的なステレオマッチング手法が広く採用されていることを認識し,対象ステレオデータに対してsgmから導出される不一致マップを利用する微調整手法を提案する。 提案手法では,sgm法から導出したエネルギーマップを用いて高信頼不均等度測定を選択できるとともに,これらの選択された不均等度測定をテクスチャに富む領域で制限する。 本研究の目的は,既存のDL手法の転送可能性の向上を,基本的真理を必要とせず,対象データを見落とせる可能性を検討することである。 包括的な研究を行うため、世界中の20の研究現場を選択し、様々な複雑さと密度をカバーした。 我々は,gemetry and context network (gcnet), pyramid stereo matching network (psmnet), leastereoなどの確立されたdl手法を評価のために選択した。 以上の結果から,DL手法の視覚的および数値的変換性の向上が示唆された。

Deep learning (DL) methods are widely investigated for stereo image matching tasks due to their reported high accuracies. However, their transferability/generalization capabilities are limited by the instances seen in the training data. With satellite images covering large-scale areas with variances in locations, content, land covers, and spatial patterns, we expect their performances to be impacted. Increasing the number and diversity of training data is always an option, but with the ground-truth disparity being limited in remote sensing due to its high cost, it is almost impossible to obtain the ground-truth for all locations. Knowing that classical stereo matching methods such as Census-based semi-global-matching (SGM) are widely adopted to process different types of stereo data, we therefore, propose a finetuning method that takes advantage of disparity maps derived from SGM on target stereo data. Our proposed method adopts a simple scheme that uses the energy map derived from the SGM algorithm to select high confidence disparity measurements, at the same utilizing the images to limit these selected disparity measurements on texture-rich regions. Our approach aims to investigate the possibility of improving the transferability of current DL methods to unseen target data without having their ground truth as a requirement. To perform a comprehensive study, we select 20 study-sites around the world to cover a variety of complexities and densities. We choose well-established DL methods like geometric and context network (GCNet), pyramid stereo matching network (PSMNet), and LEAStereo for evaluation. Our results indicate an improvement in the transferability of the DL methods across different regions visually and numerically.
翻訳日:2022-05-30 14:55:00 公開日:2022-05-27
# 領域的コントラスト学習による画像調和

Image Harmonization with Region-wise Contrastive Learning ( http://arxiv.org/abs/2205.14058v1 )

ライセンス: Link先を確認
Jingtang Liang and Chi-Man Pun(参考訳) イメージ調和タスクは、特定の背景画像に応じて異なる複合前景領域を調和させることを目的としている。 従来の手法では、注意、適応正規化、光の調整などいくつかの内部的な改良によりジェネレータの再構築能力の向上に重点を置いていた。 $. しかし,前景や背景の外観の特徴を限定された発電機で識別することは,画像調和タスクにおいて新たな課題となる。 本稿では,外部スタイル融合と領域間コントラスト学習を併用した新しい画像調和フレームワークを提案する。 外部スタイルの融合では、エンコーダの外部背景の外観をスタイル参照として利用し、デコーダの調和した前景を生成する。 このアプローチは、外部の背景ガイダンスによりデコーダの調和能力を高める。 さらに、コントラスト学習方式では、画像調和タスクのための領域単位のコントラスト損失関数を設計する。 具体的には、まず、出力調和された前景領域から負のサンプルを選択し、地中背景領域から正のサンプルを選択するストレートフォワードサンプル生成法を提案する。 提案手法は,前景と背景の相互情報を最大化することで,対応する正のサンプルと負のサンプルを結合し,複合画像の調和時に前景と背景の区別をより強固なものにしようとするものである。 ベンチマークデータセットの大規模な実験により,本手法は調和性の向上を実現し,実シナリオアプリケーションにおいて優れた一般化能力を示す。

Image harmonization task aims at harmonizing different composite foreground regions according to specific background image. Previous methods would rather focus on improving the reconstruction ability of the generator by some internal enhancements such as attention, adaptive normalization and light adjustment, $etc.$. However, they pay less attention to discriminating the foreground and background appearance features within a restricted generator, which becomes a new challenge in image harmonization task. In this paper, we propose a novel image harmonization framework with external style fusion and region-wise contrastive learning scheme. For the external style fusion, we leverage the external background appearance from the encoder as the style reference to generate harmonized foreground in the decoder. This approach enhances the harmonization ability of the decoder by external background guidance. Moreover, for the contrastive learning scheme, we design a region-wise contrastive loss function for image harmonization task. Specifically, we first introduce a straight-forward samples generation method that selects negative samples from the output harmonized foreground region and selects positive samples from the ground-truth background region. Our method attempts to bring together corresponding positive and negative samples by maximizing the mutual information between the foreground and background styles, which desirably makes our harmonization network more robust to discriminate the foreground and background style features when harmonizing composite images. Extensive experiments on the benchmark datasets show that our method can achieve a clear improvement in harmonization quality and demonstrate the good generalization capability in real-scenario applications.
翻訳日:2022-05-30 14:54:33 公開日:2022-05-27
# GIT:視覚と言語のための生成的画像テキスト変換器

GIT: A Generative Image-to-text Transformer for Vision and Language ( http://arxiv.org/abs/2205.14100v1 )

ライセンス: Link先を確認
Jianfeng Wang, Zhengyuan Yang, Xiaowei Hu, Linjie Li, Kevin Lin, Zhe Gan, Zicheng Liu, Ce Liu, Lijuan Wang(参考訳) 本稿では、画像・映像のキャプションや質問応答といった視覚言語タスクを統合するために、生成画像からテキストへ変換するGITを設計、訓練する。 生成モデルは事前学習と微調整の間に一貫したネットワークアーキテクチャを提供するが、既存の作業は一般に複雑な構造(ユニ/マルチモーダルエンコーダ/デコーダ)を含み、オブジェクト検出器/タグや光学文字認識(OCR)などの外部モジュールに依存している。 GITでは、1つの画像エンコーダと1つのテキストデコーダとして1つの言語モデリングタスクでアーキテクチャを単純化する。 また、事前トレーニングしたデータとモデルサイズをスケールアップして、モデルパフォーマンスを高めます。 ベルとホイッスルがなければ、我々のGITは、大きなマージンを持つ12の挑戦的なベンチマークで、新しい芸術の状態を確立します。 例えば、私たちのモデルは、TextCaps(CIDErで138.2対125.5)で初めて人間のパフォーマンスを上回っています。 さらに,標準ベンチマークで良好な性能を実現するために,生成に基づく画像分類とシーンテキスト認識の新たな方式を提案する。

In this paper, we design and train a Generative Image-to-text Transformer, GIT, to unify vision-language tasks such as image/video captioning and question answering. While generative models provide a consistent network architecture between pre-training and fine-tuning, existing work typically contains complex structures (uni/multi-modal encoder/decoder) and depends on external modules such as object detectors/taggers and optical character recognition (OCR). In GIT, we simplify the architecture as one image encoder and one text decoder under a single language modeling task. We also scale up the pre-training data and the model size to boost the model performance. Without bells and whistles, our GIT establishes new state of the arts on 12 challenging benchmarks with a large margin. For instance, our model surpasses the human performance for the first time on TextCaps (138.2 vs. 125.5 in CIDEr). Furthermore, we present a new scheme of generation-based image classification and scene text recognition, achieving decent performance on standard benchmarks.
翻訳日:2022-05-30 14:54:07 公開日:2022-05-27
# 類似した場所に先立つ領域における道路セグメンテーションの改善

Improving Road Segmentation in Challenging Domains Using Similar Place Priors ( http://arxiv.org/abs/2205.14112v1 )

ライセンス: Link先を確認
Connor Malone, Sourav Garg, Ming Xu, Thierry Peynot and Michael Milford(参考訳) 夜間、雪、雨などの挑戦的な領域での道路分割は難しい作業である。 現在のアプローチのほとんどは、微調整、ドメイン適応、スタイル転送、あるいは以前取得したイメージを参照することでパフォーマンスを高める。 これらのアプローチは、3つの重要な制限の1つを共有している: 大量の注釈付きトレーニングデータに依存しており、推測時に予想される環境条件の種類からのデータの予測と訓練の両方、前回の訪問から取得した画像の取得に費用がかかる。 本研究では,これらの制約を,類似点に基づく道路分割の改善により除去する。 視覚的な位置認識 (vpr) を用いて類似するが地理的に異なる場所を見つけ出し, ベイズ的手法と新しいセグメンテーション品質指標を用いて, クエリ画像や類似箇所に対してヒューズセグメンテーションを行う。 アブレーション研究は、この課題に対するVPRユーティリティの概念の再評価の必要性を示している。 本研究では,夜間や雪などの難易度の高い複数のシナリオにおいて,事前の訓練や地理的な場所への事前アクセスを必要とせず,最先端の道路セグメンテーション性能を実現するシステムを示す。 さらに,本手法はネットワークに依存しず,複数のベースライン技術を改善し,道路予測に特化した手法と競合することを示す。

Road segmentation in challenging domains, such as night, snow or rain, is a difficult task. Most current approaches boost performance using fine-tuning, domain adaptation, style transfer, or by referencing previously acquired imagery. These approaches share one or more of three significant limitations: a reliance on large amounts of annotated training data that can be costly to obtain, both anticipation of and training data from the type of environmental conditions expected at inference time, and/or imagery captured from a previous visit to the location. In this research, we remove these restrictions by improving road segmentation based on similar places. We use Visual Place Recognition (VPR) to find similar but geographically distinct places, and fuse segmentations for query images and these similar place priors using a Bayesian approach and novel segmentation quality metric. Ablation studies show the need to re-evaluate notions of VPR utility for this task. We demonstrate the system achieving state-of-the-art road segmentation performance across multiple challenging condition scenarios including night time and snow, without requiring any prior training or previous access to the same geographical locations. Furthermore, we show that this method is network agnostic, improves multiple baseline techniques and is competitive against methods specialised for road prediction.
翻訳日:2022-05-30 14:53:49 公開日:2022-05-27
# 微調整によるFedAvg: ローカルアップデートは表現学習につながる

FedAvg with Fine Tuning: Local Updates Lead to Representation Learning ( http://arxiv.org/abs/2205.13692v1 )

ライセンス: Link先を確認
Liam Collins, Hamed Hassani, Aryan Mokhtari, Sanjay Shakkottai(参考訳) フェデレート平均化(FedAvg)アルゴリズムは、クライアントノードでのいくつかの局所確率勾配更新と、サーバでのモデル平均化更新を交互に行うもので、おそらくフェデレート学習で最も一般的に使用される方法である。 その単純さにも拘わらず、いくつかの実証的な研究は、FedAvgの出力モデルがいくつかの微調整ステップの後、新しい目に見えないタスクにうまく一般化するモデルに導かれることを示した。 しかし、このような単純な手法の驚くべき性能は、理論的な観点から完全には理解されていない。 本稿では,マルチタスク線形表現設定において,この現象を正式に検討する。 我々は、FedAvgの出力の一般化の背景には、クライアントデータ分散の多様性をローカル更新を通じて活用することにより、クライアントのタスク間の共通データ表現を学習する能力があることを示す。 このような結果を証明するためにクライアントが必要とするイテレーションの複雑さを,基盤となる共有表現が線形写像であるような設定で正式に確立する。 私たちの知る限りでは、これはどんな設定でも最初の結果です。 異種データを用いたフェデレーション画像分類におけるFedAvgの表現学習能力を示す実証的証拠も提供する。

The Federated Averaging (FedAvg) algorithm, which consists of alternating between a few local stochastic gradient updates at client nodes, followed by a model averaging update at the server, is perhaps the most commonly used method in Federated Learning. Notwithstanding its simplicity, several empirical studies have illustrated that the output model of FedAvg, after a few fine-tuning steps, leads to a model that generalizes well to new unseen tasks. This surprising performance of such a simple method, however, is not fully understood from a theoretical point of view. In this paper, we formally investigate this phenomenon in the multi-task linear representation setting. We show that the reason behind generalizability of the FedAvg's output is its power in learning the common data representation among the clients' tasks, by leveraging the diversity among client data distributions via local updates. We formally establish the iteration complexity required by the clients for proving such result in the setting where the underlying shared representation is a linear map. To the best of our knowledge, this is the first such result for any setting. We also provide empirical evidence demonstrating FedAvg's representation learning ability in federated image classification with heterogeneous data.
翻訳日:2022-05-30 14:51:05 公開日:2022-05-27
# 暗黙的非線形拡散モデルの最大度トレーニング

Maximum Likelihood Training of Implicit Nonlinear Diffusion Models ( http://arxiv.org/abs/2205.13699v1 )

ライセンス: Link先を確認
Dongjun Kim, Byeonghu Na, Se Jung Kwon, Dongsoo Lee, Wanmo Kang, Il-Chul Moon(参考訳) 様々な拡散モデルが存在するが、線形拡散を非線形拡散過程に拡張することは、少数の研究によってのみ研究される。 非線形性効果はほとんど理解されていないが、直感的には、生成分布をデータ分布に向けて最適に訓練するより有望な拡散パターンが存在する。 本稿では,このようなデータ適応および非線形拡散過程をスコアベース拡散モデルに適用する。 提案する暗黙的非線形拡散モデル (indm) は, 正規化流れと拡散過程を組み合わせた非線形拡散過程を学習する。 特に、INDM はフローネットワークを介して \textit{latent space} 上の線型拡散を利用して、暗黙的に \textit{data space} 上の非線形拡散を構築する。 この流れネットワークは、非線形性が流れネットワークに完全に依存するため、非線形拡散を形成する鍵となる。 この柔軟性のある非線形性は、DDPM++の非MLEトレーニングと比較して、INDMの学習曲線をほぼMLEトレーニングに改善する。 また、非線形拡散を経験的に訓練すると、indmのサンプル軌道が以前の研究の軌道よりも最適輸送に近いというサンプリングフレンドリーな潜在拡散が得られる。 実験では、INDMはCelebA上の最先端のFIDを達成する。

Whereas diverse variations of diffusion models exist, expanding the linear diffusion into a nonlinear diffusion process is investigated only by a few works. The nonlinearity effect has been hardly understood, but intuitively, there would be more promising diffusion patterns to optimally train the generative distribution towards the data distribution. This paper introduces such a data-adaptive and nonlinear diffusion process for score-based diffusion models. The proposed Implicit Nonlinear Diffusion Model (INDM) learns the nonlinear diffusion process by combining a normalizing flow and a diffusion process. Specifically, INDM implicitly constructs a nonlinear diffusion on the \textit{data space} by leveraging a linear diffusion on the \textit{latent space} through a flow network. This flow network is the key to forming a nonlinear diffusion as the nonlinearity fully depends on the flow network. This flexible nonlinearity is what improves the learning curve of INDM to nearly MLE training, compared against the non-MLE training of DDPM++, which turns out to be a special case of INDM with the identity flow. Also, training the nonlinear diffusion empirically yields a sampling-friendly latent diffusion that the sample trajectory of INDM is closer to an optimal transport than the trajectories of previous research. In experiments, INDM achieves the state-of-the-art FID on CelebA.
翻訳日:2022-05-30 14:50:45 公開日:2022-05-27
# ES-GNN:エッジ分割によるホモフィリーを越えたグラフニューラルネットワークの一般化

ES-GNN: Generalizing Graph Neural Networks Beyond Homophily with Edge Splitting ( http://arxiv.org/abs/2205.13700v1 )

ライセンス: Link先を確認
Jingwei Guo, Kaizhu Huang, Xinping Yi, and Rui Zhang(参考訳) グラフニューラルネットワーク(GNN)は,グラフデータに対する解析的問題に対処することに成功した。 ほとんどのGNNは、ほとんど全てのノード接続を特徴の滑らかさを伴う帰納バイアスとして解釈し、観測されたグラフ上で強いホモフィリを暗黙的に仮定する。 しかし、実世界のネットワークは常にホモ親和性があるわけではないが、隣接ノードが異なる属性と異なるラベルを共有するヘテロ親和性パターンを示すこともある。 したがって、ノード近接を均等に平滑化するGNNは、タスク関連接続と無関係接続の両方から生じる一貫性のない情報を集約することができる。 本稿では,ネットワークトポロジと切り離しノードの特徴を結合的に分割することで,GNNをホモフィリーを超えて一般化する新しいエッジ分割GNN(ES-GNN)フレームワークを提案する。 具体的には,ノード間のタスク関連および非関連の関係を示す2つの排他的集合に,元のグラフのエッジの集合を適応的に分割するための解釈可能な演算を用いる。 ノードの特徴は、これらの2つの部分エッジ集合に別々に集約され、より正確なエッジ分割を後から得ることができる。 理論的には、我々のES-GNNは、不整合な滑らかさを仮定したグラフ記述問題の解とみなすことができ、さらにモチベーションを示し、改良された一般化を解釈することができる。 8つのベンチマークと1つの合成データセットに対する大規模な実験は、ES-GNNが最先端(GNNベースラインを含む)を上回るだけでなく、敵グラフに対してより堅牢で、過度に滑らかな問題を緩和できることを示した。

Graph Neural Networks (GNNs) have achieved enormous success in tackling analytical problems on graph data. Most GNNs interpret nearly all the node connections as inductive bias with feature smoothness, and implicitly assume strong homophily on the observed graph. However, real-world networks are not always homophilic, but sometimes exhibit heterophilic patterns where adjacent nodes share dissimilar attributes and distinct labels. Therefore,GNNs smoothing the node proximity holistically may aggregate inconsistent information arising from both task-relevant and irrelevant connections. In this paper, we propose a novel edge splitting GNN (ES-GNN) framework, which generalizes GNNs beyond homophily by jointly partitioning network topology and disentangling node features. Specifically, the proposed framework employs an interpretable operation to adaptively split the set of edges of the original graph into two exclusive sets indicating respectively the task-relevant and irrelevant relations among nodes. The node features are then aggregated separately on these two partial edge sets to produce disentangled representations, based on which a more accurate edge splitting can be attained later. Theoretically, we show that our ES-GNN can be regarded as a solution to a graph denoising problem with a disentangled smoothness assumption, which further illustrates our motivations and interprets the improved generalization. Extensive experiments over 8 benchmark and 1 synthetic datasets demonstrate that ES-GNN not only outperforms the state-of-the-arts (including 8 GNN baselines), but also can be more robust to adversarial graphs and alleviate the over-smoothing problem.
翻訳日:2022-05-30 14:50:25 公開日:2022-05-27
# なぜ悲観的であるのか? アンサンブルによるオフラインRLの不確かさの推定とその独立性

Why So Pessimistic? Estimating Uncertainties for Offline RL through Ensembles, and Why Their Independence Matters ( http://arxiv.org/abs/2205.13703v1 )

ライセンス: Link先を確認
Seyed Kamyar Seyed Ghasemipour, Shixiang Shane Gu, Ofir Nachum(参考訳) 教師あり学習における不確実性推定のためのアンサンブルの成功に動機づけられ、オフライン強化学習(rl)における悲観主義の主な源としてq$関数アンサンブルをどのように活用できるかを改めて検討する。 我々はまず,多くのアンサンブルベースのRLアルゴリズムが使用するアルゴリズム選択において,各アンサンブルメンバーのベルマン誤差を計算する際に,共有悲観的目標値を用いることによって重要な欠陥を特定することから始める。 おもちゃのMDPの例の理論的分析と構築を通じて、共有悲観的目標が効果的に楽観的な価値推定をパラドックス的に導くことを示した。 この結果から,完全に分離されたネットワークに基づいて,独立に計算された目標に対して$Q$関数のアンサンブルを訓練し,予測された行動値の信頼度を低くするポリシーを最適化する,実用的なオフラインRLアルゴリズムであるMSGを提案する。 D4RL と RL Unplugged のオフライン RL ベンチマークによる実験により,アントマゼのような難易度の高い領域では,深いアンサンブルを持つMSG が高度に調整された最先端の手法を広いマージンで超えることを示した。 さらに,ベンチマーク領域におけるアブレーションを通じて,独立に訓練された$q$-関数を用いた場合の重要意義を検証し,アンサンブルサイズの役割について検討する。 最後に、アンサンブル部材毎に分離したネットワークを使用することで、より大きなニューラルネットワークアーキテクチャで計算コストがかかるため、教師付き学習のために開発された効率的なアンサンブル近似が同様に効果的であるかどうかを検証し、rl指向の効率的な不確実性推定への新たな取り組みの必要性を強調する。

Motivated by the success of ensembles for uncertainty estimation in supervised learning, we take a renewed look at how ensembles of $Q$-functions can be leveraged as the primary source of pessimism for offline reinforcement learning (RL). We begin by identifying a critical flaw in a popular algorithmic choice used by many ensemble-based RL algorithms, namely the use of shared pessimistic target values when computing each ensemble member's Bellman error. Through theoretical analyses and construction of examples in toy MDPs, we demonstrate that shared pessimistic targets can paradoxically lead to value estimates that are effectively optimistic. Given this result, we propose MSG, a practical offline RL algorithm that trains an ensemble of $Q$-functions with independently computed targets based on completely separate networks, and optimizes a policy with respect to the lower confidence bound of predicted action values. Our experiments on the popular D4RL and RL Unplugged offline RL benchmarks demonstrate that on challenging domains such as antmazes, MSG with deep ensembles surpasses highly well-tuned state-of-the-art methods by a wide margin. Additionally, through ablations on benchmarks domains, we verify the critical significance of using independently trained $Q$-functions, and study the role of ensemble size. Finally, as using separate networks per ensemble member can become computationally costly with larger neural network architectures, we investigate whether efficient ensemble approximations developed for supervised learning can be similarly effective, and demonstrate that they do not match the performance and robustness of MSG with separate networks, highlighting the need for new efforts into efficient uncertainty estimation directed at RL.
翻訳日:2022-05-30 14:49:57 公開日:2022-05-27
# Barzilai-Borwein適応ステップサイズを段階的に導入したDeep Network Training

Incorporating the Barzilai-Borwein Adaptive Step Size into Sugradient Methods for Deep Network Training ( http://arxiv.org/abs/2205.13711v1 )

ライセンス: Link先を確認
Antonio Robles-Kelly and Asef Nazari(参考訳) 本稿では,barzilai-borweinのステップサイズを,ディープネットワークのトレーニングに用いる勾配降下法に組み込む。 これにより、準ニュートン法に基づくセカント方程式に2点近似を用いて学習率を適用することができる。 さらに, 適応学習率法は自然界において非常に一般的であり, Adagrad や RMSprop などの勾配降下法にも適用可能である。 本手法は,広く利用可能なデータセットの標準例ネットワークアーキテクチャを用いて評価し,文献の他の代替案と比較する。 私たちの実験では、適応学習速度は、代替品よりもスムーズで高速な収束を示し、優れた性能と同等の性能を示しました。

In this paper, we incorporate the Barzilai-Borwein step size into gradient descent methods used to train deep networks. This allows us to adapt the learning rate using a two-point approximation to the secant equation which quasi-Newton methods are based upon. Moreover, the adaptive learning rate method presented here is quite general in nature and can be applied to widely used gradient descent approaches such as Adagrad and RMSprop. We evaluate our method using standard example network architectures on widely available datasets and compare against alternatives elsewhere in the literature. In our experiments, our adaptive learning rate shows a smoother and faster convergence than that exhibited by the alternatives, with better or comparable performance.
翻訳日:2022-05-30 14:49:25 公開日:2022-05-27
# グループgan

Group GAN ( http://arxiv.org/abs/2205.13741v1 )

ライセンス: Link先を確認
Ali Seyfi, Jean-Francois Rajotte, Raymond T. Ng(参考訳) 多変量時系列の生成は、多くの医療、財務、IoTアプリケーションで機密データを共有するための有望なアプローチである。 多変量時系列の一般的なタイプは、医療患者からの生体計測のような単一の源に由来する。 これはgansのような典型的な生成モデルでは習得が難しい個々の時系列間の複雑な動的パターンをもたらす。 これらのパターンには、機械学習モデルが他の下流タスクの分類、予測、実行に利用できる貴重な情報があります。 本稿では,時系列の共通起源を考慮し,チャネル間関係の保存を好む新しい枠組みを提案する。 この方法の2つの重要なポイントは 1) 個々の時系列は、潜時空間の共通点から生成され、 2) 中心判別器はチャネル間ダイナミクスの保存を好む。 本手法がチャネル相関の保存に有効であること,また,医療・金融データを用いて下降処理を行うことを実証的に示す。

Generating multivariate time series is a promising approach for sharing sensitive data in many medical, financial, and IoT applications. A common type of multivariate time series originates from a single source such as the biometric measurements from a medical patient. This leads to complex dynamical patterns between individual time series that are hard to learn by typical generation models such as GANs. There is valuable information in those patterns that machine learning models can use to better classify, predict or perform other downstream tasks. We propose a novel framework that takes time series' common origin into account and favors inter-channel relationship preservation. The two key points of our method are: 1) the individual time series are generated from a common point in latent space and 2) a central discriminator favors the preservation of inter-channel dynamics. We demonstrate empirically that our method helps preserve channel correlations and that our synthetic data performs very well downstream tasks with medical and financial data.
翻訳日:2022-05-30 14:49:13 公開日:2022-05-27
# Auto-PINN:物理インフォームド・ニューラルアーキテクチャの理解と最適化

Auto-PINN: Understanding and Optimizing Physics-Informed Neural Architecture ( http://arxiv.org/abs/2205.13748v1 )

ライセンス: Link先を確認
Yicheng Wang, Xiaotian Han, Chia-Yuan Chang, Daochen Zha, Ulisses Braga-Neto, Xia Hu(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、ディープラーニングのパワーを科学計算にもたらし、科学と工学の実践に革命をもたらしている。 前方モデリング問題では、PINNはメッシュレス偏微分方程式(PDE)であり、不規則で高次元の物理領域を扱うことができる。 当然、ニューラルネットワークのハイパーパラメータは、pinnソルバの効率と精度に大きな影響を与えます。 しかし, 探索空間が大きく, pdesの適切な探索目標を特定することが困難であるため, オープンで困難な問題である。 本稿では,ニューラルネットワーク探索 (nas) 技術を用いたピン設計のための自動ハイパーパラメータ最適化手法であるauto-pinnを提案する。 Auto-PINNは、PINNに関連するハイパーパラメータ空間を手動または網羅的に検索することを避ける。 標準PDEベンチマークを用いた包括的事前実験により、PINNの構造と性能の関係を探索することができる。 異なるハイパーパラメータを分離でき、PINNのトレーニング損失関数が良い探索目的であることがわかった。 ベースライン法との比較実験により、Auto-PINNは、代替ベースラインよりも安定性と精度に優れたニューラルアーキテクチャを生成することを示した。

Physics-informed neural networks (PINNs) are revolutionizing science and engineering practice by bringing together the power of deep learning to bear on scientific computation. In forward modeling problems, PINNs are meshless partial differential equation (PDE) solvers that can handle irregular, high-dimensional physical domains. Naturally, the neural architecture hyperparameters have a large impact on the efficiency and accuracy of the PINN solver. However, this remains an open and challenging problem because of the large search space and the difficulty of identifying a proper search objective for PDEs. Here, we propose Auto-PINN, the first systematic, automated hyperparameter optimization approach for PINNs, which employs Neural Architecture Search (NAS) techniques to PINN design. Auto-PINN avoids manually or exhaustively searching the hyperparameter space associated with PINNs. A comprehensive set of pre-experiments using standard PDE benchmarks allows us to probe the structure-performance relationship in PINNs. We find that the different hyperparameters can be decoupled, and that the training loss function of PINNs is a good search objective. Comparison experiments with baseline methods demonstrate that Auto-PINN produces neural architectures with superior stability and accuracy over alternative baselines.
翻訳日:2022-05-30 14:48:59 公開日:2022-05-27
# 離散および連続 pre による勾配法の一般化境界

Generalization Bounds for Gradient Methods via Discrete and Continuous Prior ( http://arxiv.org/abs/2205.13799v1 )

ライセンス: Link先を確認
Jian Li and Xuanyuan Luo(参考訳) 勾配型最適化法に対するアルゴリズム依存一般化誤差境界の証明は、近年、学習理論において大きな注目を集めている。 しかし、既存の軌道に基づく分析のほとんどは、学習率(例えば、学習速度の速い減少)や連続的な注入ノイズ(ランジュバン力学におけるガウス雑音など)の制限的な仮定を必要とする。 In this paper, we introduce a new discrete data-dependent prior to the PAC-Bayesian framework, and prove a high probability generalization bound of order $O(\frac{1}{n}\cdot \sum_{t=1}^T(\gamma_t/\varepsilon_t)^2\left\|{\mathbf{g}_t}\right\|^2)$ for Floored GD (i.e. a version of gradient descent with precision level $\varepsilon_t$), where $n$ is the number of training samples, $\gamma_t$ is the learning rate at step $t$, $\mathbf{g}_t$ is roughly the difference of the gradient computed using all samples and that using only prior samples. \left\|{\mathbf{g}_t}\right\|$は上界であり、典型的な勾配ノルム$\left\|{\nabla f(w_t)}\right\|$よりも小さい。 当社のバウンドは、非凸および非滑らかなシナリオに留まっています。 さらに, 実験誤差の上限値(mnist の$0.037$など)を数値的に好意的に求めた。 同様の手法を用いて、ある種のsgdに対する新しい一般化境界を得ることもできる。 さらに,勾配ランゲヴィンダイナミクス(GLD)の一般化境界について検討した。 注意深い連続前置を持つ同じフレームワークを用いて、gldに対して$o(\frac{1}{n} + \frac{l^2}{n^2}\sum_{t=1}^t(\gamma_t/\sigma_t)^2)$という新しい高確率一般化を示す。 新しい1/n^2$レートは、トレーニングサンプルの勾配と以前の値との差が集中しているためである。

Proving algorithm-dependent generalization error bounds for gradient-type optimization methods has attracted significant attention recently in learning theory. However, most existing trajectory-based analyses require either restrictive assumptions on the learning rate (e.g., fast decreasing learning rate), or continuous injected noise (such as the Gaussian noise in Langevin dynamics). In this paper, we introduce a new discrete data-dependent prior to the PAC-Bayesian framework, and prove a high probability generalization bound of order $O(\frac{1}{n}\cdot \sum_{t=1}^T(\gamma_t/\varepsilon_t)^2\left\|{\mathbf{g}_t}\right\|^2)$ for Floored GD (i.e. a version of gradient descent with precision level $\varepsilon_t$), where $n$ is the number of training samples, $\gamma_t$ is the learning rate at step $t$, $\mathbf{g}_t$ is roughly the difference of the gradient computed using all samples and that using only prior samples. $\left\|{\mathbf{g}_t}\right\|$ is upper bounded by and and typical much smaller than the gradient norm $\left\|{\nabla f(W_t)}\right\|$. We remark that our bound holds for nonconvex and nonsmooth scenarios. Moreover, our theoretical results provide numerically favorable upper bounds of testing errors (e.g., $0.037$ on MNIST). Using a similar technique, we can also obtain new generalization bounds for certain variants of SGD. Furthermore, we study the generalization bounds for gradient Langevin Dynamics (GLD). Using the same framework with a carefully constructed continuous prior, we show a new high probability generalization bound of order $O(\frac{1}{n} + \frac{L^2}{n^2}\sum_{t=1}^T(\gamma_t/\sigma_t)^2)$ for GLD. The new $1/n^2$ rate is due to the concentration of the difference between the gradient of training samples and that of the prior.
翻訳日:2022-05-30 14:48:39 公開日:2022-05-27
# 最適化から見た変圧器

Transformers from an Optimization Perspective ( http://arxiv.org/abs/2205.13891v1 )

ライセンス: Link先を確認
Yongyi Yang, Zengfeng Huang, David Wipf(参考訳) Transformerのようなディープラーニングモデルは、しばしばヒューリスティックと経験によって構築される。 変圧器モデルの基礎となるエネルギー関数を見つけることは可能か、このエネルギーに沿った降下ステップが変圧器の前進パスに対応するか? このような関数を見つけることで、Transformerをイテレーション間で解釈可能な最適化プロセスの展開として再解釈することができる。 この展開的な視点は過去に、mlpやcnnのようなより単純な深層モデルを明らかにするために頻繁に採用されてきたが、トランスフォーマーのような自己着脱機構を持つより複雑なモデルに対して同様の等価性を得ることは、これまでは分かっていない。 この目的のために,我々はまず,エネルギー関数の最小化と自己注意の深い深層との密接な関係を示すために,少なくとも部分的に対処する技術を提供する前に,いくつかの主要な障害を概説した。 この解釈はトランスフォーマーの直感と理解に寄与し、新しいモデル設計の基礎を築き上げている可能性がある。

Deep learning models such as the Transformer are often constructed by heuristics and experience. To provide a complementary foundation, in this work we study the following problem: Is it possible to find an energy function underlying the Transformer model, such that descent steps along this energy correspond with the Transformer forward pass? By finding such a function, we can reinterpret Transformers as the unfolding of an interpretable optimization process across iterations. This unfolding perspective has been frequently adopted in the past to elucidate more straightforward deep models such as MLPs and CNNs; however, it has thus far remained elusive obtaining a similar equivalence for more complex models with self-attention mechanisms like the Transformer. To this end, we first outline several major obstacles before providing companion techniques to at least partially address them, demonstrating for the first time a close association between energy function minimization and deep layers with self-attention. This interpretation contributes to our intuition and understanding of Transformers, while potentially laying the ground-work for new model designs.
翻訳日:2022-05-30 14:47:33 公開日:2022-05-27
# 確率変換器サロゲートを用いたサンプル効率最適化

Sample-Efficient Optimisation with Probabilistic Transformer Surrogates ( http://arxiv.org/abs/2205.13902v1 )

ライセンス: Link先を確認
Alexandre Maraval, Matthieu Zimmer, Antoine Grosnit, Rasul Tutunov, Jun Wang, Haitham Bou Ammar(参考訳) 複雑性の増大に直面した最近のベイズ最適化(BO)の研究は、ガウス過程(GP)の柔軟な代替品として深い確率モデルを適応することに焦点を当てている。 そこで本研究では,BOにおける最先端確率変換器の適用可能性について検討する。 さらに,トレーニング手順と損失定義から生じる2つの欠点を観察し,ブラックボックス最適化のプロキシとして直接展開することを妨げた。 まず、これらのモデルが均一に分散した入力に基づいてトレーニングされていることに気付き、これは非一様データ - 探索と探索のトレードオフに起因する典型的なboループから生じる設定 - の予測精度を損なう。 第2に、トレーニング損失(例えば、クロスエントロピー)は、一般的に保証できないグローバルな最適点に到着した後、正確に後部近似を漸近的に保証することのみに気づく。 しかし、損失関数の定常点において、特に入力空間の探索領域における予測性能の劣化を観察する。 これらの欠点に対処するために2つのコンポーネントを紹介します。 1)一様でない分散点を支持する前のBO調整訓練 2) 予測性能を向上させるため, 最適定常点をフィルタする新規な後続正則トレードオフ精度と入力感度について検討した。 実験の大規模なパネルでは、ランダムなGP先行データから事前学習した1つのトランスフォーマーが、GPベースBOと比較して16個のベンチマークブラックボックス上で競合する結果が得られることを示した。 我々のモデルは1回だけ事前訓練され、リトレーニングや微調整をせずに全てのタスクで使用されるので、GPのマッチングや性能を向上しながら、桁違いの時間短縮を報告します。

Faced with problems of increasing complexity, recent research in Bayesian Optimisation (BO) has focused on adapting deep probabilistic models as flexible alternatives to Gaussian Processes (GPs). In a similar vein, this paper investigates the feasibility of employing state-of-the-art probabilistic transformers in BO. Upon further investigation, we observe two drawbacks stemming from their training procedure and loss definition, hindering their direct deployment as proxies in black-box optimisation. First, we notice that these models are trained on uniformly distributed inputs, which impairs predictive accuracy on non-uniform data - a setting arising from any typical BO loop due to exploration-exploitation trade-offs. Second, we realise that training losses (e.g., cross-entropy) only asymptotically guarantee accurate posterior approximations, i.e., after arriving at the global optimum, which generally cannot be ensured. At the stationary points of the loss function, however, we observe a degradation in predictive performance especially in exploratory regions of the input space. To tackle these shortcomings we introduce two components: 1) a BO-tailored training prior supporting non-uniformly distributed points, and 2) a novel approximate posterior regulariser trading-off accuracy and input sensitivity to filter favourable stationary points for improved predictive performance. In a large panel of experiments, we demonstrate, for the first time, that one transformer pre-trained on data sampled from random GP priors produces competitive results on 16 benchmark black-boxes compared to GP-based BO. Since our model is only pre-trained once and used in all tasks without any retraining and/or fine-tuning, we report an order of magnitude time-reduction, while matching and sometimes outperforming GPs.
翻訳日:2022-05-30 14:47:16 公開日:2022-05-27
# 情報比の引き上げ:文脈的バンディットに対するトンプソンサンプリングの情報理論的分析

Lifting the Information Ratio: An Information-Theoretic Analysis of Thompson Sampling for Contextual Bandits ( http://arxiv.org/abs/2205.13924v1 )

ライセンス: Link先を確認
Gergely Neu, Julia Olkhovskaya, Matteo Papini, Ludovic Schwartz(参考訳) 二元損失と逆選択された文脈を伴う文脈的バンディットにおける有名なトンプソンサンプリングアルゴリズムのベイズ的後悔について検討した。 我々は、未知のモデルパラメータと観測された損失との相互情報に基づいて情報比の新しい概念を導入することにより、russoとvan roy [2016]の情報理論的な観点を文脈設定に適用する。 これにより、非常に単純な証明を通じて、事前分布のエントロピーの観点から後悔を縛ることができ、その可能性や事前について構造的な仮定も持たない。 無限エントロピーを持つ先行への拡張は、対数類似性に対するリプシッツの仮定のみを必要とする。 興味深いケースは、d-次元パラメータを持つロジスティック・バンディット、K 作用、リプシッツ・ロジットであり、そこでは、シグモイドリンク関数の最小勾配に依存しない、$\widetilde{O}(\sqrt{dKT})$ 後悔の上界を与える。

We study the Bayesian regret of the renowned Thompson Sampling algorithm in contextual bandits with binary losses and adversarially-selected contexts. We adapt the information-theoretic perspective of Russo and Van Roy [2016] to the contextual setting by introducing a new concept of information ratio based on the mutual information between the unknown model parameter and the observed loss. This allows us to bound the regret in terms of the entropy of the prior distribution through a remarkably simple proof, and with no structural assumptions on the likelihood or the prior. The extension to priors with infinite entropy only requires a Lipschitz assumption on the log-likelihood. An interesting special case is that of logistic bandits with d-dimensional parameters, K actions, and Lipschitz logits, for which we provide a $\widetilde{O}(\sqrt{dKT})$ regret upper-bound that does not depend on the smallest slope of the sigmoid link function.
翻訳日:2022-05-30 14:46:47 公開日:2022-05-27
# 部分既知因果グラフによる反事実公平性

Counterfactual Fairness with Partially Known Causal Graph ( http://arxiv.org/abs/2205.13972v1 )

ライセンス: Link先を確認
Aoqi Zuo, Susan Wei, Tongliang Liu, Bo Han, Kun Zhang, Mingming Gong(参考訳) fair machine learningは、性別や人種などの \textit{sensitive attribute}に基づいて、個人やサブ人口の扱いを好ましくないようにする。 因果推論に基づく公平な機械学習におけるこれらの手法は、因果効果による差別と偏見を確実にする。 因果関係に基づく公平な学習が注目を集めているが、現在の手法では真の因果グラフが完全に知られていると仮定している。 本稿では,真の因果グラフが不明な場合,反事実的公平性の概念を実現する一般的な方法を提案する。 対物フェアネスに繋がる特徴を抽出するために,我々は,観測データからドメイン知識と組み合わせて学習可能な因果DAGのクラスである<textit{Partially Directed Acyclic Graph(PDAG)上で,変数間の祖先関係を特定する条件とアルゴリズムを導出する。 興味深いことに、特定の背景知識が提供されたとき、反事実的公平性は真の因果グラフが完全に知られているかのように達成できる: 敏感な属性は因果グラフに祖先を持たない。 シミュレーションデータと実世界データの両方の結果から,本手法の有効性が示された。

Fair machine learning aims to avoid treating individuals or sub-populations unfavourably based on \textit{sensitive attributes}, such as gender and race. Those methods in fair machine learning that are built on causal inference ascertain discrimination and bias through causal effects. Though causality-based fair learning is attracting increasing attention, current methods assume the true causal graph is fully known. This paper proposes a general method to achieve the notion of counterfactual fairness when the true causal graph is unknown. To be able to select features that lead to counterfactual fairness, we derive the conditions and algorithms to identify ancestral relations between variables on a \textit{Partially Directed Acyclic Graph (PDAG)}, specifically, a class of causal DAGs that can be learned from observational data combined with domain knowledge. Interestingly, we find that counterfactual fairness can be achieved as if the true causal graph were fully known, when specific background knowledge is provided: the sensitive attributes do not have ancestors in the causal graph. Results on both simulated and real-world datasets demonstrate the effectiveness of our method.
翻訳日:2022-05-30 14:44:04 公開日:2022-05-27
# 高階依存グラフのためのディープアンサンブル

Deep Ensembles for Graphs with Higher-order Dependencies ( http://arxiv.org/abs/2205.13988v1 )

ライセンス: Link先を確認
Steven J. Krieg, William C. Burgis, Patrick M. Soga, Nitesh V. Chawla(参考訳) グラフニューラルネットワーク(GNN)は、多くのグラフ学習タスクにおいて最先端のパフォーマンスを継続するが、与えられたグラフが真の近傍構造の十分な近似であるという仮定に依存している。 高次シーケンシャルな依存関係の存在下では、従来のグラフ表現が各ノードの近傍に不適合な傾向が既存のgnnの一般化を損なうことを示した。 そこで本研究では,高階ネットワーク構造内の同一ノードの異なる近傍部分空間上でGNNのアンサンブルを訓練することにより,近傍のばらつきを捉える新しいDeep Graph Ensemble (DGE)を提案する。 DGEは、同様のパラメータ予算の下でも、既知の高階依存を持つ4つの実世界のデータセット上で、半教師付きおよび教師付きタスクにおいて、既存のGNNを一貫して上回ることを示す。 本研究は,DGEの成功に基づく多様かつ正確な基底分類器の学習が重要であることを実証し,今後のGNN研究におけるこれらの発見の意義について論じる。

Graph neural networks (GNNs) continue to achieve state-of-the-art performance on many graph learning tasks, but rely on the assumption that a given graph is a sufficient approximation of the true neighborhood structure. In the presence of higher-order sequential dependencies, we show that the tendency of traditional graph representations to underfit each node's neighborhood causes existing GNNs to generalize poorly. To address this, we propose a novel Deep Graph Ensemble (DGE), which captures neighborhood variance by training an ensemble of GNNs on different neighborhood subspaces of the same node within a higher-order network structure. We show that DGE consistently outperforms existing GNNs on semisupervised and supervised tasks on four real-world data sets with known higher-order dependencies, even under a similar parameter budget. We demonstrate that learning diverse and accurate base classifiers is central to DGE's success, and discuss the implications of these findings for future work on GNNs.
翻訳日:2022-05-30 14:43:44 公開日:2022-05-27
# 宇宙環境認識におけるセンサ管理のためのDouble Deep Q Network

Double Deep Q Networks for Sensor Management in Space Situational Awareness ( http://arxiv.org/abs/2205.14041v1 )

ライセンス: Link先を確認
Benedict Oakes, Dominic Richards, Jordi Barr, Jason F. Ralph(参考訳) 本稿では,空間状況認識(SSA)におけるセンサ管理問題に対する新しいDouble Deep Q Network (DDQN) アプリケーションを提案する。 地球周回軌道への衛星の頻繁な打ち上げは重要なセンサー管理課題となり、より多くの物体を検出し追跡するには限られた数のセンサーが必要となる。 本稿では,SSAのためのセンサ管理ポリシーの開発に強化学習を用いることを実証する。 制御可能な地球型望遠鏡をシミュレートし,拡張カルマンフィルタを用いて追跡する衛星数を最大化する。 ddqnポリシーの下で観測された衛星に対する推定状態共分散行列は、代替(ランダム)ポリシーによって生成されたものに比べて大幅に減少する。 この研究は、さらなる進歩の基礎を提供し、SSAのための強化学習の使用を動機付けている。

We present a novel Double Deep Q Network (DDQN) application to a sensor management problem in space situational awareness (SSA). Frequent launches of satellites into Earth orbit pose a significant sensor management challenge, whereby a limited number of sensors are required to detect and track an increasing number of objects. In this paper, we demonstrate the use of reinforcement learning to develop a sensor management policy for SSA. We simulate a controllable Earth-based telescope, which is trained to maximise the number of satellites tracked using an extended Kalman filter. The estimated state covariance matrices for satellites observed under the DDQN policy are greatly reduced compared to those generated by an alternate (random) policy. This work provides the basis for further advancements and motivates the use of reinforcement learning for SSA.
翻訳日:2022-05-30 14:43:24 公開日:2022-05-27
# 多レベルクラスタリングによる大規模階層時系列の効率的な予測

Efficient Forecasting of Large Scale Hierarchical Time Series via Multilevel Clustering ( http://arxiv.org/abs/2205.14104v1 )

ライセンス: Link先を確認
Xing Han, Tongzheng Ren, Jing Hu, Joydeep Ghosh, Nhat Ho(参考訳) 本稿では,階層的に集約された時系列データをクラスタリングする問題に対する新しいアプローチを提案する。 集約レベルごとに時系列をグループ化し、同時に局所情報とグローバル情報を活用する。 提案手法は,異なる長さと構造を持つ階層時系列(HTS)をクラスタリングすることができる。 一般的な2段階階層では,離散確率測度空間上の局所的および大域的クラスタリングの目的を,ソフトdtw分岐と結合したワッサースタイン距離を用いて採用する。 マルチレベル階層に対しては,下位レベル情報を段階的に高レベルクラスタリングに活用するボトムアップ手順を提案する。 私たちの最終目標は、現実世界のアプリケーションに必要な多くのHTSに対して、予測の精度とスピードを改善することです。 この目標を達成するために、各時系列はまずクラスタ代表の予測を割り当て、それが表す時系列のセットの「shrinkage prior」と見なされる。 そして、このベース予測を迅速に微調整して、その時系列の仕様に合わせて調整することができる。 HTSを含む大規模予測タスクの高速化と精度の両面から,本手法により性能が大幅に向上することを示す。

We propose a novel approach to the problem of clustering hierarchically aggregated time-series data, which has remained an understudied problem though it has several commercial applications. We first group time series at each aggregated level, while simultaneously leveraging local and global information. The proposed method can cluster hierarchical time series (HTS) with different lengths and structures. For common two-level hierarchies, we employ a combined objective for local and global clustering over spaces of discrete probability measures, using Wasserstein distance coupled with Soft-DTW divergence. For multi-level hierarchies, we present a bottom-up procedure that progressively leverages lower-level information for higher-level clustering. Our final goal is to improve both the accuracy and speed of forecasts for a larger number of HTS needed for a real-world application. To attain this goal, each time series is first assigned the forecast for its cluster representative, which can be considered as a "shrinkage prior" for the set of time series it represents. Then this base forecast can be quickly fine-tuned to adjust to the specifics of that time series. We empirically show that our method substantially improves performance in terms of both speed and accuracy for large-scale forecasting tasks involving much HTS.
翻訳日:2022-05-30 14:43:13 公開日:2022-05-27
# ベイズ型ロバストグラフコントラスト学習

Bayesian Robust Graph Contrastive Learning ( http://arxiv.org/abs/2205.14109v1 )

ライセンス: Link先を確認
Yancheng Wang, Yingzhen Yang(参考訳) グラフニューラルネットワーク(GNN)はノード表現の学習に広く使われており、ノード分類などの様々なタスクにおいて優れた性能を示している。 しかし、実世界のグラフデータに必然的に存在するノイズは、そのノイズがグラフ構造を介して容易に伝播するため、GNNの性能を著しく低下させる。 本研究では,GNNエンコーダを訓練して頑健なノード表現を学習する,新しい頑健な手法であるBayesian Robust Graph Contrastive Learning (BRGCL)を提案する。 BRGCLエンコーダは完全に教師なしエンコーダである。 brgclエンコーダのトレーニングの各時代において,(1)新しいベイズ型非パラメトリック手法によるノード表現の信頼性の高いノードの推定とロバストクラスタプロトタイプの計算,(2)ノード表現とロバストクラスタプロトタイプ間のプロトタイプ的コントラスト学習,の2つのステップを反復的に実施する。 公開および大規模ベンチマークの実験は、BRGCLの優れた性能と学習ノード表現の堅牢性を示している。 BRGCLのコードは \url{https://github.com/BRGCL-code/BRGCL-code} で公開されている。

Graph Neural Networks (GNNs) have been widely used to learn node representations and with outstanding performance on various tasks such as node classification. However, noise, which inevitably exists in real-world graph data, would considerably degrade the performance of GNNs as the noise is easily propagated via the graph structure. In this work, we propose a novel and robust method, Bayesian Robust Graph Contrastive Learning (BRGCL), which trains a GNN encoder to learn robust node representations. The BRGCL encoder is a completely unsupervised encoder. Two steps are iteratively executed at each epoch of training the BRGCL encoder: (1) estimating confident nodes and computing robust cluster prototypes of node representations through a novel Bayesian nonparametric method; (2) prototypical contrastive learning between the node representations and the robust cluster prototypes. Experiments on public and large-scale benchmarks demonstrate the superior performance of BRGCL and the robustness of the learned node representations. The code of BRGCL is available at \url{https://github.com/BRGCL-code/BRGCL-code}.
翻訳日:2022-05-30 14:42:55 公開日:2022-05-27
# FlashAttention: IO認識による高速かつメモリ効率の良い実行注意

FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness ( http://arxiv.org/abs/2205.14135v1 )

ライセンス: Link先を確認
Tri Dao, Daniel Y. Fu, Stefano Ermon, Atri Rudra, Christopher R\'e(参考訳) トランスフォーマーは長いシーケンスでは時間とメモリの複雑さが2倍になるため、遅いしメモリも長い。 近似注意手法は、計算の複雑さを減らすためにモデル品質をトレードオフすることでこの問題に対処しようとしたが、しばしばウォールクロックのスピードアップを達成しなかった。 欠けている原則は注意アルゴリズムをio-awareにすることです -- gpuメモリのレベル間での読み込みと書き込みを考慮に入れます。 我々は,GPU高帯域メモリ(HBM)とGPUオンチップSRAM間のメモリ読み込み/書き込み回数を削減するため,タイリングを用いたIO対応の正確な注意アルゴリズムであるFlashAttentionを提案する。 我々は、FlashAttentionのIO複雑さを分析し、標準の注意よりもHBMアクセスを少なくし、様々なSRAMサイズに最適であることを示した。 また,flashattentionをブロック分散注意に拡張することで,既存の近似注意法よりも高速な近似注意アルゴリズムを実現する。 flashattentionは、既存のベースラインよりも高速にトランスフォーマーをトレーニングする: bert-large (seq. length 512) では、mlperf 1.1のトレーニング速度記録と比較して15%、gpt-2では3$\times$ speedup (seq. length 1k)、長距離アリーナでは2.4$\times$ speedup (seq. length 1k-4k)。 FlashAttentionとブロックスパース FlashAttentionはトランスフォーマーのコンテキストを長くし、より高品質なモデル(GPT-2では0.7、長期文書分類では6.4ポイント)と全く新しい機能、パスXチャレンジ(シークエンス16K、61.4%の精度)とパス256(シークエンス64K、63.1%の精度)を実現した最初のトランスフォーマーである。

Transformers are slow and memory-hungry on long sequences, since the time and memory complexity of self-attention are quadratic in sequence length. Approximate attention methods have attempted to address this problem by trading off model quality to reduce the compute complexity, but often do not achieve wall-clock speedup. We argue that a missing principle is making attention algorithms IO-aware -- accounting for reads and writes between levels of GPU memory. We propose FlashAttention, an IO-aware exact attention algorithm that uses tiling to reduce the number of memory reads/writes between GPU high bandwidth memory (HBM) and GPU on-chip SRAM. We analyze the IO complexity of FlashAttention, showing that it requires fewer HBM accesses than standard attention, and is optimal for a range of SRAM sizes. We also extend FlashAttention to block-sparse attention, yielding an approximate attention algorithm that is faster than any existing approximate attention method. FlashAttention trains Transformers faster than existing baselines: 15% end-to-end wall-clock speedup on BERT-large (seq. length 512) compared to the MLPerf 1.1 training speed record, 3$\times$ speedup on GPT-2 (seq. length 1K), and 2.4$\times$ speedup on long-range arena (seq. length 1K-4K). FlashAttention and block-sparse FlashAttention enable longer context in Transformers, yielding higher quality models (0.7 better perplexity on GPT-2 and 6.4 points of lift on long-document classification) and entirely new capabilities: the first Transformers to achieve better-than-chance performance on the Path-X challenge (seq. length 16K, 61.4% accuracy) and Path-256 (seq. length 64K, 63.1% accuracy).
翻訳日:2022-05-30 14:42:32 公開日:2022-05-27
# ベイズ適応実験設計のロバスト性に着目したアクティブラーニングバイアス

Characterizing the robustness of Bayesian adaptive experimental designs to active learning bias ( http://arxiv.org/abs/2205.13698v1 )

ライセンス: Link先を確認
Sabina J. Sloman, Daniel M. Oppenheimer, Stephen B. Broomell and Cosma Rohilla Shalizi(参考訳) ベイズ適応型実験設計はアクティブラーニングの一形態であり、不確実なパラメータに関する情報を最大化するためにサンプルを選択する。 これまでの研究では、他のタイプのアクティブラーニングがアクティブラーニングバイアスに悩まされることが示されており、非表現的なサンプリングは不整合パラメータ推定につながる。 また, 学習バイアスがベイズ適応型実験設計に悪影響を及ぼすことを示す。 我々は,誤特定に関する情報理論的な尺度を開発し,誤特定がより深刻な学習バイアスをもたらすことを示した。 同時に、より"ノイズ"を組み込んだモデルクラス – すなわち、観察に固有のばらつきを高く指定する – は、その予測分布が真の分布とより重なる可能性があるため、アクティブな学習バイアスに苦しむことが少なくなる。 最後に、これらの洞察が(シミュレーションされた)選好学習実験にどのように適用されるかを示す。

Bayesian adaptive experimental design is a form of active learning, which chooses samples to maximize the information they give about uncertain parameters. Prior work has shown that other forms of active learning can suffer from active learning bias, where unrepresentative sampling leads to inconsistent parameter estimates. We show that active learning bias can also afflict Bayesian adaptive experimental design, depending on model misspecification. We develop an information-theoretic measure of misspecification, and show that worse misspecification implies more severe active learning bias. At the same time, model classes incorporating more "noise" - i.e., specifying higher inherent variance in observations - suffer less from active learning bias, because their predictive distributions are likely to overlap more with the true distribution. Finally, we show how these insights apply to a (simulated) preference learning experiment.
翻訳日:2022-05-30 14:39:14 公開日:2022-05-27
# ANISE: 組み立て型ニューラルインプリシト表面rEコンストラクション

ANISE: Assembly-based Neural Implicit Surface rEconstruction ( http://arxiv.org/abs/2205.13682v1 )

ライセンス: Link先を確認
Dmitry Petrov, Matheus Gadelha, Radomir Mech, Evangelos Kalogerakis(参考訳) 部分認識型暗黙的形状表現を用いて,部分的観察(画像やスパース点雲)から3次元形状を再構成するANISEを提案する。 神経暗黙関数の集合として定式化され、それぞれが異なる形状の部分を表す。 以前のアプローチとは対照的に、この表現の予測は粗い意味で進行する。 ネットワークはまず,これらの変換を条件とした部分的神経暗黙関数に関連付けられた部分変換を予測する。 暗黙的な機能は単一のコヒーレントな形状に結合でき、画像や点雲から部分認識された形状復元が可能になる。 これらの復元は2つの方法で得られる。 (i)精製された部分暗黙の機能を結合して直接復号すること、又は (ii)部分的潜伏体を用いて、部分データベースの類似部分をクエリし、単一の形状に組み立てる。 本手法は,部分表現を暗黙的関数にデコードすることで再構成を行う際に,画像とスパースポイントクラウドの両方から最先端のパートアウェア復元結果が得られることを示す。 データセットから問合せした部品を組み立てて形状を再構築する場合、形状データベースのサイズを著しく制限しても従来の形状検索手法を著しく上回る。 本稿では,sparse point cloud reconstructionsとsingle-view reconstruction benchmarksについて報告する。

We present ANISE, a method that reconstructs a 3D shape from partial observations (images or sparse point clouds) using a part-aware neural implicit shape representation. It is formulated as an assembly of neural implicit functions, each representing a different shape part. In contrast to previous approaches, the prediction of this representation proceeds in a coarse-to-fine manner. Our network first predicts part transformations which are associated with part neural implicit functions conditioned on those transformations. The part implicit functions can then be combined into a single, coherent shape, enabling part-aware shape reconstructions from images and point clouds. Those reconstructions can be obtained in two ways: (i) by directly decoding combining the refined part implicit functions; or (ii) by using part latents to query similar parts in a part database and assembling them in a single shape. We demonstrate that, when performing reconstruction by decoding part representations into implicit functions, our method achieves state-of-the-art part-aware reconstruction results from both images and sparse point clouds. When reconstructing shapes by assembling parts queried from a dataset, our approach significantly outperforms traditional shape retrieval methods even when significantly restricting the size of the shape database. We present our results in well-known sparse point cloud reconstruction and single-view reconstruction benchmarks.
翻訳日:2022-05-30 14:39:00 公開日:2022-05-27
# モーメントマッチングによる視覚慣性SLAMのロバスト性向上の検討

A Look at Improving Robustness in Visual-inertial SLAM by Moment Matching ( http://arxiv.org/abs/2205.13821v1 )

ライセンス: Link先を確認
Arno Solin, Rui Li, Andrea Pilzer(参考訳) カメラセンサと慣性データの融合は、自律的およびスマートデバイスにおけるエゴモーショントラッキングの先駆的手法である。 非線形フィルタリングに依存する状態推定技術は、関連する情報融合タスクを解決するための強力なパラダイムである。 この空間におけるデファクト推論法は有名な拡張カルマンフィルタ(EKF)であり、力学モデルと測定モデルの両方の1階線形化に依存している。 本稿では,EKFが生み出す実用的意味と限界,特に視覚的特徴相関の欠陥と強い共起雑音の存在について批判的な考察を行う。 代わりとして,ベイズフィルタの仮定密度の定式化を再考し,視慣性オドメトリと視覚スラムの両方にモーメントマッチング(無香りカルマンフィルタリング)アプローチを適用する。 本結果は,ダイナミックス伝搬と視覚計測の両面でのロバスト性の重要な側面を強調し,EuRoC MAVのドローンデータベンチマークで最先端の結果を示す。

The fusion of camera sensor and inertial data is a leading method for ego-motion tracking in autonomous and smart devices. State estimation techniques that rely on non-linear filtering are a strong paradigm for solving the associated information fusion task. The de facto inference method in this space is the celebrated extended Kalman filter (EKF), which relies on first-order linearizations of both the dynamical and measurement model. This paper takes a critical look at the practical implications and limitations posed by the EKF, especially under faulty visual feature associations and the presence of strong confounding noise. As an alternative, we revisit the assumed density formulation of Bayesian filtering and employ a moment matching (unscented Kalman filtering) approach to both visual-inertial odometry and visual SLAM. Our results highlight important aspects in robustness both in dynamics propagation and visual measurement updates, and we show state-of-the-art results on EuRoC MAV drone data benchmark.
翻訳日:2022-05-30 14:38:40 公開日:2022-05-27
# (参考訳) CEBaB:NLPモデル行動に対する実世界の概念の因果効果の推定

CEBaB: Estimating the Causal Effects of Real-World Concepts on NLP Model Behavior ( http://arxiv.org/abs/2205.14140v1 )

ライセンス: CC BY 4.0
Eldar David Abraham, Karel D'Oosterlinck, Amir Feder, Yair Ori Gat, Atticus Geiger, Christopher Potts, Roi Reichart, Zhengxuan Wu(参考訳) 現代のMLシステムのサイズと複雑さの増大により、予測能力は向上したが、その振る舞いを説明するのが難しくなった。 モデル説明のための手法は数多く開発されてきたが,これらの手法を評価するための明確な基準は見当たらない。 本稿では,実際の入力データに対するmlモデルの出力行動に対する実世界概念の因果効果を推定する因果推論問題としてモデル説明をキャストする。 本稿では,自然言語処理(NLP)における概念に基づく説明手法を評価するためのベンチマークデータセットCEBaBを紹介する。 CEBaBは、食体験の側面(食品、騒音、環境、サービス)を改変した、人為的な偽物レビューによる短いレストランレビューで構成されている。 オリジナルレビューと反事実レビューは、アスペクトレベルとレビューレベルの複数の評価で注釈付けされる。 CEBaBのリッチな構造により、入力機能を超えて、抽象的で現実的な概念がモデル行動に与える影響を研究することができます。 CEBaBを用いて,様々な仮定や概念を網羅した概念に基づく説明手法の質を比較し,これらの手法の比較評価のための自然な指標の確立を目指す。

The increasing size and complexity of modern ML systems has improved their predictive capabilities but made their behavior harder to explain. Many techniques for model explanation have been developed in response, but we lack clear criteria for assessing these techniques. In this paper, we cast model explanation as the causal inference problem of estimating causal effects of real-world concepts on the output behavior of ML models given actual input data. We introduce CEBaB, a new benchmark dataset for assessing concept-based explanation methods in Natural Language Processing (NLP). CEBaB consists of short restaurant reviews with human-generated counterfactual reviews in which an aspect (food, noise, ambiance, service) of the dining experience was modified. Original and counterfactual reviews are annotated with multiply-validated sentiment ratings at the aspect-level and review-level. The rich structure of CEBaB allows us to go beyond input features to study the effects of abstract, real-world concepts on model behavior. We use CEBaB to compare the quality of a range of concept-based explanation methods covering different assumptions and conceptions of the problem, and we seek to establish natural metrics for comparative assessments of these methods.
翻訳日:2022-05-30 14:37:53 公開日:2022-05-27
# ノイズの確率的勾配降下のプライバシ: より多くのプライバシー損失のないイテレーションの増加

Privacy of Noisy Stochastic Gradient Descent: More Iterations without More Privacy Loss ( http://arxiv.org/abs/2205.13710v1 )

ライセンス: Link先を確認
Jason M. Altschuler and Kunal Talwar(参考訳) マシンラーニングの中心的な問題は、センシティブなユーザデータのモデルトレーニング方法だ。 業界ではStochastic Gradient Descent with noise(Stochastic Gradient Langevin Dynamics)という単純なアルゴリズムが広く採用されている。 しかし、このアルゴリズムのプライバシ損失に関する基本的な理論的疑問は、境界領域上の滑らかな凸損失の一見単純な設定でさえも、未解決のままである。 我々の主な結果はこれらの疑問を解決している: 幅広いパラメータに対して、微分プライバシーを一定要素まで特徴づける。 この結果は、この設定の以前のすべての分析が間違った定性的振る舞いを持つことを示している。 具体的には、以前のプライバシー分析が反復回数で広告インフィニトゥムを増加させる一方で、小さなバーンイン期間の後、SGDの実行がそれ以上のプライバシーを漏らさないことを示す。 私たちの分析は、最適なトランスポート(すなわち、反復によるプライバシ増幅)とサンプル化されたガウス機構(すなわちサンプリングによるプライバシ増幅)に基づく技術を使う代わりに、高速混合に基づく以前のアプローチから完全に離れています。 例えば、強い凸損失、一様でないステップ化、任意のバッチサイズ、バッチのランダムあるいは周期的な選択などです。

A central issue in machine learning is how to train models on sensitive user data. Industry has widely adopted a simple algorithm: Stochastic Gradient Descent with noise (a.k.a. Stochastic Gradient Langevin Dynamics). However, foundational theoretical questions about this algorithm's privacy loss remain open -- even in the seemingly simple setting of smooth convex losses over a bounded domain. Our main result resolves these questions: for a large range of parameters, we characterize the differential privacy up to a constant factor. This result reveals that all previous analyses for this setting have the wrong qualitative behavior. Specifically, while previous privacy analyses increase ad infinitum in the number of iterations, we show that after a small burn-in period, running SGD longer leaks no further privacy. Our analysis departs completely from previous approaches based on fast mixing, instead using techniques based on optimal transport (namely, Privacy Amplification by Iteration) and the Sampled Gaussian Mechanism (namely, Privacy Amplification by Sampling). Our techniques readily extend to other settings, e.g., strongly convex losses, non-uniform stepsizes, arbitrary batch sizes, and random or cyclic choice of batches.
翻訳日:2022-05-30 14:05:39 公開日:2022-05-27
# HoUDINI: 適度に制約されたサドルから逃れる

HOUDINI: Escaping from Moderately Constrained Saddles ( http://arxiv.org/abs/2205.13753v1 )

ライセンス: Link先を確認
Dmitrii Avdiukhin, Grigory Yaroslavtsev(参考訳) 高次元の鞍点から逃れるための最初の多項式時間アルゴリズムを、適度な制約の下で与える。 滑らかな関数 $f \colon \mathbb r^d \to \mathbb r$ への勾配アクセスが与えられると、(ノイズの多い)勾配降下法は、不等式制約の対数数の下で鞍点から逃れることができる。 これは、非制約問題と等式制約問題に類似した結果を示した Ge らによるブレークスルーの主開問題において、最初の有形進行(NP-オークルに依存せず、あるいは特定の制約を考慮せずに定義を変更する)を構成する。 我々の結果は、正規勾配と確率勾配の両方に当てはまる。

We give the first polynomial time algorithms for escaping from high-dimensional saddle points under a moderate number of constraints. Given gradient access to a smooth function $f \colon \mathbb R^d \to \mathbb R$ we show that (noisy) gradient descent methods can escape from saddle points under a logarithmic number of inequality constraints. This constitutes the first tangible progress (without reliance on NP-oracles or altering the definitions to only account for certain constraints) on the main open question of the breakthrough work of Ge et al. who showed an analogous result for unconstrained and equality-constrained problems. Our results hold for both regular and stochastic gradient descent.
翻訳日:2022-05-30 14:05:17 公開日:2022-05-27
# 複数環境からの観測データセットの組み合わせによる隠れた境界検出

Combining observational datasets from multiple environments to detect hidden confounding ( http://arxiv.org/abs/2205.13935v1 )

ライセンス: Link先を確認
Rickard K.A. Karlsson, Jesse H. Krijthe(参考訳) 観測データからの因果推論における一般的な仮定は、隠れた共起の仮定である。 しかし、一般に、単一のデータセットから隠れた結合要因の存在を検証することは不可能である。 しかし、データ生成プロセスの基盤となる独立した因果メカニズムの仮定の下で、異なる環境から複数の観測データセットがある場合に、観察されていない共同創設者を検出する方法を示す。 本論では, 隠れた共起時にのみ違反する検証可能な条件不依存性の理論を提案し, その仮定を破る場合, 退化・依存機構, 忠実性違反について考察する。 さらに,これらの非依存性を検証し,その経験的有限サンプル挙動をシミュレーション研究を用いて研究する手法を提案する。

A common assumption in causal inference from observational data is the assumption of no hidden confounding. Yet it is, in general, impossible to verify the presence of hidden confounding factors from a single dataset. However, under the assumption of independent causal mechanisms underlying the data generative process, we demonstrate a way to detect unobserved confounders when having multiple observational datasets coming from different environments. We present a theory for testable conditional independencies that are only violated during hidden confounding and examine cases where we break its assumptions: degenerate & dependent mechanisms, and faithfulness violations. Additionally, we propose a procedure to test these independencies and study its empirical finite-sample behavior using simulation studies.
翻訳日:2022-05-30 14:05:03 公開日:2022-05-27
# 平均調整関連:高次元共同設立者による効率的な推定

Average Adjusted Association: Efficient Estimation with High Dimensional Confounders ( http://arxiv.org/abs/2205.14048v1 )

ライセンス: Link先を確認
Sung Jae Jun, Sokbae Lee(参考訳) 対数奇数比は、(バイナリ)結果と露光変数の関係を測定するための一般的なパラメータである。 パラメトリックだがロバストな推定や、共同設立者の関数としての非パラメトリックな推定に多くの注意が払われている。 しかし, 平均処理効果を推定するなど, 他の文脈における平均処理の重要性や人気にもかかわらず, ログオッズ比関数の平均化による要約統計の活用方法の議論は驚くほど困難である。 本研究では,観測された(潜在的に高次元の)共同創設者に対してオッズ比を調整し平均化する,平均ログオッズ比の2重・debiased machine learning(dml)推定器を提案する。 推定子は、効率的な影響関数の2つの等価形式から成り立っている。 第1の推定者は、露出条件と共同設立者に関する結果条件の予測的確率を使い、第2の推定者は、結果と共同設立者に対する露出条件のふりかえり確率を用いる。 このフレームワークはランダムサンプリングと結果ベースまたは露出ベースのサンプリングを包含する。 最後に,提案する推定器の実際のデータによる適用方法について述べる。

The log odds ratio is a common parameter to measure association between (binary) outcome and exposure variables. Much attention has been paid to its parametric but robust estimation, or its nonparametric estimation as a function of confounders. However, discussion on how to use a summary statistic by averaging the log odds ratio function is surprisingly difficult to find despite the popularity and importance of averaging in other contexts such as estimating the average treatment effect. We propose a couple of efficient double/debiased machine learning (DML) estimators of the average log odds ratio, where the odds ratios are adjusted for observed (potentially high dimensional) confounders and are averaged over them. The estimators are built from two equivalent forms of the efficient influence function. The first estimator uses a prospective probability of the outcome conditional on the exposure and confounders; the second one employs a retrospective probability of the exposure conditional on the outcome and confounders. Our framework encompasses random sampling as well as outcome-based or exposure-based sampling. Finally, we illustrate how to apply the proposed estimators using real data.
翻訳日:2022-05-30 14:04:49 公開日:2022-05-27
# 確率的順序による学習

Learning with Stochastic Orders ( http://arxiv.org/abs/2205.13684v1 )

ライセンス: Link先を確認
Carles Domingo-Enrich, Yair Schiff, Youssef Mroueh(参考訳) 高次元分布の学習は、しばしば、積分確率メトリクス(IPM)を最小化することで、明示的な確度モデリングや暗黙的なモデリングによって行われる。 本稿では,この学習パラダイムを確率的順序,すなわち確率的測度間の凸あるいはチョーケ順序に拡張する。 この目的に向けて,ipmのドロップイン代替として使用できる確率測度間のコケ・トランド距離を導入する。 また,学習した指標と既知の基準との確率的順序を符号化する,支配制約付き確率測度を学習するために,変分支配基準(VDC)を導入する。 両方の量を分析し,次元の呪いに苦しむことを証明し,パラメトリックレートを満足する入力凸maxout network (icmns) によるサロゲートを提案する。 最後に,確率的順序で学習し,合成および高次元画像生成を実験的に検証するためのmin-maxフレームワークを提供し,有望な結果を得た。 コードはhttps://github.com/yair-schiff/stochastic-orders-ICMNで入手できる。

Learning high-dimensional distributions is often done with explicit likelihood modeling or implicit modeling via minimizing integral probability metrics (IPMs). In this paper, we expand this learning paradigm to stochastic orders, namely, the convex or Choquet order between probability measures. Towards this end, we introduce the Choquet-Toland distance between probability measures, that can be used as a drop-in replacement for IPMs. We also introduce the Variational Dominance Criterion (VDC) to learn probability measures with dominance constraints, that encode the desired stochastic order between the learned measure and a known baseline. We analyze both quantities and show that they suffer from the curse of dimensionality and propose surrogates via input convex maxout networks (ICMNs), that enjoy parametric rates. Finally, we provide a min-max framework for learning with stochastic orders and validate it experimentally on synthetic and high-dimensional image generation, with promising results. The code is available at https://github.com/yair-schiff/stochastic-orders-ICMN
翻訳日:2022-05-30 14:02:36 公開日:2022-05-27
# Kernel Quantum R'enyi Divergenceによる高次元微分プライバシーの検討

Auditing Differential Privacy in High Dimensions with the Kernel Quantum R\'enyi Divergence ( http://arxiv.org/abs/2205.13941v1 )

ライセンス: Link先を確認
Carles Domingo-Enrich, Youssef Mroueh(参考訳) differential privacy (dp)は、プライベートデータリリースとプライベート機械学習のデファクトスタンダードである。 特定のDP保証を満たすかどうかを認証するためのブラックボックスDPアルゴリズムとメカニズムの監査は、特に高次元において困難である。 本稿では,カーネルR'enyi分散とその正規化バージョンという,確率分布に基づく微分プライバシーの緩和を提案する。 正規化された核 r\'enyi の発散は、高次元でもサンプルから推定できることを示し、$\varepsilon$-dp, $(\varepsilon,\delta)$-dp および $(\alpha,\varepsilon)$-r\'enyi dp の監査手順をもたらす。

Differential privacy (DP) is the de facto standard for private data release and private machine learning. Auditing black-box DP algorithms and mechanisms to certify whether they satisfy a certain DP guarantee is challenging, especially in high dimension. We propose relaxations of differential privacy based on new divergences on probability distributions: the kernel R\'enyi divergence and its regularized version. We show that the regularized kernel R\'enyi divergence can be estimated from samples even in high dimensions, giving rise to auditing procedures for $\varepsilon$-DP, $(\varepsilon,\delta)$-DP and $(\alpha,\varepsilon)$-R\'enyi DP.
翻訳日:2022-05-30 14:02:19 公開日:2022-05-27
# 線形システムを制御するための学習は難しい

Learning to Control Linear Systems can be Hard ( http://arxiv.org/abs/2205.14035v1 )

ライセンス: Link先を確認
Anastasios Tsiamis, Ingvar Ziemann, Manfred Morari, Nikolai Matni, George J. Pappas(参考訳) 本稿では,線形システムを制御する学習の統計的困難さについて考察する。 2つの標準ベンチマーク、安定化のサンプル複雑性、LQR(Linear Quadratic Regulator)のオンライン学習への後悔に焦点を当てた。 両ベンチマークの統計的難易度はシステム状態の次元からシステム理論量まで多項式的にスケールする。 しかし、これは全体像を明らかにしていない。 両ベンチマークにミニマックス下限を用いることで、学習複雑性が劇的にスケールする、すなわち指数関数的にシステム次元を持つ非自明なシステムのクラスが存在することを証明した。 この状況は、過度なシステム、すなわち、状態よりも入力が少ないシステムで発生する。 このようなシステムは構造的に制御が困難であり、システム理論量は学習複雑性を支配するシステム次元と指数関数的にスケールすることができる。 いくつかの構造的仮定(可制御性から離れた系)の下では、定性的に一致する上界を提供する。 学習の複雑さはシステムの制御可能性指数、すなわち過度な操作の程度で指数関数的であることが証明される。

In this paper, we study the statistical difficulty of learning to control linear systems. We focus on two standard benchmarks, the sample complexity of stabilization, and the regret of the online learning of the Linear Quadratic Regulator (LQR). Prior results state that the statistical difficulty for both benchmarks scales polynomially with the system state dimension up to system-theoretic quantities. However, this does not reveal the whole picture. By utilizing minimax lower bounds for both benchmarks, we prove that there exist non-trivial classes of systems for which learning complexity scales dramatically, i.e. exponentially, with the system dimension. This situation arises in the case of underactuated systems, i.e. systems with fewer inputs than states. Such systems are structurally difficult to control and their system theoretic quantities can scale exponentially with the system dimension dominating learning complexity. Under some additional structural assumptions (bounding systems away from uncontrollability), we provide qualitatively matching upper bounds. We prove that learning complexity can be at most exponential with the controllability index of the system, that is the degree of underactuation.
翻訳日:2022-05-30 14:02:02 公開日:2022-05-27
# DP-PCA:統計学的に最適で個人的PCA

DP-PCA: Statistically Optimal and Differentially Private PCA ( http://arxiv.org/abs/2205.13709v1 )

ライセンス: Link先を確認
Xiyang Liu, Weihao Kong, Prateek Jain, Sewoong Oh(参考訳) 我々は、主成分を$n$ i.i.d.~dataから$d$次元で計算する標準統計タスクを$(\varepsilon,\delta)$-differential privacyの下で研究する。 文献で広く研究されているが、既存のソリューションは2つの重要な側面に不足している: (i$) ガウスデータであっても、既存のプライベートアルゴリズムでは、各データポイントのランダム性が任意に小さい場合であっても、非自明な結果を得るために、$d$で超線形にスケールするために$n$(d^{3/2})$というサンプル数を必要とする。 両制約を克服するシングルパスアルゴリズムであるDP-PCAを提案する。 これは "em private mean estimation} に依存するプライベートなミニバッチ勾配上昇法に基づいており、与えられた勾配のミニバッチの分散に適応することでプライバシーを確保するのに必要な最小限のノイズを追加する。 準ゲージデータに対しては、$n=\tilde o(d)$でもほぼ最適の統計誤差率を提供する。 さらに, 最適誤差率を得るためには, サブガウシアンスタイルの仮定が必要であることを示す下限を与える。

We study the canonical statistical task of computing the principal component from $n$ i.i.d.~data in $d$ dimensions under $(\varepsilon,\delta)$-differential privacy. Although extensively studied in literature, existing solutions fall short on two key aspects: ($i$) even for Gaussian data, existing private algorithms require the number of samples $n$ to scale super-linearly with $d$, i.e., $n=\Omega(d^{3/2})$, to obtain non-trivial results while non-private PCA requires only $n=O(d)$, and ($ii$) existing techniques suffer from a non-vanishing error even when the randomness in each data point is arbitrarily small. We propose DP-PCA, which is a single-pass algorithm that overcomes both limitations. It is based on a private minibatch gradient ascent method that relies on {\em private mean estimation}, which adds minimal noise required to ensure privacy by adapting to the variance of a given minibatch of gradients. For sub-Gaussian data, we provide nearly optimal statistical error rates even for $n=\tilde O(d)$. Furthermore, we provide a lower bound showing that sub-Gaussian style assumption is necessary in obtaining the optimal error rate.
翻訳日:2022-05-30 14:01:02 公開日:2022-05-27
# EmoInHindi: 対話における感情認識のためのマルチラベル感情・強度付加データセット

EmoInHindi: A Multi-label Emotion and Intensity Annotated Dataset in Hindi for Emotion Recognition in Dialogues ( http://arxiv.org/abs/2205.13908v1 )

ライセンス: Link先を確認
Gopendra Vikram Singh, Priyanshu Priya, Mauajama Firdaus, Asif Ekbal, Pushpak Bhattacharyya(参考訳) 人工知能(AI)の長年の目標は、人間のような会話システムを作ることだった。 このようなシステムはユーザとの感情的なつながりを発達させる能力を持つべきであり,対話における感情認識は重要な課題である。 対話における感情検出は、人間は通常、1つの発話で様々な強度の複数の感情を伝達する。 さらに、対話の発話における感情は、タスクをより複雑にする以前の発話に依存する可能性がある。 感情認識は常に大きな需要があった。 しかし、会話におけるマルチラベル感情と強度検出のための既存のデータセットのほとんどは英語である。 この目的のために,44,247発話からなる1,814対話を含む会話におけるマルチラベル感情と強度認識のために,ヒンズー語にエモインヒンディという大きな会話データセットを作成する。 我々は、精神保健と犯罪被害者の法的カウンセリングのために、ウィザード・オブ・オズの方法でデータセットを作成します。 対話の各発話は、中性を含む16の感情クラスから1つ以上の感情カテゴリと対応する強度値とで注釈付けされる。 さらに,会話的文脈を考慮した感情と対応する発話の強度を検出できる強文脈ベースラインを提案する。

The long-standing goal of Artificial Intelligence (AI) has been to create human-like conversational systems. Such systems should have the ability to develop an emotional connection with the users, hence emotion recognition in dialogues is an important task. Emotion detection in dialogues is a challenging task because humans usually convey multiple emotions with varying degrees of intensities in a single utterance. Moreover, emotion in an utterance of a dialogue may be dependent on previous utterances making the task more complex. Emotion recognition has always been in great demand. However, most of the existing datasets for multi-label emotion and intensity detection in conversations are in English. To this end, we create a large conversational dataset in Hindi named EmoInHindi for multi-label emotion and intensity recognition in conversations containing 1,814 dialogues with a total of 44,247 utterances. We prepare our dataset in a Wizard-of-Oz manner for mental health and legal counselling of crime victims. Each utterance of the dialogue is annotated with one or more emotion categories from the 16 emotion classes including neutral, and their corresponding intensity values. We further propose strong contextual baselines that can detect emotion(s) and the corresponding intensity of an utterance given the conversational context.
翻訳日:2022-05-30 13:59:42 公開日:2022-05-27
# StereoKG: 文化的知識とステレオタイプのためのデータ駆動知識グラフ構築

StereoKG: Data-Driven Knowledge Graph Construction for Cultural Knowledge and Stereotypes ( http://arxiv.org/abs/2205.14036v1 )

ライセンス: Link先を確認
Awantee Deshpande, Dana Ruiter, Marius Mosbach, Dietrich Klakow(参考訳) 民族的・宗教的バイアスの分析は、自然言語処理モデルの公平性、説明責任、透明性を改善する上で重要である。 しかし、多くのテクニックは、人間がコンパイルしたバイアス項のリストに依存しており、作成にコストがかかり、カバー範囲が限られている。 本研究では,文化知識とステレオタイプに関する知識グラフ(KG)を生成するための,完全なデータ駆動パイプラインを提案する。 結果、KGは5つの宗教グループと5つの国籍をカバーし、より多くの団体を含むように容易に拡張できます。 人間による評価では、非シングルトンエントリの大多数(59.2%)はコヒーレントで完全なステレオタイプであることが示された。 さらに, 中間マスク型言語モデルの学習により, モデルにおける文化的認知度が向上し, 関連する課題,すなわちヘイトスピーチ検出において, 知識調査サンプルの分類性能が向上する可能性が示唆された。

Analyzing ethnic or religious bias is important for improving fairness, accountability, and transparency of natural language processing models. However, many techniques rely on human-compiled lists of bias terms, which are expensive to create and are limited in coverage. In this study, we present a fully data-driven pipeline for generating a knowledge graph (KG) of cultural knowledge and stereotypes. Our resulting KG covers 5 religious groups and 5 nationalities and can easily be extended to include more entities. Our human evaluation shows that the majority (59.2%) of non-singleton entries are coherent and complete stereotypes. We further show that performing intermediate masked language model training on the verbalized KG leads to a higher level of cultural awareness in the model and has the potential to increase classification performance on knowledge-crucial samples on a related task, i.e., hate speech detection.
翻訳日:2022-05-30 13:59:25 公開日:2022-05-27
# 効率的な文字レベル生成のためのcharformerのパッチリーク

Patching Leaks in the Charformer for Efficient Character-Level Generation ( http://arxiv.org/abs/2205.14086v1 )

ライセンス: Link先を確認
Lukas Edman, Antonio Toral, Gertjan van Noord(参考訳) 文字ベースの表現は、形態的にリッチな言語に対するサブワードベースの表現よりも重要な利点がある。 ノイズの多い入力に対する堅牢性が高くなり、別のトークン化ステップは必要ない。 しかし、それらには重要な欠点があり、特にテキストシーケンスの長さが増加する。 Charformer グループ (別名 downsamples) の GBST メソッドでこの問題を解決するが、Transformer デコーダに適用されると情報が漏洩する。 この情報漏洩問題を解き、デコーダの文字グループ化を可能にする。 従来のダウンサンプリング手法と比較して,Charformerのダウンサンプリングは翻訳品質の面でNMTに明らかなメリットはないが,約30%高速にトレーニングすることができる。 トルコ語翻訳の性能向上は、形態的に豊かな言語に対する文字レベルのモデルの可能性を示している。

Character-based representations have important advantages over subword-based ones for morphologically rich languages. They come with increased robustness to noisy input and do not need a separate tokenization step. However, they also have a crucial disadvantage: they notably increase the length of text sequences. The GBST method from Charformer groups (aka downsamples) characters to solve this, but allows information to leak when applied to a Transformer decoder. We solve this information leak issue, thereby enabling character grouping in the decoder. We show that Charformer downsampling has no apparent benefits in NMT over previous downsampling methods in terms of translation quality, however it can be trained roughly 30% faster. Promising performance on English--Turkish translation indicate the potential of character-level models for morphologically-rich languages.
翻訳日:2022-05-30 13:59:08 公開日:2022-05-27
# GALOIS:汎用論理合成による深層強化学習の促進

GALOIS: Boosting Deep Reinforcement Learning via Generalizable Logic Synthesis ( http://arxiv.org/abs/2205.13728v1 )

ライセンス: Link先を確認
Yushi Cao, Zhiming Li, Tianpei Yang, Hao Zhang, Yan Zheng, Yi Li, Jianye Hao, Yang Liu(参考訳) 人間レベルの制御問題において優れた性能を達成したにもかかわらず、深層強化学習(drl)は高次知性(例えば論理推論と再利用)を欠いているため、複雑な問題における学習と一般化に関して人間よりも効果的に振る舞う。 従来の研究は、論理駆動の振る舞いを示すDRLポリシーとして、ホワイトボックス論理プログラムを直接合成しようと試みていた。 しかし、ほとんどの合成法は命令型または宣言型プログラミングに基づいており、それぞれに異なる制限がある。 前者は合成中の因果効果論理を無視し、タスク間の一般化性が低下する。 後者は厳密な証明に基づくため、複雑な階層論理でプログラムを合成できない。 本稿では,上記の2つのパラダイムを結合し,階層的かつ厳密な因果効果論理プログラムを合成する新しい一般化論理合成(galois)フレームワークを提案する。 GALOISはプログラムスケッチを活用し、合成を導くための新しいスケッチベースのハイブリッドプログラム言語を定義する。 これに基づいてガロアは、汎用的で解釈可能な因果効果論理を持つホワイトボックスプログラムを自動的に生成するスケッチベースのプログラム合成手法を提案する。 複雑な論理を用いた様々な意思決定タスクに対する広範囲な評価は、様々な環境における漸近的性能、一般化可能性、及び優れた知識再利用性に関する主流ベースラインよりも、GALOISの優位性を示している。

Despite achieving superior performance in human-level control problems, unlike humans, deep reinforcement learning (DRL) lacks high-order intelligence (e.g., logic deduction and reuse), thus it behaves ineffectively than humans regarding learning and generalization in complex problems. Previous works attempt to directly synthesize a white-box logic program as the DRL policy, manifesting logic-driven behaviors. However, most synthesis methods are built on imperative or declarative programming, and each has a distinct limitation, respectively. The former ignores the cause-effect logic during synthesis, resulting in low generalizability across tasks. The latter is strictly proof-based, thus failing to synthesize programs with complex hierarchical logic. In this paper, we combine the above two paradigms together and propose a novel Generalizable Logic Synthesis (GALOIS) framework to synthesize hierarchical and strict cause-effect logic programs. GALOIS leverages the program sketch and defines a new sketch-based hybrid program language for guiding the synthesis. Based on that, GALOIS proposes a sketch-based program synthesis method to automatically generate white-box programs with generalizable and interpretable cause-effect logic. Extensive evaluations on various decision-making tasks with complex logic demonstrate the superiority of GALOIS over mainstream baselines regarding the asymptotic performance, generalizability, and great knowledge reusability across different environments.
翻訳日:2022-05-30 13:58:55 公開日:2022-05-27
# コンピュータネットワークにおけるコース・オブ・アクション(COA)攻撃探索法に関するチュートリアル

Tutorial on Course-of-Action (COA) Attack Search Methods in Computer Networks ( http://arxiv.org/abs/2205.13763v1 )

ライセンス: Link先を確認
Seok Bin Son, Soohyun Park, Haemin Lee, Joongheon Kim, Soyi Jung, and Donghwa Kim(参考訳) 現代のネットワークセキュリティ研究の文献では、COAアタッチメント法を効果的かつ効果的に導入することは、産業とアカデミックにおける関心事である。 ネットワークサイズが大きくなるにつれて、従来のCOA攻撃探索手法は、コンピューティングや通信資源の制限に悩まされる。 そのため、これらの問題を解決するために様々な手法が開発され、強化学習(RL)に基づくインテリジェントアルゴリズムが最も効果的な解の1つである。 そこで本稿では,ネットワーク攻撃シナリオを対象としたRLに基づくCOA攻撃探索手法について,その傾向と問題点を考察する。

In the literature of modern network security research, deriving effective and efficient course-of-action (COA) attach search methods are of interests in industry and academia. As the network size grows, the traditional COA attack search methods can suffer from the limitations to computing and communication resources. Therefore, various methods have been developed to solve these problems, and reinforcement learning (RL)-based intelligent algorithms are one of the most effective solutions. Therefore, we review the RL-based COA attack search methods for network attack scenarios in terms of the trends and their contrib
翻訳日:2022-05-30 13:58:33 公開日:2022-05-27
# geometer: プロトタイプ表現によるクラスインクリメンタル学習のグラフ

Geometer: Graph Few-Shot Class-Incremental Learning via Prototype Representation ( http://arxiv.org/abs/2205.13954v1 )

ライセンス: Link先を確認
Bin Lu, Xiaoying Gan, Lina Yang, Weinan Zhang, Luoyi Fu, Xinbing Wang(参考訳) グラフデータの膨大な拡張により、ノード分類は多くの実世界のアプリケーションにおいて非常に重要であることを示す。 既存のグラフニューラルネットワークに基づく手法は主に、豊富なラベリングを持つ固定クラス内の未ラベルノードの分類に重点を置いている。 しかし、多くの実践シナリオにおいて、グラフは新しいノードとエッジの出現とともに進化する。 新しいクラスは、新しい出現や探検の欠如により、ラベル付けがほとんどなく、徐々に現れる。 本稿では,この難易度で実用的なグラフ数ショットクラスインクリメンタルラーニング(GFSCIL)問題に着目し,Geometerと呼ばれる新しい手法を提案する。 完全に接続されたニューラルネットワーククラスを置き換えて再トレーニングする代わりに、geometerは最寄りのクラスプロトタイプを見つけることでノードのラベルを予測する。 Prototype は計量空間のクラスを表すベクトルである。 新たなクラスが出現すると、ジオメーターは幾何学的近接性、均一性、分離性を観察して注意に基づくプロトタイプを学習し、調整する。 教師による知識蒸留とバイアスサンプリングは, それぞれ破壊的忘れと不均衡なラベル問題を軽減するために導入された。 4つの公開データセットの実験結果は、Geometerが最先端の手法よりも9.46%から27.60%の大幅な改善を達成したことを示している。

With the tremendous expansion of graphs data, node classification shows its great importance in many real-world applications. Existing graph neural network based methods mainly focus on classifying unlabeled nodes within fixed classes with abundant labeling. However, in many practical scenarios, graph evolves with emergence of new nodes and edges. Novel classes appear incrementally along with few labeling due to its newly emergence or lack of exploration. In this paper, we focus on this challenging but practical graph few-shot class-incremental learning (GFSCIL) problem and propose a novel method called Geometer. Instead of replacing and retraining the fully connected neural network classifer, Geometer predicts the label of a node by finding the nearest class prototype. Prototype is a vector representing a class in the metric space. With the pop-up of novel classes, Geometer learns and adjusts the attention-based prototypes by observing the geometric proximity, uniformity and separability. Teacher-student knowledge distillation and biased sampling are further introduced to mitigate catastrophic forgetting and unbalanced labeling problem respectively. Experimental results on four public datasets demonstrate that Geometer achieves a substantial improvement of 9.46% to 27.60% over state-of-the-art methods.
翻訳日:2022-05-30 13:57:08 公開日:2022-05-27
# 衛星・衛星統合ネットワークにおける機械学習に基づくユーザスケジューリング

Machine Learning-Based User Scheduling in Integrated Satellite-HAPS-Ground Networks ( http://arxiv.org/abs/2205.13958v1 )

ライセンス: Link先を確認
Shasha Liu, Hayssam Dahrouj, Mohamed-Slim Alouini(参考訳) 統合スペース・エア・グラウンド・ネットワークは次世代の通信ネットワーク (6g) を強力にするための貴重なソリューション空間を提供することを約束している。 このようなデジタルインクルージョンは、特に関心のあるリソース管理問題を引き起こす。 しかし,従来のモデルベース最適化手法では,空間空対地ネットワークの高度不均一性とそれに伴う資源配分問題の複雑さのため,リアルタイム処理やユーザのQoSのニーズを満たすことができない。 本稿では,ワイヤレスネットワーク設計における人工知能の前提を考慮し,空間・地上統合通信におけるユーザスケジューリングの文脈における機械学習の展望を示す。 本稿ではまず,統合的空間・地上ネットワークにおける資源割当問題に対する機械学習応用の文脈における最も関連する技術について概説する。 そこで本稿では,高高度プラットフォームステーション(haps)地上ネットワークにおけるユーザのスケジューリングポリシを最適化するために,深層ニューラルネットワークを用いた特定のユースケースを提案する。 最後に,空対地ネットワークにおける機械学習の応用,すなわち電力制限,不完全なチャネル状態情報,マルチHAPSシナリオ,空飛ぶタクシー搭載システムなど,いくつかの課題と課題について述べる。

Integrated space-air-ground networks promise to offer a valuable solution space for empowering next generation of communication networks (6G), particularly in the context of connecting the unconnected and ultraconnecting the connected. Such digital inclusion thrive makes the resource management problem of particular interest. However, the classical model-based optimization methods cannot meet the real-time processing and user's QoS needs, due to the high heterogeneity of the space-air-ground networks and the complexity of its associated resource allocation problems. Given the premises of artificial intelligence at automating wireless networks design, this paper focuses on showcasing the prospects of machine learning in the context of user scheduling in integrated space-air-ground communications. The paper first overviews the most relevant state-of-the art in the context of machine learning applications to the resource allocation problems in integrated space-air-ground networks. The paper then proposes, and shows the benefit of, one specific use-case that adopts ensembling deep neural network for optimizing the user scheduling policies in space-high altitude platform station (HAPS)-ground networks. Finally, the paper presents some challenges and sheds light on several open issues in the context of machine learning applications in space-air-ground networks, namely, power limit, imperfect channel state information, multi-HAPSs scenarios and flying taxis-empowered systems.
翻訳日:2022-05-30 13:56:49 公開日:2022-05-27
# 医用画像分類における故障検出:現実検査とベンチマークテストベッド

Failure Detection in Medical Image Classification: A Reality Check and Benchmarking Testbed ( http://arxiv.org/abs/2205.14094v1 )

ライセンス: Link先を確認
Melanie Bernhardt, Fabio De Sousa Ribeiro, Ben Glocker(参考訳) 自動画像分類における障害検出は臨床展開にとって重要な安全策である。 検出された障害症例は、人的評価と呼ばれ、コンピュータ支援による臨床的意思決定における患者の安全性を保証する。 その重要さにもかかわらず、医療画像の文脈で分類モデルのテスト時間障害を検出するための最先端の信頼度スコアリング手法の能力に関する証拠は不十分である。 本稿では,領域内ミス分類検出手法の性能を検証し,画像の異なる6つの画像データセットに対する信頼度スコアをマルチクラスおよびバイナリ分類設定でベンチマークする。 実験の結果, 故障検出の問題は, 解決には程遠いことがわかった。 コンピュータビジョンと機械学習の文献で提案されるベンチマークされた高度な手法のいずれも、単純なソフトマックスベースラインを一貫して上回るものではないことがわかった。 私たちの開発したテストベッドは、この重要な領域における将来の作業を促進する。

Failure detection in automated image classification is a critical safeguard for clinical deployment. Detected failure cases can be referred to human assessment, ensuring patient safety in computer-aided clinical decision making. Despite its paramount importance, there is insufficient evidence about the ability of state-of-the-art confidence scoring methods to detect test-time failures of classification models in the context of medical imaging. This paper provides a reality check, establishing the performance of in-domain misclassification detection methods, benchmarking 9 confidence scores on 6 medical imaging datasets with different imaging modalities, in multiclass and binary classification settings. Our experiments show that the problem of failure detection is far from being solved. We found that none of the benchmarked advanced methods proposed in the computer vision and machine learning literature can consistently outperform a simple softmax baseline. Our developed testbed facilitates future work in this important area.
翻訳日:2022-05-30 13:56:29 公開日:2022-05-27
# PSTNet: ポイントクラウドシーケンス上のポイント時空間の畳み込み

PSTNet: Point Spatio-Temporal Convolution on Point Cloud Sequences ( http://arxiv.org/abs/2205.13713v1 )

ライセンス: Link先を確認
Hehe Fan, Xin Yu, Yuhang Ding, Yi Yang, Mohan Kankanhalli(参考訳) 点雲列は空間次元では不規則であり、時間次元では規則性と順序を示す。 したがって、従来のビデオ処理のための既存のグリッドベースの畳み込みは、原点雲列の時空間モデリングには直接適用できない。 本稿では、ポイントクラウドシーケンスの情報表現を実現するために、ポイント時空間(PST)畳み込みを提案する。 提案されたPST畳み込みは、まず点雲列における空間と時間を切り離す。 次に、空間畳み込みを用いて3次元空間内の点の局所的な構造を捉え、時空間畳み込みを用いて時間次元に沿った空間領域のダイナミクスをモデル化する。 さらに,提案したPST畳み込みを深層ネットワーク,すなわちPSTNetに組み込んで,点雲列の特徴を階層的に抽出する。 広く使われている3Dアクション認識と4Dセマンティックセグメンテーションデータセットに関する広範な実験は、PSTNetのポイントクラウドシーケンスのモデル化の有効性を実証している。

Point cloud sequences are irregular and unordered in the spatial dimension while exhibiting regularities and order in the temporal dimension. Therefore, existing grid based convolutions for conventional video processing cannot be directly applied to spatio-temporal modeling of raw point cloud sequences. In this paper, we propose a point spatio-temporal (PST) convolution to achieve informative representations of point cloud sequences. The proposed PST convolution first disentangles space and time in point cloud sequences. Then, a spatial convolution is employed to capture the local structure of points in the 3D space, and a temporal convolution is used to model the dynamics of the spatial regions along the time dimension. Furthermore, we incorporate the proposed PST convolution into a deep network, namely PSTNet, to extract features of point cloud sequences in a hierarchical manner. Extensive experiments on widely-used 3D action recognition and 4D semantic segmentation datasets demonstrate the effectiveness of PSTNet to model point cloud sequences.
翻訳日:2022-05-30 13:55:57 公開日:2022-05-27
# 航空シーン分類のための学習インスタンス表現バンク

Learning Instance Representation Banks for Aerial Scene Classification ( http://arxiv.org/abs/2205.13744v1 )

ライセンス: Link先を確認
Jingjun Yi and Beichen Zhou(参考訳) 空中のシーンは、鳥の視点による自然のシーンよりも物体の分布や空間配置が複雑であるため、識別的なシーン表現を学ぶのが困難である。 最近のソリューションは、関心領域(roi)を適切にハイライトできるように、 \textit{local semantic descriptor} を設計している。 しかし、各ローカルディスクリプタは限定的な記述能力を持ち、全体のシーン表現は洗練され続けている。 本稿では,多重インスタンス学習 (mil) の定式化の下で複数の局所記述子を統一する, \textit{instance representation bank} (irb) と呼ばれる新しい表現集合を設計することで,この問題を解決する。 この統一されたフレームワークは、すべてのローカルな意味記述子を同じシーンスキームにアラインでき、シーン表現能力を高めるので、自明ではない。 具体的には、irb学習フレームワークは、バックボーン、インスタンス表現バンク、セマンティック融合モジュール、シーンスキームアライメント損失関数で構成されています。 すべてのコンポーネントはエンドツーエンドで構成されます。 3つの空中シーンベンチマークに関する広範囲な実験により,提案手法が最先端のアプローチを大きなマージンで上回っていることを証明した。

Aerial scenes are more complicated in terms of object distribution and spatial arrangement than natural scenes due to the bird view, and thus remain challenging to learn discriminative scene representation. Recent solutions design \textit{local semantic descriptors} so that region of interests (RoIs) can be properly highlighted. However, each local descriptor has limited description capability and the overall scene representation remains to be refined. In this paper, we solve this problem by designing a novel representation set named \textit{instance representation bank} (IRB), which unifies multiple local descriptors under the multiple instance learning (MIL) formulation. This unified framework is not trivial as all the local semantic descriptors can be aligned to the same scene scheme, enhancing the scene representation capability. Specifically, our IRB learning framework consists of a backbone, an instance representation bank, a semantic fusion module and a scene scheme alignment loss function. All the components are organized in an end-to-end manner. Extensive experiments on three aerial scene benchmarks demonstrate that our proposed method outperforms the state-of-the-art approaches by a large margin.
翻訳日:2022-05-30 13:55:42 公開日:2022-05-27
# 意識認識型マルチインスタンスニューラルネットワーク

Attention Awareness Multiple Instance Neural Network ( http://arxiv.org/abs/2205.13750v1 )

ライセンス: Link先を確認
Jingjun Yi and Beichen Zhou(参考訳) 複数のインスタンス学習は、弱いアノテートデータを持つ多くのパターン認識タスクに適している。 ニューラルネットワークと複数のインスタンス学習の組み合わせは、エンドツーエンドのソリューションを提供し、広く利用されている。 しかし、課題は2つある。 まず、現在のMILプーリングオペレータは通常事前に定義されており、キーインスタンスをマイニングする柔軟性がない。 第二に、現在の解では、バッグレベルの表現は不正確あるいはアクセス不能である。 そこで本研究では,注意喚起型多インスタンスニューラルネットワークフレームワークを提案する。 インスタンスレベルの分類器、空間的注意に基づくトレーニング可能なMILプール演算子、バッグレベルの分類層で構成される。 一連のパターン認識タスクに対する実験により、我々のフレームワークは最先端のMIL法よりも優れており、提案手法の有効性が検証されている。

Multiple instance learning is qualified for many pattern recognition tasks with weakly annotated data. The combination of artificial neural network and multiple instance learning offers an end-to-end solution and has been widely utilized. However, challenges remain in two-folds. Firstly, current MIL pooling operators are usually pre-defined and lack flexibility to mine key instances. Secondly, in current solutions, the bag-level representation can be inaccurate or inaccessible. To this end, we propose an attention awareness multiple instance neural network framework in this paper. It consists of an instance-level classifier, a trainable MIL pooling operator based on spatial attention and a bag-level classification layer. Exhaustive experiments on a series of pattern recognition tasks demonstrate that our framework outperforms many state-of-the-art MIL methods and validates the effectiveness of our proposed attention MIL pooling operators.
翻訳日:2022-05-30 13:55:21 公開日:2022-05-27
# (参考訳) 機能蒸留による微調整における対比学習ライバルのマスキング画像モデリング

Contrastive Learning Rivals Masked Image Modeling in Fine-tuning via Feature Distillation ( http://arxiv.org/abs/2205.14141v1 )

ライセンス: CC BY 4.0
Yixuan Wei and Han Hu and Zhenda Xie and Zheng Zhang and Yue Cao and Jianmin Bao and Dong Chen and Baining Guo(参考訳) Masked Image Modeling (MIM) は、画像分類、インスタンスコントラスト学習、画像テキストアライメントといった、従来主流だった事前学習アプローチを覆い隠して、非常に優れた微調整性能を持つ表現を学習する。 本稿では,これらのプリトレーニングアプローチの微調整性能を,特徴蒸留(fd)という単純な後処理によって著しく向上させることができることを示す。 特徴蒸留は、古い表現をMIMが生成した表現と同様に、いくつかの望ましい性質を持つ新しい表現に変換する。 これらの特性は最適化フレンドラインとして総称され,注意および最適化関連診断ツール群によって同定・分析される。 これらの特性により、新しい表現は強い微調整性能を示す。 特に、対照的な自己教師付き学習法は、最先端のマスク画像モデリング(mim)アルゴリズムのように微調整において競争力がある。 CLIPモデルの微調整性能も大幅に改善され、CLIP ViT-LモデルはImageNet-1K分類で89.0%の精度でトップ1に到達した。 さらに重要なことは、我々の研究は、より簡単に拡張できるため、最適化フレンドリさに慣れることなく、学習した表現の汎用性とスケーラビリティにもっと注力する手段を提供する。 コードはhttps://github.com/swintransformer/feature-distillationで入手できる。

Masked image modeling (MIM) learns representations with remarkably good fine-tuning performances, overshadowing previous prevalent pre-training approaches such as image classification, instance contrastive learning, and image-text alignment. In this paper, we show that the inferior fine-tuning performance of these pre-training approaches can be significantly improved by a simple post-processing in the form of feature distillation (FD). The feature distillation converts the old representations to new representations that have a few desirable properties just like those representations produced by MIM. These properties, which we aggregately refer to as optimization friendliness, are identified and analyzed by a set of attention- and optimization-related diagnosis tools. With these properties, the new representations show strong fine-tuning performance. Specifically, the contrastive self-supervised learning methods are made as competitive in fine-tuning as the state-of-the-art masked image modeling (MIM) algorithms. The CLIP models' fine-tuning performance is also significantly improved, with a CLIP ViT-L model reaching 89.0% top-1 accuracy on ImageNet-1K classification. More importantly, our work provides a way for the future research to focus more effort on the generality and scalability of the learnt representations without being pre-occupied with optimization friendliness since it can be enhanced rather easily. The code will be available at https://github.com/SwinTransformer/Feature-Distillation.
翻訳日:2022-05-30 13:53:32 公開日:2022-05-27
# 過パラメータ深層平衡モデルの大域収束

Global Convergence of Over-parameterized Deep Equilibrium Models ( http://arxiv.org/abs/2205.13814v1 )

ライセンス: Link先を確認
Zenan Ling, Xingyu Xie, Qiuhao Wang, Zongpeng Zhang, Zhouchen Lin(参考訳) ディープ均衡モデル (DEQ) は、入射を伴う無限深度重み付きモデルの平衡点を通して暗黙的に定義される。 無限の計算の代わりに、ルートフィンディングで直接平衡点を解き、暗黙の微分で勾配を計算する。 本研究では,過パラメータ化deqのトレーニングダイナミクスについて検討した。 初期平衡点の条件を仮定することにより,トレーニング過程中に一意な平衡点が常に存在し,勾配降下は二次損失関数の線形収束率でグローバルに最適解に収束することが証明された。 適度な過パラメータ化によって要求される初期条件が満たされることを示すために,ランダムなdeqのきめ細かな解析を行う。 無限深度重み付きモデルの非漸近解析における技術的困難を克服する新しい確率的枠組みを提案する。

A deep equilibrium model (DEQ) is implicitly defined through an equilibrium point of an infinite-depth weight-tied model with an input-injection. Instead of infinite computations, it solves an equilibrium point directly with root-finding and computes gradients with implicit differentiation. The training dynamics of over-parameterized DEQs are investigated in this study. By supposing a condition on the initial equilibrium point, we show that the unique equilibrium point always exists during the training process, and the gradient descent is proved to converge to a globally optimal solution at a linear convergence rate for the quadratic loss function. In order to show that the required initial condition is satisfied via mild over-parameterization, we perform a fine-grained analysis on random DEQs. We propose a novel probabilistic framework to overcome the technical difficulty in the non-asymptotic analysis of infinite-depth weight-tied models.
翻訳日:2022-05-30 13:36:32 公開日:2022-05-27
# 雑音標準と一般化位相検索問題に対する経験的$\ell_2$リスク最小化の誤差境界

Error Bound of Empirical $\ell_2$ Risk Minimization for Noisy Standard and Generalized Phase Retrieval Problems ( http://arxiv.org/abs/2205.13827v1 )

ライセンス: Link先を確認
Junren Chen, Michael K. Ng(参考訳) 雑音一般化位相探索(NGPR)問題(英: noisy generalized phase search)とは、雑音2次検体$\big\{x_0^*A_kx_0+\eta_k\big\}_{k=1}^n$により$x_0 \in \mathbb{C}^d$を推定する問題である。 A_k=\alpha_k\alpha_k^*$ for some $\alpha_k\in\mathbb{C}^d$ とすると、標準的なノイズ位相検索(NPR)問題に還元される。 本研究の目的は,NGPRで$A_k$,NPRで$\alpha_k$,あるいはサブガウス分布から$A_k$,または$\alpha_k$の両問題におけるリスク最小化を推定することである。 様々なノイズパターンにおいて, 再構成を近似できる誤差境界を定式化し, これらの結果は文献で新しいものである。 ngprにおいて、境界は、一般ノイズに対して、$o\big(\frac{||\eta|}{\sqrt{n}}\big)$と$o\big(||\eta|_\infty \sqrt{\frac{d}{n}}\big)$と$o\big(\sqrt{\frac{d\log n}{n}}\big)$と$o\big(\sqrt{\frac{d(\log n)^2}{n}}\big)$である。 重み付き雑音下では、応答外れ値の切り換えにより、収束率の遅い誤差を持つロバスト推定器を提案する。 一方、NPR では、それぞれサブガウスおよびサブ指数雑音に対して $O\big(\sqrt {\frac{d\log n}{n}}\big)$ と $O\big(\sqrt {\frac{d(\log n)^2}{n}}\big)$) の有界が得られ、これは既存の有界 $O\big(\frac{||\eta|||_2}{\sqrt{n}}\big)$ よりも本質的に厳密である。 測定行列 $a_k$ を含むngprは測定ベクトル $\alpha_k$ を含む npr よりも計算的に要求されるが、偏りのある決定論的雑音下では npr よりも強い頑健性を示す。 実験結果を示し, 実験結果を確認し, 実証した。

A noisy generalized phase retrieval (NGPR) problem refers to a problem of estimating $x_0 \in \mathbb{C}^d$ by noisy quadratic samples $\big\{x_0^*A_kx_0+\eta_k\big\}_{k=1}^n$ where $A_k$ is a Hermitian matrix and $\eta_k$ is a noise scalar. When $A_k=\alpha_k\alpha_k^*$ for some $\alpha_k\in\mathbb{C}^d$, it reduces to a standard noisy phase retrieval (NPR) problem. The main aim of this paper is to study the estimation performance of empirical $\ell_2$ risk minimization in both problems when $A_k$ in NGPR, or $\alpha_k$ in NPR, is drawn from sub-Gaussian distribution. Under different kinds of noise patterns, we establish error bounds that can imply approximate reconstruction and these results are new in the literature. In NGPR, we show the bounds are of $O\big(\frac{||\eta||}{\sqrt{n}}\big)$ and $O\big(||\eta||_\infty \sqrt{\frac{d}{n}}\big)$ for general noise, and of $O\big(\sqrt{\frac{d\log n}{n}}\big)$ and $O\big(\sqrt{\frac{d(\log n)^2}{n}}\big)$ for random noise with sub-Gaussian and sub-exponential tail respectively, where $\| \eta \|$ and $\| \eta \|_{\infty}$ are the 2-norm and sup-norm of the noise vector of $\eta_k$. Under heavy-tailed noise, by truncating response outliers we propose a robust estimator that possesses an error bound with slower convergence rate. On the other hand, we obtain in NPR the bound is of $O\big(\sqrt{\frac{d\log n}{n}}\big)$ and $O\big(\sqrt{\frac{d(\log n)^2}{n}}\big)$) for sub-Gaussian and sub-exponential noise respectively, which is essentially tighter than the existing bound $O\big(\frac{||\eta||_2}{\sqrt{n}}\big)$. Although NGPR involving measurement matrix $A_k$ is more computationally demanding than NPR involving measurement vector $\alpha_k$, our results reveal that NGPR exhibits stronger robustness than NPR under biased and deterministic noise. Experimental results are presented to confirm and demonstrate our theoretical findings.
翻訳日:2022-05-30 13:36:18 公開日:2022-05-27
# missdag:連続付加雑音モデルを用いた欠落データの存在下での因果発見

MissDAG: Causal Discovery in the Presence of Missing Data with Continuous Additive Noise Models ( http://arxiv.org/abs/2205.13869v1 )

ライセンス: Link先を確認
Erdun Gao, Ignavier Ng, Mingming Gong, Li Shen, Wei Huang, Tongliang Liu, Kun Zhang, Howard Bondell(参考訳) 最先端の因果発見法は通常、観測データが完了したと仮定する。 しかし、欠落したデータ問題は、臨床試験、経済学、生物学など多くの実践的なシナリオで広く利用されている。 欠落したデータに対処する簡単な方法の1つは、まずオフザシェルフ計算法を用いてデータをインプットし、次に既存の因果発見法を適用することである。 しかし、このような二段階法では因果発見のステップを知らずにインプテーションアルゴリズムが認識できないため、最適化に支障をきたすことがある。 本論文では,不完全な観測データから因果発見を行うための一般手法であるMissDAGを開発した。 主に、無知の欠如と同定可能な付加雑音モデル(ANMs)の仮定に焦点を当て、MissDAGは、期待最大化(EM)フレームワークの下で観測される観察の可視部分の可能性を最大化する。 Eステップでは、閉形式のパラメータの後方分布の計算が不可能な場合、モンテカルロEMを利用して確率を近似する。 M-ステップでは、MissDAGは密度変換を利用して、ANMによるより単純で特異的な定式化でノイズ分布をモデル化し、誘導バイアスとして、有向非巡回グラフを持つ確率ベースの因果探索アルゴリズムを使用する。 各種因果探索アルゴリズムを組み込んだMissDAGの柔軟性について,広範囲なシミュレーションと実データ実験により検証した。

State-of-the-art causal discovery methods usually assume that the observational data is complete. However, the missing data problem is pervasive in many practical scenarios such as clinical trials, economics, and biology. One straightforward way to address the missing data problem is first to impute the data using off-the-shelf imputation methods and then apply existing causal discovery methods. However, such a two-step method may suffer from suboptimality, as the imputation algorithm is unaware of the causal discovery step. In this paper, we develop a general method, which we call MissDAG, to perform causal discovery from data with incomplete observations. Focusing mainly on the assumptions of ignorable missingness and the identifiable additive noise models (ANMs), MissDAG maximizes the expected likelihood of the visible part of observations under the expectation-maximization (EM) framework. In the E-step, in cases where computing the posterior distributions of parameters in closed-form is not feasible, Monte Carlo EM is leveraged to approximate the likelihood. In the M-step, MissDAG leverages the density transformation to model the noise distributions with simpler and specific formulations by virtue of the ANMs and uses a likelihood-based causal discovery algorithm with directed acyclic graph prior as an inductive bias. We demonstrate the flexibility of MissDAG for incorporating various causal discovery algorithms and its efficacy through extensive simulations and real data experiments.
翻訳日:2022-05-30 13:35:03 公開日:2022-05-27
# ベイズニューラルネットワークにおけるデータ拡張のテンパリング

How Tempering Fixes Data Augmentation in Bayesian Neural Networks ( http://arxiv.org/abs/2205.13900v1 )

ライセンス: Link先を確認
Gregor Bachmann, Lorenzo Noci, Thomas Hofmann(参考訳) ベイズ型ニューラルネットワーク(bnns)は、標準的なニューラルネットワークに代わる音質と原理を備えた代替手段を提供するが、後肢の研削は通常、同等の性能に達するために適用される必要がある。 これは理論とは全く対照的で、適切な事前と十分特定されたモデルが与えられた場合、モーメントのないベイズ後方が最適性能を達成するべきであると述べる。 コミュニティの広範な努力にもかかわらず、観測されたパフォーマンスの向上は、その起源を示すいくつかのもっともらしい原因といまだに議論されている。 データ拡張は、この効果の主要な要因の1つとして実証的に認識されているが、その一方で、その役割に関する理論的説明はほとんど失われている。 本研究は,冷間後効果の強度,すなわち拡張の相関特性と,そのような変換に対する採用モデルの不変度に影響を及ぼす2つの介在因子を同時に同定する。 理論的に単純化された設定を解析することにより、テンパリングは、拡張のモデル化による誤特定を暗黙的に減少させる。 温度は有効サンプルサイズの役割を模倣し、増強によって提供される情報の利得を反映している。 我々は,理論的な知見を広範な経験的評価と相関させ,現実的なBNNに拡張する。 群畳み込みの枠組みに依拠して, 固有不変度の異なるモデルについて実験を行い, 最適温度との仮説的関係を確認した。

While Bayesian neural networks (BNNs) provide a sound and principled alternative to standard neural networks, an artificial sharpening of the posterior usually needs to be applied to reach comparable performance. This is in stark contrast to theory, dictating that given an adequate prior and a well-specified model, the untempered Bayesian posterior should achieve optimal performance. Despite the community's extensive efforts, the observed gains in performance still remain disputed with several plausible causes pointing at its origin. While data augmentation has been empirically recognized as one of the main drivers of this effect, a theoretical account of its role, on the other hand, is largely missing. In this work we identify two interlaced factors concurrently influencing the strength of the cold posterior effect, namely the correlated nature of augmentations and the degree of invariance of the employed model to such transformations. By theoretically analyzing simplified settings, we prove that tempering implicitly reduces the misspecification arising from modeling augmentations as i.i.d. data. The temperature mimics the role of the effective sample size, reflecting the gain in information provided by the augmentations. We corroborate our theoretical findings with extensive empirical evaluations, scaling to realistic BNNs. By relying on the framework of group convolutions, we experiment with models of varying inherent degree of invariance, confirming its hypothesized relationship with the optimal temperature.
翻訳日:2022-05-30 13:34:36 公開日:2022-05-27
# 二重凸畳み込みニューラルネットワーク

Dual Convexified Convolutional Neural Networks ( http://arxiv.org/abs/2205.14056v1 )

ライセンス: Link先を確認
Site Bai, Chuyang Ke, Jean Honorio(参考訳) 本稿では、二重凸型畳み込みニューラルネットワーク(DCCNN)の枠組みを提案する。 本稿では,まず,ccnn(convexified convolutional neural networks)を動機とする初等的学習問題を導入し,karush-kuhn-tucker(kkt)条件とfenchel共役条件を注意深く解析し,双対凸トレーニングプログラムを構築する。 本手法は,大規模なカーネルマトリックス構築のメモリオーバーヘッドを低減し,行列の因子化のあいまいさを解消する。 CCNNの低ランク構造と関連する核ノルムのサブディファレンシャルのため、双対解から原始解を回収する閉形式表現は存在しない。 そこで本研究では,二つの解とカーネル情報を入力とし,ccnnの線形および畳み込み重みを復元する,高度に新しい重み回復アルゴリズムを提案する。 さらに,本アルゴリズムは低ランク構造を利用して,間接的に少数のフィルタを課し,パラメータサイズを小さくする。 結果として、DCCNNはよりフォーマルで効率的なワークフローを楽しみながら、CCNNの統計上の利点をすべて継承する。

We propose the framework of dual convexified convolutional neural networks (DCCNNs). In this framework, we first introduce a primal learning problem motivated from convexified convolutional neural networks (CCNNs), and then construct the dual convex training program through careful analysis of the Karush-Kuhn-Tucker (KKT) conditions and Fenchel conjugates. Our approach reduces the memory overhead of constructing a large kernel matrix and eliminates the ambiguity of factorizing the matrix. Due to the low-rank structure in CCNNs and the related subdifferential of nuclear norms, there is no closed-form expression to recover the primal solution from the dual solution. To overcome this, we propose a highly novel weight recovery algorithm, which takes the dual solution and the kernel information as the input, and recovers the linear and convolutional weights of a CCNN. Furthermore, our recovery algorithm exploits the low-rank structure and imposes a small number of filters indirectly, which reduces the parameter size. As a result, DCCNNs inherit all the statistical benefits of CCNNs, while enjoying a more formal and efficient workflow.
翻訳日:2022-05-30 13:34:13 公開日:2022-05-27
# x-vit:softmaxのない高性能リニアビジョントランスフォーマ

X-ViT: High Performance Linear Vision Transformer without Softmax ( http://arxiv.org/abs/2205.13805v1 )

ライセンス: Link先を確認
Jeonggeun Song, Heung-Chang Lee(参考訳) ビジョントランスフォーマーはコンピュータビジョンタスクにおいて最も重要なモデルの1つとなっている。 それらは以前の作業より優れているが、トークンの数に2倍のスケールで計算資源を要し、$N$である。 これは従来の自己注意(SA)アルゴリズムの大きな欠点である。 本稿では,線形複雑性を持つ新しいSA機構を持つX-ViT, ViTを提案する。 この研究の主なアプローチは、元のSAから非線形性を取り除くことである。 複雑な線形近似を伴わないSA機構の行列乗算を分解する。 元のSAからわずか数行のコードを変更することで、提案されたモデルは、ほとんどのキャパシティレギュレーションにおける画像分類と高密度予測タスクにおいて、ほとんどのトランスフォーマーベースモデルより優れている。

Vision transformers have become one of the most important models for computer vision tasks. Although they outperform prior works, they require heavy computational resources on a scale that is quadratic to the number of tokens, $N$. This is a major drawback of the traditional self-attention (SA) algorithm. Here, we propose the X-ViT, ViT with a novel SA mechanism that has linear complexity. The main approach of this work is to eliminate nonlinearity from the original SA. We factorize the matrix multiplication of the SA mechanism without complicated linear approximation. By modifying only a few lines of code from the original SA, the proposed models outperform most transformer-based models on image classification and dense prediction tasks on most capacity regimes.
翻訳日:2022-05-30 13:33:52 公開日:2022-05-27
# 多施設CBCTスキャンにおける深層学習セグメントと多段階注釈下顎管の比較

Comparison of Deep Learning Segmentation and Multigrader-annotated Mandibular Canals of Multicenter CBCT scans ( http://arxiv.org/abs/2205.13874v1 )

ライセンス: Link先を確認
Jorma J\"arnstedt, Jaakko Sahlsten, Joel Jaskari, Kimmo Kaski, Helena Mehtonen, Ziyuan Lin, Ari Hietanen, Osku Sundqvist, Vesa Varjonen, Vesa Mattila, Sangsom Prapayasotok and Sakarat Nalampang(参考訳) 深層学習(Deep Learning)アプローチはCBCTスキャンから両側下顎管を自動的に分割することが実証されているが,臨床および臨床検査の体系的研究は乏しい。 深層学習システム (dls) の下顎管定位精度を検証するために, 982 cbct スキャンで訓練し, 4人の放射線科医が注釈を付けて, ヨーロッパ, 東南アジアのクリニカルワークフロー患者5名のスキャナを150スキャンで評価した。 観察者間変動はdlsと放射線科医の変動と比較された。 さらに、トレーニングデータに使用されていないスキャナーからCBCTスキャンへのDLSの一般化について検討し、分布外一般化能力の評価を行った。 dlsは、それらの間の観測者間変動よりも放射線科医の変動性が低く、3つの新しい装置に一般化することができた。 放射線学者のコンセンサス・セグメンテーションでは、DLSは0.62mm、0.55mm、0.47mm、0.42mmと対称平均曲線距離が0.39mmであった。 DLSは, 放射線技師と新しいスキャナーの一般化能力により, 下顎管の区分けにおいて同等あるいはわずかに優れた性能を示した。

Deep learning approach has been demonstrated to automatically segment the bilateral mandibular canals from CBCT scans, yet systematic studies of its clinical and technical validation are scarce. To validate the mandibular canal localization accuracy of a deep learning system (DLS) we trained it with 982 CBCT scans and evaluated using 150 scans of five scanners from clinical workflow patients of European and Southeast Asian Institutes, annotated by four radiologists. The interobserver variability was compared to the variability between the DLS and the radiologists. In addition, the generalization of DLS to CBCT scans from scanners not used in the training data was examined to evaluate the out-of-distribution generalization capability. The DLS had lower variability to the radiologists than the interobserver variability between them and it was able to generalize to three new devices. For the radiologists' consensus segmentation, used as gold standard, the DLS had a symmetric mean curve distance of 0.39 mm compared to those of the individual radiologists with 0.62 mm, 0.55 mm, 0.47 mm, and 0.42 mm. The DLS showed comparable or slightly better performance in the segmentation of the mandibular canal with the radiologists and generalization capability to new scanners.
翻訳日:2022-05-30 13:32:32 公開日:2022-05-27
# 動的ドメイン一般化

Dynamic Domain Generalization ( http://arxiv.org/abs/2205.13913v1 )

ライセンス: Link先を確認
Zhishu Sun, Zhifeng Shen, Luojun Lin, Yuanlong Yu, Zhifeng Yang, Shicai Yang, Weijie Chen(参考訳) ドメイン一般化(Domain Generalization, DG)は、機械学習における基本的な研究課題である。 既存のアーティファクトは主に静的モデルで限られたソースドメインでドメイン不変の機能を学ぶことに焦点を当てている。 残念ながら、非依存のターゲットドメインに一般化したときにモデルを調整するためのトレーニングフリーなメカニズムが欠如している。 この問題に対処するため、我々は新しいDG変種である動的ドメイン一般化(DDG)を開発し、モデルが異なるドメインからのデータに適応するためにネットワークパラメータをツイストすることを学ぶ。 具体的には、メタ調整器を利用して、異なるドメインの異なるデータに対して静的モデルに基づいてネットワークパラメータをねじる。 このように、静的モデルはドメイン共有機能を学ぶために最適化され、メタ調整器はドメイン固有の機能を学ぶために設計されている。 このプロセスを有効にするために、meta-adjusterに今後の非依存なターゲットドメインへの適応を教える際に、さまざまなドメインからのデータをシミュレートするためにdomainmixが利用される。 この学習メカニズムは、モデルをトレーニングなしで調整することで、モデルを異なる非依存のターゲットドメインに一般化するように促す。 提案手法の有効性を示す広範な実験を行った。 コードは、https://github.com/MetaVisionLab/DDGで入手できる。

Domain generalization (DG) is a fundamental yet very challenging research topic in machine learning. The existing arts mainly focus on learning domain-invariant features with limited source domains in a static model. Unfortunately, there is a lack of training-free mechanism to adjust the model when generalized to the agnostic target domains. To tackle this problem, we develop a brand-new DG variant, namely Dynamic Domain Generalization (DDG), in which the model learns to twist the network parameters to adapt the data from different domains. Specifically, we leverage a meta-adjuster to twist the network parameters based on the static model with respect to different data from different domains. In this way, the static model is optimized to learn domain-shared features, while the meta-adjuster is designed to learn domain-specific features. To enable this process, DomainMix is exploited to simulate data from diverse domains during teaching the meta-adjuster to adapt to the upcoming agnostic target domains. This learning mechanism urges the model to generalize to different agnostic target domains via adjusting the model without training. Extensive experiments demonstrate the effectiveness of our proposed method. Code is available at: https://github.com/MetaVisionLab/DDG
翻訳日:2022-05-30 13:32:06 公開日:2022-05-27
# 複雑・自然的ビデオのための簡易な教師なしオブジェクト指向学習

Simple Unsupervised Object-Centric Learning for Complex and Naturalistic Videos ( http://arxiv.org/abs/2205.14065v1 )

ライセンス: Link先を確認
Gautam Singh, Yi-Fu Wu, Sungjin Ahn(参考訳) 教師なしのオブジェクト中心学習は、シーンのモジュール構造、構成構造、因果構造をオブジェクト表現の集合として表現することを目的としており、結果として、体系的一般化の貧弱など、従来の単一ベクトル表現の多くの重要な制限を解決することを約束する。 近年、多くの顕著な進歩があったが、この方向の最も重要な問題は、従来の手法が単純で合成的なシーンでしか機能せず、複雑で自然主義的なイメージやビデオで機能しないことである。 本稿では,ビデオにおける対象中心学習の教師なしモデルであるSTEVEを提案する。 提案手法は,本研究で前例のない複雑で自然主義的な映像に対して,その効果を示すことによって,大きな進歩を遂げている。 興味深いことに、これはモデルアーキテクチャに複雑さを加えることも、新しい目的や弱い監督を導入することもない。 むしろ、スロットに条件付きトランスフォーマーベースのイメージデコーダを使用する驚くほど単純なアーキテクチャで実現されており、学習目的は単に観察を再構築することである。 本実験は, 従来の最先端技術と比較して, 様々な複雑で自然主義的なビデオに対して有意な改善が認められた。

Unsupervised object-centric learning aims to represent the modular, compositional, and causal structure of a scene as a set of object representations and thereby promises to resolve many critical limitations of traditional single-vector representations such as poor systematic generalization. Although there have been many remarkable advances in recent years, one of the most critical problems in this direction has been that previous methods work only with simple and synthetic scenes but not with complex and naturalistic images or videos. In this paper, we propose STEVE, an unsupervised model for object-centric learning in videos. Our proposed model makes a significant advancement by demonstrating its effectiveness on various complex and naturalistic videos unprecedented in this line of research. Interestingly, this is achieved by neither adding complexity to the model architecture nor introducing a new objective or weak supervision. Rather, it is achieved by a surprisingly simple architecture that uses a transformer-based image decoder conditioned on slots and the learning objective is simply to reconstruct the observation. Our experiment results on various complex and naturalistic videos show significant improvements compared to the previous state-of-the-art.
翻訳日:2022-05-30 13:31:46 公開日:2022-05-27
# 多項式によるスケーラブルな解釈可能性

Scalable Interpretability via Polynomials ( http://arxiv.org/abs/2205.14108v1 )

ライセンス: Link先を確認
Abhimanyu Dubey, Filip Radenovic and Dhruv Mahajan(参考訳) GAM(Generalized Additive Models)は、完全に解釈可能な機械学習の主要な選択肢である。 しかし、DNNのような解釈不能な方法とは異なり、表現力やスケーラビリティに欠けており、現実のタスクでは実現不可能である。 我々は、多項式のテンソル階分解を用いて、$\textit{fully-interpretable}$モデルを学ぶ新しいクラスを示す。 当社のアプローチは,SPAM(Scalable Polynomial Additive Models)と題され,拡張性に富むもので,組合せパラメータの爆発を伴わない高次特徴相互作用をモデルとする。 SPAMは現在の解釈可能なアプローチをすべて上回り、DNN/XGBoostのパフォーマンスを数十万のフィーチャを持つ実世界のベンチマークで比較する。 本研究では,SPAMが実際により解釈可能であり,大規模機械学習に適した解釈可能かつ高性能なシステムを構築する上で,DNNの代替となることを示す。

Generalized Additive Models (GAMs) have quickly become the leading choice for fully-interpretable machine learning. However, unlike uninterpretable methods such as DNNs, they lack expressive power and easy scalability, and are hence not a feasible alternative for real-world tasks. We present a new class of GAMs that use tensor rank decompositions of polynomials to learn powerful, $\textit{fully-interpretable}$ models. Our approach, titled Scalable Polynomial Additive Models (SPAM) is effortlessly scalable and models $\textit{all}$ higher-order feature interactions without a combinatorial parameter explosion. SPAM outperforms all current interpretable approaches, and matches DNN/XGBoost performance on a series of real-world benchmarks with up to hundreds of thousands of features. We demonstrate by human subject evaluations that SPAMs are demonstrably more interpretable in practice, and are hence an effortless replacement for DNNs for creating interpretable and high-performance systems suitable for large-scale machine learning.
翻訳日:2022-05-30 13:31:27 公開日:2022-05-27
# 解釈性のためのニューラルベースモデル

Neural Basis Models for Interpretability ( http://arxiv.org/abs/2205.14120v1 )

ライセンス: Link先を確認
Filip Radenovic, Abhimanyu Dubey and Dhruv Mahajan(参考訳) 現実のアプリケーションで複雑な機械学習モデルが広く使われているため、モデル予測を説明することが重要になっている。 しかしながら、これらのモデルは一般的にブラックボックスのディープニューラルネットワークであり、既知の忠実性制限のあるメソッドを介してポストホックを説明する。 一般化加法モデル(GAMs)は、各特徴に対する非線形形状関数を別々に学習し、その上に線形モデルが続くことによって、この制限に対処する本質的に解釈可能なモデルのクラスである。 しかし、これらのモデルは通常、訓練が難しく、多くのパラメータが必要であり、スケーリングが難しい。 形状関数の基底分解を利用したGAMの全く新しいサブファミリーを提案する。 全ての特徴において少数の基本関数が共有され、与えられたタスクに対して共同で学習されるので、特に機能が不足している場合に、高次元の特徴を持つ大規模データよりも、モデルスケールがはるかに良くなる。 本稿では,単一のニューラルネットワークを用いて学習するニューラル基底モデル(nbm)と呼ばれるアーキテクチャを提案する。 様々な表や画像のデータセットにおいて、解釈可能な機械学習では、NBMは精度、モデルサイズ、スループットの最先端技術であり、全ての高階特徴相互作用を簡単にモデル化できることを実証する。

Due to the widespread use of complex machine learning models in real-world applications, it is becoming critical to explain model predictions. However, these models are typically black-box deep neural networks, explained post-hoc via methods with known faithfulness limitations. Generalized Additive Models (GAMs) are an inherently interpretable class of models that address this limitation by learning a non-linear shape function for each feature separately, followed by a linear model on top. However, these models are typically difficult to train, require numerous parameters, and are difficult to scale. We propose an entirely new subfamily of GAMs that utilizes basis decomposition of shape functions. A small number of basis functions are shared among all features, and are learned jointly for a given task, thus making our model scale much better to large-scale data with high-dimensional features, especially when features are sparse. We propose an architecture denoted as the Neural Basis Model (NBM) which uses a single neural network to learn these bases. On a variety of tabular and image datasets, we demonstrate that for interpretable machine learning, NBMs are the state-of-the-art in accuracy, model size, and, throughput and can easily model all higher-order feature interactions.
翻訳日:2022-05-30 13:31:11 公開日:2022-05-27
# 変分する機械:人間の分類を再学習する

Subverting machines, fluctuating identities: Re-learning human categorization ( http://arxiv.org/abs/2205.13740v1 )

ライセンス: Link先を確認
Christina Lu, Jackie Kay, Kevin R. McKee(参考訳) 人間と対話するほとんどの機械学習システムは、人の“アイデンティティ”という概念を構築しているが、ai研究のデフォルトパラダイムは、離散的で静的な特性を持つアイデンティティを想定している。 対照的に、批判理論における思考のストランドは、アイデンティティの概念を可鍛性として提示し、相互作用によって完全に構築される。 本研究は,機械学習の実践者を対象にこれらのアイデアのいくつかを蒸留し,自己ポエシス, 形成過程, 機能過程としてのアイデンティティの理論を導入する。 我々は、フィールドが使用する既定のアイデンティティパラダイムは、モデルに反復的なフィードバックがないため、既存のアイデンティティカテゴリとco$\unicode{x2010}$occurのパワー差を固定化すると主張している。 これには、デフォルトパラダイムを課し続ける緊急のaiフェアネスプラクティスに対する批判が含まれている。 最後に,本理論を多段階最適化と関係学習による自己ポエティック・アイデンティティへのアプローチのスケッチに適用する。 これらのアイデアは多くの疑問を提起する一方で、人間のアイデンティティを絶え間なく流動的な関係として表現できる機械の可能性について想像する。

Most machine learning systems that interact with humans construct some notion of a person's "identity," yet the default paradigm in AI research envisions identity with essential attributes that are discrete and static. In stark contrast, strands of thought within critical theory present a conception of identity as malleable and constructed entirely through interaction; a doing rather than a being. In this work, we distill some of these ideas for machine learning practitioners and introduce a theory of identity as autopoiesis, circular processes of formation and function. We argue that the default paradigm of identity used by the field immobilizes existing identity categories and the power differentials that co$\unicode{x2010}$occur, due to the absence of iterative feedback to our models. This includes a critique of emergent AI fairness practices that continue to impose the default paradigm. Finally, we apply our theory to sketch approaches to autopoietic identity through multilevel optimization and relational learning. While these ideas raise many open questions, we imagine the possibilities of machines that are capable of expressing human identity as a relationship perpetually in flux.
翻訳日:2022-05-30 13:27:33 公開日:2022-05-27
# 半緩和最適輸送問題に対するブロック座標Frank-Wolfeアルゴリズムと収束解析

Block-coordinate Frank-Wolfe algorithm and convergence analysis for semi-relaxed optimal transport problem ( http://arxiv.org/abs/2205.13766v1 )

ライセンス: Link先を確認
Takumi Fukunaga and Hiroyuki Kasai(参考訳) 最適輸送(OT)問題は機械学習に広く用いられている。 厳密な大量保存制約で線形プログラミングを解くためには,OT問題の計算が必要である。 これらの制約は大規模な問題への適用を妨げる。 このような制約を緩めることで、より高速なアルゴリズムを用いて緩和OT法を提案することができる。 このアプローチは、アプリケーションの有効性を示している。 しかし、それはまだ遅い。 優れた代替手段として、凸半緩和OTに対する高速ブロック座標Frank-Wolfe (BCFW)アルゴリズムを提案する。 具体的には、最悪の収束反復の上限と、線型化双対性ギャップとラグランジアン双対性ギャップの等価性を証明する。 さらに,提案するbcfwの高速変種を2種類開発した。 数値実験により,提案アルゴリズムはカラー転送に有効であり,最先端アルゴリズムを超越することを示した。 本報告では、arXiv:2103.05857の短いバージョンを示す。

The optimal transport (OT) problem has been used widely for machine learning. It is necessary for computation of an OT problem to solve linear programming with tight mass-conservation constraints. These constraints prevent its application to large-scale problems. To address this issue, loosening such constraints enables us to propose the relaxed-OT method using a faster algorithm. This approach has demonstrated its effectiveness for applications. However, it remains slow. As a superior alternative, we propose a fast block-coordinate Frank-Wolfe (BCFW) algorithm for a convex semi-relaxed OT. Specifically, we prove their upper bounds of the worst convergence iterations, and equivalence between the linearization duality gap and the Lagrangian duality gap. Additionally, we develop two fast variants of the proposed BCFW. Numerical experiments have demonstrated that our proposed algorithms are effective for color transfer and surpass state-of-the-art algorithms. This report presents a short version of arXiv:2103.05857.
翻訳日:2022-05-30 13:27:14 公開日:2022-05-27
# 世界モデルにおける制御可能・制御不能な視覚ダイナミクスの分離と活用

Isolating and Leveraging Controllable and Noncontrollable Visual Dynamics in World Models ( http://arxiv.org/abs/2205.13817v1 )

ライセンス: Link先を確認
Minting Pan, Xiangming Zhu, Yunbo Wang, Xiaokang Yang(参考訳) 世界モデルは、視覚に基づく対話システムにおける行動の結果を学ぶ。 しかし、自律運転のような現実的なシナリオでは、アクション信号とは独立して制御不能なダイナミクスが存在するため、効果的な世界モデルを学ぶことは困難である。 そこで本研究では,2つの側面から,夢と制御の枠組みを改良したiso-dreamという新しい強化学習手法を提案する。 まず, 逆ダイナミクスを最適化することにより, 世界モデルに対して, 孤立状態遷移枝における時空間変化の制御可能かつ制御不能な源を学ぶことを促す。 第2に、エージェントの挙動を世界モデルの切り離された潜在的想像力に最適化する。 具体的には、状態値を推定するために、制御不能な状態を未来にロールアウトし、現在の制御可能状態と関連付ける。 このように、動力源の分離は、例えば、他の車両の動きを予測して潜在的なリスクを避ける自動運転車のような、エージェントの長期的な意思決定に大きな利益をもたらす。 実験によれば、iso-dreamは混合ダイナミクスの分離に効果的であり、幅広いビジュアル制御と予測領域において既存のアプローチを著しく上回っている。

World models learn the consequences of actions in vision-based interactive systems. However, in practical scenarios such as autonomous driving, there commonly exists noncontrollable dynamics independent of the action signals, making it difficult to learn effective world models. To tackle this problem, we present a novel reinforcement learning approach named Iso-Dream, which improves the Dream-to-Control framework in two aspects. First, by optimizing the inverse dynamics, we encourage the world model to learn controllable and noncontrollable sources of spatiotemporal changes on isolated state transition branches. Second, we optimize the behavior of the agent on the decoupled latent imaginations of the world model. Specifically, to estimate state values, we roll-out the noncontrollable states into the future and associate them with the current controllable state. In this way, the isolation of dynamics sources can greatly benefit long-horizon decision-making of the agent, such as a self-driving car that can avoid potential risks by anticipating the movement of other vehicles. Experiments show that Iso-Dream is effective in decoupling the mixed dynamics and remarkably outperforms existing approaches in a wide range of visual control and prediction domains.
翻訳日:2022-05-30 13:26:59 公開日:2022-05-27
# 限界制約とot距離ギャップをもつ半相対シンクホーンの収束について

On the Convergence of Semi-Relaxed Sinkhorn with Marginal Constraint and OT Distance Gaps ( http://arxiv.org/abs/2205.13846v1 )

ライセンス: Link先を確認
Takumi Fukunaga and Hiroyuki Kasai(参考訳) 本稿では,Semi-Relaxed Sinkhorn (SR-Sinkhorn) アルゴリズムを用いて,標準OT問題の限界制約を緩和する半緩和最適輸送(SROT)問題について考察する。 制約緩和がアルゴリズムの挙動や解にどのように影響するかを評価するためには、関数値ギャップだけでなく、限界制約ギャップやOT距離ギャップについても理論収束解析を提示する必要がある。 しかし、すべての分析に同時に対処する作業は行われていない。 本稿では,sr-sinkhornの包括的収束解析について述べる。 新しい証明戦略に基づいて関数値ギャップの$\epsilon$-approximationを提示し、この証明戦略を利用した後、限界制約ギャップの上限を与える。 また、2つの分布が確率単純度にあるときの$\epsilon$-approximationへの収束も提供する。 さらに、OT距離ギャップの$\epsilon$-approximationへの収束解析は、得られた限界制約ギャップの補助として与えられる。 後者の2つの理論的結果は、SROT問題に関する文献で示された最初の結果である。

This paper presents consideration of the Semi-Relaxed Sinkhorn (SR-Sinkhorn) algorithm for the semi-relaxed optimal transport (SROT) problem, which relaxes one marginal constraint of the standard OT problem. For evaluation of how the constraint relaxation affects the algorithm behavior and solution, it is vitally necessary to present the theoretical convergence analysis in terms not only of the functional value gap, but also of the marginal constraint gap as well as the OT distance gap. However, no existing work has addressed all analyses simultaneously. To this end, this paper presents a comprehensive convergence analysis for SR-Sinkhorn. After presenting the $\epsilon$-approximation of the functional value gap based on a new proof strategy and exploiting this proof strategy, we give the upper bound of the marginal constraint gap. We also provide its convergence to the $\epsilon$-approximation when two distributions are in the probability simplex. Furthermore, the convergence analysis of the OT distance gap to the $\epsilon$-approximation is given as assisted by the obtained marginal constraint gap. The latter two theoretical results are the first results presented in the literature related to the SROT problem.
翻訳日:2022-05-30 13:26:39 公開日:2022-05-27
# MIMII DG: 産業機械の故障調査のための音響データセットと領域一般化タスクの検査

MIMII DG: Sound Dataset for Malfunctioning Industrial Machine Investigation and Inspection for Domain Generalization Task ( http://arxiv.org/abs/2205.13879v1 )

ライセンス: Link先を確認
Kota Dohi, Tomoya Nishida, Harsh Purohit, Ryo Tanabe, Takashi Endo, Masaaki Yamamoto, Yuki Nikaido, and Yohei Kawaguchi(参考訳) 本稿では,異常音検出(asd)のためのベンチマーク領域一般化手法として,機械音響データセットを提案する。 ドメインシフトの検出や適応が難しい、あるいは頻繁なドメインシフトによるパフォーマンス劣化に対処するため、ドメイン一般化技術が好まれる。 しかし、現在利用可能なデータセットは、ドメインシフトを引き起こすパラメータ(ドメインシフトパラメータ)の値数が限られているなど、これらのテクニックを評価するのに困難である。 本稿では,MIMII DG と呼ばれる領域一般化技術のための最初の ASD データセットを提案する。 データセットは5つのマシンタイプと3つのドメインシフトシナリオで構成されている。 ソースドメイン内の領域シフトパラメータに対して,少なくとも2つの値を用意した。 また、気づくのが難しいようなドメインシフトも導入しました。 2つのベースラインシステムを用いた実験結果は、データセットがドメインシフトシナリオを再現することを示している。

We present a machine sound dataset to benchmark domain generalization techniques for anomalous sound detection (ASD). To handle performance degradation caused by domain shifts that are difficult to detect or too frequent to adapt, domain generalization techniques are preferred. However, currently available datasets have difficulties in evaluating these techniques, such as limited number of values for parameters that cause domain shifts (domain shift parameters). In this paper, we present the first ASD dataset for the domain generalization techniques, called MIMII DG. The dataset consists of five machine types and three domain shift scenarios for each machine type. We prepared at least two values for the domain shift parameters in the source domain. Also, we introduced domain shifts that can be difficult to notice. Experimental results using two baseline systems indicate that the dataset reproduces the domain shift scenarios and is useful for benchmarking domain generalization techniques.
翻訳日:2022-05-30 13:25:05 公開日:2022-05-27
# 動的アルゴリズムの自動構成

Automated Dynamic Algorithm Configuration ( http://arxiv.org/abs/2205.13881v1 )

ライセンス: Link先を確認
Steven Adriaensen, Andr\'e Biedenkapp, Gresa Shala, Noor Awad, Theresa Eimer, Marius Lindauer and Frank Hutter(参考訳) アルゴリズムの性能は、しばしばパラメータの設定に依存する。 パラメータを手動でチューニングする面倒でエラーを起こしやすいタスクを省くために、さまざまな自動アルゴリズム構成法が提案されているが、学習された設定が静的であるため、まだ未解決の可能性が残っている。 しかし、アルゴリズムパラメータのいくつかは実行中に動的に調整され、例えば最適化の現在の状況に適応することが示されている。 これまでのところ、これは手作りのヒューリスティックスによって最も一般的に達成されている。 最近の有望な代替手段は、データからそのような動的パラメータ適応ポリシーを自動的に学習することである。 本稿では、この新しい分野である自動動的アルゴリズム構成(DAC)の総合的な説明を行い、最近の進歩を概説し、この分野における将来の研究の確かな基盤を提供する。 具体的には i)AI研究のより広範な歴史的文脈におけるDAC 二 計算問題としてDACを定式化する。 (iii)この問題に取り組むのに先行技術で用いられる方法を特定すること。 (4)進化最適化,AI計画,機械学習においてDACを用いた実証事例研究を行う。

The performance of an algorithm often critically depends on its parameter configuration. While a variety of automated algorithm configuration methods have been proposed to relieve users from the tedious and error-prone task of manually tuning parameters, there is still a lot of untapped potential as the learned configuration is static, i.e., parameter settings remain fixed throughout the run. However, it has been shown that some algorithm parameters are best adjusted dynamically during execution, e.g., to adapt to the current part of the optimization landscape. Thus far, this is most commonly achieved through hand-crafted heuristics. A promising recent alternative is to automatically learn such dynamic parameter adaptation policies from data. In this article, we give the first comprehensive account of this new field of automated dynamic algorithm configuration (DAC), present a series of recent advances, and provide a solid foundation for future research in this field. Specifically, we (i) situate DAC in the broader historical context of AI research; (ii) formalize DAC as a computational problem; (iii) identify the methods used in prior-art to tackle this problem; (iv) conduct empirical case studies for using DAC in evolutionary optimization, AI planning, and machine learning.
翻訳日:2022-05-30 13:24:50 公開日:2022-05-27
# (参考訳) 効率的な探索による組合せグラフ分割問題の解法

Learning to Solve Combinatorial Graph Partitioning Problems via Efficient Exploration ( http://arxiv.org/abs/2205.14105v1 )

ライセンス: CC BY 4.0
Thomas D. Barrett, Christopher W.F. Parsonson and Alexandre Laterre(参考訳) ロジスティクスから自然科学まで、グラフ上の組合せ最適化は多くの実世界の応用を支える。 強化学習(rl)は、特定の問題構造に適応可能であり、これらの(しばしばnpハードな)問題に対して事前解決されたインスタンスを必要としないため、この設定で特に有望である。 しかし、最先端のSOTA(State-of-the-art)アプローチは一般的に、決定ステップ毎に高価なグラフニューラルネットワーク(GNN)に依存しているため、深刻なスケーラビリティの問題に悩まされる。 本稿では,gnnを単一前処理ステップに制限し,リカレントユニットが指示する高速探索フェーズに入ることで,このコストを軽減する新しいrlアルゴリズムであるecordを提案する。 実験的に、ECORDは最大カット問題において、RLアルゴリズムのための新しいSOTAを達成し、また、速度とスケーラビリティの桁違いの改善も提供する。 最寄りの競合と比較して、ECORDは、壁時計時間を短縮した500頂点グラフにおいて、最適性ギャップを最大73%削減する。 さらに、ECORDは、最大10000頂点のグラフに一般化する場合、高いパフォーマンスを維持する。

From logistics to the natural sciences, combinatorial optimisation on graphs underpins numerous real-world applications. Reinforcement learning (RL) has shown particular promise in this setting as it can adapt to specific problem structures and does not require pre-solved instances for these, often NP-hard, problems. However, state-of-the-art (SOTA) approaches typically suffer from severe scalability issues, primarily due to their reliance on expensive graph neural networks (GNNs) at each decision step. We introduce ECORD; a novel RL algorithm that alleviates this expense by restricting the GNN to a single pre-processing step, before entering a fast-acting exploratory phase directed by a recurrent unit. Experimentally, ECORD achieves a new SOTA for RL algorithms on the Maximum Cut problem, whilst also providing orders of magnitude improvement in speed and scalability. Compared to the nearest competitor, ECORD reduces the optimality gap by up to 73% on 500 vertex graphs with a decreased wall-clock time. Moreover, ECORD retains strong performance when generalising to larger graphs with up to 10000 vertices.
翻訳日:2022-05-30 13:20:53 公開日:2022-05-27
# 構造を考慮したスパース注意による長期プログラミング言語理解

Understanding Long Programming Languages with Structure-Aware Sparse Attention ( http://arxiv.org/abs/2205.13730v1 )

ライセンス: Link先を確認
Tingting Liu, Chengyu Wang, Cen Chen, Ming Gao, Aoying Zhou(参考訳) CodeBERTのようなプログラミングベースの事前訓練言語モデル(PPLM)は多くの下流のコード関連タスクで大きな成功を収めた。 トランスの自己アテンションのメモリと計算の複雑さはシーケンス長と二次的に増加するので、pplmは通常符号長を512に制限する。 しかし、実世界のアプリケーションでは、既存のPPLMでは効率的に処理できないコード検索など、一般的に長いコードがある。 そこで本稿では,構造を意識したスパースアテンション機構であるsasaを提案し,複雑さを低減し,長いコード理解タスクの性能を向上させる。 SASAの主要なコンポーネントは、上位$kのスパースアテンションとAST(Abstract Syntax Tree)ベースの構造アテンションである。 トップ$k$の注意をそらすことで、最も重要な注意関係は低い計算コストで得られる。 コード構造は、コードシーケンス特性を補完するコードステートメントのロジックを表現するので、さらにast構造に注意を向ける。 CodeXGLUEタスクの大規模な実験は、SASAが競合するベースラインよりも優れたパフォーマンスを達成することを示している。

Programming-based Pre-trained Language Models (PPLMs) such as CodeBERT have achieved great success in many downstream code-related tasks. Since the memory and computational complexity of self-attention in the Transformer grow quadratically with the sequence length, PPLMs typically limit the code length to 512. However, codes in real-world applications are generally long, such as code searches, which cannot be processed efficiently by existing PPLMs. To solve this problem, in this paper, we present SASA, a Structure-Aware Sparse Attention mechanism, which reduces the complexity and improves performance for long code understanding tasks. The key components in SASA are top-$k$ sparse attention and Abstract Syntax Tree (AST)-based structure-aware attention. With top-$k$ sparse attention, the most crucial attention relation can be obtained with a lower computational cost. As the code structure represents the logic of the code statements, which is a complement to the code sequence characteristics, we further introduce AST structures into attention. Extensive experiments on CodeXGLUE tasks show that SASA achieves better performance than the competing baselines.
翻訳日:2022-05-30 12:57:39 公開日:2022-05-27
# Commonsense and Named Entity Aware Knowledge Grounded Dialogue Generation

Commonsense and Named Entity Aware Knowledge Grounded Dialogue Generation ( http://arxiv.org/abs/2205.13928v1 )

ライセンス: Link先を確認
Deeksha Varshney, Akshara Prabhakar, Asif Ekbal(参考訳) 対話の理解と生成には,外的知識に基づく対話や,エロプシス,アナフォラ,コレファレンスといった言語パターンの解釈が不可欠である。 本稿では,各発話に関連する非構造化話題固有知識に加えて,大規模コモンセンスと名前付きエンティティベース知識を効果的に活用するオープンドメイン対話生成モデルを提案する。 共参照を用いた名前付きエンティティ認識構造を用いてコモンセンス知識を強化する。 提案モデルは対話履歴と関連する知識の最も正確かつ重要な部分を保存するためにマルチホップアテンション層を利用する。 さらに、さまざまなソースから抽出されたトリプルから始まるCommonsense and Named Entity Enhanced Attention Moduleを使用し、対話型対話理解モジュールから得られるクエリベクトルとマルチホップアテンションを用いて、関連する3つ組のサポートセットを徐々に見つける。 2つのベンチマークデータセットの実証結果は、我々のモデルが自動評価指標と人的判断の両方で最先端の手法を大幅に上回っていることを示している。 我々のコードは、 \href{https://github.com/deekshaVarshney/CNTF}{https://github.com/deekshaVarshney/CNTF}; \href{https://www.iitp.ac.in/~ai-nlp-ml/resources/codes/CNTF.zip}{https://www.iitp.ac.in/-ai-nlp-ml/resources/codes/CNTF.zip} で公開されている。

Grounding dialogue on external knowledge and interpreting linguistic patterns in dialogue history context, such as ellipsis, anaphora, and co-references is critical for dialogue comprehension and generation. In this paper, we present a novel open-domain dialogue generation model which effectively utilizes the large-scale commonsense and named entity based knowledge in addition to the unstructured topic-specific knowledge associated with each utterance. We enhance the commonsense knowledge with named entity-aware structures using co-references. Our proposed model utilizes a multi-hop attention layer to preserve the most accurate and critical parts of the dialogue history and the associated knowledge. In addition, we employ a Commonsense and Named Entity Enhanced Attention Module, which starts with the extracted triples from various sources and gradually finds the relevant supporting set of triples using multi-hop attention with the query vector obtained from the interactive dialogue-knowledge module. Empirical results on two benchmark dataset demonstrate that our model significantly outperforms the state-of-the-art methods in terms of both automatic evaluation metrics and human judgment. Our code is publicly available at \href{https://github.com/deekshaVarshney/CNTF}{https://github.com/deekshaVarshney/CNTF}; \href{https://www.iitp.ac.in/~ai-nlp-ml/resources/codes/CNTF.zip}{https://www.iitp.ac.in/-ai-nlp-ml/resources/ codes/CNTF.zip}.
翻訳日:2022-05-30 12:57:23 公開日:2022-05-27
# V-Doc : 文書による視覚的質問

V-Doc : Visual questions answers with Documents ( http://arxiv.org/abs/2205.13724v1 )

ライセンス: Link先を確認
Yihao Ding, Zhe Huang, Runlin Wang, Yanhang Zhang, Xianru Chen, Yuzhong Ma, Hyunsuk Chung and Soyeon Caren Han(参考訳) 本稿では,文書画像とPDFを用いた質問応答ツールであるV-Docを提案する。 V-Docは、文書イメージを使用して抽出的および抽象的な問合せペアの生成と使用をサポートする。 抽出QAは、文書内容からトークンまたはフレーズのサブセットを選択して回答を予測する一方、抽象QAは内容中の言語を認識し、訓練されたモデルに基づいて回答を生成する。 どちらの側面も、特に画像フォーマットで文書を理解するのに不可欠である。 抽象的なQAタスクに対する質問生成の詳細なシナリオを含める。 V-Docは幅広いデータセットとモデルをサポートし、宣言的なフレームワークに依存しないプラットフォームを通じて非常に拡張性が高い。

We propose V-Doc, a question-answering tool using document images and PDF, mainly for researchers and general non-deep learning experts looking to generate, process, and understand the document visual question answering tasks. The V-Doc supports generating and using both extractive and abstractive question-answer pairs using documents images. The extractive QA selects a subset of tokens or phrases from the document contents to predict the answers, while the abstractive QA recognises the language in the content and generates the answer based on the trained model. Both aspects are crucial to understanding the documents, especially in an image format. We include a detailed scenario of question generation for the abstractive QA task. V-Doc supports a wide range of datasets and models, and is highly extensible through a declarative, framework-agnostic platform.
翻訳日:2022-05-30 12:56:49 公開日:2022-05-27
# アーキテクチャに依存しないマスク付き画像モデリング - ViTからCNNへ

Architecture-Agnostic Masked Image Modeling -- From ViT back to CNN ( http://arxiv.org/abs/2205.13943v1 )

ライセンス: Link先を確認
Siyuan Li, Di Wu, Fang Wu, Zelin Zang, Kai Wang, Lei Shang, Baigui Sun, Hao Li, Stan.Z.Li(参考訳) Masked Image Modeling (MIM) は、視覚トランスフォーマー(ViT)を用いた多くの下流視覚タスクにおいて、目覚ましい成功を収めている。 その基本的な考え方は単純で、入力画像の一部がランダムにマスクアウトされ、テキスト前タスクによって再構築される。 しかし、なぜMIMがうまく機能するのかはよく説明されておらず、以前の研究では、MIMは主にTransformerファミリーで機能するが、CNNと互換性がないと主張している。 本稿では,まずパッチ間の相互作用を研究し,学習した知識と,それがmimタスクを通じてどのように獲得されるかを理解する。 我々は、MIMが本質的に、パッチ間のより優れた中間レベル相互作用を学習し、より一般化された特徴を抽出するモデルを教えることを観察する。 この事実に基づいて,トランスフォーマーだけでなく,CNNと統一的に互換性のあるアーキテクチャ非依存型マスケード画像モデリングフレームワーク(A$^2$MIM)を提案する。 一般的なベンチマーク実験では、A$^2$MIMはより良い表現を学習し、トランスフォーマーとCNNの両方で様々な下流タスクに転送する機能を持つバックボーンモデルを提供する。

Masked image modeling (MIM), an emerging self-supervised pre-training method, has shown impressive success across numerous downstream vision tasks with Vision transformers (ViT). Its underlying idea is simple: a portion of the input image is randomly masked out and then reconstructed via the pre-text task. However, why MIM works well is not well explained, and previous studies insist that MIM primarily works for the Transformer family but is incompatible with CNNs. In this paper, we first study interactions among patches to understand what knowledge is learned and how it is acquired via the MIM task. We observe that MIM essentially teaches the model to learn better middle-level interactions among patches and extract more generalized features. Based on this fact, we propose an Architecture-Agnostic Masked Image Modeling framework (A$^2$MIM), which is compatible with not only Transformers but also CNNs in a unified way. Extensive experiments on popular benchmarks show that our A$^2$MIM learns better representations and endows the backbone model with the stronger capability to transfer to various downstream tasks for both Transformers and CNNs.
翻訳日:2022-05-30 12:56:38 公開日:2022-05-27
# 知識グラフ注意ネットワーク分類器KGrAt-Netを用いたテキストベース自動パーソナリティ予測

Text-Based Automatic Personality Prediction Using KGrAt-Net; A Knowledge Graph Attention Network Classifier ( http://arxiv.org/abs/2205.13780v1 )

ライセンス: Link先を確認
Majid Ramezani and Mohammad-Reza Feizi-Derakhshi and Mohammad-Ali Balafar(参考訳) 今日では、ソーシャルネットワーク、電子メール、フォーラム、組織的コミュニケーションプラットフォームなど、インターネットベースのコミュニケーション基盤上で、膨大な数のヒューマンコミュニケーションが行われています。 実際、文書または交換されたテキストを通じて個人の個性の自動予測や評価は、それらの関係を改善するのに有利である。 そこで本研究では,知識グラフ注意ネットワークのテキスト分類器であるKGrAt-Netを提案する。 ビッグファイブの性格特性によると、知識グラフ注意ネットワークを初めて適用し、自動パーソナリティ予測(APP)を行う。 いくつかの前処理アクティビティを実行した後、まず、等価な知識グラフを構築することにより、入力テキストの概念の背後にある知識を意識的に表現しようと試みる。 知識グラフは、入力テキスト内の既存の概念の意味を正式に表現し、その背景にある知識をモデル化するグラフベースのデータモデルである。 次に、注意機構を適用することで、グラフの最も関連性の高い部分に注意を払い、入力テキストのパーソナリティ特性を予測する。 その結果,KGrAt-Netは人格予測精度を大幅に改善した。 さらに、KGrAt-Netは知識グラフの埋め込みを使って分類を強化し、APPでさらに正確になる。

Nowadays, a tremendous amount of human communications take place on the Internet-based communication infrastructures, like social networks, email, forums, organizational communication platforms, etc. Indeed, the automatic prediction or assessment of individuals' personalities through their written or exchanged text would be advantageous to ameliorate the relationships among them. To this end, this paper aims to propose KGrAt-Net which is a Knowledge Graph Attention Network text classifier. For the first time, it applies the knowledge graph attention network to perform Automatic Personality Prediction (APP), according to the Big Five personality traits. After performing some preprocessing activities, first, it tries to acquire a knowingful representation of the knowledge behind the concepts in the input text through building its equivalent knowledge graph. A knowledge graph is a graph-based data model that formally represents the semantics of the existing concepts in the input text and models the knowledge behind them. Then, applying the attention mechanism, it efforts to pay attention to the most relevant parts of the graph to predict the personality traits of the input text. The results demonstrated that KGrAt-Net considerably improved the personality prediction accuracies. Furthermore, KGrAt-Net also uses the knowledge graphs' embeddings to enrich the classification, which makes it even more accurate in APP.
翻訳日:2022-05-30 12:54:03 公開日:2022-05-27
# ユーザの嗜好を引き出すアルゴリズム・リコースのためのパーソナライズされた対物介入の生成

Generating personalized counterfactual interventions for algorithmic recourse by eliciting user preferences ( http://arxiv.org/abs/2205.13743v1 )

ライセンス: Link先を確認
Giovanni De Toni, Paolo Viappiani, Bruno Lepri, Andrea Passerini(参考訳) 対実的介入は、ブラックボックス決定プロセスの決定を説明し、アルゴリズムによる会話を可能にする強力なツールである。 一連のアクションは、ユーザが実行した場合、自動決定システムによってなされる不都合な決定を覆すことができる。 しかし、現在の手法のほとんどは、ユーザの好みを考慮せずに介入する。 例えば、ユーザーは他人に対して特定の行動をとることを好むかもしれない。 そこで本研究では,ユーザの嗜好を抽出し,アルゴリズムによるリコースを行うための,初めての人文間アプローチを提案する。 我々は,選択の実用性(eus)を最大化する選択集合を問う多項式手順を導入し,それを用いてベイズ環境におけるコスト推定を反復的に洗練する。 この選好誘発戦略をモンテカルロ木探索と組み合わされた強化学習エージェントに統合し、効率的な探索を行い、アルゴリズム的リコースを実現するパーソナライズされた介入を提供する。 合成および実世界のデータセットに対する実験的評価は、少数のクエリによって、ユーザに依存しない代替品に対する介入コストを大幅に削減できることを示している。

Counterfactual interventions are a powerful tool to explain the decisions of a black-box decision process, and to enable algorithmic recourse. They are a sequence of actions that, if performed by a user, can overturn an unfavourable decision made by an automated decision system. However, most of the current methods provide interventions without considering the user's preferences. For example, a user might prefer doing certain actions with respect to others. In this work, we present the first human-in-the-loop approach to perform algorithmic recourse by eliciting user preferences. We introduce a polynomial procedure to ask choice-set questions which maximize the Expected Utility of Selection (EUS), and use it to iteratively refine our cost estimates in a Bayesian setting. We integrate this preference elicitation strategy into a reinforcement learning agent coupled with Monte Carlo Tree Search for efficient exploration, so as to provide personalized interventions achieving algorithmic recourse. An experimental evaluation on synthetic and real-world datasets shows that a handful of queries allows to achieve a substantial reduction in the cost of interventions with respect to user-independent alternatives.
翻訳日:2022-05-30 12:53:24 公開日:2022-05-27
# グラフレベルの異常検出におけるバーのライジング

Raising the Bar in Graph-level Anomaly Detection ( http://arxiv.org/abs/2205.13845v1 )

ライセンス: Link先を確認
Chen Qiu, Marius Kloft, Stephan Mandt, Maja Rudolph(参考訳) グラフレベルの異常検出は、金融詐欺の検出やソーシャルネットワークにおける異常行為の検出など、さまざまな分野で重要な話題となっている。 多くの研究は、高い検出精度が得られた画像などの視覚データの異常検出に重点を置いているが、グラフに対する既存のディープラーニングアプローチは、現在かなりパフォーマンスが悪くなっている。 本稿では,グラフレベルの異常検出のバー,すなわちグラフ集合内の異常グラフを検出するタスクについて述べる。 自己指導型学習と変換学習のアイデアに基づいて,超球崩壊や性能フリップといった既知の問題を修正することで,既存の深層一流アプローチを大幅に改善する,新たな深層学習アプローチを提案する。 9つの手法を含む実世界の9つのデータセット実験により,本手法は既存手法と比較して平均11.8%AUCの性能向上を達成した。

Graph-level anomaly detection has become a critical topic in diverse areas, such as financial fraud detection and detecting anomalous activities in social networks. While most research has focused on anomaly detection for visual data such as images, where high detection accuracies have been obtained, existing deep learning approaches for graphs currently show considerably worse performance. This paper raises the bar on graph-level anomaly detection, i.e., the task of detecting abnormal graphs in a set of graphs. By drawing on ideas from self-supervised learning and transformation learning, we present a new deep learning approach that significantly improves existing deep one-class approaches by fixing some of their known problems, including hypersphere collapse and performance flip. Experiments on nine real-world data sets involving nine techniques reveal that our method achieves an average performance improvement of 11.8% AUC compared to the best existing approach.
翻訳日:2022-05-30 12:51:31 公開日:2022-05-27
# EvenNet: グラフニューラルネットワークのロバスト性を改善するOdd-Hop Neighborsの無視

EvenNet: Ignoring Odd-Hop Neighbors Improves Robustness of Graph Neural Networks ( http://arxiv.org/abs/2205.13892v1 )

ライセンス: Link先を確認
Runlin Lei, Zhen Wang, Yaliang Li, Bolin Ding, Zhewei Wei(参考訳) グラフニューラルネットワーク(gnns)は、グラフ機械学習における有望なパフォーマンスで広く研究されている。 異常な予測精度にもかかわらず、GCNやGPRGNNのような既存のアプローチは、テストグラフ上のホモフィリな変化に直面し、これらのモデルをグラフ構造攻撃に弱いものにし、様々なホモフィリレベルのグラフに一般化する能力に制限がある。 gnnモデルのロバスト性を改善するために多くの手法が提案されているが、これらの手法のほとんどは空間領域に限定され、新しいグラフ構造の学習やエッジアテンションの計算といった複雑な防御機構を採用している。 本稿では,スペクトル領域における単純かつ堅牢なGNNモデルの設計問題について検討する。 偶数多項式グラフフィルタに対応するスペクトルGNNであるEvenNetを提案する。 空間領域とスペクトル領域の両方における我々の理論的解析に基づいて、sevennet はホモ親和グラフとヘテロ親和グラフをまたいで一般化する全次モデルよりも優れており、オッドホップ近傍を無視することで gnn のロバスト性が向上することを示している。 EvenNetの有効性を実証するために、合成データセットと実世界のデータセットの両方で実験を行った。 注目すべきは、EvenNetは計算コストを増すことなく既存の構造的攻撃に対する防御モデルより優れており、ホモフィルグラフとヘテロフィルグラフ上の従来のノード分類タスクの競争力を維持することである。

Graph Neural Networks (GNNs) have received extensive research attention for their promising performance in graph machine learning. Despite their extraordinary predictive accuracy, existing approaches, such as GCN and GPRGNN, are not robust in the face of homophily changes on test graphs, rendering these models vulnerable to graph structural attacks and with limited capacity in generalizing to graphs of varied homophily levels. Although many methods have been proposed to improve the robustness of GNN models, most of these techniques are restricted to the spatial domain and employ complicated defense mechanisms, such as learning new graph structures or calculating edge attentions. In this paper, we study the problem of designing simple and robust GNN models in the spectral domain. We propose EvenNet, a spectral GNN corresponding to an even-polynomial graph filter. Based on our theoretical analysis in both spatial and spectral domains, we demonstrate that EvenNet outperforms full-order models in generalizing across homophilic and heterophilic graphs, implying that ignoring odd-hop neighbors improves the robustness of GNNs. We conduct experiments on both synthetic and real-world datasets to demonstrate the effectiveness of EvenNet. Notably, EvenNet outperforms existing defense models against structural attacks without introducing additional computational costs and maintains competitiveness in traditional node classification tasks on homophilic and heterophilic graphs.
翻訳日:2022-05-30 12:51:15 公開日:2022-05-27
# ProtoFSSL: プロトタイプベースの一貫性規則化による半教師付き学習

ProtoFSSL: Federated Semi-Supervised Learning with Prototype-based Consistency Regularization ( http://arxiv.org/abs/2205.13921v1 )

ライセンス: Link先を確認
Woojung Kim, Keondo Park, Kihyuk Sohn, Raphael Shu, Hyung-Sin Kim(参考訳) エッジデバイスのコンピューティング能力の増大に伴い、プライバシーを気にせずにモデルトレーニングを可能にするフェデレーション学習(fl)が出現する。 既存の研究の大半は、データがクライアント側で完全にラベル付けされていると仮定している。 しかし実際には、ラベル付きデータの量は限られていることが多い。 近年,未ラベルデータを効果的に活用する手段として,フェデレーション付き半教師付き学習(FSSL)が研究されている。 本研究では,プロトタイプネットワークに基づく新しいFSSLアプローチであるProtoFSSLを提案する。 ProtoFSSLでは、クライアントが軽量プロトタイプを通じて相互に知識を共有することで、ローカルモデルのばらつきを防止する。 ラベルなしデータの損失を計算するため、各クライアントは共有プロトタイプに基づいて正確な擬似ラベルを作成する。 ラベル付きデータと合わせて、擬似ラベルはローカルプロトタイプのトレーニング信号を提供する。 ウェイトシェアリングに基づくFSSLアプローチと比較して、プロトタイプベースのクライアント間知識共有は通信コストと計算コストの両方を著しく削減し、より多くのクライアント間でより頻繁な知識共有を可能にする。 複数のデータセットにおいて、ProtoFSSLは、FixMatch、FedRGD、FedMatchといった知識共有のない最近のFSSLメソッドと比較して、より正確である。 SVHNデータセットでは、ProtoFSSLは完全に教師付きFLメソッドと互換性がある。

With the increasing computing power of edge devices, Federated Learning (FL) emerges to enable model training without privacy concerns. The majority of existing studies assume the data are fully labeled on the client side. In practice, however, the amount of labeled data is often limited. Recently, federated semi-supervised learning (FSSL) is explored as a way to effectively utilize unlabeled data during training. In this work, we propose ProtoFSSL, a novel FSSL approach based on prototypical networks. In ProtoFSSL, clients share knowledge with each other via lightweight prototypes, which prevents the local models from diverging. For computing loss on unlabeled data, each client creates accurate pseudo-labels based on shared prototypes. Jointly with labeled data, the pseudo-labels provide training signals for local prototypes. Compared to a FSSL approach based on weight sharing, the prototype-based inter-client knowledge sharing significantly reduces both communication and computation costs, enabling more frequent knowledge sharing between more clients for better accuracy. In multiple datasets, ProtoFSSL results in higher accuracy compared to the recent FSSL methods with and without knowledge sharing, such as FixMatch, FedRGD, and FedMatch. On SVHN dataset, ProtoFSSL performs comparably to fully supervised FL methods.
翻訳日:2022-05-30 12:50:48 公開日:2022-05-27
# 都市間知識伝達を用いた時空間グラフFew-Shot学習

Spatio-Temporal Graph Few-Shot Learning with Cross-City Knowledge Transfer ( http://arxiv.org/abs/2205.13947v1 )

ライセンス: Link先を確認
Bin Lu, Xiaoying Gan, Weinan Zhang, Huaxiu Yao, Luoyi Fu, Xinbing Wang(参考訳) 時空間グラフ学習は,交通流,タクシー需要,空気質予測などの都市コンピューティングタスクにおいて重要な手法である。 データ収集のコストが高いため、いくつかの発展途上国では利用可能なデータが少ないため、十分なパフォーマンスのモデルをトレーニングすることができない。 この課題に対処するために、クロスシティ・ナレッジ・トランスファーは、データに十分な都市から学んだモデルを活用して、データに乏しい都市の学習プロセスに役立てる、という、その約束を示した。 しかし、異なる都市間の時空間グラフは不規則な構造と様々な特徴を示しており、これは既存のFew-Shot Learning(\emph{FSL})手法の有効性を制限する。 そこで本研究では,ST-GFSLと呼ばれる時空間グラフのためのモデルに依存しない数ショット学習フレームワークを提案する。 具体的には、都市間知識の伝達による特徴抽出を強化するため、ST-GFSLはノードレベルのメタ知識に基づいて非共有パラメータを生成することを提案する。 対象都市のノードはパラメータマッチングを通じて知識を転送し、類似した時空間特性から検索する。 さらに,メタ学習中にグラフ構造を再構築することを提案する。 グラフ再構成損失は、異なるデータセット間の構造偏差を回避し、構造認識学習を導くために定義される。 本研究では,4つの交通速度予測ベンチマークの総合的な実験を行い,ST-GFSLの有効性を最先端手法と比較した。

Spatio-temporal graph learning is a key method for urban computing tasks, such as traffic flow, taxi demand and air quality forecasting. Due to the high cost of data collection, some developing cities have few available data, which makes it infeasible to train a well-performed model. To address this challenge, cross-city knowledge transfer has shown its promise, where the model learned from data-sufficient cities is leveraged to benefit the learning process of data-scarce cities. However, the spatio-temporal graphs among different cities show irregular structures and varied features, which limits the feasibility of existing Few-Shot Learning (\emph{FSL}) methods. Therefore, we propose a model-agnostic few-shot learning framework for spatio-temporal graph called ST-GFSL. Specifically, to enhance feature extraction by transfering cross-city knowledge, ST-GFSL proposes to generate non-shared parameters based on node-level meta knowledge. The nodes in target city transfer the knowledge via parameter matching, retrieving from similar spatio-temporal characteristics. Furthermore, we propose to reconstruct the graph structure during meta-learning. The graph reconstruction loss is defined to guide structure-aware learning, avoiding structure deviation among different datasets. We conduct comprehensive experiments on four traffic speed prediction benchmarks and the results demonstrate the effectiveness of ST-GFSL compared with state-of-the-art methods.
翻訳日:2022-05-30 12:50:29 公開日:2022-05-27
# aang: 補助学習の自動化

AANG: Automating Auxiliary Learning ( http://arxiv.org/abs/2205.14082v1 )

ライセンス: Link先を確認
Lucio M. Dery, Paul Michel, Mikhail Khodak, Graham Neubig and Ameet Talwalkar(参考訳) データ不足や高度に複雑なエンドタスクに直面した場合には、機械学習実践者が補足的な学習信号として補助目的を導入するのが一般的である。 有用な補助目的を定式化するために多くの作業が行われたが、その構築は遅くて退屈な手作業で進む芸術である。 これらの目的がエンドタスクのパフォーマンスを改善する方法と時期に関する直観は、理論的な裏付けも限られている。 本稿では,補助目的のスイートを自動的に生成する手法を提案する。 我々は,新しい統一分類法において既存の目的を分解し,それらの関係を同定し,その構造に基づいて新たな目標を生成することにより,これを達成する。 次に、補助学習がエンドタスクの一般化をいかに改善するかについての広く支持された直観を理論的に定式化する。 これにより、生成された目的の空間を探索し、指定されたエンドタスクに最も有用なものを見つけるための、原理的かつ効率的なアルゴリズムが導かれる。 自然言語処理(NLP)を研究領域として、我々の自動補助学習パイプラインが、5つのNLPエンドタスク上で事前訓練されたモデル上での継続的なトレーニング実験において、競争ベースラインよりも強力な改善をもたらすことを実証的に検証した。

When faced with data-starved or highly complex end-tasks, it is commonplace for machine learning practitioners to introduce auxiliary objectives as supplementary learning signals. Whilst much work has been done to formulate useful auxiliary objectives, their construction is still an art which proceeds by slow and tedious hand-design. Intuitions about how and when these objectives improve end-task performance have also had limited theoretical backing. In this work, we present an approach for automatically generating a suite of auxiliary objectives. We achieve this by deconstructing existing objectives within a novel unified taxonomy, identifying connections between them, and generating new ones based on the uncovered structure. Next, we theoretically formalize widely-held intuitions about how auxiliary learning improves generalization of the end-task. This leads us to a principled and efficient algorithm for searching the space of generated objectives to find those most useful to a specified end-task. With natural language processing (NLP) as our domain of study, we empirically verify that our automated auxiliary learning pipeline leads to strong improvements over competitive baselines across continued training experiments on a pre-trained model on 5 NLP end-tasks.
翻訳日:2022-05-30 12:50:04 公開日:2022-05-27
# 生存分析における重度刑罰

Hazard Gradient Penalty for Survival Analysis ( http://arxiv.org/abs/2205.13717v1 )

ライセンス: Link先を確認
Seungjae Jung and Kyung-Min Kim(参考訳) 生存分析は医学、経済学、工学、ビジネスなど様々な分野で見られる。 近年の研究では、標準微分方程式(ODE)モデリングフレームワークが、フレキシブルで広く適用できる一方で、既存の生存モデルの多くを統一していることが示されている。 しかし、ODEフレームワークを生存分析問題に適用することで、モデルの性能を悪化させるような、激しく変化する密度関数をモデル化することができる。 ODEモデルにL1またはL2正規化器を適用することができるが、ODEモデリングフレームワークへの影響はほとんど分かっていない。 本稿では,生存分析モデルの性能を高めるために,ハザード勾配ペナルティ(HGP)を提案する。 本手法は,データポイントに対するハザード関数の勾配を定式化することにより,局所データポイントに制約を課す。 本手法はODEモデリングフレームワークを含む生存分析モデルに適用可能であり,実装が容易である。 理論的には,本手法はデータ点における密度関数と近傍点とのKL分散を最小化することに関連している。 3つの公開ベンチマークの実験結果から,本手法は他の正規化手法よりも優れていることが示された。

Survival analysis appears in various fields such as medicine, economics, engineering, and business. Recent studies showed that the Ordinary Differential Equation (ODE) modeling framework unifies many existing survival models while the framework is flexible and widely applicable. However, naively applying the ODE framework to survival analysis problems may model fiercely changing density function which may worsen the model's performance. Though we can apply L1 or L2 regularizers to the ODE model, their effect on the ODE modeling framework is barely known. In this paper, we propose hazard gradient penalty (HGP) to enhance the performance of a survival analysis model. Our method imposes constraints on local data points by regularizing the gradient of hazard function with respect to the data point. Our method applies to any survival analysis model including the ODE modeling framework and is easy to implement. We theoretically show that our method is related to minimizing the KL divergence between the density function at a data point and that of the neighborhood points. Experimental results on three public benchmarks show that our approach outperforms other regularization methods.
翻訳日:2022-05-30 12:49:42 公開日:2022-05-27
# (参考訳) 生体計測における人間のオブザーバに適合する深層学習胎児超音波映像モデル

Deep Learning Fetal Ultrasound Video Model Match Human Observers in Biometric Measurements ( http://arxiv.org/abs/2205.13835v1 )

ライセンス: CC BY 4.0
Szymon P{\l}otka, Adam Klasa, Aneta Lisowska, Joanna Seliga-Siwecka, Micha{\l} Lipa, Tomasz Trzci\'nski, Arkadiusz Sitek(参考訳) 目的。 本研究は, 深層畳み込みニューラルネットワーク(CNN)を用いて, 頭部周囲, 両頭径, 腹部周囲, 大腿骨の長さなどの胎児の部位を自動計測し, 胎児超音波ビデオを用いて妊娠年齢と胎児体重を推定する。 アプローチ。 そこで我々は, マルチタスクCNNを用いた時空間特徴抽出と標準平面検出アルゴリズム(FUVAI)を開発し, 50個のフリーハンドUSビデオスキャンで評価した。 胎児の生体計測と5人の経験者による2つの時点の計測を少なくとも2週間で比較した。 オブザーバ内およびオブザーバ間変動を推定した。 主な結果。 fuvaiによって得られた胎児自動生体計測は経験豊富な超音波検査者による測定と同等であり,測定値の差は観測者間の変動範囲内であった。 また, 個々の医療専門家とモデルを比較すると, 統計的に有意な差は認められなかった。 重要なこと。 フヴァイは、胎児の生体計測を臨床で行うソノグラファーに、最適な測定フレームに関する提案と自動測定を提供することで支援する可能性を秘めている。 さらに、FUVAIはこれらのタスクをほんの数秒で実行することが可能であり、ソノグラフィーが取る平均6分とは大きく異なる。 多くの国で胎児超音波画像の解釈が可能な医療専門家が不足していることを考えると、これは重要である。

Objective. This work investigates the use of deep convolutional neural networks (CNN) to automatically perform measurements of fetal body parts, including head circumference, biparietal diameter, abdominal circumference and femur length, and to estimate gestational age and fetal weight using fetal ultrasound videos. Approach. We developed a novel multi-task CNN-based spatio-temporal fetal US feature extraction and standard plane detection algorithm (called FUVAI) and evaluated the method on 50 freehand fetal US video scans. We compared FUVAI fetal biometric measurements with measurements made by five experienced sonographers at two time points separated by at least two weeks. Intra- and inter-observer variabilities were estimated. Main results. We found that automated fetal biometric measurements obtained by FUVAI were comparable to the measurements performed by experienced sonographers The observed differences in measurement values were within the range of inter- and intra-observer variability. Moreover, analysis has shown that these differences were not statistically significant when comparing any individual medical expert to our model. Significance. We argue that FUVAI has the potential to assist sonographers who perform fetal biometric measurements in clinical settings by providing them with suggestions regarding the best measuring frames, along with automated measurements. Moreover, FUVAI is able perform these tasks in just a few seconds, which is a huge difference compared to the average of six minutes taken by sonographers. This is significant, given the shortage of medical experts capable of interpreting fetal ultrasound images in numerous countries.
翻訳日:2022-05-30 12:47:43 公開日:2022-05-27
# 自己注意に必要なのはどんなDense Graphか?

What Dense Graph Do You Need for Self-Attention? ( http://arxiv.org/abs/2205.14014v1 )

ライセンス: Link先を確認
Yuxing Wang, Chu-Tak Lee, Qipeng Guo, Zhangyue Yin, Yunhua Zhou, Xuanjing Huang, Xipeng Qiu(参考訳) トランスフォーマーは様々なタスクで進歩してきたが、二次計算とメモリの複雑さに苦しんでいる。 近年の研究では,スパースグラフに着目したスパーストランスフォーマーが提案されている。 効果的ではあるが、グラフをうまく機能させるために必要な重要な部分は十分に検討されていない。 本稿では,グラフ上での情報伝達を測定するグラフスコアリング機能である正規化情報ペイロード(nip)を提案する。 この理論解析で導かれたハイパーキューブ変換器は、ハイパーキューブ内のトークン相互作用をモデル化し、バニラ変換器と同等またはそれ以上の結果を示すスパース変換器であり、配列長が$N$の複雑さを持つ$O(N\log N)$である。 様々なシーケンス長を必要とするタスクの実験は、グラフ関数の検証をよく行います。

Transformers have made progress in miscellaneous tasks, but suffer from quadratic computational and memory complexities. Recent works propose sparse Transformers with attention on sparse graphs to reduce complexity and remain strong performance. While effective, the crucial parts of how dense a graph needs to be to perform well are not fully explored. In this paper, we propose Normalized Information Payload (NIP), a graph scoring function measuring information transfer on graph, which provides an analysis tool for trade-offs between performance and complexity. Guided by this theoretical analysis, we present Hypercube Transformer, a sparse Transformer that models token interactions in a hypercube and shows comparable or even better results with vanilla Transformer while yielding $O(N\log N)$ complexity with sequence length $N$. Experiments on tasks requiring various sequence lengths lay validation for our graph function well.
翻訳日:2022-05-30 12:21:06 公開日:2022-05-27
# 単語の海:テキストデータのためのアンカーの詳細な分析

A Sea of Words: An In-Depth Analysis of Anchors for Text Data ( http://arxiv.org/abs/2205.13789v1 )

ライセンス: Link先を確認
Gianluigi Lopardo, Damien Garreau, Frederic Precioso(参考訳) Anchors [Ribeiro et al. (2018)] はポストホックなルールベースの解釈可能性法である。 テキストデータについては,文書に記述するモデルが類似した出力を持つように,単語(アンカー)の小さな集合を強調することで,決定を説明することを提案する。 本稿では,最良アンカーの探索が徹底的であることを考慮し,アンカーの理論的解析について述べる。 この分析を利用して、基本if-then規則や線形分類器を含む単純なモデル上でのアンカーの挙動の洞察を得る。

Anchors [Ribeiro et al. (2018)] is a post-hoc, rule-based interpretability method. For text data, it proposes to explain a decision by highlighting a small set of words (an anchor) such that the model to explain has similar outputs when they are present in a document. In this paper, we present the first theoretical analysis of Anchors, considering that the search for the best anchor is exhaustive. We leverage this analysis to gain insights on the behavior of Anchors on simple models, including elementary if-then rules and linear classifiers.
翻訳日:2022-05-30 12:20:50 公開日:2022-05-27
# ディープラーニングにおけるロバストな一般化は難しい:表現力の視点

Why Robust Generalization in Deep Learning is Difficult: Perspective of Expressive Power ( http://arxiv.org/abs/2205.13863v1 )

ライセンス: Link先を確認
Binghui Li, Jikai Jin, Han Zhong, John E. Hopcroft, Liwei Wang(参考訳) 現代のニューラルネットワークが敵の例に弱いことはよく知られている。 この問題を解決するために、ロバストな学習アルゴリズムが提案されている。 しかしながら、ロバストなトレーニングエラーはいくつかの手法によってほぼゼロに近いが、既存のアルゴリズムはすべて高いロバストな一般化誤差をもたらす。 本稿では,深層ニューラルネットワークの表現力の観点から,このパズリング現象を理論的に理解する。 具体的には、よく分離されたデータを持つバイナリ分類問題に対して、ReLUネットワークでは、穏やかな過パラメータ化が高い堅牢なトレーニング精度に十分である一方で、ニューラルネットワークのサイズがデータ次元$d$で指数的である限り、一定の堅牢な一般化ギャップが存在することを示す。 データが線形分離可能であったとしても、クリーンな一般化誤差の低減は容易であり、ロバストな一般化のために$\exp({\omega}(d))$ の上限を証明できる。 さらに、本質次元$k$ (k \ll d$) の多様体上に存在するデータに対して、ネットワークサイズが低ロバストな一般化誤差を達成するために、改良された$\exp({\mathcal{o}}(k))$ の上限を設定する。 それでもなお、$k$に関して指数関数的に増加する低い境界がある -- 次元性の呪いは避けられない。 低ロバストトレーニングと一般化誤差を達成するためにネットワークサイズを指数関数的に分離することにより、ロバストな一般化の硬さは実用モデルの表現力から生じる可能性があることを示す。

It is well-known that modern neural networks are vulnerable to adversarial examples. To mitigate this problem, a series of robust learning algorithms have been proposed. However, although the robust training error can be near zero via some methods, all existing algorithms lead to a high robust generalization error. In this paper, we provide a theoretical understanding of this puzzling phenomenon from the perspective of expressive power for deep neural networks. Specifically, for binary classification problems with well-separated data, we show that, for ReLU networks, while mild over-parameterization is sufficient for high robust training accuracy, there exists a constant robust generalization gap unless the size of the neural network is exponential in the data dimension $d$. Even if the data is linear separable, which means achieving low clean generalization error is easy, we can still prove an $\exp({\Omega}(d))$ lower bound for robust generalization. Moreover, we establish an improved upper bound of $\exp({\mathcal{O}}(k))$ for the network size to achieve low robust generalization error when the data lies on a manifold with intrinsic dimension $k$ ($k \ll d$). Nonetheless, we also have a lower bound that grows exponentially with respect to $k$ -- the curse of dimensionality is inevitable. By demonstrating an exponential separation between the network size for achieving low robust training and generalization error, our results reveal that the hardness of robust generalization may stem from the expressive power of practical models.
翻訳日:2022-05-30 12:20:41 公開日:2022-05-27
# メタ学習支援バンド

Meta-Learning Adversarial Bandits ( http://arxiv.org/abs/2205.14128v1 )

ライセンス: Link先を確認
Maria-Florina Balcan, Keegan Harris, Mikhail Khodak, Zhiwei Steven Wu(参考訳) 我々は,複数のタスクにまたがるバンディットフィードバックを用いてオンライン学習を行い,タスク間の平均パフォーマンスを改善することを目的とした。 敵のセットを最初にターゲットとして,マルチアームドバンディット(mab)とバンディット線形最適化(blo)の2つの重要なケースに対して,設定固有の保証を与える統一メタアルゴリズムを設計した。 MAB の場合、メタアルゴリズムはよく知られた Exp3 法の Tsallis-Entropy 一般化の初期化、ステップサイズ、エントロピーパラメータを調整し、推定されたオプティマ・イン・ブラインド視上の分布のエントロピーが小さい場合、タスク平均後悔は確実に改善する。 BLOの場合、オンラインミラー降下(OMD)の初期化、ステップサイズ、境界オフセットを自己一致障壁正規化器で学習し、タスク平均の後悔は、アクション空間の内部でこれらの関数によって引き起こされる指標と直接的に異なることを示す。 我々の適応的保証は、非正規化されたフォローザリーダーと乗法重みの組み合わせが、OMDの後悔の上位にあるブレグマン分岐系の非滑らかで非凸なアフィン関数列をオンライン学習するのに十分であることを示すことに依存する。

We study online learning with bandit feedback across multiple tasks, with the goal of improving average performance across tasks if they are similar according to some natural task-similarity measure. As the first to target the adversarial setting, we design a unified meta-algorithm that yields setting-specific guarantees for two important cases: multi-armed bandits (MAB) and bandit linear optimization (BLO). For MAB, the meta-algorithm tunes the initialization, step-size, and entropy parameter of the Tsallis-entropy generalization of the well-known Exp3 method, with the task-averaged regret provably improving if the entropy of the distribution over estimated optima-in-hindsight is small. For BLO, we learn the initialization, step-size, and boundary-offset of online mirror descent (OMD) with self-concordant barrier regularizers, showing that task-averaged regret varies directly with a measure induced by these functions on the interior of the action space. Our adaptive guarantees rely on proving that unregularized follow-the-leader combined with multiplicative weights is enough to online learn a non-smooth and non-convex sequence of affine functions of Bregman divergences that upper-bound the regret of OMD.
翻訳日:2022-05-30 12:20:12 公開日:2022-05-27
# デュアルコントラストネットワークによる効果的な抽象推論

Effective Abstract Reasoning with Dual-Contrast Network ( http://arxiv.org/abs/2205.13720v1 )

ライセンス: Link先を確認
Tao Zhuo and Mohan Kankanhalli(参考訳) 機械の抽象的推論能力を向上させるためのステップとして、rpmパズルの解法と人間の知性との相関が高いため、ラヴェンのプログレッシブ行列(rpm)をニューラルネットワークで解くことを目指している。 適切な特徴表現を生成するために、補助アノテーションや隠れたルールを仮定する従来の方法とは異なり、モデル学習には各質問の根拠真理の答えのみを使用し、知的エージェントが少量の監督で強力な学習能力を持つことを目標としている。 RPM問題の定式化に基づいて、第3行/カラムの欠落したエントリに満たされた正しい答えは、最初の2行/カラム間で共有される同じルールを最善に満たさなければならない。 そこで我々は、RPMパズルの固有構造を利用するために、単純で効果的なDual-Contrast Network(DCNet)を設計する。 具体的には、ルールコントラストモジュールは、満たされた行/列と最初の2行/列の潜在ルールを比較するように設計されており、選択コントラストモジュールは、候補選択間の相対的な差を増やすように設計されている。 RAVENとPGMデータセットの実験結果から、DCNetは最先端の手法を5.77%で上回る結果となった。 少数のトレーニングサンプルとモデル一般化に関するさらなる実験もDCNetの有効性を示している。 コードはhttps://github.com/visiontao/dcnetで入手できる。

As a step towards improving the abstract reasoning capability of machines, we aim to solve Raven's Progressive Matrices (RPM) with neural networks, since solving RPM puzzles is highly correlated with human intelligence. Unlike previous methods that use auxiliary annotations or assume hidden rules to produce appropriate feature representation, we only use the ground truth answer of each question for model learning, aiming for an intelligent agent to have a strong learning capability with a small amount of supervision. Based on the RPM problem formulation, the correct answer filled into the missing entry of the third row/column has to best satisfy the same rules shared between the first two rows/columns. Thus we design a simple yet effective Dual-Contrast Network (DCNet) to exploit the inherent structure of RPM puzzles. Specifically, a rule contrast module is designed to compare the latent rules between the filled row/column and the first two rows/columns; a choice contrast module is designed to increase the relative differences between candidate choices. Experimental results on the RAVEN and PGM datasets show that DCNet outperforms the state-of-the-art methods by a large margin of 5.77%. Further experiments on few training samples and model generalization also show the effectiveness of DCNet. Code is available at https://github.com/visiontao/dcnet.
翻訳日:2022-05-30 12:19:46 公開日:2022-05-27
# CIGMO:深い生成フレームワークにおけるカテゴリー的不変表現

CIGMO: Categorical invariant representations in a deep generative framework ( http://arxiv.org/abs/2205.13758v1 )

ライセンス: Link先を確認
Haruo Hosoya(参考訳) 一般的な物体画像のデータには、(1) 与えられた形状の各物体を複数の異なる視点で描画し、(2) 形状の多様性がカテゴリ内よりもはるかに大きい方法で物体の形状を分類できるという2つの一般的な構造がある。 既存の深層生成モデルは、どちらの構造もキャプチャできるが両方ではない。 本研究では、画像データからカテゴリ、形状、ビューファクターを表現することができるCIGMOと呼ばれる新しい深層生成モデルを提案する。 このモデルは、それぞれ特定のカテゴリに特化してビュー表現から切り離された形状表現の複数のモジュールから構成されており、グループベースの弱教師付き学習法を用いて学習することができる。 実験により,大視野の変動にもかかわらず,物体形状のカテゴリを効果的に発見し,最先端の不変クラスタリングアルゴリズムを含む様々な手法を定量的に重ね合わせることができることを示した。 さらに, カテゴリー特化を用いたアプローチにより, 学習した形状表現が向上し, 単発物体の識別や形状視点の絡み合いなどのダウンストリームタスクが向上することを示す。

Data of general object images have two most common structures: (1) each object of a given shape can be rendered in multiple different views, and (2) shapes of objects can be categorized in such a way that the diversity of shapes is much larger across categories than within a category. Existing deep generative models can typically capture either structure, but not both. In this work, we introduce a novel deep generative model, called CIGMO, that can learn to represent category, shape, and view factors from image data. The model is comprised of multiple modules of shape representations that are each specialized to a particular category and disentangled from view representation, and can be learned using a group-based weakly supervised learning method. By empirical investigation, we show that our model can effectively discover categories of object shapes despite large view variation and quantitatively supersede various previous methods including the state-of-the-art invariant clustering algorithm. Further, we show that our approach using category-specialization can enhance the learned shape representation to better perform down-stream tasks such as one-shot object identification as well as shape-view disentanglement.
翻訳日:2022-05-30 12:19:21 公開日:2022-05-27
# Bongard-HOI:人間と物体のインタラクションのためのFew-Shot Visual Reasoningのベンチマーク

Bongard-HOI: Benchmarking Few-Shot Visual Reasoning for Human-Object Interactions ( http://arxiv.org/abs/2205.13803v1 )

ライセンス: Link先を確認
Huaizu Jiang, Xiaojian Ma, Weili Nie, Zhiding Yu, Yuke Zhu, Anima Anandkumar(参考訳) 現代の視覚パターン認識モデルと人間レベルの視覚認知の間には、特に少数ショットの学習や新しい概念の構成的推論に関して、大きなギャップが残っている。 自然画像からの人-物間相互作用(HOI)の合成学習に焦点を当てた新しい視覚推論ベンチマークであるBongard-HOIを紹介する。 古典的ボナード問題(BP)の2つの望ましい特徴に着想を得たものである。 1)数発のコンセプト学習,そして 2)文脈依存推論。 正負のイメージと負のイメージはアクションラベルにのみ一致しないため、ベンチマークを完了させるにはオブジェクトカテゴリの認識が不十分である。 また、複数のテストセットを設計して、視覚学習モデルの一般化を体系的に研究し、少数ショットインスタンスのトレーニングとテストセット間のHOI概念の重複を、部分的なオーバーラップから非重複に変化させる。 Bongard-HOIは、今日の視覚認識モデルに重大な課題を提示している。 最先端のhoi検出モデルは、わずかな二分予測では62%の精度しか得られないが、mturkのアマチュア人間テスターでさえ91%の精度を持つ。 Bongard-HOIベンチマークでは、視覚的推論、特に総合的な知覚推論システムとより良い表現学習における研究のさらなる進歩を期待する。

A significant gap remains between today's visual pattern recognition models and human-level visual cognition especially when it comes to few-shot learning and compositional reasoning of novel concepts. We introduce Bongard-HOI, a new visual reasoning benchmark that focuses on compositional learning of human-object interactions (HOIs) from natural images. It is inspired by two desirable characteristics from the classical Bongard problems (BPs): 1) few-shot concept learning, and 2) context-dependent reasoning. We carefully curate the few-shot instances with hard negatives, where positive and negative images only disagree on action labels, making mere recognition of object categories insufficient to complete our benchmarks. We also design multiple test sets to systematically study the generalization of visual learning models, where we vary the overlap of the HOI concepts between the training and test sets of few-shot instances, from partial to no overlaps. Bongard-HOI presents a substantial challenge to today's visual recognition models. The state-of-the-art HOI detection model achieves only 62% accuracy on few-shot binary prediction while even amateur human testers on MTurk have 91% accuracy. With the Bongard-HOI benchmark, we hope to further advance research efforts in visual reasoning, especially in holistic perception-reasoning systems and better representation learning.
翻訳日:2022-05-30 12:19:00 公開日:2022-05-27
# シャープネスアウェアフリートレーニング

Sharpness-Aware Training for Free ( http://arxiv.org/abs/2205.14083v1 )

ライセンス: Link先を確認
Jiawei Du, Daquan Zhou, Jiashi Feng, Vincent Y.F. Tan, Joey Tianyi Zhou(参考訳) 現代のディープニューラルネットワーク(DNN)は最先端のパフォーマンスを達成したが、通常は過パラメータ化されている。 オーバーパラメータ化は、他のカスタマイズされたトレーニング戦略がなければ、望ましくないほど大きな一般化誤差をもたらす可能性がある。 近年、シャープネス・アウェア最小化 (SAM) と呼ばれる研究のラインは、損失景観の幾何学を反映したシャープネス尺度の最小化が一般化誤差を著しく減少させることを示した。 しかし、SAMライクな手法は、シャープネス尺度を近似するために与えられたベースオプティマイザ(例えばSGD)の2倍の計算オーバーヘッドを発生させる。 本稿では,saf(sharpness-aware training for free)を提案する。これは,ベースオプティマイザよりも計算コストがほぼゼロのシャープランドスケープを緩和する。 直感的には、SAFは重量の更新の軌跡を通して急激な局所性ミニマの損失を回避してこれを達成している。 具体的には,DNNの出力と現在の重量と過去の重量とのKL偏差に基づく新しい軌道損失をSAMのシャープネス尺度の代替として提案する。 この損失は、モデルの更新軌道に沿ってトレーニング損失の変化率をキャプチャする。 最小化することで、SAFは一般化能力を改善した平坦な最小限の収束を保証する。 大規模な実験結果から、SAFはSAMと同様のシャープネスを最小化し、ベースオプティマイザと基本的に同じ計算コストでImageNetデータセット上でより良い結果が得られることが示された。

Modern deep neural networks (DNNs) have achieved state-of-the-art performances but are typically over-parameterized. The over-parameterization may result in undesirably large generalization error in the absence of other customized training strategies. Recently, a line of research under the name of Sharpness-Aware Minimization (SAM) has shown that minimizing a sharpness measure, which reflects the geometry of the loss landscape, can significantly reduce the generalization error. However, SAM-like methods incur a two-fold computational overhead of the given base optimizer (e.g. SGD) for approximating the sharpness measure. In this paper, we propose Sharpness-Aware Training for Free, or SAF, which mitigates the sharp landscape at almost zero additional computational cost over the base optimizer. Intuitively, SAF achieves this by avoiding sudden drops in the loss in the sharp local minima throughout the trajectory of the updates of the weights. Specifically, we suggest a novel trajectory loss, based on the KL-divergence between the outputs of DNNs with the current weights and past weights, as a replacement of the SAM's sharpness measure. This loss captures the rate of change of the training loss along the model's update trajectory. By minimizing it, SAF ensures the convergence to a flat minimum with improved generalization capabilities. Extensive empirical results show that SAF minimizes the sharpness in the same way that SAM does, yielding better results on the ImageNet dataset with essentially the same computational cost as the base optimizer.
翻訳日:2022-05-30 12:18:36 公開日:2022-05-27
# (参考訳) TransBoost: ディープトランスダクションによる最高のイメージネットパフォーマンスの向上

TransBoost: Improving the Best ImageNet Performance using Deep Transduction ( http://arxiv.org/abs/2205.13331v2 )

ライセンス: CC BY 4.0
Omer Belhasin, Guy Bar-Shalom, Ran El-Yaniv(参考訳) 本稿では,学習中に提供される任意の(ラベルなし)テストセットのパフォーマンスを改善するために,任意の深層神経モデルの微調整手順としてtransboostを提案する。 TransBoostは大きなマージン原理にインスパイアされ、効率的で使いやすい。 ImageNetの分類性能は、ResNets、MobileNetV3-L、EfficientNetB0、ViT-S、ConvNext-Tなど多くのアーキテクチャ上でTransBoostによって一貫して大幅に改善されている。 さらに,TransBoostは多様な画像分類データセットに有効であることを示す。

This paper deals with deep transductive learning, and proposes TransBoost as a procedure for fine-tuning any deep neural model to improve its performance on any (unlabeled) test set provided at training time. TransBoost is inspired by a large margin principle and is efficient and simple to use. The ImageNet classification performance is consistently and significantly improved with TransBoost on many architectures such as ResNets, MobileNetV3-L, EfficientNetB0, ViT-S, and ConvNext-T. Additionally we show that TransBoost is effective on a wide variety of image classification datasets.
翻訳日:2022-05-30 11:48:59 公開日:2022-05-27
# (参考訳) FedAug: 異種データのフェデレーション学習を改善するローカルラーニングバイアスの削減

FedAug: Reducing the Local Learning Bias Improves Federated Learning on Heterogeneous Data ( http://arxiv.org/abs/2205.13462v2 )

ライセンス: CC BY 4.0
Yongxin Guo, Tao Lin, Xiaoying Tang(参考訳) フェデレーション学習(federated learning, fl)は、ローカルに保持されたデータから学習し、クライアントのプライバシーを保護する機械学習パラダイムである。 しかし、このようなスキームは現在、クライアントの不均一なデータによって引き起こされる遅く不安定な収束によって制約されている。 本研究では,教師付きflにおける局所更新に伴う課題を説明するバイアス付き局所学習の3つの未熟な現象を明らかにする。 そこで我々は,これらの課題に取り組むために,特徴や分類器の局所学習バイアスを低減する新しい統一アルゴリズムfedaugを提案する。 FedAugはAugMeanとAugCAの2つのコンポーネントで構成されている。 augmeanはモデルの出力分布のバランスをとることで局所分類器のバイアスを軽減する。 augcaはグローバル機能に近いが、他の入力分布から学んだものとは大きく異なるクライアント不変機能を学ぶ。 一連の実験において、FedAugは他のSOTA FLとドメイン一般化(DG)ベースラインを一貫して上回り、2つのコンポーネント(AugMeanとAugCA)が個別のパフォーマンス向上をもたらすことを示した。

Federated Learning (FL) is a machine learning paradigm that learns from data kept locally to safeguard the privacy of clients, whereas local SGD is typically employed on the clients' devices to improve communication efficiency. However, such a scheme is currently constrained by the slow and unstable convergence induced by clients' heterogeneous data. In this work, we identify three under-explored phenomena of the biased local learning that may explain these challenges caused by local updates in supervised FL. As a remedy, we propose FedAug, a novel unified algorithm that reduces the local learning bias on features and classifiers to tackle these challenges. FedAug consists of two components: AugMean and AugCA. AugMean alleviates the bias in the local classifiers by balancing the output distribution of models. AugCA learns client invariant features that are close to global features but considerably distinct from those learned from other input distributions. In a series of experiments, we show that FedAug consistently outperforms other SOTA FL and domain generalization (DG) baselines, in which both two components (i.e., AugMean and AugCA) have individual performance gains.
翻訳日:2022-05-30 11:30:39 公開日:2022-05-27
# (参考訳) 仮面画像モデリングの暗黒秘密の発見

Revealing the Dark Secrets of Masked Image Modeling ( http://arxiv.org/abs/2205.13543v2 )

ライセンス: CC BY 4.0
Zhenda Xie, Zigang Geng, Jingcheng Hu, Zheng Zhang, Han Hu, Yue Cao(参考訳) 事前トレーニングとしてのマスク画像モデリング(mim)は、多くのビジョンダウンストリームタスクに有効であることが示されているが、mimの動作方法と場所はまだ不明である。 本稿では,MIMと長大な教師付き事前学習モデル(可視化と実験)を比較し,それらの重要な表現的差異を明らかにする。 可視化から、MIMはトレーニングされたモデルのすべての層に局所性帰納バイアスをもたらすが、教師付きモデルはより低い層に局所的に集中する傾向にある。 MIMは、非常に大きな受容野を持つ視覚変換器を最適化するのに役立ちます。 mimを使用すると、モデルはすべての層で注意の面で大きな多様性を維持することができる。 しかし、監督されたモデルでは、注意の多様性は最後の3層からほぼ消え、多様性の低下は微調整のパフォーマンスに悪影響を及ぼす。 実験の結果,MIMモデルは教師付きモデルよりも,弱いセマンティクスやきめ細かな分類を伴う幾何学的および運動的タスクにおいて,はるかに優れた性能を発揮することがわかった。 ベルとホイッスルがなければ、標準MIMのSwinV2-Lはポーズ推定(COCOテストデブでは78.9 AP、CrowdPoseでは78.0 AP)、深さ推定(NYUv2では0.287 RMSE、KITTIでは1.966 RMSE)、ビデオオブジェクト追跡(LaSOTでは70.7 SUC)で最先端のパフォーマンスを達成することができた。 教師付き事前学習によってカテゴリが十分にカバーされている意味理解データセットの場合、MIMモデルは高い競争力を持つ転送性能を達成することができる。 MIMをより深く理解することで、私たちの研究がこの方向に新しい、しっかりとした研究を刺激できることを願っています。

Masked image modeling (MIM) as pre-training is shown to be effective for numerous vision downstream tasks, but how and where MIM works remain unclear. In this paper, we compare MIM with the long-dominant supervised pre-trained models from two perspectives, the visualizations and the experiments, to uncover their key representational differences. From the visualizations, we find that MIM brings locality inductive bias to all layers of the trained models, but supervised models tend to focus locally at lower layers but more globally at higher layers. That may be the reason why MIM helps Vision Transformers that have a very large receptive field to optimize. Using MIM, the model can maintain a large diversity on attention heads in all layers. But for supervised models, the diversity on attention heads almost disappears from the last three layers and less diversity harms the fine-tuning performance. From the experiments, we find that MIM models can perform significantly better on geometric and motion tasks with weak semantics or fine-grained classification tasks, than their supervised counterparts. Without bells and whistles, a standard MIM pre-trained SwinV2-L could achieve state-of-the-art performance on pose estimation (78.9 AP on COCO test-dev and 78.0 AP on CrowdPose), depth estimation (0.287 RMSE on NYUv2 and 1.966 RMSE on KITTI), and video object tracking (70.7 SUC on LaSOT). For the semantic understanding datasets where the categories are sufficiently covered by the supervised pre-training, MIM models can still achieve highly competitive transfer performance. With a deeper understanding of MIM, we hope that our work can inspire new and solid research in this direction.
翻訳日:2022-05-30 11:14:32 公開日:2022-05-27
# SHREC 2022:画像とRGB-Dデータを用いた道路舗装の穴と亀裂検出

SHREC 2022: pothole and crack detection in the road pavement using images and RGB-D data ( http://arxiv.org/abs/2205.13326v2 )

ライセンス: Link先を確認
Elia Moscoso Thompson, Andrea Ranieri, Silvia Biasotti, Miguel Chicchon, Ivan Sipiran, Minh-Khoi Pham, Thang-Long Nguyen-Ho, Hai-Dang Nguyen, Minh-Triet Tran(参考訳) 本稿では,SHREC 2022の道路舗装におけるポットホールと亀裂検出のための評価手法について述べる。 道路面のセマンティクスセグメンテーションのための合計7つの異なるランを比較し、参加者から6つとベースライン法とを比較した。 すべてのメソッドがディープラーニング技術を利用し、そのパフォーマンスは同じ環境(つまり単一のjupyterノートブック)を使ってテストされる。 身近な深度カメラで収集した3836のセマンティックセグメンテーション画像/マスクペアと797のrgb-dビデオクリップからなるトレーニングセットが参加者に提供された。 次に、検証セットの496のイメージ/マスクペア、テストセットの504のペア、最後に8のビデオクリップで評価する。 結果の分析は,ビデオクリップの映像分割と質的分析の定量的指標に基づいて行われる。 参加と結果から,シナリオは非常に興味深く,rgb-dデータの利用はいまだに困難であることが示された。

This paper describes the methods submitted for evaluation to the SHREC 2022 track on pothole and crack detection in the road pavement. A total of 7 different runs for the semantic segmentation of the road surface are compared, 6 from the participants plus a baseline method. All methods exploit Deep Learning techniques and their performance is tested using the same environment (i.e.: a single Jupyter notebook). A training set, composed of 3836 semantic segmentation image/mask pairs and 797 RGB-D video clips collected with the latest depth cameras was made available to the participants. The methods are then evaluated on the 496 image/mask pairs in the validation set, on the 504 pairs in the test set and finally on 8 video clips. The analysis of the results is based on quantitative metrics for image segmentation and qualitative analysis of the video clips. The participation and the results show that the scenario is of great interest and that the use of RGB-D data is still challenging in this context.
翻訳日:2022-05-30 10:45:34 公開日:2022-05-27