このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220227となっている論文です。

PDF登録状況(公開日: 20220227)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) OCRが低リソース言語のための機械翻訳を改善 [全文訳有]

OCR Improves Machine Translation for Low-Resource Languages ( http://arxiv.org/abs/2202.13274v1 )

ライセンス: CC BY 4.0
Oana Ignat, Jean Maillard, Vishrav Chaudhary, Francisco Guzm\'an(参考訳) 低リソース言語および低リソーススクリプト上での現在のOCRシステムの性能について検討する。 低リソーススクリプトにおける60の低リソース言語に対して,実データと合成データからなる新しいベンチマークである‘textsc{OCR4MT} を導入,公開する。 我々は、我々のベンチマークで最先端のOCRシステムを評価し、最も一般的なエラーを分析する。 OCRモノリンガルデータは,逆翻訳で使用する場合,機械翻訳モデルの性能を向上させる貴重な資源であることを示す。 次に,OCRエラーが機械翻訳性能に与える影響を調査し,機械翻訳に有用なモノリンガルデータに必要なOCR品質の最小レベルを決定する。

We aim to investigate the performance of current OCR systems on low resource languages and low resource scripts. We introduce and make publicly available a novel benchmark, \textsc{OCR4MT}, consisting of real and synthetic data, enriched with noise, for 60 low-resource languages in low resource scripts. We evaluate state-of-the-art OCR systems on our benchmark and analyse most common errors. We show that OCR monolingual data is a valuable resource that can increase performance of Machine Translation models, when used in backtranslation. We then perform an ablation study to investigate how OCR errors impact Machine Translation performance and determine what is the minimum level of OCR quality needed for the monolingual data to be useful for Machine Translation.
翻訳日:2022-03-03 06:34:36 公開日:2022-02-27
# 都市交通システムにおける休日の短期旅客流予測のためのGCN変換器

GCN-Transformer for short-term passenger flow prediction on holidays in urban rail transit systems ( http://arxiv.org/abs/2203.00007v1 )

ライセンス: Link先を確認
Shuxin Zhang, Jinlei Zhang, Lixing Yang, Ziyou Gao(参考訳) 都市鉄道交通システムの短期的な旅客流量予測は、交通運用と管理において非常に重要である。 新たなディープラーニングベースのモデルは、予測精度を改善する効果的な方法を提供する。 しかし、既存のモデルの多くは平日のみの旅客の移動を予測しているが、ホリデーシーズンには渋滞や事故が発生するため、オペレーターにとってより重要な情報を提供するホリデーシーズンの乗客の移動を予測する研究はほとんどない。 そこで本研究では,グラフ型ニューラルネットワーク(gcn)とトランスフォーマ(transformer)を組み合わせた,休日における短期旅客流量予測のためのディープラーニングモデルgcn-transformerを提案する。 gcnは乗客流の空間的特徴を抽出し、トランスは乗客流の時間的特徴を抽出するために適用される。 また, 過去の乗客フローデータに加えて, ソーシャルメディアデータも予測モデルに組み込まれており, 乗客フローの変動と潜在的に相関があることが証明されている。 GCN-Transformerは、正月に中国の南京から2つの大規模な実世界のデータセットでテストされ、従来の予測モデルと比較される。 その結果, ホリデーシーズンにおける短期的乗客フロー予測の実践的活用を圧倒的に支援するベースライン手法の堅牢性と利点が示された。

The short-term passenger flow prediction of the urban rail transit system is of great significance for traffic operation and management. The emerging deep learning-based models provide effective methods to improve prediction accuracy. However, most of the existing models mainly predict the passenger flow on general weekdays, while few studies focus on predicting the holiday passenger flow, which can provide more significant information for operators because congestions or accidents generally occur on holidays. To this end, we propose a deep learning-based model named GCN-Transformer comprising graph conventional neural network (GCN) and Transformer for short-term passenger flow prediction on holidays. The GCN is applied to extract the spatial features of passenger flows and the Transformer is applied to extract the temporal features of passenger flows. Moreover, in addition to the historical passenger flow data, social media data are also incorporated into the prediction model, which has been proven to have a potential correlation with the fluctuation of passenger flow. The GCN-Transformer is tested on two large-scale real-world datasets from Nanning, China during the New Year holiday and is compared with several conventional prediction models. Results demonstrate its better robustness and advantages among baseline methods, which provides overwhelming support for practical applications of short-term passenger flow prediction on holidays
翻訳日:2022-03-02 14:54:36 公開日:2022-02-27
# 多交通モードの短期的乗客フロー予測:残差ネットワークとトランスフォーマーに基づくマルチタスク学習手法

Short-term passenger flow prediction for multi-traffic modes: A residual network and Transformer based multi-task learning method ( http://arxiv.org/abs/2203.00422v1 )

ライセンス: Link先を確認
Yongjie Yang, Jinlei Zhang, Lixing Yang, Ziyou Gao(参考訳) モビリティ・アズ・ア・サービス(MaaS)の普及に伴い、マルチトラフィック・モードを同時にかつ協調的に管理することがますます重要になる。 maasの重要な構成要素として、マルチトラフィックモードの短期旅客流量予測が注目されている。 マルチトラフィックモードの時空間的特徴が極めて複雑であるため、これは難しい問題である。 そこで本稿では,マルチトラフィックモード(サブウェイ,タクシー,バス)の短期乗客フロー予測のためのres-transformerと呼ばれるマルチタスク学習モデルを提案する。 各トラフィックモードはモデル内の1つのタスクとして扱われる。 Res-Transformerは,(1)2次元畳み込みニューラルネットワーク(CNN)とマルチヘッドアテンション機構からなる改良されたトランスフォーマー層で構成され,マルチトラフィックモードの空間的特徴と時間的特徴を抽出し,(2)異なるトラフィックモードの内部パターンを抽出し,多トラフィックモードの乗客フロー特性を高めるために使用される残留ネットワークアーキテクチャである。 res-transformerモデルは、北京の2つの大規模実世界データセットで評価されている。 1つは交通ハブの地域、もう1つは住宅エリアの地域である。 提案手法の有効性とロバスト性を証明するために,提案モデルといくつかの最先端モデルとの比較実験を行った。 本稿では,複数交通モードにおける短時間の乗客フロー予測について重要な知見を与える。

With the prevailing of mobility as a service (MaaS), it becomes increasingly important to manage multi-traffic modes simultaneously and cooperatively. As an important component of MaaS, short-term passenger flow prediction for multi-traffic modes has thus been brought into focus. It is a challenging problem because the spatiotemporal features of multi-traffic modes are critically complex. To solve the problem, this paper proposes a multi-task learning-based model, called Res-Transformer, for short-term passenger flow prediction of multi-traffic modes (subway, taxi, and bus). Each traffic mode is treated as a single task in the model. The Res-Transformer consists of three parts: (1) several modified transformer layers comprising 2D convolutional neural networks (CNN) and multi-head attention mechanism, which helps to extract the spatial and temporal features of multi-traffic modes, (2) a residual network architecture used to extract the inner pattern of different traffic modes and enhance the passenger flow features of multi-traffic modes. The Res-Transformer model is evaluated on two large-scale real-world datasets from Beijing, China. One is the region of a traffic hub and the other is the region of a residential area. Experiments are conducted to compare the performance of the proposed model with several state-of-the-art models to prove the effectiveness and robustness of the proposed method. This paper can give critical insights into the short-tern passenger flow prediction for multi-traffic modes.
翻訳日:2022-03-02 14:53:02 公開日:2022-02-27
# (参考訳) リアルタイム道路インフラ管理のためのコンピュータビジョン支援手法 [全文訳有]

A Computer Vision-assisted Approach to Automated Real-Time Road Infrastructure Management ( http://arxiv.org/abs/2202.13285v1 )

ライセンス: CC BY 4.0
Philippe Heitzmann(参考訳) 道路舗装災害の正確な自動検出は, ポットホールやその他の表面面アスファルトき裂などの事故を引き起こす可能性のある道路危険物のタイムリーな同定と修復に重要である。 このようなシステムの展開は、インフラ整備のための政府資金の不足が、道路の危険に対する道路システムの手動検査が不十分で頻繁な結果、潜在的に致命的な自動車事故のリスクを増大させるような低リソース環境においてさらに有利である。 この問題を解決するために、2020年5月に発表されたGlobal Road Damage Detection(GRDC)チャレンジの一環として、電気電子工学研究所(IEEE)が主催した最近の研究イニシアチブは、学術や他の研究者に、これらの道路危険検出問題に対する革新的なディープラーニングベースのソリューションを提出するよう呼びかける、様々な道路災害に関する、21,041の注釈付き画像データセットである。 このデータセットを利用することで,2021年12月時点でこの課題に参入した121チームのトップ5にランク付けされた0.68 F1スコアの試験結果を生成する,監視対象検出アプローチ(YOLO)と,車両ダッシュボード搭載スマートフォンカメラによる道路災害のリアルタイム検出と分類を行うFaster R-CNNフレームワークを提案する。

Accurate automated detection of road pavement distresses is critical for the timely identification and repair of potentially accident-inducing road hazards such as potholes and other surface-level asphalt cracks. Deployment of such a system would be further advantageous in low-resource environments where lack of government funding for infrastructure maintenance typically entails heightened risks of potentially fatal vehicular road accidents as a result of inadequate and infrequent manual inspection of road systems for road hazards. To remedy this, a recent research initiative organized by the Institute of Electrical and Electronics Engineers ("IEEE") as part of their 2020 Global Road Damage Detection ("GRDC") Challenge published in May 2020 a novel 21,041 annotated image dataset of various road distresses calling upon academic and other researchers to submit innovative deep learning-based solutions to these road hazard detection problems. Making use of this dataset, we propose a supervised object detection approach leveraging You Only Look Once ("YOLO") and the Faster R-CNN frameworks to detect and classify road distresses in real-time via a vehicle dashboard-mounted smartphone camera, producing 0.68 F1-score experimental results ranking in the top 5 of 121 teams that entered this challenge as of December 2021.
翻訳日:2022-03-02 12:57:32 公開日:2022-02-27
# (参考訳) 留意点推薦におけるアクティブユーザの不公平性と人気バイアス [全文訳有]

The Unfairness of Active Users and Popularity Bias in Point-of-Interest Recommendation ( http://arxiv.org/abs/2202.13307v1 )

ライセンス: CC BY 4.0
Hossein A. Rahmani, Yashar Deldjoo, Ali Tourani, Mohammadmehdi Naghiaei(参考訳) Point-of-Interest(PO I)レコメンデーションシステムは、ユーザにパーソナライズされたレコメンデーションを提供し、企業が潜在的な顧客を引き付けるのを助ける。 彼らの成功にもかかわらず、最近の研究は、データ駆動のレコメンデーションがデータバイアスの影響を受け、主にコンシューマ(ユーザ)とプロバイダ(イテム)の異なる利害関係者に不公平な結果をもたらす可能性を示唆している。 レコメンダシステムにおける既存のフェアネス関連研究のほとんどは、rsが双方向のマーケットプレースで働くことを無視して、個別にユーザフェアネスとアイテムフェアネスの問題を扱っている。 本稿は,両者の相互作用について考察する。 (i)アクティブユーザーの不公平性。 (二 人気商品の不公平、及び (iii)研究三角形の3つの角度としての推薦の精度(人格化) ユーザを有利で不利なレベルにグループ化し、そのアクティビティレベルに基づいてユーザフェアネスを測定します。 項目の公平性については、アイテムを短頭、中尾、長尾のグループに分割し、これらのアイテムグループの露出をユーザの推奨リストのトップkに分類する。 POIレコメンデーションに一般的に使用される8つの異なるレコメンデーションモデルの実験的検証(例えば、コンテキスト、CF)は、GowallaとYelpの2つの公開POIレコメンデーションデータセットにおいて、ほとんどの優れたモデルが人気バイアスの不公平さ(即ち不公平さ)に深刻な影響を受けていることを示している。 さらに本研究では, 消費者と生産者の公正性を両立できないモデルが多く, データの自然バイアスによるトレードオフが示唆されている。 テストシナリオとしてPOIレコメンデーションを選択していますが、洞察は他のドメインで簡単に拡張可能であるべきです。

Point-of-Interest (POI) recommender systems provide personalized recommendations to users and help businesses attract potential customers. Despite their success, recent studies suggest that highly data-driven recommendations could be impacted by data biases, resulting in unfair outcomes for different stakeholders, mainly consumers (users) and providers (items). Most existing fairness-related research works in recommender systems treat user fairness and item fairness issues individually, disregarding that RS work in a two-sided marketplace. This paper studies the interplay between (i) the unfairness of active users, (ii) the unfairness of popular items, and (iii) the accuracy (personalization) of recommendation as three angles of our study triangle. We group users into advantaged and disadvantaged levels to measure user fairness based on their activity level. For item fairness, we divide items into short-head, mid-tail, and long-tail groups and study the exposure of these item groups into the top-k recommendation list of users. Experimental validation of eight different recommendation models commonly used for POI recommendation (e.g., contextual, CF) on two publicly available POI recommendation datasets, Gowalla and Yelp, indicate that most well-performing models suffer seriously from the unfairness of popularity bias (provider unfairness). Furthermore, our study shows that most recommendation models cannot satisfy both consumer and producer fairness, indicating a trade-off between these variables possibly due to natural biases in data. We choose the POI recommendation as our test scenario; however, the insights should be trivially extendable on other domains.
翻訳日:2022-03-02 12:43:42 公開日:2022-02-27
# (参考訳) クラスタリングストリーミングデータのためのディリクレプロセス混合モデルのサンプリング [全文訳有]

Sampling in Dirichlet Process Mixture Models for Clustering Streaming Data ( http://arxiv.org/abs/2202.13312v1 )

ライセンス: CC BY 4.0
Or Dinari and Oren Freifeld(参考訳) ストリーミングデータをクラスタリングするための実践的なツールは、観測の到着率を処理するのに十分な速度でなければならない。 一般的には、静止性の欠如に適応する必要があり、データ統計は様々なドリフト形態やクラスタ数の変化などにより時間に依存する可能性がある。 ベイジアン非パラメトリックな性質を持つディリクレ過程混合モデル(dpmm)は、その複雑性をデータに適応させることができるが、ストリーミングデータの場合、自然な選択である。 しかし、古典的な定式化では、DPMMはデータ統計学において一般的な種類のドリフトを捉えることができない。 さらに、その制限にかかわらず、オンラインDPMM推論の既存の手法は、高速なデータストリームを扱うには遅すぎる。 本研究では,DPMMと既知のDPMMサンプリングに基づくストリーミングデータクラスタリングのための非ストリーミング推論手法の両方を適用することを提案する。 提案手法は,提案手法が他の手法に匹敵する速さで動作しながら,最先端の処理結果が得られるような,難易度の高い設定で有効性を示す。

Practical tools for clustering streaming data must be fast enough to handle the arrival rate of the observations. Typically, they also must adapt on the fly to possible lack of stationarity; i.e., the data statistics may be time-dependent due to various forms of drifts, changes in the number of clusters, etc. The Dirichlet Process Mixture Model (DPMM), whose Bayesian nonparametric nature allows it to adapt its complexity to the data, seems a natural choice for the streaming-data case. In its classical formulation, however, the DPMM cannot capture common types of drifts in the data statistics. Moreover, and regardless of that limitation, existing methods for online DPMM inference are too slow to handle rapid data streams. In this work we propose adapting both the DPMM and a known DPMM sampling-based non-streaming inference method for streaming-data clustering. We demonstrate the utility of the proposed method on several challenging settings, where it obtains state-of-the-art results while being on par with other methods in terms of speed.
翻訳日:2022-03-02 12:29:20 公開日:2022-02-27
# (参考訳) ランタイムの不確実性のための堅牢なオフポリシー学習に向けて [全文訳有]

Towards Robust Off-policy Learning for Runtime Uncertainty ( http://arxiv.org/abs/2202.13337v1 )

ライセンス: CC BY 4.0
Da Xu, Yuting Ye, Chuanwei Ruan, Bo Yang(参考訳) オフライン学習は、オンライン展開前にポリシーを最適化し、評価する上で重要な役割を果たす。 しかし、リアルタイムサービスでは、オンライン設定とオフライン設定の一貫性を損なう様々な介入や制約を観察し、それをランタイムの不確実性と呼ぶ。 このような不確実性は、異常と稀な性質のため、ログデータから学べない。 一定のレベルのロバスト性を示すために、ランタイムの不確実性の観点から、オフポリティクス推定器を逆方向に沿って摂動させる。 これにより、結果の見積は観測されるだけでなく、予期せぬ実行時の不確実性に対しても堅牢になる。 この考え方を生かして,3つの主要なオフポリシー学習法である逆プロペンシティスコア法,報酬モデル法,二重ロバスト法に実行時不確認ロバスト性をもたらす。 理論上,本手法のランタイムの不確かさに対する頑健さを正当化し,シミュレーションと実世界のオンライン実験の両方を用いてその効果を実証する。

Off-policy learning plays a pivotal role in optimizing and evaluating policies prior to the online deployment. However, during the real-time serving, we observe varieties of interventions and constraints that cause inconsistency between the online and offline settings, which we summarize and term as runtime uncertainty. Such uncertainty cannot be learned from the logged data due to its abnormality and rareness nature. To assert a certain level of robustness, we perturb the off-policy estimators along an adversarial direction in view of the runtime uncertainty. It allows the resulting estimators to be robust not only to observed but also unexpected runtime uncertainties. Leveraging this idea, we bring runtime-uncertainty robustness to three major off-policy learning methods: the inverse propensity score method, reward-model method, and doubly robust method. We theoretically justify the robustness of our methods to runtime uncertainty, and demonstrate their effectiveness using both the simulation and the real-world online experiments.
翻訳日:2022-03-02 12:02:09 公開日:2022-02-27
# (参考訳) データオーバーラップ: 絡み合うための前提条件 [全文訳有]

Data Overlap: A Prerequisite For Disentanglement ( http://arxiv.org/abs/2202.13341v1 )

ライセンス: CC BY 4.0
Nathan Michlo, Steven James, Richard Klein(参考訳) 変分オートエンコーダ(VAE)を用いた非絡み合い表現の学習は、しばしば損失の正規化成分に起因する。 本稿では,vaesにおける絡み合いの主な要因として,データと損失の再構築期間の相互作用に注目した。 我々は、標準化されたベンチマークデータセットは、異種表現のように見えるものを学ぶのに役立つ方法で構築されていることに注意する。 私たちは、このメカニズムを利用して既存の最先端のディスタングルメントフレームワークを壊す、直感的な逆行データセットを設計します。 最後に,VAEが偶発的距離学習者であることを示唆する再構成損失を修正した形で解決する。

Learning disentangled representations with variational autoencoders (VAEs) is often attributed to the regularisation component of the loss. In this work, we highlight the interaction between data and the reconstruction term of the loss as the main contributor to disentanglement in VAEs. We note that standardised benchmark datasets are constructed in a way that is conducive to learning what appear to be disentangled representations. We design an intuitive adversarial dataset that exploits this mechanism to break existing state-of-the-art disentanglement frameworks. Finally, we provide solutions in the form of a modified reconstruction loss suggesting that VAEs are accidental distance learners.
翻訳日:2022-03-02 11:26:39 公開日:2022-02-27
# (参考訳) Split HE: スプリット学習と同型暗号化を組み合わせた高速セキュア推論 [全文訳有]

Split HE: Fast Secure Inference Combining Split Learning and Homomorphic Encryption ( http://arxiv.org/abs/2202.13351v1 )

ライセンス: CC BY-SA 4.0
George-Liviu Pereteanu, Amir Alansary, Jonathan Passerat-Palmbach(参考訳) 本稿では,コンピュータビジョンアプリケーションに適用するニューラルネットワークの高速セキュアな推論のための新しいプロトコルを提案する。 クライアントのマシン上で平文でモデルの重みのサブセットをデプロイすることで、オンライン実行の全体的なパフォーマンスを改善することに重点を置いている。 TenSEALを介してSEALを用いてCIFAR-10データセット上でトレーニングされたベンチマークニューラルネットワーク上で,本プロトコルを評価する。 メンバシップ推論とモデル抽出アタックを用いた経験的セキュリティ評価では,splitnnをベースとする同様のアプローチよりも,同じアタックでプロトコルがレジリエントであることが判明した。 関連する作業と比較すると、推論時間に2.5x-10x、通信コストに14x-290xの改善を示す。

This work presents a novel protocol for fast secure inference of neural networks applied to computer vision applications. It focuses on improving the overall performance of the online execution by deploying a subset of the model weights in plaintext on the client's machine, in the fashion of SplitNNs. We evaluate our protocol on benchmark neural networks trained on the CIFAR-10 dataset using SEAL via TenSEAL and discuss runtime and security performances. Empirical security evaluation using Membership Inference and Model Extraction attacks showed that the protocol was more resilient under the same attacks than a similar approach also based on SplitNN. When compared to related work, we demonstrate improvements of 2.5x-10x for the inference time and 14x-290x in communication costs.
翻訳日:2022-03-02 11:11:10 公開日:2022-02-27
# (参考訳) HiCLRE: 遠隔監視型関係抽出のための階層型コントラスト学習フレームワーク [全文訳有]

HiCLRE: A Hierarchical Contrastive Learning Framework for Distantly Supervised Relation Extraction ( http://arxiv.org/abs/2202.13352v1 )

ライセンス: CC BY 4.0
Dongyang Li, Taolin Zhang, Nan Hu, Chengyu Wang, Xiaofeng He(参考訳) 遠方の監督は、同一の実体対を含む文は同一の関係を反映していると仮定する。 遠隔教師付き関係抽出(dsre)タスクの以前の作業は、一般的には文レベルやバッグレベルの脱ノイズ技術に焦点を合わせ、クロスレベルとの明示的な相互作用を無視する。 本稿では,大域的構造情報と局所的なきめ細粒度相互作用を融合したヒCLRE(HiCLRE)のための階層的コントラスト学習フレームワークを提案する。 具体的には,マルチグラニュラ性再コンテキスト化(multi-granularity recontextualization) という,既存のマルチヘッドセルフアテンションを適応させることで,非ノイズなコンテキスト認識表現を生成する,クロスレベルと対話する3レベル階層学習フレームワークを提案する。 一方、擬似正サンプルは、動的勾配に基づくデータ拡張戦略(Dynamic Gradient Adversarial Perturbation)を介して、コントラスト学習のための特定のレベルに提供される。 実験により、hiclreは様々な主流dsreデータセットの強いベースラインを上回ることが示されている。

Distant supervision assumes that any sentence containing the same entity pairs reflects identical relationships. Previous works of distantly supervised relation extraction (DSRE) task generally focus on sentence-level or bag-level de-noising techniques independently, neglecting the explicit interaction with cross levels. In this paper, we propose a hierarchical contrastive learning Framework for Distantly Supervised relation extraction (HiCLRE) to reduce noisy sentences, which integrate the global structural information and local fine-grained interaction. Specifically, we propose a three-level hierarchical learning framework to interact with cross levels, generating the de-noising context-aware representations via adapting the existing multi-head self-attention, named Multi-Granularity Recontextualization. Meanwhile, pseudo positive samples are also provided in the specific level for contrastive learning via a dynamic gradient-based data augmentation strategy, named Dynamic Gradient Adversarial Perturbation. Experiments demonstrate that HiCLRE significantly outperforms strong baselines in various mainstream DSRE datasets.
翻訳日:2022-03-02 11:02:27 公開日:2022-02-27
# (参考訳) 低リソースタスク特化自然言語生成のためのアンタングル付き変分オートエンコーダ [全文訳有]

Variational Autoencoder with Disentanglement Priors for Low-Resource Task-Specific Natural Language Generation ( http://arxiv.org/abs/2202.13363v1 )

ライセンス: CC BY 4.0
Zhuang Li, Lizhen Qu, Qiongkai Xu, Tongtong Wu, Tianyang Zhan, Gholamreza Haffari(参考訳) 本稿では,タスク固有のラベル付き例をひとつもひとつも持たない条件付き自然言語生成のための,乱れ前処理付き変分自動エンコーダVAE-DPRIORを提案する。 合成一般化を改善するために,本モデルでは,潜時コンテンツ空間の先行と潜時ラベル空間の先行とを導入することで,非交叉表現学習を行う。 経験的および理論的には、条件付き前処理は、前処理のように特定の正規化なしに既に表現をアンタングルできることを示す。 また、見たタスクのデータにアクセスせずに、コンテンツ空間から多様なコンテンツ表現をサンプリングし、低リソース設定で多様なテキストを生成するための新しいタスクの表現と融合することもできる。 我々の大規模な実験は、競争ベースラインよりも優れたモデルの性能を示す。 一 連続ゼロ/フェーショット学習におけるデータ増強及び 二 ゼロ/フェーショット設定の両方におけるテキストの転送

In this paper, we propose a variational autoencoder with disentanglement priors, VAE-DPRIOR, for conditional natural language generation with none or a handful of task-specific labeled examples. In order to improve compositional generalization, our model performs disentangled representation learning by introducing a prior for the latent content space and another prior for the latent label space. We show both empirically and theoretically that the conditional priors can already disentangle representations even without specific regularizations as in the prior work. We can also sample diverse content representations from the content space without accessing data of the seen tasks, and fuse them with the representations of novel tasks for generating diverse texts in the low-resource settings. Our extensive experiments demonstrate the superior performance of our model over competitive baselines in terms of i) data augmentation in continuous zero/few-shot learning, and ii) text style transfer in both zero/few-shot settings.
翻訳日:2022-03-02 10:48:27 公開日:2022-02-27
# (参考訳) 包括的進行型ベイズニューラルネットワークによるロバスト連続学習 [全文訳有]

Robust Continual Learning through a Comprehensively Progressive Bayesian Neural Network ( http://arxiv.org/abs/2202.13369v1 )

ライセンス: CC BY 4.0
Guo Yang, Cheryl Sze Yin Wong and Ramasamy Savitha(参考訳) 本研究では,タスク列のロバスト連続学習のための包括的プログレッシブベイズニューラルネットワークを提案する。 ベイズニューラルネットワークは、タスクのシーケンスを表すのに十分なネットワークリソースが存在するように、徐々に切断され、成長するが、ネットワークは爆発しない。 同様のタスクが、連続的な学習シナリオにおけるすべてのタスクの公平な表現を保証するために、ネットワークリソース総数と同じ数を持つべきだという主張から始まります。 したがって、新しいタスクストリームのデータとして、ネットワークの各層におけるニューロンの総数(前のタスクとの共有表現と個々のタスク関連表現を含む)が全てのタスクに対して等しいように、十分なニューロンをネットワークに追加する。 トレーニングの最後に冗長な重みは、その後のタスクで効率的に活用するために、再初期化によって刈り取られる。 このように、ネットワークは徐々に成長するが、ネットワークリソースの有効利用を保証する。 本稿では,提案手法を「総合的に進行するベイズニューラルネットワーク(RCL-CPB)によるRobust Continual Learning」と呼び,MNISTデータセットに対するアプローチを3つの連続学習シナリオで評価する。 さらに、分割したCIFAR100(5クラス20タスク)と、MNIST、SVHN、CIFAR10データセットを用いたタスクの不均質なタスク列を用いて、RCL-CPBの性能を評価する。 実演と実演の結果から,プログレッシブbnnのための提案手法により,堅牢な連続学習が可能となった。

This work proposes a comprehensively progressive Bayesian neural network for robust continual learning of a sequence of tasks. A Bayesian neural network is progressively pruned and grown such that there are sufficient network resources to represent a sequence of tasks, while the network does not explode. It starts with the contention that similar tasks should have the same number of total network resources, to ensure fair representation of all tasks in a continual learning scenario. Thus, as the data for new task streams in, sufficient neurons are added to the network such that the total number of neurons in each layer of the network, including the shared representations with previous tasks and individual task related representation, are equal for all tasks. The weights that are redundant at the end of training each task are also pruned through re-initialization, in order to be efficiently utilized in the subsequent task. Thus, the network grows progressively, but ensures effective utilization of network resources. We refer to our proposed method as 'Robust Continual Learning through a Comprehensively Progressive Bayesian Neural Network (RCL-CPB)' and evaluate the proposed approach on the MNIST data set, under three different continual learning scenarios. Further to this, we evaluate the performance of RCL-CPB on a homogeneous sequence of tasks using split CIFAR100 (20 tasks of 5 classes each), and a heterogeneous sequence of tasks using MNIST, SVHN and CIFAR10 data sets. The demonstrations and the performance results show that the proposed strategies for progressive BNN enable robust continual learning.
翻訳日:2022-03-02 10:28:09 公開日:2022-02-27
# (参考訳) 深部確率予測のロングテールの改ざん [全文訳有]

Taming the Long Tail of Deep Probabilistic Forecasting ( http://arxiv.org/abs/2202.13418v1 )

ライセンス: CC BY 4.0
Jedrzej Kozerawski, Mayank Sharan, Rose Yu(参考訳) 電力消費量の推定から自動運転車の軌道予測まで、多くの応用において、深い確率的予測が注目されている。 しかし、既存のアプローチは、稀で難しいケースのパフォーマンスに対処することなく、最も一般的なシナリオの改善に焦点を当てている。 本研究では,確率予測における最先端の深層学習手法の性能の長い尾の挙動を同定する。 そこで本研究では,pareto loss と kurtosis loss の2つのモーメントに基づくtailedness measurement 概念を提案する。 クルトーシス損失は、損失分布の平均に関する4番目のモーメントとして対称な測定である。 パレートロス(pareto loss)は、一般化パレート分布(gpd)を用いた損失のモデル化である。 時系列や時空間的軌跡を含む実世界のデータセットにおける我々のアプローチの性能を実証し、テールの例で大幅に改善した。

Deep probabilistic forecasting is gaining attention in numerous applications ranging from weather prognosis, through electricity consumption estimation, to autonomous vehicle trajectory prediction. However, existing approaches focus on improvements on the most common scenarios without addressing the performance on rare and difficult cases. In this work, we identify a long tail behavior in the performance of state-of-the-art deep learning methods on probabilistic forecasting. We present two moment-based tailedness measurement concepts to improve performance on the difficult tail examples: Pareto Loss and Kurtosis Loss. Kurtosis loss is a symmetric measurement as the fourth moment about the mean of the loss distribution. Pareto loss is asymmetric measuring right tailedness, modeling the loss using a generalized Pareto distribution (GPD). We demonstrate the performance of our approach on several real-world datasets including time series and spatiotemporal trajectories, achieving significant improvements on the tail examples.
翻訳日:2022-03-02 10:06:57 公開日:2022-02-27
# (参考訳) 歩行者軌跡予測のための時空間グラフのメタパス解析 [全文訳有]

Meta-path Analysis on Spatio-Temporal Graphs for Pedestrian Trajectory Prediction ( http://arxiv.org/abs/2202.13427v1 )

ライセンス: CC BY 4.0
Aamir Hasan, Pranav Sriram, Katherine Driggs-Campbell(参考訳) 時空間グラフ(st-graphs)は、交通予測、人間の動きモデリング、行動認識などの時系列タスクのモデル化に用いられてきた。 STグラフの高レベル構造とそれに対応する特徴により、従来のアーキテクチャよりも性能が向上した。 しかし、現在の手法は、完全なグラフ構造によって提供される豊富な情報にもかかわらず、単純な特徴によって制限されがちであり、下流タスクでは非効率性と準最適性能をもたらす。 本稿では,STグラフにおいて,メタパスから派生した特徴を利用して,構造的リカレントニューラルネットワークの性能を向上させることを提案する。 本稿では,任意の時空間タスクに適用可能な汎用フレームワークである,メタパス拡張構造リカレントニューラルネットワーク(mesrnn)を提案する。 歩行者軌跡予測にMESRNNを用いて,これらのメタパスに基づく特徴を利用して,歩行者の軌跡と空間の関係を時間的・空間的に把握する。 mesrnnを標準データセットの最先端st-graphメソッドと比較し、メタパス情報によるパフォーマンス向上を示す。 提案モデルでは, 長い時間地平線上での軌道予測の基準線を32 %以上上回り, 密集層においてより社会的に適合した軌道を導出する。 詳細はプロジェクトのWebサイトhttps://sites.google .com/illinois.edu/me srnn/homeを参照してください。

Spatio-temporal graphs (ST-graphs) have been used to model time series tasks such as traffic forecasting, human motion modeling, and action recognition. The high-level structure and corresponding features from ST-graphs have led to improved performance over traditional architectures. However, current methods tend to be limited by simple features, despite the rich information provided by the full graph structure, which leads to inefficiencies and suboptimal performance in downstream tasks. We propose the use of features derived from meta-paths, walks across different types of edges, in ST-graphs to improve the performance of Structural Recurrent Neural Network. In this paper, we present the Meta-path Enhanced Structural Recurrent Neural Network (MESRNN), a generic framework that can be applied to any spatio-temporal task in a simple and scalable manner. We employ MESRNN for pedestrian trajectory prediction, utilizing these meta-path based features to capture the relationships between the trajectories of pedestrians at different points in time and space. We compare our MESRNN against state-of-the-art ST-graph methods on standard datasets to show the performance boost provided by meta-path information. The proposed model consistently outperforms the baselines in trajectory prediction over long time horizons by over 32\%, and produces more socially compliant trajectories in dense crowds. For more information please refer to the project website at https://sites.google .com/illinois.edu/me srnn/home.
翻訳日:2022-03-02 09:47:07 公開日:2022-02-27
# (参考訳) 書籍推薦における人気バイアスの不公平性 [全文訳有]

The Unfairness of Popularity Bias in Book Recommendation ( http://arxiv.org/abs/2202.13446v1 )

ライセンス: CC BY 4.0
Mohammadmehdi Naghiaei, Hossein A. Rahmani, Mahdi Dehghan(参考訳) 近年の研究では、レコメンデーションシステムは一般的に人気バイアスに悩まされている。 人気度バイアスとは、人気アイテム(頻繁に評価されるアイテム)が頻繁に推奨されるのに対して、人気アイテムがあまり推奨されないことを指す。 研究者は人気バイアスを調べる2つのアプローチを採用した。 (i)ユーザの視点からは、推薦システムが人気商品の受け取りにおけるユーザの期待からどこまで逸脱するかを分析し、 (ii)ロングテールアイテムが受け取る露出量を分析し、カタログ全体のカバレッジとノベルティによって測定する。 本稿では,本分野における第1の視点を考察するが,他の分野にも適用できる可能性がある。 そこで本研究では,有名な書籍分類データセットを分析し,人気項目(Niche,Diverse,Bests ellerなど)に対する傾向に基づいて3つのユーザグループを定義した。 さらに,9つの最先端レコメンデーションアルゴリズムと2つのベースライン(Random,MostPop)を精度(NDCG,Precision,Reca ll)と人気バイアスの観点から評価した。 以上の結果から,最先端のレコメンデーションアルゴリズムの多くは書籍領域の人気バイアスを被っており,プロファイルサイズが大きくてもユーザの期待をニッチで多様な嗜好で満たせていないことがわかった。 逆に、ベストセラーにフォーカスしたユーザーは、公平さとパーソナライゼーションの両面で高品質なレコメンデーションを受けやすい。 さらに,多様でベストセラーなグループに属するユーザの推薦アルゴリズムにおけるパーソナライゼーションと人気バイアスの不公平性とのトレードオフ,すなわちパーソナライゼーション能力の高いアルゴリズムが人気バイアスの不公平さに苦しむことを示した。

Recent studies have shown that recommendation systems commonly suffer from popularity bias. Popularity bias refers to the problem that popular items (i.e., frequently rated items) are recommended frequently while less popular items are recommended rarely or not at all. Researchers adopted two approaches to examining popularity bias: (i) from the users' perspective, by analyzing how far a recommendation system deviates from user's expectations in receiving popular items, and (ii) by analyzing the amount of exposure that long-tail items receive, measured by overall catalog coverage and novelty. In this paper, we examine the first point of view in the book domain, although the findings may be applied to other domains as well. To this end, we analyze the well-known Book-Crossing dataset and define three user groups based on their tendency towards popular items (i.e., Niche, Diverse, Bestseller-focused). Further, we evaluate the performance of nine state-of-the-art recommendation algorithms and two baselines (i.e., Random, MostPop) from both the accuracy (e.g., NDCG, Precision, Recall) and popularity bias perspectives. Our results indicate that most state-of-the-art recommendation algorithms suffer from popularity bias in the book domain, and fail to meet users' expectations with Niche and Diverse tastes despite having a larger profile size. Conversely, Bestseller-focused users are more likely to receive high-quality recommendations, both in terms of fairness and personalization. Furthermore, our study shows a tradeoff between personalization and unfairness of popularity bias in recommendation algorithms for users belonging to the Diverse and Bestseller groups, that is, algorithms with high capability of personalization suffer from the unfairness of popularity bias.
翻訳日:2022-03-02 09:29:14 公開日:2022-02-27
# (参考訳) グラフ支援コミュニケーション支援型アンサンブル学習 [全文訳有]

Graph-Assisted Communication-Effici ent Ensemble Federated Learning ( http://arxiv.org/abs/2202.13447v1 )

ライセンス: CC0 1.0
Pouya M Ghari and Yanning Shen(参考訳) コミュニケーション効率は、限られた通信帯域幅のため、連合学習において必要となる。 そこで本研究では,事前学習したモデルの集合を学習するアルゴリズムフレームワークを開発した。 各学習ラウンドにおいて、サーバは、事前学習されたモデルのサブセットを選択し、グラフの構造に基づいてアンサンブルモデルを構築する。 そして、特定の予算制約に違反しないように、選択されたモデルのみがクライアントに送信される。 クライアントから更新を受け取ると、サーバはそれに従ってグラフの構造を洗練する。 提案アルゴリズムはサブ線形後悔境界を満足することが証明された。 実際のデータセットの実験は、我々の新しいアプローチの有効性を示す。

Communication efficiency arises as a necessity in federated learning due to limited communication bandwidth. To this end, the present paper develops an algorithmic framework where an ensemble of pre-trained models is learned. At each learning round, the server selects a subset of pre-trained models to construct the ensemble model based on the structure of a graph, which characterizes the server's confidence in the models. Then only the selected models are transmitted to the clients, such that certain budget constraints are not violated. Upon receiving updates from the clients, the server refines the structure of the graph accordingly. The proposed algorithm is proved to enjoy sub-linear regret bound. Experiments on real datasets demonstrate the effectiveness of our novel approach.
翻訳日:2022-03-02 09:15:00 公開日:2022-02-27
# (参考訳) 多項式ニューラルネットワークのスペクトルバイアス [全文訳有]

The Spectral Bias of Polynomial Neural Networks ( http://arxiv.org/abs/2202.13473v1 )

ライセンス: CC BY 4.0
Moulik Choraria, Leello Tadesse Dadi, Grigorios Chrysos, Julien Mairal, Volkan Cevher(参考訳) PNN(Polynomial Neural Network)は近年,高頻度情報の重要性が高い画像生成や顔認識において,特に有効であることが示されている。 これまでの研究では、ニューラルネットワークが低周波関数に対して$\textit{spectral bias}$を示しており、トレーニング中に低周波成分のより高速な学習をもたらすことが示されている。 このような研究に触発されて、我々はPNNのニューラルタンジェントカーネル(NTK)のスペクトル分析を行う。 我々は、最近提案されたPNNのパラメトリゼーションである$\Pi$-Netファミリが、より高い周波数の学習を高速化することを発見した。 我々は広範な実験を通して理論バイアスを検証する。 我々は、多項式による乗法的相互作用を取り入れることで、アーキテクチャや学習フレームワークの設計に新たな洞察を与えることを期待している。

Polynomial neural networks (PNNs) have been recently shown to be particularly effective at image generation and face recognition, where high-frequency information is critical. Previous studies have revealed that neural networks demonstrate a $\textit{spectral bias}$ towards low-frequency functions, which yields faster learning of low-frequency components during training. Inspired by such studies, we conduct a spectral analysis of the Neural Tangent Kernel (NTK) of PNNs. We find that the $\Pi$-Net family, i.e., a recently proposed parametrization of PNNs, speeds up the learning of the higher frequencies. We verify the theoretical bias through extensive experiments. We expect our analysis to provide novel insights into designing architectures and learning frameworks by incorporating multiplicative interactions via polynomials.
翻訳日:2022-03-02 09:00:51 公開日:2022-02-27
# PanoFlow:パノラマ画像のための光フロー学習

PanoFlow: Learning Optical Flow for Panoramic Images ( http://arxiv.org/abs/2202.13388v1 )

ライセンス: Link先を確認
Hao Shi, Yifan Zhou, Kailun Yang, Yaozu Ye, Xiaoting Yin, Zhe Yin, Shi Meng, Kaiwei Wang(参考訳) 光フロー推定は、交通シーンを時間的に解釈できる自動運転およびロボットシステムの基本課題である。 自動運転車は、360度パノラマセンサーによって提供される超広視野視野(FoV)の恩恵を受けている。 しかしながら、パノラマ画像のユニークな撮像過程のため、ピンホール画像用に設計されたモデルは、360度パノラマ画像に直接一般化しない。 本稿では,パノラマ画像の光学的流れを学習するための新しいネットワークフレームワークPanoFlowを提案する。 パノラマ変換における等角射影による歪みを克服するため,フロー歪み増大法(FDA)を設計した。 さらに、球面画像の循環性を利用して360度光流を推定し、大きな変位を比較的小さな変位に変換するサイクルフロー推定(CFE)手法を提案する。 パノフローは既存のフロー推定法に適用でき、狭FoVフロー推定の進歩の恩恵を受ける。 さらに,carlaに基づく合成パノラマデータセットflow360を作成して公開し,トレーニングと定量的解析を容易にする。 PanoFlowは最先端のパフォーマンスを実現する。 提案手法は、確立されたflow360データセットのエンドポイントエラー(epe)を26%削減する。 パブリックなOmniFlowNetデータセットでは、PanoFlowは3.34ピクセルのEPEを達成しており、最高の出力結果(7.12ピクセル)から53.1%のエラー削減を実現している。 また,本手法を屋外収集車を用いて検証し,現実のナビゲーションアプリケーションに強い可能性と堅牢性を示す。 コードとデータセットはhttps://github.com/m asterhow/panoflowで公開されている。

Optical flow estimation is a basic task in self-driving and robotics systems, which enables to temporally interpret the traffic scene. Autonomous vehicles clearly benefit from the ultra-wide Field of View (FoV) offered by 360-degree panoramic sensors. However, due to the unique imaging process of panoramic images, models designed for pinhole images do not directly generalize satisfactorily to 360-degree panoramic images. In this paper, we put forward a novel network framework--PanoFlow, to learn optical flow for panoramic images. To overcome the distortions introduced by equirectangular projection in panoramic transformation, we design a Flow Distortion Augmentation (FDA) method. We further propose a Cyclic Flow Estimation (CFE) method by leveraging the cyclicity of spherical images to infer 360-degree optical flow and converting large displacement to relatively small displacement. PanoFlow is applicable to any existing flow estimation method and benefit from the progress of narrow-FoV flow estimation. In addition, we create and release a synthetic panoramic dataset Flow360 based on CARLA to facilitate training and quantitative analysis. PanoFlow achieves state-of-the-art performance. Our proposed approach reduces the End-Point-Error (EPE) on the established Flow360 dataset by 26%. On the public OmniFlowNet dataset, PanoFlow achieves an EPE of 3.34 pixels, a 53.1% error reduction from the best published result (7.12 pixels). We also validate our method via an outdoor collection vehicle, indicating strong potential and robustness for real-world navigation applications. Code and dataset are publicly available at https://github.com/M asterHow/PanoFlow.
翻訳日:2022-03-01 18:24:53 公開日:2022-02-27
# 道路走行シーンの効率的な意味セグメンテーションのための変圧器型知識蒸留

Transformer-based Knowledge Distillation for Efficient Semantic Segmentation of Road-driving Scenes ( http://arxiv.org/abs/2202.13393v1 )

ライセンス: Link先を確認
Ruiping Liu, Kailun Yang, Huayao Liu, Jiaming Zhang, Kunyu Peng, Rainer Stiefelhagen(参考訳) ロボット工学のシーン理解と自動運転には,トランスフォーマーベースの手法によるセマンティックセグメンテーションタスクの解決への関心が高まっている。 しかし、効果的なトランスフォーマーはロボットシステムに望ましいセマンティックセグメンテーションをリアルタイムで解くには、常に面倒で計算コストがかかりすぎる。 さらに、畳み込みニューラルネットワーク(cnns)と比較して帰納的バイアスがないため、大規模なデータセットでの事前トレーニングは必須だが、長い時間がかかる。 知識蒸留(KD)は推論を高速化し、事前訓練された教師モデルからコンパクトな学生モデルに知識を伝達しながら精度を維持する。 CNNの伝統的なKD手法は、応答に基づく知識と特徴に基づく知識に重点を置いている。 対照的に,本論文では,変圧器の性質に応じた新しいkdフレームワーク,すなわち,特徴地図からの知識の伝達と大規模変圧器のパッチ埋め込みによるコンパクト変圧器の訓練を提案する。 この目的のために、(1)効率的な関係ベースのKDフレームワークの構築を支援する選択カーネルフュージョン(SKF)モジュール、(2)パッチ埋め込みアライメント(PEA)モジュール、(2)パッチ埋め込みの次元変換を行う選択カーネルレビュー(SKR)モジュールの2つのモジュールを提案する。 組み合わせKDフレームワークはSKR+PEAと呼ばれる。 都市景観とadcデータセットの包括的実験を通じて,提案手法が最新の最先端kdフレームワークを上回り,時間を要する事前学習手法に匹敵することを示す。 コードはhttps://github.com/R uipingL/SKR_PEA.gitで公開される。

For scene understanding in robotics and automated driving, there is a growing interest in solving semantic segmentation tasks with transformer-based methods. However, effective transformers are always too cumbersome and computationally expensive to solve semantic segmentation in real time, which is desired for robotic systems. Moreover, due to the lack of inductive biases compared to Convolutional Neural Networks (CNNs), pre-training on a large dataset is essential but it takes a long time. Knowledge Distillation (KD) speeds up inference and maintains accuracy while transferring knowledge from a pre-trained cumbersome teacher model to a compact student model. Most traditional KD methods for CNNs focus on response-based knowledge and feature-based knowledge. In contrast, we present a novel KD framework according to the nature of transformers, i.e., training compact transformers by transferring the knowledge from feature maps and patch embeddings of large transformers. To this purpose, two modules are proposed: (1) the Selective Kernel Fusion (SKF) module, which helps to construct an efficient relation-based KD framework, Selective Kernel Review (SKR); (2) the Patch Embedding Alignment (PEA) module, which performs the dimensional transformation of patch embeddings. The combined KD framework is called SKR+PEA. Through comprehensive experiments on Cityscapes and ACDC datasets, it indicates that our proposed approach outperforms recent state-of-the-art KD frameworks and rivals the time-consuming pre-training method. Code will be made publicly available at https://github.com/R uipingL/SKR_PEA.git
翻訳日:2022-03-01 18:24:28 公開日:2022-02-27
# 録音音声からの音符表現のための階層線形力学システム

Hierarchical Linear Dynamical System for Representing Notes from Recorded Audio ( http://arxiv.org/abs/2202.13255v1 )

ライセンス: Link先を確認
Leila Kalantari, Jose Principe, Kathryn E. Sieving(参考訳) 我々は,音符から音符の同時分割と分類を,外れ値の存在下で行うことを目指している。 時系列モデリングのための選択されたアーキテクチャは階層線形力学系(HLDS)である。 パラメータ設定のための新しい手法を提案する。 HLDSは2つの方法で使用することができる。 1)データ探索のための同時セグメンテーションとクラスタリング、すなわち未知のノートを見つけること。 2) 音響記録のセグメンテーションと分類は, 異常値の存在に関心のある音符を見つけるためのものである。 HLDSは簡単な作業であり、生体音響学の分野では難しい問題であるため、第2の目的に適応した。 各テストクリップはトレーニングクリップと同じノート(ただし、異なるインスタンス)を持ち、外れたノートも含んでいる。 テストでは、ノートのどの種類の利害関係者が属しているかが自動的に決定される。 この研究の2つの応用は、音場記録における動物音の検出や音楽学へのバイオ音響学の応用である。 録音音声から鳥音と音符の区分けと分類を行う実験が実施されている。

We seek to develop simultaneous segmentation and classification of notes from audio recordings in presence of outliers. The selected architecture for modeling time series is hierarchical linear dynamical system (HLDS). We propose a novel method for its parameter setting. HLDS can potentially be employed in two ways: 1) simultaneous segmentation and clustering for exploring data, i.e. finding unknown notes, 2) simultaneous segmentation and classification of audio recording for finding the notes of interest in the presence of outliers. We adapted HLDS for the second purpose since it is an easier task and still a challenging problem, e.g. in the field of bioacoustics. Each test clip has the same notes (but different instances) as of the training clip and also contain outlier notes. At test, it is automatically decided to which class of interest a note belongs to if any. Two applications of this work are to the fields of bioacoustics for detection of animal sounds in audio field recordings and also to musicology. Experiments have been conducted for segmentation and classification of both avian and musical notes from recorded audio.
翻訳日:2022-03-01 18:23:59 公開日:2022-02-27
# 深層学習に基づくエンジニアリングシステムの逆設計--自動車ブレーキの多分野設計最適化

Deep Learning-Based Inverse Design for Engineering Systems: Multidisciplinary Design Optimization of Automotive Brakes ( http://arxiv.org/abs/2202.13309v1 )

ライセンス: Link先を確認
Seongsin Kim, Minyoung Jwa, Soonwook Lee, Sunghoon Park, Namwoo Kang(参考訳) ブレーキシステムのブレーキ性能は、車両開発に考慮しなければならない目標性能である。 Apparent piston travel (APT) とドラッグトルクは、ブレーキ性能を評価する上で最も代表的な要因である。 特に、2つの性能要因が互いに矛盾する関係にあるため、ブレーキ設計には多分野設計最適化(MDO)アプローチが必要である。 しかし、MDOの計算コストは、規律の数が増えるにつれて増加する。 近年,Deep Learning (DL) を用いた逆設計の研究により,反復的最適化プロセスを実装することなく,目標性能を満足できる最適設計を瞬時に生成する可能性が高まっている。 本研究では,ブレーキシステムのaptやドラッグトルクなど,複数の目標を同時に満たすdlベースの多分野逆設計 (mid) を提案する。 その結果,提案する逆設計は,バックプロパゲーションや逐次二次計画といった従来の最適化手法と比較して,最適設計をより効率的に求めることができることがわかった。 MIDは、精度と計算コストの観点から、単系統の逆設計と同じような性能を達成した。 結果に基づいて新規な設計が導出され,既存の設計と同等の性能が得られた。

The braking performance of the brake system is a target performance that must be considered for vehicle development. Apparent piston travel (APT) and drag torque are the most representative factors for evaluating braking performance. In particular, as the two performance factors have a conflicting relationship with each other, a multidisciplinary design optimization (MDO) approach is required for brake design. However, the computational cost of MDO increases as the number of disciplines increases. Recent studies on inverse design that use deep learning (DL) have established the possibility of instantly generating an optimal design that can satisfy the target performance without implementing an iterative optimization process. This study proposes a DL-based multidisciplinary inverse design (MID) that simultaneously satisfies multiple targets, such as the APT and drag torque of the brake system. Results show that the proposed inverse design can find the optimal design more efficiently compared with the conventional optimization methods, such as backpropagation and sequential quadratic programming. The MID achieved a similar performance to the single-disciplinary inverse design in terms of accuracy and computational cost. A novel design was derived on the basis of results, and the same performance was satisfied as that of the existing design.
翻訳日:2022-03-01 18:23:44 公開日:2022-02-27
# 垂直マシンアンラーニング:潜在機能空間からセンシティブな情報を選択的に削除する

Vertical Machine Unlearning: Selectively Removing Sensitive Information From Latent Feature Space ( http://arxiv.org/abs/2202.13295v1 )

ライセンス: Link先を確認
Tao Guo, Song Guo, Jiewei Zhang, Wenchao Xu, Junxiao Wang(参考訳) 近年,プライバシ規制の施行により,機械学習パラダイムの興隆が促進されている。 既存の研究は主に学習モデルから不要なデータサンプルを取り除くことに焦点を当てている。 しかし、潜在機能領域からデータサンプルの過剰な情報を取り除き、真に学ばなければならない機密性の高い機能範囲をはるかに超えています。 本稿では,高感度情報のみを潜在的特徴空間から除去することを目的とした垂直アンラーニングモードについて検討する。 まず,この非学習に関する直観的・形式的定義を導入し,その直交的関係を示す。 第2に,垂直的アンラーニングに対する一般的な解が欠如していることを踏まえ,タスク関連情報の保持が奨励され,センシティブな情報が徐々に忘れられるという,表現分離に基づく画期的な解を導入する。 第3に, 表現分離時の計算結果が実際に得るのが難しいことを観測し, 厳密な理論解析を用いて, 上界で推定する近似を提案する。 性能の高い複数のデータセットとモデルにまたがって,提案手法を検証する。 我々は、この研究を、将来の機械学習システムの必要性と、最新のプライバシー関連の法律の必須要素として想定する。

Recently, the enactment of privacy regulations has promoted the rise of machine unlearning paradigm. Most existing studies mainly focus on removing unwanted data samples from a learnt model. Yet we argue that they remove overmuch information of data samples from latent feature space, which is far beyond the sensitive feature scope that genuinely needs to be unlearned. In this paper, we investigate a vertical unlearning mode, aiming at removing only sensitive information from latent feature space. First, we introduce intuitive and formal definitions for this unlearning and show its orthogonal relationship with existing horizontal unlearning. Secondly, given the fact of lacking general solutions to vertical unlearning, we introduce a ground-breaking solution based on representation detachment, where the task-related information is encouraged to retain while the sensitive information is progressively forgotten. Thirdly, observing that some computation results during representation detachment are hard to obtain in practice, we propose an approximation with an upper bound to estimate it, with rigorous theoretical analysis. We validate our method by spanning several datasets and models with prevailing performance. We envision this work as a necessity for future machine unlearning system and an essential component of the latest privacy-related legislation.
翻訳日:2022-03-01 17:47:09 公開日:2022-02-27
# ボールの外を考える:一般化線形確率凸最適化のためのグラディエントDescentを用いた最適学習

Thinking Outside the Ball: Optimal Learning with Gradient Descent for Generalized Linear Stochastic Convex Optimization ( http://arxiv.org/abs/2202.13328v1 )

ライセンス: Link先を確認
Idan Amir, Roi Livni, Nathan Srebro(参考訳) リプシッツ損失を伴う線形予測、あるいはより一般的には、一般化線形形式の確率凸最適化問題、すなわち、各瞬時損失が線形関数のスカラー凸関数である場合を考える。 この設定において、早く停止したグラディエント・ディクセント(GD)は、明示的な正則化や射影を持たず、過大なエラーを最大$\epsilon$(単位ユークリッドノルムと同等である)で、最適な対数的因子、サンプルの複雑さが$\tilde{O}(1/\epsilon^2)$および$\tilde{O}(1/\epsilon^2)$の繰り返しで保証する。 これは一般確率凸最適化とは対照的で、$\Omega(1/\epsilon^4)$ iterations are need Amir et al。 【2021b】 低いイテレーションの複雑さは、安定性よりも一様収束を利用することによって保証される。 しかし、$\theta(1/\epsilon^4)$サンプルを用いて準最適学習を保証できるノルム球内の一様収束の代わりに、分布依存球における一様収束に依存する。

We consider linear prediction with a convex Lipschitz loss, or more generally, stochastic convex optimization problems of generalized linear form, i.e.~where each instantaneous loss is a scalar convex function of a linear function. We show that in this setting, early stopped Gradient Descent (GD), without any explicit regularization or projection, ensures excess error at most $\epsilon$ (compared to the best possible with unit Euclidean norm) with an optimal, up to logarithmic factors, sample complexity of $\tilde{O}(1/\epsilon^2)$ and only $\tilde{O}(1/\epsilon^2)$ iterations. This contrasts with general stochastic convex optimization, where $\Omega(1/\epsilon^4)$ iterations are needed Amir et al. [2021b]. The lower iteration complexity is ensured by leveraging uniform convergence rather than stability. But instead of uniform convergence in a norm ball, which we show can guarantee suboptimal learning using $\Theta(1/\epsilon^4)$ samples, we rely on uniform convergence in a distribution-depende nt ball.
翻訳日:2022-03-01 17:46:49 公開日:2022-02-27
# ONE-NAS: 時系列予測のためのオンライン神経進化に基づくニューラルアーキテクチャ検索

ONE-NAS: An Online NeuroEvolution based Neural Architecture Search for Time Series Forecasting ( http://arxiv.org/abs/2202.13471v1 )

ライセンス: Link先を確認
Zimeng Lyu, Travis Desell(参考訳) 時系列予測(TSF)は、データサイエンスにおいて最も重要なタスクの1つであり、正確な時系列予測(TS)は、金融、交通、医療、電力システムを含む幅広い領域を駆動し前進させることができる。 しかし、TSFのための機械学習(ML)モデルの現実的な利用は、事前訓練されたモデルが予測不可能なパターンを学習し、適応できるため、これまで見られなかったデータがより長い時間スケールで到達する。 これに対処するために、モデルは定期的に保持または再設計されなければならない。 このアルゴリズムは、著者たちの知る限り、オンライン環境で新しいリカレントニューラルネットワーク(RNN)を自動設計し、訓練することができる最初のニューラルアーキテクチャ探索アルゴリズムである。 ONE-NASは事前トレーニングなしで、新しい多変量入力データに応答して、新しいネットワーク構造と重みを継続的に更新するRNNの人口を利用する。 ONE-NASは、実世界の大規模多変量風力タービンデータと単変量ダウ・ジョーンズ工業平均(DJIA)データセットでテストされ、ナイーブ、移動平均、指数的平滑化手法、およびオンラインARIMA戦略の状況など、従来の統計時系列予測を上回っている。

Time series forecasting (TSF) is one of the most important tasks in data science, as accurate time series (TS) predictions can drive and advance a wide variety of domains including finance, transportation, health care, and power systems. However, real-world utilization of machine learning (ML) models for TSF suffers due to pretrained models being able to learn and adapt to unpredictable patterns as previously unseen data arrives over longer time scales. To address this, models must be periodically retained or redesigned, which takes significant human and computational resources. This work presents the Online NeuroEvolution based Neural Architecture Search (ONE-NAS) algorithm, which to the authors' knowledge is the first neural architecture search algorithm capable of automatically designing and training new recurrent neural networks (RNNs) in an online setting. Without any pretraining, ONE-NAS utilizes populations of RNNs which are continuously updated with new network structures and weights in response to new multivariate input data. ONE-NAS is tested on real-world large-scale multivariate wind turbine data as well a univariate Dow Jones Industrial Average (DJIA) dataset, and is shown to outperform traditional statistical time series forecasting, including naive, moving average, and exponential smoothing methods, as well as state of the art online ARIMA strategies.
翻訳日:2022-03-01 17:45:12 公開日:2022-02-27
# コプラエントロピーに基づく条件付き独立テストによる因果領域適応

Causal Domain Adaptation with Copula Entropy based Conditional Independence Test ( http://arxiv.org/abs/2202.13482v1 )

ライセンス: Link先を確認
Jian Ma(参考訳) ドメイン適応(DA)は、ソースドメインでトレーニングされたモデルを異なる分布を持つターゲットドメインに転送することを目的とした機械学習の典型的な問題である。 因果 DA は因果性の観点から問題を解く DA の特殊なケースである。 それは、システムのより大きな因果構造ネットワークに、複数のドメインに確率的関係を埋め込み、ドメイン間のシステム状態の分散ドリフトの理由として、システム上の因果源(または介入)を見つけようとします。 この意味で、因果DAは、状態変数と観測可能なシステムの状態の間の条件独立性を通じてドメイン間の不変表現を見つける因果発見問題として変換される。 条件付き独立試験は因果発見の要点である。 近年、厳密な理論と非パラメトリック推定法により、コプラエントロピーに基づく条件独立性試験が提案されている。 本稿では,まず,causal da問題に対するmathemetical modelを提案し,copula entropyに基づく条件付き独立性テストを用いて,領域間の不変表現を求めるcausal da法を提案する。 この手法の有効性を2つのシミュレーションデータで検証する。 提案手法のパワーは、成人の国勢調査収入データと歩行特性データという2つの実世界のデータで実証される。

Domain Adaptation (DA) is a typical problem in machine learning that aims to transfer the model trained on source domain to target domain with different distribution. Causal DA is a special case of DA that solves the problem from the view of causality. It embeds the probabilistic relationships in multiple domains in a larger causal structure network of a system and tries to find the causal source (or intervention) on the system as the reason of distribution drifts of the system states across domains. In this sense, causal DA is transformed as a causal discovery problem that finds invariant representation across domains through the conditional independence between the state variables and observable state of the system given interventions. Testing conditional independence is the corner stone of causal discovery. Recently, a copula entropy based conditional independence test was proposed with a rigorous theory and a non-parametric estimation method. In this paper, we first present a mathemetical model for causal DA problem and then propose a method for causal DA that finds the invariant representation across domains with the copula entropy based conditional independence test. The effectiveness of the method is verified on two simulated data. The power of the proposed method is then demonstrated on two real-world data: adult census income data and gait characteristics data.
翻訳日:2022-03-01 17:44:46 公開日:2022-02-27
# 高次元時系列データセットのアーキテクチャ最適化と特徴学習

Architectural Optimization and Feature Learning for High-Dimensional Time Series Datasets ( http://arxiv.org/abs/2202.13486v1 )

ライセンス: Link先を確認
Robert E. Colgan, Jingkai Yan, Zsuzsa M\'arka, Imre Bartos, Szabolcs M\'arka, and John N. Wright(参考訳) 検出能力が増加するにつれて、中心となる問題は関連するデータの欠如であり、中心となる問題は観測の海にあるいくつかの重要な特徴を特定することにあるデータ豊富な問題へと移行しています。 重力波天体物理学の応用により、重力波検出器における過渡ノイズアーティファクトの存在を検知器とその環境からの豊富な測定結果から予測する問題を研究する。 関連する機能をデータから最適化した機能学習は,高い精度を達成する上で重要である。 本研究では,手作りの固定的特徴を用いた先行技術と比較して,誤差率を60%以上低減するモデルを提案する。 機能学習は、予測タスクのパフォーマンスが向上するだけでなく、興味をそそられる現象に関連するパターンに関する貴重な情報を提供するために役立つ。 本アプリケーションでは,過渡雑音に関連する特徴が,その発生源の診断情報を提供し,緩和戦略を提案する。 高次元設定での学習は難しい。 様々なアーキテクチャを用いた実験により、高次元観測における関連する変数を選択するための空間性と、時間的変動に対する複雑な相互作用やロバスト性を扱うための柔軟性を示す深さという、モデルの成功における2つの重要な要素を同定する。 実際の検出器データに対する系統的な実験を通じて,その意義を説明する。 この結果は,機械学習コミュニティにおける一般的な仮定を実験的に検証し,重力波を感知する能力の向上に直接的な適用性を持たせるとともに,同様に高次元,雑音,あるいは部分的に無関係なデータを含む多くの問題設定にも適用可能である。

As our ability to sense increases, we are experiencing a transition from data-poor problems, in which the central issue is a lack of relevant data, to data-rich problems, in which the central issue is to identify a few relevant features in a sea of observations. Motivated by applications in gravitational-wave astrophysics, we study the problem of predicting the presence of transient noise artifacts in a gravitational wave detector from a rich collection of measurements from the detector and its environment. We argue that feature learning--in which relevant features are optimized from data--is critical to achieving high accuracy. We introduce models that reduce the error rate by over 60\% compared to the previous state of the art, which used fixed, hand-crafted features. Feature learning is useful not only because it improves performance on prediction tasks; the results provide valuable information about patterns associated with phenomena of interest that would otherwise be undiscoverable. In our application, features found to be associated with transient noise provide diagnostic information about its origin and suggest mitigation strategies. Learning in high-dimensional settings is challenging. Through experiments with a variety of architectures, we identify two key factors in successful models: sparsity, for selecting relevant variables within the high-dimensional observations; and depth, which confers flexibility for handling complex interactions and robustness with respect to temporal variations. We illustrate their significance through systematic experiments on real detector data. Our results provide experimental corroboration of common assumptions in the machine-learning community and have direct applicability to improving our ability to sense gravitational waves, as well as to many other problem settings with similarly high-dimensional, noisy, or partly irrelevant data.
翻訳日:2022-03-01 17:44:28 公開日:2022-02-27
# PheroCom:仮想フェロモンと視覚音響通信に基づく分散・非同期Swarmロボット協調

PheroCom: Decentralised and asynchronous swarm robotics coordination based on virtual pheromone and vibroacoustic communication ( http://arxiv.org/abs/2202.13456v1 )

ライセンス: Link先を確認
Claudiney R. Tinoco, Gina M. B. Oliveira (Federal University of Uberl\^andia, Uberl\^andia/MG, Brazil)(参考訳) バイオインスパイアされたアプローチで使用されるシグメア性物質の動態の表現と制御は、ロボット工学に適用する場合の課題である。 この課題を克服するため,本研究では,ロボット群を局所的スコープで仮想化・制御することにより協調するモデルを提案する。 このモデルは、ナビゲーション決定の分散化と非同期性を可能にする新しいフェロモンモデリングを提供する。 各ロボットは独立した仮想フェロモンマップを保持し、ロボットの預金とフェロモンの蒸発と共に継続的に更新される。 さらに、近隣を探索している他のロボットからの情報を集約することで、個々のフェロモンマップも更新される。 したがって、個々の地図と独立地図は、常に実行可能であるとは限らないフェロモン情報を制御し配布する中央集権エージェントの必要性を置き換える。 フェロモン情報伝達はアリの vibroacoustic communication にインスパイアされ、これはゴシッププロトコルの一種を通して間接的な通信として特徴づけられる。 提案モデルは,著者らが実装したエージェントシミュレーションソフトウェアとwebotsプラットフォームを用いて評価した。 実験は、異なる形状と大きさの異なる環境でのモデル検証と、ロボットの数の変更を目的として行われた。 結果から,本モデルでは群集の調整が可能であり,ロボットが監視作業を行うための表現的性能を示した。

Representation and control of the dynamics of stigmergic substances used by bio-inspired approaches is a challenge when applied to robotics. In order to overcome this challenge, this work proposes a model to coordinate swarms of robots based on the virtualisation and control of these substances in a local scope. The model presents a new pheromone modelling, which enables the decentralisation and asynchronicity of navigation decisions. Each robot maintains an independent virtual pheromone map, which is continuously updated with the robot's deposits and pheromone evaporation. Moreover, the individual pheromone map is also updated by aggregating information from other robots that are exploring nearby areas. Thus, individual and independent maps replace the need of a centralising agent that controls and distributes the pheromone information, which is not always practicable. Pheromone information propagation is inspired by ants' vibroacoustic communication, which, in turn, is characterised as an indirect communication through a type of gossip protocol. The proposed model was evaluated through an agent simulation software, implemented by the authors, and in the Webots platform. Experiments were carried out to validate the model in different environments, with different shapes and sizes, as well as varying the number of robots. The analysis of the results has shown that the model was able to perform the coordination of the swarm, and the robots have exhibited an expressive performance executing the surveillance task.
翻訳日:2022-03-01 17:26:46 公開日:2022-02-27
# 適応的クラスタリング手順のクラスに対する強い一貫性

Strong Consistency for a Class of Adaptive Clustering Procedures ( http://arxiv.org/abs/2202.13423v1 )

ライセンス: Link先を確認
Adam Quinn Jaffe(参考訳) 我々は、$k$-meansと$k$-mediansを含むクラスタリング手順のクラスを紹介し、クラスタセンタのドメインを適応的に選択できる(例えば、$k$-medoids)、クラスタセンタの数を適応的に選択できる(例えば、elbowメソッドによると、)。 非パラメトリックな設定において、あるモーメントの有限性のみを仮定すると、このクラスの全てのクラスタリング手順は、IDDサンプルの下で強く整合であることを示す。 本手法は,これらのクラスタリング手法に付随する種々の決定論的写像の連続性を直接研究し,経験的尺度の類似の強い一貫性から強い一貫性が導かれることを示す。 適応的な環境では、我々の研究は、その種の第一の強い一貫性のある結果をもたらす。 非適応的な設定では、我々の研究はポラードの古典的な結果を強化し、様々な不要な技術的仮説を排除し、強い一貫性の特定の概念を改良し、同じ方法を用いてさらなる極限定理を証明する。

We introduce a class of clustering procedures which includes $k$-means and $k$-medians, as well as variants of these where the domain of the cluster centers can be chosen adaptively (for example, $k$-medoids) and where the number of cluster centers can be chosen adaptively (for example, according to the elbow method). In the non-parametric setting and assuming only the finiteness of certain moments, we show that all clustering procedures in this class are strongly consistent under IID samples. Our method of proof is to directly study the continuity of various deterministic maps associated with these clustering procedures, and to show that strong consistency simply descends from analogous strong consistency of the empirical measures. In the adaptive setting, our work provides a strong consistency result that is the first of its kind. In the non-adaptive setting, our work strengthens Pollard's classical result by dispensing with various unnecessary technical hypotheses, by upgrading the particular notion of strong consistency, and by using the same methods to prove further limit theorems.
翻訳日:2022-03-01 17:26:09 公開日:2022-02-27
# 適応型ロスアウェアマルチビットネットワーク量子化を用いた畳み込みニューラルネットワークを用いた不整脈分類

Arrhythmia Classifier Using Convolutional Neural Network with Adaptive Loss-aware Multi-bit Networks Quantization ( http://arxiv.org/abs/2202.12943v1 )

ライセンス: Link先を確認
Hanshi Sun, Ao Wang, Ninghao Pu, Zhiqing Li, Junguang Huang, Hao Liu, Zhi Qi(参考訳) 心血管疾患(CVD)は致命的疾患の1つであり,早期に診断することが課題である。 近年,物体の分類にディープラーニングや畳み込みニューラルネットワークが広く用いられている。 さらに、多くのネットワークをウェアラブルデバイスにデプロイできることも約束されている。 不整脈検出のために、ecg信号分類を実現するための方法が増えている。 しかし、不整脈検出のために提案されている既存のニューラルネットワークは、メモリと電力消費をもたらすパラメータが著しく多いため、ハードウェアフレンドリーではない。 本稿では,1次元適応型ロスアウェア量子化を行い,メモリ消費を23.36倍削減する高圧縮率を実現する。 圧縮手法に適応するためには,より小型でシンプルなネットワークが必要である。 mit-bihデータセットでトレーニングされた17の異なるリズムクラスを分類し、既存の手法よりも高い93.5%の分類精度を実現するための17層エンドツーエンドニューラルネットワーク分類器を提案する。 重要な層に適応的なビット幅法が注目され、無駄なパラメータを創出する機会を提供するため、提案手法は精度劣化を回避する。 精度も95.84%、従来よりも2.34%向上している。 本研究では,ハードウェアフレンドリな1次元畳み込みニューラルネットワークを実現することで,リアルタイム不整脈診断を実現するためのウェアラブルデバイスへの展開の可能性を示す。

Cardiovascular disease (CVDs) is one of the universal deadly diseases, and the detection of it in the early stage is a challenging task to tackle. Recently, deep learning and convolutional neural networks have been employed widely for the classification of objects. Moreover, it is promising that lots of networks can be deployed on wearable devices. An increasing number of methods can be used to realize ECG signal classification for the sake of arrhythmia detection. However, the existing neural networks proposed for arrhythmia detection are not hardware-friendly enough due to a remarkable quantity of parameters resulting in memory and power consumption. In this paper, we present a 1-D adaptive loss-aware quantization, achieving a high compression rate that reduces memory consumption by 23.36 times. In order to adapt to our compression method, we need a smaller and simpler network. We propose a 17 layer end-to-end neural network classifier to classify 17 different rhythm classes trained on the MIT-BIH dataset, realizing a classification accuracy of 93.5%, which is higher than most existing methods. Due to the adaptive bitwidth method making important layers get more attention and offered a chance to prune useless parameters, the proposed quantization method avoids accuracy degradation. It even improves the accuracy rate, which is 95.84%, 2.34% higher than before. Our study achieves a 1-D convolutional neural network with high performance and low resources consumption, which is hardware-friendly and illustrates the possibility of deployment on wearable devices to realize a real-time arrhythmia diagnosis.
翻訳日:2022-03-01 17:25:03 公開日:2022-02-27
# dagam: 被験者独立脳波に基づく感情認識のためのドメイン逆グラフ注意モデル

DAGAM: A Domain Adversarial Graph Attention Model for Subject Independent EEG-Based Emotion Recognition ( http://arxiv.org/abs/2202.12948v1 )

ライセンス: Link先を確認
Tao Xu, Wang Dang, Jiabao Wang, Yun Zhou(参考訳) eegベースの感情認識の最も重要な課題の1つは、サブジェクト間のeeg変動であり、パフォーマンスの低下と一般化に繋がる。 本稿では,新しい脳波に基づく感情認識モデルである domain adversarial graph attention model (dagam) を提案する。 基本的な考え方は、生物トポロジーを用いてマルチチャネル脳波信号をモデル化するグラフを作成することである。 グラフ理論は、EEGのチャネル間の関係と相互依存を位相的に記述し分析することができる。 そして、他のグラフ畳み込みネットワークとは異なり、グラフから有能な脳波特徴抽出に自己注意プーリングを適用し、性能を効果的に向上する。 最後に、グラフプーリング後に、グラフに基づくドメイン逆数を用いて、被検体間での脳波変動を特定し、処理し、効率的な一般化性を得る。 本研究では,2つのベンチマークデータセット(SEEDとSEED IV)を広範囲に評価し,対象非依存感情認識の最先端結果を得る。 本モデルは, シード精度を92.59% (4.69%改善), 標準偏差が3.21% (2.92%減少), シードiv精度が80.74% (6.90%改善) であり, 標準偏差が4.14% (3.88%減少) である。

One of the most significant challenges of EEG-based emotion recognition is the cross-subject EEG variations, leading to poor performance and generalizability. This paper proposes a novel EEG-based emotion recognition model called the domain adversarial graph attention model (DAGAM). The basic idea is to generate a graph to model multichannel EEG signals using biological topology. Graph theory can topologically describe and analyze relationships and mutual dependency between channels of EEG. Then, unlike other graph convolutional networks, self-attention pooling is applied to benefit salient EEG feature extraction from the graph, which effectively improves the performance. Finally, after graph pooling, the domain adversarial based on the graph is employed to identify and handle EEG variation across subjects, efficiently reaching good generalizability. We conduct extensive evaluations on two benchmark datasets (SEED and SEED IV) and obtain state-of-the-art results in subject-independent emotion recognition. Our model boosts the SEED accuracy to 92.59% (4.69% improvement) with the lowest standard deviation of 3.21% (2.92% decrements) and SEED IV accuracy to 80.74% (6.90% improvement) with the lowest standard deviation of 4.14% (3.88% decrements) respectively.
翻訳日:2022-03-01 17:24:41 公開日:2022-02-27
# 分離データとそれを超えるグラディエント手法の安定性と暗示バイアス

Stability vs Implicit Bias of Gradient Methods on Separable Data and Beyond ( http://arxiv.org/abs/2202.13441v1 )

ライセンス: Link先を確認
Matan Schliserman and Tomer Koren(参考訳) 最近の研究の影響力ある線は、指数的尾の損失関数を持つ分離線形分類に適用された非正規化勾配に基づく学習手順の一般化特性に焦点を当てている。 このような方法をうまく一般化する能力は、非漸近的にも有限時間においても、大きなマージン予測者に対する暗黙のバイアスに起因している。 この一般化についてさらに統一的な説明を加え、最適化目的の2つの単純な性質、すなわち実現可能性と自己有界性(self-boundedness)を関連付ける。 これらの特性と制約のない確率凸最適化の一般的な設定を導入し、アルゴリズム安定性のレンズを通して勾配法の一般化を解析する。 この広義の設定では、非常に多くの勾配ステップにも適用できる勾配降下と確率勾配降下に対する鋭い安定性境界を求め、これらのアルゴリズムの一般化境界を導出するためにそれらを用いる。 最後に、一般境界の直接適用として、分離可能なデータによる線形分類の設定に戻り、異なる尾崩壊率の様々な損失関数に対して、勾配降下と確率勾配降下のための新しいテスト損失とテスト精度境界を確立する。 これらのケースのいくつかでは、文献における既存の一般化誤差境界を大幅に改善する。

An influential line of recent work has focused on the generalization properties of unregularized gradient-based learning procedures applied to separable linear classification with exponentially-tailed loss functions. The ability of such methods to generalize well has been attributed to the their implicit bias towards large margin predictors, both asymptotically as well as in finite time. We give an additional unified explanation for this generalization and relate it to two simple properties of the optimization objective, that we refer to as realizability and self-boundedness. We introduce a general setting of unconstrained stochastic convex optimization with these properties, and analyze generalization of gradient methods through the lens of algorithmic stability. In this broader setting, we obtain sharp stability bounds for gradient descent and stochastic gradient descent which apply even for a very large number of gradient steps, and use them to derive general generalization bounds for these algorithms. Finally, as direct applications of the general bounds, we return to the setting of linear classification with separable data and establish several novel test loss and test accuracy bounds for gradient descent and stochastic gradient descent for a variety of loss functions with different tail decay rates. In some of these case, our bounds significantly improve upon the existing generalization error bounds in the literature.
翻訳日:2022-03-01 17:22:06 公開日:2022-02-27
# DialFRED: 感染予防のための対話型エージェント

DialFRED: Dialogue-Enabled Agents for Embodied Instruction Following ( http://arxiv.org/abs/2202.13330v1 )

ライセンス: Link先を確認
Xiaofeng Gao, Qiaozi Gao, Ran Gong, Kaixiang Lin, Govind Thattai, Gaurav S. Sukhatme(参考訳) 言語誘導型具体化されたaiベンチマークでは、エージェントが環境をナビゲートし、オブジェクトを操作する必要がある。 ALFREDベンチマークに基づく対話型エンボディドインストラクションであるDialFREDを提案する。 DialFREDは、エージェントが人間のユーザに対して積極的に質問することを可能にする。 53Kのタスク関連質問と回答と,質問に回答するためのオラクルを備えた,人間注釈付きデータセットをリリースする。 DialFREDを解くために,質問者は人手による注釈付きデータで事前学習され,強化学習で微調整される質問者・実行者フレームワークを提案する。 dialfredを一般公開し、ダイアログ対応の具体化エージェント構築のためのソリューションの提案と評価を研究者に促す。

Language-guided Embodied AI benchmarks requiring an agent to navigate an environment and manipulate objects typically allow one-way communication: the human user gives a natural language command to the agent, and the agent can only follow the command passively. We present DialFRED, a dialogue-enabled embodied instruction following benchmark based on the ALFRED benchmark. DialFRED allows an agent to actively ask questions to the human user; the additional information in the user's response is used by the agent to better complete its task. We release a human-annotated dataset with 53K task-relevant questions and answers and an oracle to answer questions. To solve DialFRED, we propose a questioner-performer framework wherein the questioner is pre-trained with the human-annotated data and fine-tuned with reinforcement learning. We make DialFRED publicly available and encourage researchers to propose and evaluate their solutions to building dialog-enabled embodied agents.
翻訳日:2022-03-01 17:16:34 公開日:2022-02-27
# マニピュレーションの技:セキュリティゲームにおけるマルチステップ・マニピュレーション・アタックの脅威

The Art of Manipulation: Threat of Multi-Step Manipulative Attacks in Security Games ( http://arxiv.org/abs/2202.13424v1 )

ライセンス: Link先を確認
Thanh H. Nguyen and Arunesh Sinh(参考訳) 本稿では,攻撃者の行動の学習を誤解させるために,複数の時間ステップにわたる攻撃を巧妙な攻撃者が編成しようとする,stackelberg security gamesにおけるマルチステップマニピュレーション攻撃の問題点について検討する。 この攻撃操作は最終的に攻撃者の利益に対する守備者のパトロール戦略に影響を与える。 これまでの研究は、攻撃者の行動を学習し、対応する戦略を一度だけ設計するワンショットゲームのみに焦点を当てていた。 一方,我々の研究は,攻撃者の操作の長期的影響を調査し,プレイヤーの現在の攻撃選択と防御選択が,守備者の将来の学習とパトロール計画を決定する。 この論文には3つの重要な貢献がある。 まず,攻撃者が時間軸全体にわたって行った連続的な操作的攻撃の影響を捉えるマルチステップ操作型攻撃ゲームモデルを提案する。 第2に,攻撃者に対する最適な操作的攻撃計画を計算するアルゴリズムを提案し,複数の時間ステップにわたる計算に係わる複数の最適化コンポーネントの課題に対処する。 最後に,このような誤解を招く攻撃の影響について,広範な実験結果を示し,攻撃者にとって大きな利益と防御者にとっての損失を示す。

This paper studies the problem of multi-step manipulative attacks in Stackelberg security games, in which a clever attacker attempts to orchestrate its attacks over multiple time steps to mislead the defender's learning of the attacker's behavior. This attack manipulation eventually influences the defender's patrol strategy towards the attacker's benefit. Previous work along this line of research only focuses on one-shot games in which the defender learns the attacker's behavior and then designs a corresponding strategy only once. Our work, on the other hand, investigates the long-term impact of the attacker's manipulation in which current attack and defense choices of players determine the future learning and patrol planning of the defender. This paper has three key contributions. First, we introduce a new multi-step manipulative attack game model that captures the impact of sequential manipulative attacks carried out by the attacker over the entire time horizon. Second, we propose a new algorithm to compute an optimal manipulative attack plan for the attacker, which tackles the challenge of multiple connected optimization components involved in the computation across multiple time steps. Finally, we present extensive experimental results on the impact of such misleading attacks, showing a significant benefit for the attacker and loss for the defender.
翻訳日:2022-03-01 17:16:18 公開日:2022-02-27
# アクティブステレオカメラと高反射物体の次回のベストビュー予測

Next-Best-View Prediction for Active Stereo Cameras and Highly Reflective Objects ( http://arxiv.org/abs/2202.13263v1 )

ライセンス: Link先を確認
Jun Yang and Steven L. Waslander(参考訳) アクティブステレオカメラによる深度取得は、高い反射率を持つオブジェクトにとって難しい課題である。 セットアップが許可されると、マルチビューの融合により深度が向上する。 しかし、ハイエンドのアクティブステレオカメラの獲得速度が遅いため、単一のシーンで多数の視点を集めることは一般的には現実的ではない。 本研究では,反射物体の深度データを完成させるためのカメラ視点を戦略的に選択する次世代視点フレームワークを提案する。 特に,フォン反射モデルと測光応答関数に基づいて反射面のスペクトル反射を明示的にモデル化する。 オブジェクトCADモデルとグレースケール画像から、既存のデータから現在のポーズ予測を得るためにRGBベースのポーズ推定器を用い、予測された表面の正規性や深さの仮説を定式化し、任意の候補視点でその後のフレームから得られる情報を評価する。 この定式化を用いて,実世界の難解なデータセット上で評価するアクティブセンシングパイプラインを実装した。 評価結果から,本手法は深度推定性能とオブジェクトポーズ推定性能の両面において,2つの強いベースラインよりも優れていることが示された。

Depth acquisition with the active stereo camera is a challenging task for highly reflective objects. When setup permits, multi-view fusion can provide increased levels of depth completion. However, due to the slow acquisition speed of high-end active stereo cameras, collecting a large number of viewpoints for a single scene is generally not practical. In this work, we propose a next-best-view framework to strategically select camera viewpoints for completing depth data on reflective objects. In particular, we explicitly model the specular reflection of reflective surfaces based on the Phong reflection model and a photometric response function. Given the object CAD model and grayscale image, we employ an RGB-based pose estimator to obtain current pose predictions from the existing data, which is used to form predicted surface normal and depth hypotheses, and allows us to then assess the information gain from a subsequent frame for any candidate viewpoint. Using this formulation, we implement an active perception pipeline which is evaluated on a challenging real-world dataset. The evaluation results demonstrate that our active depth acquisition method outperforms two strong baselines for both depth completion and object pose estimation performance.
翻訳日:2022-03-01 17:09:08 公開日:2022-02-27
# DXM-TransFuse U-net: Dual Cross-Modal Transformer Fusion U-net for Automated Nerve Identification

DXM-TransFuse U-net: Dual Cross-Modal Transformer Fusion U-net for Automated Nerve Identification ( http://arxiv.org/abs/2202.13304v1 )

ライセンス: Link先を確認
Baijun Xie, Gary Milam, Bo Ning, Jaepyeong Cha, Chung Hyuk Park(参考訳) 神経組織の損傷を予防するために、外科手術中に正確な神経同定が重要である。 神経損傷は、患者の長期的不利益や財政的負担につながる可能性がある。 本研究では,マルチモーダル光イメージングシステムから神経組織を識別するために,トランスフォーマーブロックを用いた融合モジュールを用いたu-netアーキテクチャを用いたディープラーニングネットワークフレームワークを開発した。 各モダリティの特徴マップを独立に活用し、各モダリティ情報を交叉モダリティ相互作用に利用することにより、非侵襲的な術中神経同定を可能にするためのイメージングシステムの有効性をさらに高めるソリューションを提供することを目標とする。

Accurate nerve identification is critical during surgical procedures for preventing any damages to nerve tissues. Nerve injuries can lead to long-term detrimental effects for patients as well as financial overburdens. In this study, we develop a deep-learning network framework using the U-Net architecture with a Transformer block based fusion module at the bottleneck to identify nerve tissues from a multi-modal optical imaging system. By leveraging and extracting the feature maps of each modality independently and using each modalities information for cross-modal interactions, we aim to provide a solution that would further increase the effectiveness of the imaging systems for enabling the noninvasive intraoperative nerve identification.
翻訳日:2022-03-01 17:08:49 公開日:2022-02-27
# Topology-Preserving Segmentation Network: Connected Componentのためのディープラーニングセグメンテーションフレームワーク

Topology-Preserving Segmentation Network: A Deep Learning Segmentation Framework for Connected Component ( http://arxiv.org/abs/2202.13331v1 )

ライセンス: Link先を確認
Han Zhang, Lok Ming Lui(参考訳) 解剖学的または病理的構造を自動的に抽出することを目的とした医用画像分割は、コンピュータ支援診断および疾患解析において重要な役割を果たす。 この問題は広く研究されているが、既存の手法は位相的誤差がちである。 医学的イメージングでは、腎臓や肺などの構造のトポロジーが一般的に知られている。 セグメンテーション過程における構造のトポロジーを保つことは、正確な画像解析にとって最も重要である。 本稿では,新しい学習に基づくセグメンテーションモデルを提案する。 所定のトポロジを保存する入力画像の正確なセグメンテーション結果を与えるために、TPSN( {\displaystyle {\it Topology-serving segmentation Network)を訓練する。 TPSNは、UNetを通じて変形マップを生成する変形ベースのモデルであり、医療画像とテンプレートマスクを入力として取り込む。 主なアイデアは、所定のトポロジーを記述するテンプレートマスクを微分同相法で変形して、オブジェクトを画像にセグメントすることである。 テンプレートマスクの形状のトポロジーは、二相写像の下でよく保存される。 写像の双相的性質は損失関数にジャコビアンに関連する正規化項を導入することによって制御される。 これにより、トポロジー保存セグメンテーション結果が保証される。 さらに,画像のマルチレベル情報を組み込んだマルチスケールTPSNを開発し,より正確なセグメンテーション結果を生成する。 本手法を評価するために,ham10000に2d tpsnを,kits21に3d tpsnを適用した。 実験結果から,本手法はダイススコアとIoUスコアの両方で,連結成分分析(CCA)を伴わないベースラインUNetセグメンテーションモデルよりも優れていた。 さらに,UNet と CCA による画素分割モデルでは正確な結果が得られなかった場合においても,本手法は信頼性の高い結果が得られることを示す。

Medical image segmentation, which aims to automatically extract anatomical or pathological structures, plays a key role in computer-aided diagnosis and disease analysis. Despite the problem has been widely studied, existing methods are prone to topological errors. In medical imaging, the topology of the structure, such as the kidney or lung, is usually known. Preserving the topology of the structure in the segmentation process is of utmost importance for accurate image analysis. In this work, a novel learning-based segmentation model is proposed. A {\it topology-preserving segmentation network (TPSN)} is trained to give an accurate segmentation result of an input image that preserves the prescribed topology. TPSN is a deformation-based model that yields a deformation map through a UNet, which takes the medical image and a template mask as inputs. The main idea is to deform a template mask describing the prescribed topology by a diffeomorphism to segment the object in the image. The topology of the shape in the template mask is well preserved under the diffeomorphic map. The diffeomorphic property of the map is controlled by introducing a regularization term related to the Jacobian in the loss function. As such, a topology-preserving segmentation result can be guaranteed. Furthermore, a multi-scale TPSN is developed in this paper that incorporates multi-level information of images to produce more precise segmentation results. To evaluate our method, we applied the 2D TPSN on Ham10000 and 3D TPSN on KiTS21. Experimental results illustrate our method outperforms the baseline UNet segmentation model with/without connected-component analysis (CCA) by both the dice score and IoU score. Besides, results show that our method can produce reliable results even in challenging cases, where pixel-wise segmentation models by UNet and CCA fail to obtain accurate results.
翻訳日:2022-03-01 17:08:36 公開日:2022-02-27
# 代表構造探索と3次元連続誤差モデリングによるロバスト自己監督LiDARオドメトリー

Robust Self-Supervised LiDAR Odometry via Representative Structure Discovery and 3D Inherent Error Modeling ( http://arxiv.org/abs/2202.13353v1 )

ライセンス: Link先を確認
Yan Xu, Junyi Lin, Jianping Shi, Guofeng Zhang, Xiaogang Wang, Hongsheng Li(参考訳) 正しいエゴモーション推定は、基本的に隣り合うLiDARスキャン間の対応の理解に依存している。 しかし、複雑なシナリオと低解像度lidarを考えると、対応を識別するための信頼できる構造を見つけることは困難である。 本稿では,正確な自己監督型エゴモーション推定のための構造信頼性を探索し,トレーニング,推論,マッピングフェーズにおける信頼できない構造の影響を軽減することを目的とする。 自己監督型LiDARオードメトリーを3つの側面から大きく改善する。 1) 部分領域変換の集合を推定し, 運動投票機構を平均してエゴモーションを得る2段階オドメトリ推定ネットワークを開発し, 代表構造に着目したネットワークの促進を図る。 2) 固有アライメント誤差は, エゴモーション最適化では除去できないが, 3次元点の共分散推定に基づいて損失を下げる。 3) 探索された代表構造と学習点共分散をマッピングモジュールに組み込んで地図構築のロバスト性を向上させる。 KITTIデータセットの翻訳・回転誤差は2フレームのオドメトリーで16%/12%向上し,アポロ・サウスベイデータセットでは一貫して良好に動作する。 マッピングモジュールや、ラベルなしのトレーニングデータと、完全に教師付きで競合することも可能です。

The correct ego-motion estimation basically relies on the understanding of correspondences between adjacent LiDAR scans. However, given the complex scenarios and the low-resolution LiDAR, finding reliable structures for identifying correspondences can be challenging. In this paper, we delve into structure reliability for accurate self-supervised ego-motion estimation and aim to alleviate the influence of unreliable structures in training, inference and mapping phases. We improve the self-supervised LiDAR odometry substantially from three aspects: 1) A two-stage odometry estimation network is developed, where we obtain the ego-motion by estimating a set of sub-region transformations and averaging them with a motion voting mechanism, to encourage the network focusing on representative structures. 2) The inherent alignment errors, which cannot be eliminated via ego-motion optimization, are down-weighted in losses based on the 3D point covariance estimations. 3) The discovered representative structures and learned point covariances are incorporated in the mapping module to improve the robustness of map construction. Our two-frame odometry outperforms the previous state of the arts by 16%/12% in terms of translational/rotati onal errors on the KITTI dataset and performs consistently well on the Apollo-Southbay datasets. We can even rival the fully supervised counterparts with our mapping module and more unlabeled training data.
翻訳日:2022-03-01 17:08:06 公開日:2022-02-27
# 免疫組織化学的細胞質染色画像における細胞認識の弱監視学習

Weakly Supervised Learning for cell recognition in immunohistochemical cytoplasm staining images ( http://arxiv.org/abs/2202.13372v1 )

ライセンス: Link先を確認
Shichuan Zhang, Chenglu Zhu, Honglin Li, Jiatong Cai, Lin Yang(参考訳) 免疫組織化学的細胞質染色画像における細胞分類と計数は、がん診断において重要な役割を果たす。 弱教師付き学習は、労働集約的なラベリングを扱う潜在的な方法である。 しかし、不連続な細胞の形態やクラス間の微妙な違いも課題となる。 そこで本稿では,本課題のロバスト表現学習の指導に2つの補助タスクを用いるマルチタスク学習に基づく新しいセル認識フレームワークを提案する。 誤分類に対処するために, 組織前学習枝を導入し, 腫瘍細胞の空間的表現を付加的組織注釈なしで捉える。 さらに、動的マスクと整合性学習を採用し、細胞規模と形状の不変性を学習する。 我々は免疫組織化学的細胞質染色画像の枠組みを評価し,本手法が最近の細胞認識法よりも優れていることを示す。 また,補助枝を添加した後に有意な改善を示すため,いくつかのアブレーション研究を行った。

Cell classification and counting in immunohistochemical cytoplasm staining images play a pivotal role in cancer diagnosis. Weakly supervised learning is a potential method to deal with labor-intensive labeling. However, the inconstant cell morphology and subtle differences between classes also bring challenges. To this end, we present a novel cell recognition framework based on multi-task learning, which utilizes two additional auxiliary tasks to guide robust representation learning of the main task. To deal with misclassification, the tissue prior learning branch is introduced to capture the spatial representation of tumor cells without additional tissue annotation. Moreover, dynamic masks and consistency learning are adopted to learn the invariance of cell scale and shape. We have evaluated our framework on immunohistochemical cytoplasm staining images, and the results demonstrate that our method outperforms recent cell recognition approaches. Besides, we have also done some ablation studies to show significant improvements after adding the auxiliary branches.
翻訳日:2022-03-01 17:07:42 公開日:2022-02-27
# Meta-RangeSeg:複数特徴集合を用いたLiDARシーケンスセマンティックセグメンテーション

Meta-RangeSeg: LiDAR Sequence Semantic Segmentation Using Multiple Feature Aggregation ( http://arxiv.org/abs/2202.13377v1 )

ライセンス: Link先を確認
Song Wang, Jianke Zhu, Ruixiang Zhang(参考訳) LiDARセンサーは、自動運転車やインテリジェントロボットの認識システムに不可欠である。 実世界のアプリケーションにおけるリアルタイム要求を満たすためには、LiDARスキャンを効率的にセグメント化する必要がある。 従来のアプローチのほとんどは、2次元球面領域の画像に直接3Dポイントクラウドを投影することで、画像分割に効率的な2次元畳み込み操作を利用できる。 奨励的な結果を得たものの、周辺情報は球面投影では保存されていない。 さらに、単一のスキャンセグメンテーションタスクでは、時間情報は考慮されない。 そこで本稿では,空間時空間情報を取り込むために,新しい領域残像表現を導入するメタレンジセグメンテーションを提案する。 具体的にはメタカーネルを用いてメタ特徴を抽出し、2Dレンジ画像座標の入力とCartesian座標の出力の不整合を低減する。 効率的なu-netバックボーンを使用して、マルチスケール機能を得る。 さらに、FAM(Feature Aggregation Module)は、メタ特徴とマルチスケール特徴を集約し、レンジチャネルの役割を強化する傾向にある。 我々は,LiDARセマンティックセグメンテーションのためのデファクトデータセットであるSemanticKITTIの性能評価に関する広範な実験を行った。 その結果,提案手法は既存の手法よりも効率的かつ効果的であることが判明した。

LiDAR sensor is essential to the perception system in autonomous vehicles and intelligent robots. To fulfill the real-time requirements in real-world applications, it is necessary to efficiently segment the LiDAR scans. Most of previous approaches directly project 3D point cloud onto the 2D spherical range image so that they can make use of the efficient 2D convolutional operations for image segmentation. Although having achieved the encouraging results, the neighborhood information is not well-preserved in the spherical projection. Moreover, the temporal information is not taken into consideration in the single scan segmentation task. To tackle these problems, we propose a novel approach to semantic segmentation for LiDAR sequences named Meta-RangeSeg, where a novel range residual image representation is introduced to capture the spatial-temporal information. Specifically, Meta-Kernel is employed to extract the meta features, which reduces the inconsistency between the 2D range image coordinates input and Cartesian coordinates output. An efficient U-Net backbone is used to obtain the multi-scale features. Furthermore, Feature Aggregation Module (FAM) aggregates the meta features and multi-scale features, which tends to strengthen the role of range channel. We have conducted extensive experiments for performance evaluation on SemanticKITTI, which is the de-facto dataset for LiDAR semantic segmentation. The promising results show that our proposed Meta-RangeSeg method is more efficient and effective than the existing approaches.
翻訳日:2022-03-01 17:07:29 公開日:2022-02-27
# 論理的包含と統計的推定の統一に向けて

Towards Unifying Logical Entailment and Statistical Estimation ( http://arxiv.org/abs/2202.13406v1 )

ライセンス: Link先を確認
Hiroyuki Kido(参考訳) 本稿では,データ駆動論理推論のための形式論理の解釈モデルを提案する。 鍵となる考え方は、形式論理のモデルが与えられた公式が真である可能性として解釈を表現することである。 この可能性を用いて、ベイズの定理はモデルの裏側を公式が与えられた場合とする。 後部は形式論理の逆解釈を表し、公式を真とするモデルを求める。 確率と後続は、すべての前提が真であるモデルにおいて結論が真である確率を与えるベイズ学習を引き起こす。 本稿ではベイズ学習の統計的および論理的性質について考察する。 生成モデルは論理学や統計学におけるいくつかの異なる推論の統一理論であることが示されている。

This paper gives a generative model of the interpretation of formal logic for data-driven logical reasoning. The key idea is to represent the interpretation as likelihood of a formula being true given a model of formal logic. Using the likelihood, Bayes' theorem gives the posterior of the model being the case given the formula. The posterior represents an inverse interpretation of formal logic that seeks models making the formula true. The likelihood and posterior cause Bayesian learning that gives the probability of the conclusion being true in the models where all the premises are true. This paper looks at statistical and logical properties of the Bayesian learning. It is shown that the generative model is a unified theory of several different types of reasoning in logic and statistics.
翻訳日:2022-03-01 16:47:05 公開日:2022-02-27
# VHRリモートセンシング画像における変化検出のための二重近傍ハイパーグラフニューラルネットワーク

A Dual Neighborhood Hypergraph Neural Network for Change Detection in VHR Remote Sensing Images ( http://arxiv.org/abs/2202.13275v1 )

ライセンス: Link先を確認
Junzheng Wu, Ruigang Fu, Qiang Liu, Weiping Ni, Kenan Cheng, Biao Li, Yuli Sun(参考訳) 超高空間分解能(VHR)リモートセンシング画像は、地表で発生した変化を観測するための非常に貴重な情報源である。 しかし、地上物体間の関係が複雑になるため、VHR画像の関連性の変化を正確に検出することは依然として困難である。 この制限に対処するために,マルチスケールスーパーピクセルセグメンテーションとハイパーグラフ畳み込みを組み合わせて複雑な関係をモデル化し活用する,双対近傍ハイパーグラフニューラルネットワークを提案する。 まず、両時間画像対を2つのスケールで分割し、事前訓練されたUネットに供給し、各オブジェクトを微細なスケールでノードとして扱い、ノード特徴を得る。 双対近傍は、セグメント化されたオブジェクトの親子関係と隣接関係を用いて定義され、双対関係よりもはるかに複雑な高次構造情報を表現することができる。 構築したハイパーグラフ上でハイパーグラフ畳み込みを行い、少数のラベル付きノードから他のラベル付きノードへのラベル情報をノードエッジノード変換により伝播させる。 さらに、不均衡サンプル問題を軽減するために、ハイパーグラフニューラルネットワークを訓練するために焦点損失関数を採用する。 光, sar, 異種光/sarデータを用いた実験結果から, 提案手法は最先端手法に比べ, 有効性とロバスト性が向上することが示された。

The very high spatial resolution (VHR) remote sensing images have been an extremely valuable source for monitoring changes occurred on the earth surface. However, precisely detecting relevant changes in VHR images still remains a challenge, due to the complexity of the relationships among ground objects. To address this limitation, a dual neighborhood hypergraph neural network is proposed in this article, which combines the multiscale superpixel segmentation and hypergraph convolution to model and exploit the complex relationships. First, the bi-temporal image pairs are segmented under two scales and fed to a pre-trained U-net to obtain node features by treating each object under the fine scale as a node. The dual neighborhood is then defined using the father-child and adjacent relationships of the segmented objects to construct the hypergraph, which permits models to represent the higher-order structured information far more complex than just pairwise relationships. The hypergraph convolutions are conducted on the constructed hypergraph to propagate the label information from a small amount of labeled nodes to the other unlabeled ones by the node-edge-node transform. Moreover, to alleviate the problem of imbalanced sample, the focal loss function is adopted to train the hypergraph neural network. The experimental results on optical, SAR and heterogeneous optical/SAR data sets demonstrate that the proposed method comprises better effectiveness and robustness compared to many state-of-the-art methods.
翻訳日:2022-03-01 16:41:29 公開日:2022-02-27
# 非教師なしドメイン適応のための注意に基づくクロスレイヤードメインアライメント

Attention-based Cross-Layer Domain Alignment for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2202.13310v1 )

ライセンス: Link先を確認
Xu Ma, Junkun Yuan, Yen-wei Chen, Ruofeng Tong, Lanfen Lin(参考訳) unsupervised domain adaptation(uda)は、ラベル付きソースドメインから転送可能な知識を学習し、ラベルなしのターゲットドメインにトレーニングされたモデルを適用することを目的としている。 ソースドメインとターゲットドメインのギャップを埋めるためには、ディープモデルによって抽出されたセマンティックな特徴を整合させることで、分散の相違を最小化する。 既存のアライメントベースの手法は、主に同じモデル層におけるドメインの発散を減らすことに重点を置いている。 しかし、ドメインシフトのため、同じレベルのセマンティック情報がモデル層に分散する可能性がある。 モデル適応性能をさらに高めるために,モデルレイヤ間のソースドメインとターゲットドメイン間の意味関係をキャプチャし,動的注意機構により各意味情報のレベルを自動調整するattention-based cross-layer domain alignment(acda)という新しい手法を提案する。 ドメインアライメントを正確にするための意味的類似性に基づいて、各層間のペアの重み付けを設計し、モデル適応時の意味的情報のレベルを効果的にマッチングする。 複数のベンチマークデータセットに対する広範囲な実験は、提案手法が最先端のパフォーマンスをもたらすことを一貫して示している。

Unsupervised domain adaptation (UDA) aims to learn transferable knowledge from a labeled source domain and adapts a trained model to an unlabeled target domain. To bridge the gap between source and target domains, one prevailing strategy is to minimize the distribution discrepancy by aligning their semantic features extracted by deep models. The existing alignment-based methods mainly focus on reducing domain divergence in the same model layer. However, the same level of semantic information could distribute across model layers due to the domain shifts. To further boost model adaptation performance, we propose a novel method called Attention-based Cross-layer Domain Alignment (ACDA), which captures the semantic relationship between the source and target domains across model layers and calibrates each level of semantic information automatically through a dynamic attention mechanism. An elaborate attention mechanism is designed to reweight each cross-layer pair based on their semantic similarity for precise domain alignment, effectively matching each level of semantic information during model adaptation. Extensive experiments on multiple benchmark datasets consistently show that the proposed method ACDA yields state-of-the-art performance.
翻訳日:2022-03-01 16:39:56 公開日:2022-02-27
# ニューラルアーキテクチャ探索に基づく効率的なエンドツーエンド3次元モデル再構成

An Efficient End-to-End 3D Model Reconstructionbased on Neural Architecture Search ( http://arxiv.org/abs/2202.13313v1 )

ライセンス: Link先を確認
Yongdong Huang, Yuanzhan Li, Xulong Cao, Siyu Zhang, Shen Cai, Ting Lu, Yuqi Liu(参考訳) ニューラルネットワークによる3dオブジェクト表現が普及している。 しかし、以前の多くの作品では、異なる3dオブジェクトを表現するために固定されたアーキテクチャとサイズを持つニューラルネットワークを採用しており、単純なオブジェクトに対する過剰なネットワークパラメータと複雑なオブジェクトの再構成精度が制限されている。 各3Dモデルに対して、高忠実度再構成を実現するために、できるだけ少ないパラメータでエンドツーエンドのニューラルネットワークを持つことが望ましい。 本稿では,ニューラルアーキテクチャ探索(NAS)とバイナリ分類を用いた効率的なモデル再構成手法を提案する。 レイヤ数、各レイヤ内のノード数、各レイヤの活性化機能を探索空間とすることで、強化学習技術に基づいて特定のネットワークアーキテクチャを得ることができる。 さらに,ネットワーク推論後に使用される従来の表面再構成アルゴリズム(例えばマーチングキューブ)を取り除き,バイナリボクセルを分類することでエンドツーエンドネットワークを完成させる。 他の符号付き距離場 (sdf) 予測やバイナリ分類ネットワークと比較すると, ネットワークパラメータの低減により, 復元精度が著しく向上した。

Using neural networks to represent 3D objects has become popular. However, many previous works employ neural networks with fixed architecture and size to represent different 3D objects, which lead to excessive network parameters for simple objects and limited reconstruction accuracy for complex objects. For each 3D model, it is desirable to have an end-to-end neural network with as few parameters as possible to achieve high-fidelity reconstruction. In this paper, we propose an efficient model reconstruction method utilizing neural architecture search (NAS) and binary classification. Taking the number of layers, the number of nodes in each layer, and the activation function of each layer as the search space, a specific network architecture can be obtained based on reinforcement learning technology. Furthermore, to get rid of the traditional surface reconstruction algorithms (e.g., marching cube) used after network inference, we complete the end-to-end network by classifying binary voxels. Compared to other signed distance field (SDF) prediction or binary classification networks, our method achieves significantly higher reconstruction accuracy using fewer network parameters.
翻訳日:2022-03-01 16:39:33 公開日:2022-02-27
# 1次および2次勾配を有するステアブルフィルタを用いたロバストなマルチモーダルリモートセンシング画像登録方法及びシステム

A Robust Multimodal Remote Sensing Image Registration Method and System Using Steerable Filters with First- and Second-order Gradients ( http://arxiv.org/abs/2202.13347v1 )

ライセンス: Link先を確認
Yuanxin Ye, Bai Zhu, Tengfeng Tang, Chao Yang, Qizhi Xu, Guo Zhang(参考訳) 非線形ラジオメトリック差(NRD)と有意な幾何学的歪み(スケールと回転の変化など)のため、マルチモーダルリモートセンシング画像の共登録は現在も進行中の課題である。 本稿では,2つの重要なステップからなる,ステアブルフィルタに基づくロバストマッチング手法を提案する。 まず,第1次及び第2次チャネルのステアブルフィルタ (SFOC) と呼ばれる新しい構造記述子を構築し,第1次及び第2次勾配情報を組み合わせて,ステアブルフィルタとマルチスケール戦略を用いて画像のより識別的な構造特徴を記述する。 次に、高速フーリエ変換法と積分画像を用いてマッチング効率を向上させる高速正規化クロスコレレーション(Fast-NCCSFOC)と呼ばれる高速類似度尺度を確立する。 さらに、信頼性の高い登録性能を達成するために、2つのピボットモジュールからなる粗大なマルチモーダル登録システムを設計する。 局所的な粗い登録は、まず関心点の検出(ips)と局所幾何補正(英語版)の両方を伴い、rs画像の事前地理参照情報を有効活用して大域的な幾何学的歪みに対処する。 詳細な登録段階では,提案したSFOCは重要なNRDに抵抗し,テンプレートマッチング方式によりマルチモーダル画像間の制御点を検出する。 提案手法の性能は様々な種類のマルチモーダルrs画像を用いて評価されている。 その結果,最先端手法と比較して高いマッチング性能を示した。 また、登録精度と計算効率の両方において、人気のある商用ソフトウェアを上回っている。 私たちのシステムはhttps://github.com/y eyuanxin110で利用可能です。

Co-registration of multimodal remote sensing images is still an ongoing challenge because of nonlinear radiometric differences (NRD) and significant geometric distortions (e.g., scale and rotation changes) between these images. In this paper, a robust matching method based on the Steerable filters is proposed consisting of two critical steps. First, to address severe NRD, a novel structural descriptor named the Steerable Filters of first- and second-Order Channels (SFOC) is constructed, which combines the first- and second-order gradient information by using the steerable filters with a multi-scale strategy to depict more discriminative structure features of images. Then, a fast similarity measure is established called Fast Normalized Cross-Correlation (Fast-NCCSFOC), which employs the Fast Fourier Transform technique and the integral image to improve the matching efficiency. Furthermore, to achieve reliable registration performance, a coarse-to-fine multimodal registration system is designed consisting of two pivotal modules. The local coarse registration is first conducted by involving both detection of interest points (IPs) and local geometric correction, which effectively utilizes the prior georeferencing information of RS images to address global geometric distortions. In the fine registration stage, the proposed SFOC is used to resist significant NRD, and to detect control points between multimodal images by a template matching scheme. The performance of the proposed matching method has been evaluated with many different kinds of multimodal RS images. The results show its superior matching performance compared with the state-of-the-art methods. Moreover, the designed registration system also outperforms the popular commercial software in both registration accuracy and computational efficiency. Our system is available at https://github.com/y eyuanxin110.
翻訳日:2022-03-01 16:39:16 公開日:2022-02-27
# 手術映像理解のための概念グラフニューラルネットワーク

Concept Graph Neural Networks for Surgical Video Understanding ( http://arxiv.org/abs/2202.13402v1 )

ライセンス: Link先を確認
Yutong Ban, Jennifer A. Eckhoff, Thomas M. Ward, Daniel A. Hashimoto, Ozanan R. Meireles, Daniela Rus, Guy Rosman(参考訳) 私たちは世界の知識と理解を常に統合し、見るものに対する私たちの解釈を強化します。 この能力は、AI強化手術など、複数のエンティティや概念を推論するアプリケーションドメインにおいて不可欠である。 本稿では,概念知識を時間的概念グラフネットワークを介して時間分析タスクに統合する新しい手法を提案する。 提案するネットワークでは,大域的知識グラフが手術例の時間的分析に組み込まれ,データに適用される概念や関係の意味を学習する。 本研究は,安全の重要視の検証や,パークランドグレーティングスケールの推定などの作業において,手術映像データから得られた結果を示す。 その結果,本手法は複雑なベンチマークの認識と検出を改善し,他の解析的応用も可能となった。

We constantly integrate our knowledge and understanding of the world to enhance our interpretation of what we see. This ability is crucial in application domains which entail reasoning about multiple entities and concepts, such as AI-augmented surgery. In this paper, we propose a novel way of integrating conceptual knowledge into temporal analysis tasks via temporal concept graph networks. In the proposed networks, a global knowledge graph is incorporated into the temporal analysis of surgical instances, learning the meaning of concepts and relations as they apply to the data. We demonstrate our results in surgical video data for tasks such as verification of critical view of safety, as well as estimation of Parkland grading scale. The results show that our method improves the recognition and detection of complex benchmarks as well as enables other analytic applications of interest.
翻訳日:2022-03-01 16:38:47 公開日:2022-02-27
# 確率的勾配降下の良性不適合

Benign Underfitting of Stochastic Gradient Descent ( http://arxiv.org/abs/2202.13361v1 )

ライセンス: Link先を確認
Tomer Koren, Roi Livni, Yishay Mansour, Uri Sherman(参考訳) 本研究では,確率勾配降下(SGD)を「従来型」学習規則として理解し,学習データに適合して一般化性能が得られるかを検討した。 基本的な確率的凸最適化の枠組みを考えると、SGDは古典的には、O(1/\sqrt n)$で人口リスクを最小化することが知られており、驚くべきことに、SGDが$\Omega(1)$の経験的リスクと一般化ギャップの両方を示す問題が存在することを証明している。 その結果、SGDはアルゴリズム的に安定ではないことが判明し、その一般化能力は、一様収束法や、その物質について(古典解析以外の)現在知られている一般化バウンド技術によって説明できないことが判明した。 次に,類似現象が発生しないことを示し,その個体群リスクが実際に最適速度で収束することを示す,近縁の \emph{with}-replacement sgd の解析を継続する。 最後に, 有限サム凸最適化問題に対する非置換 SGD の文脈において, 本研究の主な成果を解釈し, 既知結果よりも大幅に向上するマルチエポック方式の上下境界を導出する。

We study to what extent may stochastic gradient descent (SGD) be understood as a "conventional" learning rule that achieves generalization performance by obtaining a good fit to training data. We consider the fundamental stochastic convex optimization framework, where (one pass, \emph{without}-replacement) SGD is classically known to minimize the population risk at rate $O(1/\sqrt n)$, and prove that, surprisingly, there exist problem instances where the SGD solution exhibits both empirical risk and generalization gap of $\Omega(1)$. Consequently, it turns out that SGD is not algorithmically stable in \emph{any} sense, and its generalization ability cannot be explained by uniform convergence or any other currently known generalization bound technique for that matter (other than that of its classical analysis). We then continue to analyze the closely related \emph{with}-replacement SGD, for which we show that an analogous phenomenon does not occur and prove that its population risk does in fact converge at the optimal rate. Finally, we interpret our main results in the context of without-replacement SGD for finite-sum convex optimization problems, and derive upper and lower bounds for the multi-epoch regime that significantly improve upon previously known results.
翻訳日:2022-03-01 15:47:49 公開日:2022-02-27
# 離散潜在変数モデルのベイズ能動的学習

Bayesian Active Learning for Discrete Latent Variable Models ( http://arxiv.org/abs/2202.13426v1 )

ライセンス: Link先を確認
Aditi Jha, Zoe C. Ashwood, Jonathan W. Pillow(参考訳) アクティブラーニングは、モデルのパラメータを推定するために必要なサンプルの数を減らすことを目的としており、現代の機械学習において重要なテクニックのクラスを形成している。 しかし、能動的学習に関する過去の研究は、神経科学、心理学、その他の様々な工学および科学分野において重要な役割を果たす潜在変数モデルを見落としてきた。 本稿では,このギャップを文献で解決し,離散的潜在変数回帰モデル学習のための最大変動情報入力選択のための新しい枠組みを提案する。 まず,線形回帰混合(MLR)と呼ばれるモデルのクラスについて検討する。 この例は、アクティブラーニングが標準の最小二乗回帰の利点を損なうことはよく知られている。 しかし、シミュレーションとフィッシャー情報を用いた分析の両方において、最適な入力選択は、それでも回帰モデルの混合に対して劇的な利益をもたらすことを示し、これをmlrの実際の応用で検証する。 次に、最近神経科学で注目されているIO-HMM(Input-Output Hidden Markov Models)と呼ばれる、時間的に構造化された潜在変数モデルの強力なクラスを考える。 提案手法は学習を実質的に高速化し,変分推定や不定形推論に基づく近似手法よりも優れていることを示す。

Active learning seeks to reduce the number of samples required to estimate the parameters of a model, thus forming an important class of techniques in modern machine learning. However, past work on active learning has largely overlooked latent variable models, which play a vital role in neuroscience, psychology, and a variety of other engineering and scientific disciplines. Here we address this gap in the literature and propose a novel framework for maximum-mutual-infor mation input selection for learning discrete latent variable regression models. We first examine a class of models known as "mixtures of linear regressions" (MLR). This example is striking because it is well known that active learning confers no advantage for standard least-squares regression. However, we show -- both in simulations and analytically using Fisher information -- that optimal input selection can nevertheless provide dramatic gains for mixtures of regression models; we also validate this on a real-world application of MLRs. We then consider a powerful class of temporally structured latent variable models known as Input-Output Hidden Markov Models (IO-HMMs), which have recently gained prominence in neuroscience. We show that our method substantially speeds up learning, and outperforms a variety of approximate methods based on variational and amortized inference.
翻訳日:2022-03-01 15:47:24 公開日:2022-02-27
# 歌声の美を学ぶ:ニューラルシンキング音声美容器

Learning the Beauty in Songs: Neural Singing Voice Beautifier ( http://arxiv.org/abs/2202.13277v1 )

ライセンス: Link先を確認
Jinglin Liu, Chengxi Li, Yi Ren, Zhiying Zhu, Zhou Zhao(参考訳) 我々は音声美歌(SVB)を歌う新しいタスクに興味を持っている。 アマチュア歌手の歌声を考えると、SVBは内容と声の音色を保ちながら、声のイントネーションと声のトーンを改善することを目的としている。 現在の自動ピッチ補正技術は未熟であり、そのほとんどはイントネーションに制限されているが、全体的な美的品質は無視されている。 そこで本研究では,svbタスクを解決する最初の生成モデルであるneural singing voice beautifier (nsvb)を紹介し,条件付き変分オートエンコーダをバックボーンとして活用し,発声音の潜在表現を学習する。 nsvbでは,既存の時間ウォーピング手法のロバスト性を改善する形状認識動的時間ウォーピング (sadtw) により,アマチュア記録をテンプレートピッチ曲線と同期させる新しいピッチ補正手法を提案する。 さらに,素人の声調をプロフェッショナルな声調に変換するために,潜時空間における潜時マスキングアルゴリズムを提案する。 これを実現するために,アマチュア版とプロ版の両方の並列歌唱記録を含む新しいデータセットを提案する。 中国語と英語の歌を広範に実験した結果,客観的指標と主観的指標の両方において,本手法の有効性が示された。 オーディオサンプルは~\url{https://neuralsvb.gi thub.io}で入手できる。

We are interested in a novel task, singing voice beautifying (SVB). Given the singing voice of an amateur singer, SVB aims to improve the intonation and vocal tone of the voice, while keeping the content and vocal timbre. Current automatic pitch correction techniques are immature, and most of them are restricted to intonation but ignore the overall aesthetic quality. Hence, we introduce Neural Singing Voice Beautifier (NSVB), the first generative model to solve the SVB task, which adopts a conditional variational autoencoder as the backbone and learns the latent representations of vocal tone. In NSVB, we propose a novel time-warping approach for pitch correction: Shape-Aware Dynamic Time Warping (SADTW), which ameliorates the robustness of existing time-warping approaches, to synchronize the amateur recording with the template pitch curve. Furthermore, we propose a latent-mapping algorithm in the latent space to convert the amateur vocal tone to the professional one. To achieve this, we also propose a new dataset containing parallel singing recordings of both amateur and professional versions. Extensive experiments on both Chinese and English songs demonstrate the effectiveness of our methods in terms of both objective and subjective metrics. Audio samples are available at~\url{https://neuralsvb.gi thub.io}.
翻訳日:2022-03-01 15:44:29 公開日:2022-02-27
# 生態多様性と離散ウェーブレット変換を用いた病理像のテクスチャー評価

Texture Characterization of Histopathologic Images Using Ecological Diversity Measures and Discrete Wavelet Transform ( http://arxiv.org/abs/2202.13270v1 )

ライセンス: Link先を確認
Steve Tsham Mpinda Ataky, Alessandro Lameiras Koerich(参考訳) 乳癌は主に女性に影響を及ぼす健康上の問題である。 早期発見は効果的な治療の可能性を高め、疾患の予後を改善する。 この点について,乳腺デジタル画像検査の専門医を支援する計算ツールが提案されており,腫瘍や癌細胞の検出と診断の機能を提供する。 しかし, 感度が高く, 偽陽性率も低い腫瘍を検出することは依然として困難である。 テクスチャディスクリプタは、特に病理画像(HI)において、そのような画像に見られるテクスチャの多様性と染色過程の異常による組織の外観の両方から、医用画像解析において非常に人気がある。 このようなばらつきは、固定、染色状態の不整合、試薬などの染色プロトコルの違いにより、実験室または同じ研究室で存在する可能性がある。 このような画像の内在特性の分布が非決定論的複雑系を形成することを考えると、HI情報を識別的に定量化するためのテクスチャ特徴抽出は困難である。 本稿では, HIの集合組織を特徴付ける手法を提案する。 生態学的多様性測定と離散ウェーブレット変換を用いることで,2つのHIデータセットの固有特性を最先端の手法と比較して有望な精度で定量化することができる。

Breast cancer is a health problem that affects mainly the female population. An early detection increases the chances of effective treatment, improving the prognosis of the disease. In this regard, computational tools have been proposed to assist the specialist in interpreting the breast digital image exam, providing features for detecting and diagnosing tumors and cancerous cells. Nonetheless, detecting tumors with a high sensitivity rate and reducing the false positives rate is still challenging. Texture descriptors have been quite popular in medical image analysis, particularly in histopathologic images (HI), due to the variability of both the texture found in such images and the tissue appearance due to irregularity in the staining process. Such variability may exist depending on differences in staining protocol such as fixation, inconsistency in the staining condition, and reagents, either between laboratories or in the same laboratory. Textural feature extraction for quantifying HI information in a discriminant way is challenging given the distribution of intrinsic properties of such images forms a non-deterministic complex system. This paper proposes a method for characterizing texture across HIs with a considerable success rate. By employing ecological diversity measures and discrete wavelet transform, it is possible to quantify the intrinsic properties of such images with promising accuracy on two HI datasets compared with state-of-the-art methods.
翻訳日:2022-03-01 15:42:21 公開日:2022-02-27
# 水中画像の多種分割のための点ラベル対応スーパーピクセル

Point Label Aware Superpixels for Multi-species Segmentation of Underwater Imagery ( http://arxiv.org/abs/2202.13487v1 )

ライセンス: Link先を確認
Scarlett Raine, Ross Marchant, Brano Kusy, Frederic Maire, Tobias Fischer(参考訳) 水中車両を用いたサンゴ礁のモニタリングは、大量の画像を収集し、海洋調査と歴史的生態データの入手範囲を増大させる。 この画像の解析はセマンティックセグメンテーションを実行するために訓練されたモデルを用いて自動化することができるが、教師付きモデルのトレーニングには高密度にラベル付けするにはコストがかかりすぎる。 この手紙では、疎点ラベルを持つ生態学者がラベル付けしたフォトクアドレート画像を活用する。 セマンティックセグメンテーションモデルを訓練するために,スーパーピクセル領域内のラベルを伝播する点ラベル認識手法を提案する。 我々の点ラベル認識スーパーピクセル法はスパース点ラベルと、学習した特徴を用いたクラスタピクセルを用いて、散在する複雑なサンゴ画像の単一種セグメントを正確に生成する。 本手法は,UCSDモザイクデータセットにおいて,画素精度が3.62%,ラベル伝搬タスクが平均IoUが8.35%向上した。 さらに,従来の手法による計算時間を76%削減した。 我々はDeepLabv3+アーキテクチャをトレーニングし、セマンティックセグメンテーションの最先端を2.91%、UCSD Mosaicsデータセットで平均IoUが9.65%、ピクセル精度が4.19%、Eylatデータセットで平均IoUが14.32%で上回っている。

Monitoring coral reefs using underwater vehicles increases the range of marine surveys and availability of historical ecological data by collecting significant quantities of images. Analysis of this imagery can be automated using a model trained to perform semantic segmentation, however it is too costly and time-consuming to densely label images for training supervised models. In this letter, we leverage photo-quadrat imagery labeled by ecologists with sparse point labels. We propose a point label aware method for propagating labels within superpixel regions to obtain augmented ground truth for training a semantic segmentation model. Our point label aware superpixel method utilizes the sparse point labels, and clusters pixels using learned features to accurately generate single-species segments in cluttered, complex coral images. Our method outperforms prior methods on the UCSD Mosaics dataset by 3.62% for pixel accuracy and 8.35% for mean IoU for the label propagation task. Furthermore, our approach reduces computation time reported by previous approaches by 76%. We train a DeepLabv3+ architecture and outperform state-of-the-art for semantic segmentation by 2.91% for pixel accuracy and 9.65% for mean IoU on the UCSD Mosaics dataset and by 4.19% for pixel accuracy and 14.32% mean IoU for the Eilat dataset.
翻訳日:2022-03-01 15:42:00 公開日:2022-02-27
# 対照接頭辞を用いた制御可能な自然言語生成

Controllable Natural Language Generation with Contrastive Prefixes ( http://arxiv.org/abs/2202.13257v1 )

ライセンス: Link先を確認
Jing Qian, Li Dong, Yelong Shen, Furu Wei, Weizhu Chen(参考訳) 大規模事前学習型言語モデル(LM)の生成を導くため,従来の研究は,言語モデルを直接微調整したり,属性判別器を利用したりすることに重点を置いてきた。 本稿では,自然言語生成を制御するために,接頭辞と呼ばれる小さな属性特異的ベクター群を利用する,制御可能なgpt2生成のための新しい軽量フレームワークを提案する。 各プレフィックスが独立してトレーニングされるプレフィックスチューニングとは異なり、プレフィックス間の関係を考慮に入れ、同時に複数のプレフィックスをトレーニングする。 本稿では,新しい教師あり法と教師なし法を提案し,これら2つの手法を組み合わせてマルチスペクトル制御を実現する。 単一アスペクト制御と多アスペクト制御の両方の実験結果から,提案手法は高い言語的品質を維持しつつ,所望の属性に向かって生成を導くことができることがわかった。

To guide the generation of large pretrained language models (LM), previous work has focused on directly fine-tuning the language model or utilizing an attribute discriminator. In this work, we propose a novel lightweight framework for controllable GPT2 generation, which utilizes a set of small attribute-specific vectors, called prefixes, to steer natural language generation. Different from prefix-tuning, where each prefix is trained independently, we take the relationship among prefixes into consideration and train multiple prefixes simultaneously. We propose a novel supervised method and also an unsupervised method to train the prefixes for single-aspect control while the combination of these two methods can achieve multi-aspect control. Experimental results on both single-aspect and multi-aspect control show that our methods can guide generation towards the desired attributes while keeping high linguistic quality.
翻訳日:2022-03-01 15:37:20 公開日:2022-02-27
# マルチホップ知識ベース質問応答のためのサブグラフ検索モデル

Subgraph Retrieval Enhanced Model for Multi-hop Knowledge Base Question Answering ( http://arxiv.org/abs/2202.13296v1 )

ライセンス: Link先を確認
Jing Zhang, Xiaokang Zhang, Jifan Yu, Jian Tang, Jie Tang, Cuiping Li, Hong Chen(参考訳) 近年の知識ベース質問応答 (KBQA) は, 推論を容易にするためのサブグラフを検索している。 望まれるサブグラフは、小さなサブグラフでは答えを除外できるが、大きなグラフではより多くのノイズを発生させる。 しかし、既存の検索はヒューリスティックであるか、あるいは推論と織り合わされ、部分部分部分部分グラフの推論を引き起こし、中間の監督が失われると推論バイアスが増加する。 本稿では、その後の推論プロセスから切り離された訓練可能なサブグラフ検索器(SR)を提案し、プラグイン・アンド・プレイフレームワークにより、任意のサブグラフ指向KBQAモデルを拡張できる。 大規模な実験により、SRは既存の検索方法よりもはるかに優れた検索性能とQA性能が得られることを示した。 弱い教師付き事前学習とエンドツーエンドの微調整により、SRlはKBQAメソッドを埋め込むために、サブグラフ指向の推論器であるNSMと組み合わせることで、新しい最先端のパフォーマンスを実現する。

Recent works on knowledge base question answering (KBQA) retrieve subgraphs for easier reasoning. A desired subgraph is crucial as a small one may exclude the answer but a large one might introduce more noises. However, the existing retrieval is either heuristic or interwoven with the reasoning, causing reasoning on the partial subgraphs, which increases the reasoning bias when the intermediate supervision is missing. This paper proposes a trainable subgraph retriever (SR) decoupled from the subsequent reasoning process, which enables a plug-and-play framework to enhance any subgraph-oriented KBQA model. Extensive experiments demonstrate SR achieves significantly better retrieval and QA performance than existing retrieval methods. Via weakly supervised pre-training as well as the end-to-end fine-tuning, SRl achieves new state-of-the-art performance when combined with NSM, a subgraph-oriented reasoner, for embedding-based KBQA methods.
翻訳日:2022-03-01 15:37:05 公開日:2022-02-27
# 事前学習型言語モデルのための簡易で効果的なプラガブルなエンティティルックアップテーブル

A Simple but Effective Pluggable Entity Lookup Table for Pre-trained Language Models ( http://arxiv.org/abs/2202.13392v1 )

ライセンス: Link先を確認
Deming Ye, Yankai Lin, Peng Li, Maosong Sun, Zhiyuan Liu(参考訳) 事前学習された言語モデル(plm)は、大規模コーパス、特に稀なエンティティに現れるエンティティの豊富な事実知識を十分に思い出せない。 本稿では, コーパス内の複数事象の出力表現を集約することにより, 需要に応じて, 単純かつ効果的なプラガブルエンティティルックアップテーブル(PELT)を構築することを提案する。 PELTは、補足的なエンティティ知識をPLMに注入する入力として、相互に接続することができる。 従来の知識強化PLMと比較して、PELTはドメイン適応シナリオのためにドメイン外コーパスから知識を取得する能力を持つ事前計算を0.2%-5%しか必要としない。 知識関連タスクの実験により, PELTは, 関連コーパスからのエンティティ知識を, 異なるアーキテクチャを持つPLMに柔軟かつ効果的に伝達できることを示した。

Pre-trained language models (PLMs) cannot well recall rich factual knowledge of entities exhibited in large-scale corpora, especially those rare entities. In this paper, we propose to build a simple but effective Pluggable Entity Lookup Table (PELT) on demand by aggregating the entity's output representations of multiple occurrences in the corpora. PELT can be compatibly plugged as inputs to infuse supplemental entity knowledge into PLMs. Compared to previous knowledge-enhanced PLMs, PELT only requires 0.2%-5% pre-computation with capability of acquiring knowledge from out-of-domain corpora for domain adaptation scenario. The experiments on knowledge-related tasks demonstrate that our method, PELT, can flexibly and effectively transfer entity knowledge from related corpora into PLMs with different architectures.
翻訳日:2022-03-01 15:36:05 公開日:2022-02-27
# Wikidata Entity Linkingのためのエンティティプロファイル生成による候補検索の改善

Improving Candidate Retrieval with Entity Profile Generation for Wikidata Entity Linking ( http://arxiv.org/abs/2202.13404v1 )

ライセンス: Link先を確認
Tuan Manh Lai, Heng Ji, ChengXiang Zhai(参考訳) エンティティリンク(EL)は、ドキュメント内のエンティティの参照を知識ベース(KB)内の参照エンティティにリンクするタスクである。 以前の多くの研究はウィキペディア由来のKBに焦点を当てていた。 Wikidata上では、最も大規模なクラウドソースKBであるにもかかわらず、ELに関する作業はほとんどない。 wikidataのスケールは多くの新しい現実世界のアプリケーションを開くことができるが、その膨大な数のエンティティもまたelを困難にする。 検索空間を効果的に狭めるために,エンティティプロファイリングに基づく新しい候補検索パラダイムを提案する。 Wikidataエンティティとそのテキストフィールドは、まずテキスト検索エンジン(Elasticsearchなど)にインデックスされる。 参照とそのコンテキストを考慮した推論では、シーケンシャル・ツー・シーケンス(seq2seq)モデルを使用して、そのタイトルと記述からなる対象エンティティのプロファイルを生成する。 プロファイルを使用してインデックス付き検索エンジンをクエリし、候補エンティティを検索します。 提案手法は,wikipediaアンカーテキスト辞書を用いた従来の手法を補完するものであり,より効果的な候補検索のためのハイブリッド手法を設計できる。 単純なクロスアテンション・リランカと組み合わせて、3つのWikidataベースのデータセットの最先端結果とTACKBP-2010の強力なパフォーマンスを実現する。

Entity linking (EL) is the task of linking entity mentions in a document to referent entities in a knowledge base (KB). Many previous studies focus on Wikipedia-derived KBs. There is little work on EL over Wikidata, even though it is the most extensive crowdsourced KB. The scale of Wikidata can open up many new real-world applications, but its massive number of entities also makes EL challenging. To effectively narrow down the search space, we propose a novel candidate retrieval paradigm based on entity profiling. Wikidata entities and their textual fields are first indexed into a text search engine (e.g., Elasticsearch). During inference, given a mention and its context, we use a sequence-to-sequence (seq2seq) model to generate the profile of the target entity, which consists of its title and description. We use the profile to query the indexed search engine to retrieve candidate entities. Our approach complements the traditional approach of using a Wikipedia anchor-text dictionary, enabling us to further design a highly effective hybrid method for candidate retrieval. Combined with a simple cross-attention reranker, our complete EL framework achieves state-of-the-art results on three Wikidata-based datasets and strong performance on TACKBP-2010.
翻訳日:2022-03-01 15:35:53 公開日:2022-02-27
# ドメイン事前学習とニューラルネットワークによる法的議論の緩和

Enhancing Legal Argument Mining with Domain Pre-training and Neural Networks ( http://arxiv.org/abs/2202.13457v1 )

ライセンス: Link先を確認
Gechuan Zhang, Paul Nulty, David Lillis(参考訳) 文脈単語埋め込みモデルであるBERTは、限られた量の注釈付きデータで下流タスクにその能力を証明した。 bertとその変種は、デジタル人文科学における法的議論のマイニングなど、多くの学際研究分野における複雑なアノテーション作業の負担を軽減するのに役立つ。 引数マイニングは、引数を自動的に検索し、引数節間の関係を識別するテキスト分析ツールの開発を目的としている。 議論はケースローの重要な側面の1つであるため、法的テキストの議論的マイニングツールは学術的・非学術的な法律研究にも適用できる。 ドメイン固有のBERT変種(特定の背景からコーパスで事前訓練された)も多くのタスクで高いパフォーマンスを実現している。 我々の知る限りでは、裁判法における議論マイニングに関する過去の機械学習研究は、統計モデルに大きく依存している。 本稿では,欧州人権裁判所(ECHR)の古典的および文脈的埋め込みモデルとその実践的事例法における性能について広範な研究を行う。 研究では、異なる埋め込みと組み合わせられる際にも、多数のニューラルネットワークを探索する。 我々の実験は法的な議論のマイニングタスクに対する様々なアプローチの包括的な概要を提供する。 我々は、ドメイン事前トレーニングされたトランスフォーマーモデルがこの分野で大きな可能性を持っていると結論づけるが、従来の埋め込みは、追加のニューラルネットワーク層と組み合わせることで、高い性能を達成することができる。

The contextual word embedding model, BERT, has proved its ability on downstream tasks with limited quantities of annotated data. BERT and its variants help to reduce the burden of complex annotation work in many interdisciplinary research areas, for example, legal argument mining in digital humanities. Argument mining aims to develop text analysis tools that can automatically retrieve arguments and identify relationships between argumentation clauses. Since argumentation is one of the key aspects of case law, argument mining tools for legal texts are applicable to both academic and non-academic legal research. Domain-specific BERT variants (pre-trained with corpora from a particular background) have also achieved strong performance in many tasks. To our knowledge, previous machine learning studies of argument mining on judicial case law still heavily rely on statistical models. In this paper, we provide a broad study of both classic and contextual embedding models and their performance on practical case law from the European Court of Human Rights (ECHR). During our study, we also explore a number of neural networks when being combined with different embeddings. Our experiments provide a comprehensive overview of a variety of approaches to the legal argument mining task. We conclude that domain pre-trained transformer models have great potential in this area, although traditional embeddings can also achieve strong performance when combined with additional neural network layers.
翻訳日:2022-03-01 15:35:30 公開日:2022-02-27
# フェデレーションオンラインスパース意思決定

Federated Online Sparse Decision Making ( http://arxiv.org/abs/2202.13448v1 )

ライセンス: Link先を確認
Chi-Hua Wang, Wenjie Li, Guang Cheng, and Guang Lin(参考訳) 本稿では,各クライアントが高次元決定コンテキストを持つ異なるK腕確率的帯域に面し,共通グローバルパラメータを介して結合する,新しい線形文脈帯域幅モデルを提案する。 線形報酬の空間構造を活用することにより、局所的な決定コンテキストベクトルや生の報酬データを交換することなく、クライアント間の不均一性に対処するコラボレーティブアルゴリズム「texttt{Fedego Lasso}」を提案する。 \texttt{Fedego Lasso} は、新しいマルチクライアントなチームワーク中心のバンディットポリシー設計に依存し、対数通信コストを持つ共有パラメータケースに対して、ほぼ最適に後悔する。 さらに,フェデレーション・エゴシアン政策と呼ばれる新たな概念ツールを導入して,探査・探査のトレードオフを明確にする。 実験は、合成データと実世界のデータセットの両方における提案アルゴリズムの有効性を実証する。

This paper presents a novel federated linear contextual bandits model, where individual clients face different K-armed stochastic bandits with high-dimensional decision context and coupled through common global parameters. By leveraging the sparsity structure of the linear reward , a collaborative algorithm named \texttt{Fedego Lasso} is proposed to cope with the heterogeneity across clients without exchanging local decision context vectors or raw reward data. \texttt{Fedego Lasso} relies on a novel multi-client teamwork-selfish bandit policy design, and achieves near-optimal regrets for shared parameter cases with logarithmic communication costs. In addition, a new conceptual tool called federated-egocentric policies is introduced to delineate exploration-exploita tion trade-off. Experiments demonstrate the effectiveness of the proposed algorithms on both synthetic and real-world datasets.
翻訳日:2022-03-01 14:55:37 公開日:2022-02-27
# 拡散Schr\"オーディンガーブリッジを用いた条件シミュレーション

Conditional Simulation Using Diffusion Schr\"odinger Bridges ( http://arxiv.org/abs/2202.13460v1 )

ライセンス: Link先を確認
Yuyang Shi, Valentin De Bortoli, George Deligiannidis, Arnaud Doucet(参考訳) 雑音拡散モデルは最近、生成モデルの強力なクラスとして出現した。 これらは、無条件シミュレーションだけでなく、画像の塗りつぶしやデブラリングのような幅広い逆問題で生じる条件付きシミュレーションの問題を解決するためにも用いられる。 これらのモデルの制限は、長い時間軸上の拡散過程をシミュレートする必要があるため、生成時に計算集約的であることである。 非条件シミュレーションを行う場合、生成モデリングのSchr\"odingerブリッジの定式化は、他の提案された加速技術と相補的なアルゴリズムの短縮生成時間をもたらす。 ここではschr\"odinger bridgeフレームワークを条件付きシミュレーションに拡張する。 状態空間モデルに対する画像超解像と最適フィルタリングを含む様々な応用について,本手法を実証する。

Denoising diffusion models have recently emerged as a powerful class of generative models. They provide state-of-the-art results, not only for unconditional simulation, but also when used to solve conditional simulation problems arising in a wide range of inverse problems such as image inpainting or deblurring. A limitation of these models is that they are computationally intensive at generation time as they require simulating a diffusion process over a long time horizon. When performing unconditional simulation, a Schr\"odinger bridge formulation of generative modeling leads to a theoretically grounded algorithm shortening generation time which is complementary to other proposed acceleration techniques. We extend here the Schr\"odinger bridge framework to conditional simulation. We demonstrate this novel methodology on various applications including image super-resolution and optimal filtering for state-space models.
翻訳日:2022-03-01 14:55:22 公開日:2022-02-27
# 対向訓練のための統一ワッサースタイン分布ロバストネスフレームワーク

A Unified Wasserstein Distributional Robustness Framework for Adversarial Training ( http://arxiv.org/abs/2202.13437v1 )

ライセンス: Link先を確認
Tuan Anh Bui, Trung Le, Quan Tran, He Zhao, Dinh Phung(参考訳) 深層ニューラルネットワーク(dnn)が敵の攻撃を受けやすく、深層学習システムの厳格な脆弱性が露呈していることはよく知られている。 その結果, 対人訓練(AT)法は, DNNに基づく分類器の堅牢性を高めるための, 自然な, 効果的なアプローチであることがわかった。 しかしながら、ほとんどのATベースの手法、特にPGD-ATとTRADESは、典型的には、分類器の脆弱性を「証明する」方法として、各データサンプルを独立に摂動させることで、最悪のケースの敵例を生成するポイントワイズ逆数を求める。 恐らく、分布全体からそのような逆効果を考える際には、未解明の利点がある。 そこで本稿では,Wasserstein分布のロバスト性と現状のAT手法を結びつける統一的なフレームワークを提案する。 我々は、新しいワッサースタインコスト関数と、新しい一連のリスク関数を導入し、標準ATメソッドが我々のフレームワークのそれに対応する特別なケースであることを示す。 この接続は、既存のAT手法の直感的な緩和と一般化をもたらし、分散ロバスト性ATベースのアルゴリズムの新しいファミリーの開発を促進する。 大規模な実験により,ATアルゴリズムの分散ロバスト性は,様々な設定で標準ATアルゴリズムをさらに強固にすることが示された。

It is well-known that deep neural networks (DNNs) are susceptible to adversarial attacks, exposing a severe fragility of deep learning systems. As the result, adversarial training (AT) method, by incorporating adversarial examples during training, represents a natural and effective approach to strengthen the robustness of a DNN-based classifier. However, most AT-based methods, notably PGD-AT and TRADES, typically seek a pointwise adversary that generates the worst-case adversarial example by independently perturbing each data sample, as a way to "probe" the vulnerability of the classifier. Arguably, there are unexplored benefits in considering such adversarial effects from an entire distribution. To this end, this paper presents a unified framework that connects Wasserstein distributional robustness with current state-of-the-art AT methods. We introduce a new Wasserstein cost function and a new series of risk functions, with which we show that standard AT methods are special cases of their counterparts in our framework. This connection leads to an intuitive relaxation and generalization of existing AT methods and facilitates the development of a new family of distributional robustness AT-based algorithms. Extensive experiments show that our distributional robustness AT algorithms robustify further their standard AT counterparts in various settings.
翻訳日:2022-03-01 14:51:42 公開日:2022-02-27
# ファウショット学習のための解釈可能な概念ベースプロトタイプネットワーク

Interpretable Concept-based Prototypical Networks for Few-Shot Learning ( http://arxiv.org/abs/2202.13474v1 )

ライセンス: Link先を確認
Mohammad Reza Zarei, Majid Komeili(参考訳) 限定的なサンプルを持つクラスから新しいインスタンスを認識することを目的としている。 この困難なタスクは、通常、同様のタスクでメタ学習を実行することで軽減される。 しかし、結果として得られるモデルはブラックボックスである。 ブラックボックス機械学習モデルのデプロイに関する懸念が高まっており、この点ではFSLは例外ではない。 本稿では,人間の解釈可能な概念の集合に基づくFSLの手法を提案する。 概念に付随する距離空間の集合を構成し、概念固有の決定を集約することで新しいクラスのサンプルを分類する。 提案手法は,クエリサンプルに対する概念アノテーションを必要としない。 この解釈可能な手法は、CUBの細粒化鳥分類データセット上で、6つの最先端のブラックボックスFSL法と同等の結果を得た。

Few-shot learning aims at recognizing new instances from classes with limited samples. This challenging task is usually alleviated by performing meta-learning on similar tasks. However, the resulting models are black-boxes. There has been growing concerns about deploying black-box machine learning models and FSL is not an exception in this regard. In this paper, we propose a method for FSL based on a set of human-interpretable concepts. It constructs a set of metric spaces associated with the concepts and classifies samples of novel classes by aggregating concept-specific decisions. The proposed method does not require concept annotations for query samples. This interpretable method achieved results on a par with six previously state-of-the-art black-box FSL methods on the CUB fine-grained bird classification dataset.
翻訳日:2022-03-01 14:49:45 公開日:2022-02-27
# PARISとELSA: 再構成可能なマルチGPU推論サーバのための弾性スケジューリングアルゴリズム

PARIS and ELSA: An Elastic Scheduling Algorithm for Reconfigurable Multi-GPU Inference Servers ( http://arxiv.org/abs/2202.13481v1 )

ライセンス: Link先を確認
Yunseong Kim, Yujeong Choi, Minsoo Rhu(参考訳) クラウド機械学習(ML)推論システムでは、エンドユーザに低レイテンシを提供することが最も重要です。 しかし、サーバ利用率とシステムスループットを最大化することは、mlサービスプロバイダにとって非常に重要です。 GPUは、大規模な計算とメモリスループットが低バッチの推論シナリオで完全に利用できないため、ML推論の使用に関してしばしば批判されている。 このような制限に対処するため、NVIDIAが最近発表したAmpere GPUアーキテクチャは、1つの大きなモノリシックGPUを複数の小さな"GPUパーティション"に"再構成"する機能を提供する。 この機能により、クラウドMLサービスプロバイダは、大規模なバッチトレーニングだけでなく、リソース利用率を高める可能性のある小さなバッチ推論にも、再構成可能なGPUを使用することができる。 本稿では,この新しいGPUアーキテクチャを再構成性で検討し,高性能なマルチGPUML推論サーバを開発する。 最初の提案は、再構成可能なGPUのための洗練されたパーティショニングアルゴリズムで、推論サーバのデプロイメントに最も適した、異種なマルチグラニュラGPUパーティショニングの集合を体系的に決定する。 さらに、低レイテンシと高GPU利用を効果的にバランスさせる、均一に分割されたGPUサーバに適した弾性スケジューリングアルゴリズムを共同設計する。

In cloud machine learning (ML) inference systems, providing low latency to end-users is of utmost importance. However, maximizing server utilization and system throughput is also crucial for ML service providers as it helps lower the total-cost-of-owners hip. GPUs have oftentimes been criticized for ML inference usages as its massive compute and memory throughput is hard to be fully utilized under low-batch inference scenarios. To address such limitation, NVIDIA's recently announced Ampere GPU architecture provides features to "reconfigure" one large, monolithic GPU into multiple smaller "GPU partitions". Such feature provides cloud ML service providers the ability to utilize the reconfigurable GPU not only for large-batch training but also for small-batch inference with the potential to achieve high resource utilization. In this paper, we study this emerging GPU architecture with reconfigurability to develop a high-performance multi-GPU ML inference server. Our first proposition is a sophisticated partitioning algorithm for reconfigurable GPUs that systematically determines a heterogeneous set of multi-granular GPU partitions, best suited for the inference server's deployment. Furthermore, we co-design an elastic scheduling algorithm tailored for our heterogeneously partitioned GPU server which effectively balances low latency and high GPU utilization.
翻訳日:2022-03-01 14:47:50 公開日:2022-02-27
# UCTopic: フレーズ表現とトピックマイニングのための教師なしコントラスト学習

UCTopic: Unsupervised Contrastive Learning for Phrase Representations and Topic Mining ( http://arxiv.org/abs/2202.13469v1 )

ライセンス: Link先を確認
Jiacheng Li, Jingbo Shang, Julian McAuley(参考訳) 高品質なフレーズ表現は文書中の話題や関連用語(トピックマイニング)を見つけるのに不可欠である。 既存のフレーズ表現学習法は、文脈自由な方法でユニグラム表現を組み合わせるか、文脈認識の知識を学ぶために広範囲なアノテーションに依存する。 本稿では,文脈対応語句表現とトピックマイニングのための新しい教師なしコントラスト学習フレームワークUCTopicを提案する。 UCTopicは2つのフレーズの文脈が同じ意味を持つかどうかを区別するために、大規模に事前訓練されている。 事前学習の鍵は、句指向の仮定から正のペア構成です。 しかし、従来のバッチ内負は、小さなトピック番号のデータセットを微調整するとパフォーマンスが低下する。 そこで本研究では,クラスタから陰性を選択することにより,ノイズの低減に大きく寄与するクラスタ支援コントラスト学習(CCL)を提案する。 UCTopicは、4つのエンティティクラスタリングタスクで平均38.2%のNMIで最先端の表現モデルを上回っている。 トピックマイニングの包括的評価は、uctopicがコヒーレントで多様なトピック句を抽出することができることを示している。

High-quality phrase representations are essential to finding topics and related terms in documents (a.k.a. topic mining). Existing phrase representation learning methods either simply combine unigram representations in a context-free manner or rely on extensive annotations to learn context-aware knowledge. In this paper, we propose UCTopic, a novel unsupervised contrastive learning framework for context-aware phrase representations and topic mining. UCTopic is pretrained in a large scale to distinguish if the contexts of two phrase mentions have the same semantics. The key to pretraining is positive pair construction from our phrase-oriented assumptions. However, we find traditional in-batch negatives cause performance decay when finetuning on a dataset with small topic numbers. Hence, we propose cluster-assisted contrastive learning(CCL) which largely reduces noisy negatives by selecting negatives from clusters and further improves phrase representations for topics accordingly. UCTopic outperforms the state-of-the-art phrase representation model by 38.2% NMI in average on four entity cluster-ing tasks. Comprehensive evaluation on topic mining shows that UCTopic can extract coherent and diverse topical phrases.
翻訳日:2022-03-01 14:27:41 公開日:2022-02-27
# DatasetGANの医用画像への応用:予備的検討

Application of DatasetGAN in medical imaging: preliminary studies ( http://arxiv.org/abs/2202.13463v1 )

ライセンス: Link先を確認
Zong Fan, Varun Kelkar, Mark A. Anastasio, Hua Li(参考訳) ジェネレーティブ・ディベサール・ネットワーク(GAN)は医療画像の多くの可能性について広く研究されている。 DatasetGANは最近のGANをベースにしたフレームワークで、注釈付きトレーニングイメージの小さなセットだけを必要としながら高品質なセグメンテーションイメージを合成できる。 合成アノテートされた画像は、セグメンテーション情報を必要とする多くの医療画像アプリケーションに利用される可能性がある。 しかし、我々の知る限りでは、医療画像への応用に焦点を当てた研究は発表されていない。 本研究では,医療画像におけるDatasetGANの有用性について予備的検討を行った。 医用画像の特徴を考慮し,元のDatasetGANフレームワークに3つの改良が提案された。 DatasetGANによる合成セグメント画像の視覚的評価を行った。 訓練されたデータセットは、合成されたデータセットを用いて訓練された予め定義された画像分割技術の性能を評価することでさらに解析された。 datasetganの有効性、懸念、潜在的利用について論じた。

Generative adversarial networks (GANs) have been widely investigated for many potential applications in medical imaging. DatasetGAN is a recently proposed framework based on modern GANs that can synthesize high-quality segmented images while requiring only a small set of annotated training images. The synthesized annotated images could be potentially employed for many medical imaging applications, where images with segmentation information are required. However, to the best of our knowledge, there are no published studies focusing on its applications to medical imaging. In this work, preliminary studies were conducted to investigate the utility of DatasetGAN in medical imaging. Three improvements were proposed to the original DatasetGAN framework, considering the unique characteristics of medical images. The synthesized segmented images by DatasetGAN were visually evaluated. The trained DatasetGAN was further analyzed by evaluating the performance of a pre-defined image segmentation technique, which was trained by the use of the synthesized datasets. The effectiveness, concerns, and potential usage of DatasetGAN were discussed.
翻訳日:2022-03-01 14:23:59 公開日:2022-02-27
# ノイズロバスト画像分類のための相乗的ネットワーク学習とラベル補正

Synergistic Network Learning and Label Correction for Noise-robust Image Classification ( http://arxiv.org/abs/2202.13472v1 )

ライセンス: Link先を確認
Chen Gong, Kong Bin, Eric J. Seibel, Xin Wang, Youbing Yin, Qi Song(参考訳) 大規模なトレーニングデータセットには、ほとんど常に不正確なラベルや誤ったラベルの例が含まれている。 ディープニューラルネットワーク(DNN)は、トレーニングラベルノイズに過度に適合する傾向があるため、実際のモデルパフォーマンスは低下する。 この問題に対処するために,ネットワークパラメータを学習し,基本真理ラベルを反復的に再割り当てする,小さな損失選択と雑音補正のアイデアを組み合わせたロバストなラベル補正フレームワークを提案する。 我々のフレームワークは、DNNの専門知識を活用して、ノイズに合う前に意味のあるパターンを学習し、まず2つのネットワークを現在のデータセット上で小さな損失選択でトレーニングする。 2つのネットワークの分類損失と合意損失に基づいて、トレーニングデータの信頼性を測定することができる。 学習プロセス中にラベル補正のために、より多くの自信あるサンプルが選択される。 CIFAR-10, CIFAR-100, Clothing1Mなど, ノイズの種類や速度の異なる合成および実世界のデータセットに対して, 提案手法を実証した。

Large training datasets almost always contain examples with inaccurate or incorrect labels. Deep Neural Networks (DNNs) tend to overfit training label noise, resulting in poorer model performance in practice. To address this problem, we propose a robust label correction framework combining the ideas of small loss selection and noise correction, which learns network parameters and reassigns ground truth labels iteratively. Taking the expertise of DNNs to learn meaningful patterns before fitting noise, our framework first trains two networks over the current dataset with small loss selection. Based on the classification loss and agreement loss of two networks, we can measure the confidence of training data. More and more confident samples are selected for label correction during the learning process. We demonstrate our method on both synthetic and real-world datasets with different noise types and rates, including CIFAR-10, CIFAR-100 and Clothing1M, where our method outperforms the baseline approaches.
翻訳日:2022-03-01 14:23:44 公開日:2022-02-27
# マルチホリゾン熱帯サイクロン軌道予測のための2分岐時空間融合ネットワーク

Dual-Branched Spatio-temporal Fusion Network for Multi-horizon Tropical Cyclone Track Forecast ( http://arxiv.org/abs/2202.13336v1 )

ライセンス: Link先を確認
Zili Liu and Kun Hao and Xiaoyi Geng and Zhenwei Shi(参考訳) 熱帯サイクロン(TC)は極端に熱帯の気象システムであり、その軌道は様々な時空間データによって説明できる。 これらのデータの効果的なマイニングが、正確なTCトラック予測の鍵となる。 しかし、既存の手法では、モデル複雑性が高すぎるか、マルチモーダルデータから効率的に特徴を抽出することが難しいという問題に直面している。 本稿では,マルチモーダルな特徴を効率的に融合する新しい熱帯低気圧予測モデルであるDual-Branched Spatio-temporal Fusion Network (DBF-Net)を提案する。 DBF-Netは、TCの1D固有の特徴から時空間特徴を抽出するTC特徴分枝と、再解析2D圧力分枝から時空間特徴を抽出する圧力分枝を含む。 エンコーダデコーダに基づくアーキテクチャと効率的な機能融合により、DBF-Netは2種類のデータの情報を完全にマイニングし、TCが予測結果を追跡できる。 北西太平洋における過去のTCsトラックデータに関する大規模な実験により,我々のDBF-Netは,既存の統計・ディープラーニングTCsトラック予測手法と比較して大幅に改善されていることがわかった。

Tropical cyclone (TC) is an extreme tropical weather system and its trajectory can be described by a variety of spatio-temporal data. Effective mining of these data is the key to accurate TCs track forecasting. However, existing methods face the problem that the model complexity is too high or it is difficult to efficiently extract features from multi-modal data. In this paper, we propose the Dual-Branched spatio-temporal Fusion Network (DBF-Net) -- a novel multi-horizon tropical cyclone track forecasting model which fuses the multi-modal features efficiently. DBF-Net contains a TC features branch that extracts temporal features from 1D inherent features of TCs and a pressure field branch that extracts spatio-temporal features from reanalysis 2D pressure field. Through the encoder-decoder-base d architecture and efficient feature fusion, DBF-Net can fully mine the information of the two types of data, and achieve good TCs track prediction results. Extensive experiments on historical TCs track data in the Northwest Pacific show that our DBF-Net achieves significant improvement compared with existing statistical and deep learning TCs track forecast methods.
翻訳日:2022-03-01 14:20:37 公開日:2022-02-27
# グラフ表現学習を保存した分布

Distribution Preserving Graph Representation Learning ( http://arxiv.org/abs/2202.13428v1 )

ライセンス: Link先を確認
Chengsheng Mao and Yuan Luo(参考訳) グラフニューラルネットワーク(GNN)は、ノードとグラフ全体の分散表現のためのグラフをモデル化するのに有効である。 近年,GNNの表現力に関する研究が注目されている。 高表現性GNNは、識別グラフ表現を生成する能力を有する。 しかし、あるグラフ学習タスクのエンドツーエンドトレーニングプロセスにおいて、高表現のGNNは、モデル一般化において重要な情報を失うとともに、目標タスクのトレーニングデータに適合するグラフ表現を生成するリスクを負う。 本稿では,グラフ表現やノード表現に複数種類の分布情報を保存することにより,表現型GNNモデルの一般化性を向上させるGNNフレームワークである分散保存GNN(DP-GNN)を提案する。 一般化性に加えて、表現力のあるGNNバックボーンを適用することで、DP-GNNは高い表現力を持つことができる。 提案するDP-GNNフレームワークを,グラフ分類タスクのための複数のベンチマークデータセット上で評価する。 実験により,本モデルが最先端性能を実現することを示す。

Graph neural network (GNN) is effective to model graphs for distributed representations of nodes and an entire graph. Recently, research on the expressive power of GNN attracted growing attention. A highly-expressive GNN has the ability to generate discriminative graph representations. However, in the end-to-end training process for a certain graph learning task, a highly-expressive GNN risks generating graph representations overfitting the training data for the target task, while losing information important for the model generalization. In this paper, we propose Distribution Preserving GNN (DP-GNN) - a GNN framework that can improve the generalizability of expressive GNN models by preserving several kinds of distribution information in graph representations and node representations. Besides the generalizability, by applying an expressive GNN backbone, DP-GNN can also have high expressive power. We evaluate the proposed DP-GNN framework on multiple benchmark datasets for graph classification tasks. The experimental results demonstrate that our model achieves state-of-the-art performances.
翻訳日:2022-03-01 14:20:17 公開日:2022-02-27
# neural-progressive hedging:確率的プログラミングによる強化学習における制約強化

Neural-Progressive Hedging: Enforcing Constraints in Reinforcement Learning with Stochastic Programming ( http://arxiv.org/abs/2202.13436v1 )

ライセンス: Link先を確認
Supriyo Ghosh, Laura Wynter, Shiau Hong Lim and Duc Thien Nguyen(参考訳) 我々は、強化学習(RL)ポリシーを実行するオンラインフェーズにおいて確率的プログラミングを活用する、NP(Neural-progressiv e hedging)と呼ばれるフレームワークを提案する。 その目標は、政策実行中の条件付きバリュー・アット・リスク(CVaR)のような制約やリスクに基づく目標に対する実現可能性を確保することであり、政策調整を導くための状態遷移の確率論的モデルを使用することである。 このフレームワークは、典型的なリソース制約に対する実現性はスケーラブルな方法では適用できないため、シーケンシャルなリソース割り当て問題のクラスに特に適している。 NPフレームワークは、オンラインフェーズ中に控えめなオーバーヘッドを追加する代替手段を提供する。 2つの連続現実課題に対するNPフレームワークの有効性を実験的に示す。 (i)非定常状態分布を特徴とする金融計画の流動性制約を伴うポートフォリオ最適化問題 (ii)自転車シェアリングシステムにおける動的再配置問題は,供給需要マッチング問題の類型を具現化したものである。 NPフレームワークは、構造的制約を満たすとともに、結果として生じる政策におけるリスク対策を調整しながら、深いRLや他のベースラインアプローチよりも優れたポリシーを生成し、非定常性に適応することを示す。 NPフレームワークのその他の利点は、実装の容易さとポリシーの説明可能性の改善である。

We propose a framework, called neural-progressive hedging (NP), that leverages stochastic programming during the online phase of executing a reinforcement learning (RL) policy. The goal is to ensure feasibility with respect to constraints and risk-based objectives such as conditional value-at-risk (CVaR) during the execution of the policy, using probabilistic models of the state transitions to guide policy adjustments. The framework is particularly amenable to the class of sequential resource allocation problems since feasibility with respect to typical resource constraints cannot be enforced in a scalable manner. The NP framework provides an alternative that adds modest overhead during the online phase. Experimental results demonstrate the efficacy of the NP framework on two continuous real-world tasks: (i) the portfolio optimization problem with liquidity constraints for financial planning, characterized by non-stationary state distributions; and (ii) the dynamic repositioning problem in bike sharing systems, that embodies the class of supply-demand matching problems. We show that the NP framework produces policies that are better than deep RL and other baseline approaches, adapting to non-stationarity, whilst satisfying structural constraints and accommodating risk measures in the resulting policies. Additional benefits of the NP framework are ease of implementation and better explainability of the policies.
翻訳日:2022-03-01 14:20:01 公開日:2022-02-27
# 自動読唇システムと転送学習のためのマルチモーダルドイツ語データセット

A Multimodal German Dataset for Automatic Lip Reading Systems and Transfer Learning ( http://arxiv.org/abs/2202.13403v1 )

ライセンス: Link先を確認
Gerald Schwiebert, Cornelius Weber, Leyuan Qu, Henrique Siqueira, Stefan Wermter(参考訳) 唇読解の深層学習に必要な大規模なデータセットは、多くの言語に存在しない。 本稿では,Hessian Parliamentの話者の顔の25万件のビデオからなるGLips(ドイツ語のリップス)を,自動パイプラインを用いて単語レベルの唇読取のために処理した。 このフォーマットは英語のLRW(Lip Reading in the Wild)データセットと似ており、各ビデオは1ワードの興味を1.16秒の文脈で符号化し、両方のデータセット間の移動学習を研究するための互換性をもたらす。 深層ニューラルネットワークを訓練することにより、唇読解に言語に依存しない特徴があるかどうかを検証し、異なる言語のデータセットを用いて唇読解モデルを改善する。 そこで本研究では,学習をスクラッチからlrwからglipsへ移行することで,特に検証セットの学習速度と性能が向上することを示す。

Large datasets as required for deep learning of lip reading do not exist in many languages. In this paper we present the dataset GLips (German Lips) consisting of 250,000 publicly available videos of the faces of speakers of the Hessian Parliament, which was processed for word-level lip reading using an automatic pipeline. The format is similar to that of the English language LRW (Lip Reading in the Wild) dataset, with each video encoding one word of interest in a context of 1.16 seconds duration, which yields compatibility for studying transfer learning between both datasets. By training a deep neural network, we investigate whether lip reading has language-independent features, so that datasets of different languages can be used to improve lip reading models. We demonstrate learning from scratch and show that transfer learning from LRW to GLips and vice versa improves learning speed and performance, in particular for the validation set.
翻訳日:2022-03-01 13:32:41 公開日:2022-02-27
# 不完全多路データに対するベイズロバストテンソル環モデル

Bayesian Robust Tensor Ring Model for Incomplete Multiway Data ( http://arxiv.org/abs/2202.13321v1 )

ライセンス: Link先を確認
Zhenhao Huang, Guoxu Zhou, Yuning Qiu(参考訳) 低ランクテンソル補完は、観測データから欠落したエントリを復元することを目的としている。 しかし、観測されたデータはノイズや異常により妨害される可能性がある。 したがって、この問題を解決するために、ロバストテンソル完備化(RTC)を提案する。 最近提案されたテンソルリング(TR)構造は、事前設計されたTRランクを持つ高次元データを扱う能力に優れたため、RTCに適用される。 本稿では,手動のランク選択を回避し,低ランク成分とスパース成分のバランスを達成するために,RTC問題に対するベイズ系ロバストテンソルリング(BRTR)分解法を提案する。 さらに,後方の確率分布を推定するための変分ベイズアルゴリズム(VB)を開発した。 学習過程において、前段テンソルの前段スライスと後段テンソルの水平スライスとを同一のtrランクで共有し、その成分をゼロにすることで自動的にランク決定を行う。 既存の手法と比較して、BRTRはパラメータを手動で微調整することなくTRランクを自動的に学習することができる。 広汎な実験により、BRTRは回復性能が向上し、他の最先端手法よりもノイズを除去できることがわかった。

Low-rank tensor completion aims to recover missing entries from the observed data. However, the observed data may be disturbed by noise and outliers. Therefore, robust tensor completion (RTC) is proposed to solve this problem. The recently proposed tensor ring (TR) structure is applied to RTC due to its superior abilities in dealing with high-dimensional data with predesigned TR rank. To avoid manual rank selection and achieve a balance between low-rank component and sparse component, in this paper, we propose a Bayesian robust tensor ring (BRTR) decomposition method for RTC problem. Furthermore, we develop a variational Bayesian (VB) algorithm to infer the probability distribution of posteriors. During the learning process, the frontal slices of previous tensor and horizontal slices of latter tensor shared with the same TR rank with zero components are pruned, resulting in automatic rank determination. Compared with existing methods, BRTR can automatically learn TR rank without manual fine-tuning of parameters. Extensive experiments indicate that BRTR has better recovery performance and ability to remove noise than other state-of-the-art methods.
翻訳日:2022-03-01 13:32:12 公開日:2022-02-27
# トレーニング不要の自動スケーリングビジョントランス

Auto-scaling Vision Transformers without Training ( http://arxiv.org/abs/2202.11921v2 )

ライセンス: Link先を確認
Wuyang Chen, Wei Huang, Xianzhi Du, Xiaodan Song, Zhangyang Wang, Denny Zhou(参考訳) この作業は視覚変換器(ViT)の自動設計とスケーリングを目標としている。 動機は2つの痛点から来ています 1)vitの設計及びスケーリングのための効率的かつ原則的な方法の欠如 2) 畳み込みよりもはるかに重いViTを訓練する際の膨大な計算コスト。 これらの課題に対処するために、トレーニングなしでViTを自動スケーリングするフレームワークAs-ViTを提案する。 具体的には,トレーニングフリーな検索プロセスを用いて"シード"vitトポロジを設計した。 この極めて高速な探索は、ViTのネットワーク複雑性の包括的研究によって達成され、Kendall-Tau の強い相関と接地トラストの精度をもたらす。 次に、"シード"トポロジから、さまざまなViT層に幅/深さを拡大することで、ViTのスケーリングルールを自動化する。 これにより、単一の実行で異なるパラメータ数を持つ一連のアーキテクチャが実現される。 最後に,ViTsが早期トレーニングにおいて粗いトークン化を許容できるという観察に基づいて,ViTsを迅速かつ安価にトレーニングするためのプログレッシブトークン化戦略を提案する。 統一されたフレームワークとして、As-ViTは分類(ImageNet-1kで83.5%)と検出(COCOで52.7% mAP)において、VTアーキテクチャのマニュアル作成やスケーリングを行わず、強力なパフォーマンスを実現している。 私たちのコードはhttps://github.com/V ITA-Group/AsViT.comで利用可能です。

This work targets automated designing and scaling of Vision Transformers (ViTs). The motivation comes from two pain spots: 1) the lack of efficient and principled methods for designing and scaling ViTs; 2) the tremendous computational cost of training ViT that is much heavier than its convolution counterpart. To tackle these issues, we propose As-ViT, an auto-scaling framework for ViTs without training, which automatically discovers and scales up ViTs in an efficient and principled manner. Specifically, we first design a "seed" ViT topology by leveraging a training-free search process. This extremely fast search is fulfilled by a comprehensive study of ViT's network complexity, yielding a strong Kendall-tau correlation with ground-truth accuracies. Second, starting from the "seed" topology, we automate the scaling rule for ViTs by growing widths/depths to different ViT layers. This results in a series of architectures with different numbers of parameters in a single run. Finally, based on the observation that ViTs can tolerate coarse tokenization in early training stages, we propose a progressive tokenization strategy to train ViTs faster and cheaper. As a unified framework, As-ViT achieves strong performance on classification (83.5% top1 on ImageNet-1k) and detection (52.7% mAP on COCO) without any manual crafting nor scaling of ViT architectures: the end-to-end model design and scaling process cost only 12 hours on one V100 GPU. Our code is available at https://github.com/V ITA-Group/AsViT.
翻訳日:2022-03-01 11:54:17 公開日:2022-02-27