このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220526となっている論文です。

PDF登録状況(公開日: 20220526)

TitleAuthorsAbstract論文公表日・翻訳日
# 潜在変数としての解釈可能な自然言語理解に向けて

Towards Interpretable Natural Language Understanding with Explanations as Latent Variables ( http://arxiv.org/abs/2011.05268v3 )

ライセンス: Link先を確認
Wangchunshu Zhou, Jinyi Hu, Hanlin Zhang, Xiaodan Liang, Maosong Sun, Chenyan Xiong, Jian Tang(参考訳) 近年, 自然言語の説明生成は, 解釈可能な説明を提供するだけでなく, 予測のための追加情報や監視を提供する上で, 非常に有望な結果を示している。 しかし、既存のアプローチでは、トレーニングには大量の注釈付きの説明を必要とするが、大量の説明を集めることは時間だけでなくコストもかかる。 本稿では,人間に注釈付き説明文を少量だけ必要とするような,解釈可能な自然言語理解のための一般的な枠組みを開発する。 我々のフレームワークは、自然言語の説明を、神経モデルの基本的な推論過程をモデル化する潜在変数として扱う。 本稿では,説明生成モジュールと説明提供予測モジュールとを交互に最適化し,相互に強化した最適化のための変動emフレームワークを開発した。 さらに,この枠組みに基づく半教師あり学習のための自己学習手法を提案する。 ラベルのないデータへの擬似ラベルの割り当てと、反復的に改善するための新しい説明の生成を交互に行う。 2つの自然言語理解タスクの実験は、我々のフレームワークが教師付きと半教師付きの両方で効果的な予測を行うだけでなく、優れた自然言語説明を生成することを実証している。

Recently generating natural language explanations has shown very promising results in not only offering interpretable explanations but also providing additional information and supervision for prediction. However, existing approaches usually require a large set of human annotated explanations for training while collecting a large set of explanations is not only time consuming but also expensive. In this paper, we develop a general framework for interpretable natural language understanding that requires only a small set of human annotated explanations for training. Our framework treats natural language explanations as latent variables that model the underlying reasoning process of a neural model. We develop a variational EM framework for optimization where an explanation generation module and an explanation-augmented prediction module are alternatively optimized and mutually enhance each other. Moreover, we further propose an explanation-based self-training method under this framework for semi-supervised learning. It alternates between assigning pseudo-labels to unlabeled data and generating new explanations to iteratively improve each other. Experiments on two natural language understanding tasks demonstrate that our framework can not only make effective predictions in both supervised and semi-supervised settings, but also generate good natural language explanation.
翻訳日:2022-10-03 12:09:06 公開日:2022-05-26
# polygon-free:ボックスアノテーションによる制約なしシーンテキスト検出

Polygon-free: Unconstrained Scene Text Detection with Box Annotations ( http://arxiv.org/abs/2011.13307v3 )

ライセンス: Link先を確認
Weijia Wu, Enze Xie, Ruimao Zhang, Wenhai Wang, Hong Zhou, Ping Luo(参考訳) ポリゴンはテキスト検出のための直立バウンディングボックスよりも正確な表現であるが、ポリゴンのアノテーションは非常に高価で困難である。 本研究は,ポリゴンアノテーションを用いた完全教師付きトレーニングを行う既存の作業と異なり,ポリゴンフリー(PF)と呼ばれる制約のないテキスト検出システムを提案し,既存のポリゴンベースのテキスト検出装置(PSENet[33],DB[16])のほとんどが,直立境界ボックスアノテーションのみを用いてトレーニングされている。 我々の核となるアイデアは、合成データから実データへ知識を転送し、直立バウンディングボックスの監督情報を強化することです。 これは単純なセグメンテーションネットワーク、すなわちSkeleton Attention Segmentation Network (SASN)によって実現され、3つの重要なコンポーネント(チャネルアテンション、空間アテンション、骨格アテンションマップ)と1つのソフトなクロスエントロピーロスを含む。 実験により、提案されたポリゴンフリーシステムは、一般的な検出器(例えば、EAST、PSENet、DB)を組み合わせることで、様々なデータセット(例えば、ICDAR2019-Art、TotalText、ICDAR2015)上のアップライト境界ボックスアノテーションだけで驚くほど高品質なピクセルレベルの結果が得られることが示された。 例えば、polygonアノテーションを使わずに、psenetはtotaltext [3]で80.5%のf-score(全教師の80.9%)を達成し、31.1%はアップライトバウンディングボックスアノテーションで直接トレーニングするよりも優れており、80%以上のラベリングコストを削減している。 PFがテキスト検出の新しい視点を提供し、ラベリングコストを削減できることを願っている。 コードはhttps://github.com/weijiawu/Unconstrained-Text-Detection-with-Box-Supervisionand-Dynamic-Self-Traini ngで見ることができる。

Although a polygon is a more accurate representation than an upright bounding box for text detection, the annotations of polygons are extremely expensive and challenging. Unlike existing works that employ fully-supervised training with polygon annotations, this study proposes an unconstrained text detection system termed Polygon-free (PF), in which most existing polygon-based text detectors (e.g., PSENet [33],DB [16]) are trained with only upright bounding box annotations. Our core idea is to transfer knowledge from synthetic data to real data to enhance the supervision information of upright bounding boxes. This is made possible with a simple segmentation network, namely Skeleton Attention Segmentation Network (SASN), that includes three vital components (i.e., channel attention, spatial attention and skeleton attention map) and one soft cross-entropy loss. Experiments demonstrate that the proposed Polygonfree system can combine general detectors (e.g., EAST, PSENet, DB) to yield surprisingly high-quality pixel-level results with only upright bounding box annotations on a variety of datasets (e.g., ICDAR2019-Art, TotalText, ICDAR2015). For example, without using polygon annotations, PSENet achieves an 80.5% F-score on TotalText [3] (vs. 80.9% of fully supervised counterpart), 31.1% better than training directly with upright bounding box annotations, and saves 80%+ labeling costs. We hope that PF can provide a new perspective for text detection to reduce the labeling costs. The code can be found at https://github.com/weijiawu/Unconstrained-Text-Detection-with-Box-Supervisionand-Dynamic-Self-Traini ng.
翻訳日:2022-09-20 09:05:05 公開日:2022-05-26
# (参考訳) フラクタル次元を用いたエコー状態ネットワークの解析

Analyzing Echo-state Networks Using Fractal Dimension ( http://arxiv.org/abs/2205.09348v2 )

ライセンス: CC BY 4.0
Norbert Michael Mayer, Oliver Obst(参考訳) この研究は貯水池の最適化、情報理論の最適符号化、および中心フラクタル解析の側面を構成する。 我々は、繰り返しニューラルネットワークの再帰的な性質から、入力シーケンスが隠れ状態表現のフラクタルパターンとして現れるという観察に基づいて構築する。 これらのパターンは、貯水池の単位数よりも低いフラクタル次元を持つ。 繰り返しニューラルネットワークの初期化の最適化に関して,このフラクタル次元の可能性を示す。 我々は「理想的」貯水池の概念を算術エンコーダを用いた損失のない最適符号化に結びつける。 本研究は,入力状態から隠れ状態へのマッピングのフラクタル次元が,ネットワーク内のユニット数に近いことを示唆する。 このフラクタル次元とネットワーク接続の接続は、リカレントニューラルネットワークの初期化と貯留コンピューティングのための興味深い新しい方向である。

This work joins aspects of reservoir optimization, information-theoretic optimal encoding, and at its center fractal analysis. We build on the observation that, due to the recursive nature of recurrent neural networks, input sequences appear as fractal patterns in their hidden state representation. These patterns have a fractal dimension that is lower than the number of units in the reservoir. We show potential usage of this fractal dimension with regard to optimization of recurrent neural network initialization. We connect the idea of `ideal' reservoirs to lossless optimal encoding using arithmetic encoders. Our investigation suggests that the fractal dimension of the mapping from input to hidden state shall be close to the number of units in the network. This connection between fractal dimension and network connectivity is an interesting new direction for recurrent neural network initialization and reservoir computing.
翻訳日:2022-06-27 09:00:29 公開日:2022-05-26
# (参考訳) 自律手術への道のり -手術自律化の枠組み-

Roadmap to Autonomous Surgery -- A Framework to Surgical Autonomy ( http://arxiv.org/abs/2206.10516v1 )

ライセンス: CC BY 4.0
Amritpal Singh(参考訳) ロボット手術は手術の領域を拡大した。 外科的自動化のいくつかの例が過去10年間に見られた。 自動化タスクのパスを必要な機能に分解し、より高いレベルの手術自動化に到達するためのチェックリストを提供します。 最後に、これを実現するために必要な現在の課題と進歩について論じる。

Robotic surgery has increased the domain of surgeries possible. Several examples of partial surgical automation have been seen in the past decade. We break down the path of automation tasks into features required and provide a checklist that can help reach higher levels of surgical automation. Finally, we discuss the current challenges and advances required to make this happen.
翻訳日:2022-06-27 07:07:43 公開日:2022-05-26
# (参考訳) CMA-ES with Margin: Mixed-Integer Black-Box Optimizationのための低境界マージナル確率

CMA-ES with Margin: Lower-Bounding Marginal Probability for Mixed-Integer Black-Box Optimization ( http://arxiv.org/abs/2205.13482v1 )

ライセンス: CC BY-SA 4.0
Ryoki Hamano, Shota Saito, Masahiro Nomura, Shinichi Shirakawa(参考訳) 本研究の目的は、連続変数と整数変数を同時に最適化する混合整数ブラックボックス最適化(MI-BBO)問題である。 本研究の焦点であるCMA-ESは,多変量ガウス分布(MGD)から解候補を抽出する確率探索法であり,連続BBOにおいて優れた性能を示す。 CMA-ESにおける候補解の評価値に基づいてMGD,平均および(共)分散のパラメータを更新する。 しかし、CMA-ESを直接離散化でMI-BBOに適用すると、整数変数に対応する分散は最適解に到達する前の離散化の粒度よりもはるかに小さくなり、最適化が停滞する。 特に、バイナリ変数が問題に含まれる場合、この停滞は、離散化の粒度が広くなり、既存のCMA-ESへの修正がこの停滞に対処しないため、より起こりやすい。 これらの制限を克服するために,MGDにおける整数変数の生成に伴う限界確率の低境界に基づくCMA-ESの簡単な修正を提案する。 MI-BBOベンチマーク問題に対する数値実験により,提案手法の有効性とロバスト性を示した。

This study targets the mixed-integer black-box optimization (MI-BBO) problem where continuous and integer variables should be optimized simultaneously. The CMA-ES, our focus in this study, is a population-based stochastic search method that samples solution candidates from a multivariate Gaussian distribution (MGD), which shows excellent performance in continuous BBO. The parameters of MGD, mean and (co)variance, are updated based on the evaluation value of candidate solutions in the CMA-ES. If the CMA-ES is applied to the MI-BBO with straightforward discretization, however, the variance corresponding to the integer variables becomes much smaller than the granularity of the discretization before reaching the optimal solution, which leads to the stagnation of the optimization. In particular, when binary variables are included in the problem, this stagnation more likely occurs because the granularity of the discretization becomes wider, and the existing modification to the CMA-ES does not address this stagnation. To overcome these limitations, we propose a simple modification of the CMA-ES based on lower-bounding the marginal probabilities associated with the generation of integer variables in the MGD. The numerical experiments on the MI-BBO benchmark problems demonstrate the efficiency and robustness of the proposed method.
翻訳日:2022-06-27 06:56:41 公開日:2022-05-26
# (参考訳) 円柱後流の2次元層流におけるディープラーニングモデルのベンチマーク

Benchmarking of Deep Learning models on 2D Laminar Flow behind Cylinder ( http://arxiv.org/abs/2205.13485v1 )

ライセンス: CC BY 4.0
Mritunjay Musale, Vaibhav Vasani(参考訳) 流体力学の急速に進歩する分野は、最近、その分野における様々な問題を解決するためにDeep Learningを採用している。 同じ精神で、我々は計算流体力学におけるタスクの1つである直接数値シミュレーション(dns)を、様々な高次元問題を解くために、深層学習の分野における3つの基本的なアーキテクチャを用いて行おうとする。 これら3つのモデルをオートエンコーダ方式でトレーニングするため、データセットは入力としてモデルに与えられたシーケンシャルフレームとして扱われる。 我々は、最近導入されたTransformerと呼ばれるアーキテクチャが、選択したデータセットにおいてその性能を大幅に上回っていることを観察する。

The rapidly advancing field of Fluid Mechanics has recently employed Deep Learning to solve various problems within that field. In that same spirit we try to perform Direct Numerical Simulation(DNS) which is one of the tasks in Computational Fluid Dynamics, using three fundamental architectures in the field of Deep Learning that were each used to solve various high dimensional problems. We train these three models in an autoencoder manner, for this the dataset is treated like sequential frames given to the model as input. We observe that recently introduced architecture called Transformer significantly outperforms its counterparts on the selected dataset.Furthermore, we conclude that using Transformers for doing DNS in the field of CFD is an interesting research area worth exploring.
翻訳日:2022-06-27 06:05:42 公開日:2022-05-26
# (参考訳) 生存率分析のためのフレキシブルグループフェアネス指標

Flexible Group Fairness Metrics for Survival Analysis ( http://arxiv.org/abs/2206.03256v1 )

ライセンス: CC BY 4.0
Raphael Sonabend, Florian Pfisterer, Alan Mishler, Moritz Schauer, Lukas Burk, Sebastian Vollmer(参考訳) アルゴリズム的公平性は、機械学習モデルにおけるバイアスの検出と緩和に関する、ますます重要な分野である。 回帰と分類のアルゴリズム的公正性に関する文献は豊富にあるが、生存分析の分野についてはほとんど調査されていない。 生存分析とは、ある事象が経時的に発生する確率を予測しようとする予測タスクである。 生存予測は、患者の診断と予後に機械学習を利用する場合など、センシティブな設定において特に重要である。 本稿では,既存の生存率を用いて集団公平度指標によるバイアスを測定する方法について検討する。 29のサバイバルデータセットと8つの尺度を用いた実証実験でこれを検証した。 偏見の尺度は偏見をよく捉えられるが、校正や採点ルールの尺度では明瞭さが低い。 分布予測のための予測に基づく公平度指標など,さらなる研究分野を提案する。

Algorithmic fairness is an increasingly important field concerned with detecting and mitigating biases in machine learning models. There has been a wealth of literature for algorithmic fairness in regression and classification however there has been little exploration of the field for survival analysis. Survival analysis is the prediction task in which one attempts to predict the probability of an event occurring over time. Survival predictions are particularly important in sensitive settings such as when utilising machine learning for diagnosis and prognosis of patients. In this paper we explore how to utilise existing survival metrics to measure bias with group fairness metrics. We explore this in an empirical experiment with 29 survival datasets and 8 measures. We find that measures of discrimination are able to capture bias well whereas there is less clarity with measures of calibration and scoring rules. We suggest further areas for research including prediction-based fairness metrics for distribution predictions.
翻訳日:2022-06-12 22:32:04 公開日:2022-05-26
# 注意を伴う配列順による郡別covid-19の解釈可能な移動距離

Interpretable travel distance on the county-wise COVID-19 by sequence to sequence with attention ( http://arxiv.org/abs/2206.02536v1 )

ライセンス: Link先を確認
Ting Tian, Yukang Jiang, Huajun Xie, Xueqin Wang, Hailiang Guo(参考訳) 背景: 新型コロナウイルスの感染拡大への介入手段としての旅行制限は、疫学モデルによる感染拡大を減らした。 移動距離の異なるクラスの影響を評価するために,シークエンシングモデルにおけるアテンションモジュールを導入する。 目的:様々な旅行距離の旅行者数と新型コロナウイルストラジェクトリーとの直接的な関係を確立すること。 シーケンシングモデルの予測性能を向上させる。 郡 (county) - アメリカ合衆国の郡。 参加者: 米国中の3158郡で新たに確認された症例と死亡が報告されている。 測定結果:2021年11月13日以前の30日間に新たに確認された症例と死亡例が含まれていた。 人口が旅行距離の異なるクラスで毎日取る旅行回数と、感染した郡の地理的情報を評価した。 結果: 全国各地の様々な移動距離の空間パターンが存在する。 異なる距離を移動している人々の地理的影響が感染拡大に与える影響を実証した。 限界:2021年11月13日までのデータについて検討し,データの発展に伴って各旅行距離の重みが変化する可能性があることを示した。 結語:旅行距離の様々なクラスに旅行する人々の重みを考えると、対応する旅行者数を減らして疫病を緩和できる。

Background: Travel restrictions as a means of intervention in the COVID-19 epidemic have reduced the spread of outbreaks using epidemiological models. We introduce the attention module in the sequencing model to assess the effects of the different classes of travel distances. Objective: To establish a direct relationship between the number of travelers for various travel distances and the COVID-19 trajectories. To improve the prediction performance of sequencing model. Setting: Counties from all over the United States. Participants: New confirmed cases and deaths have been reported in 3158 counties across the United States. Measurements: Outcomes included new confirmed cases and deaths in the 30 days preceding November 13, 2021. The daily number of trips taken by the population for various classes of travel distances and the geographical information of infected counties are assessed. Results: There is a spatial pattern of various classes of travel distances across the country. The varying geographical effects of the number of people travelling for different distances on the epidemic spread are demonstrated. Limitation: We examined data up to November 13, 2021, and the weights of each class of travel distances may change accordingly as the data evolves. Conclusion: Given the weights of people taking trips for various classes of travel distances, the epidemics could be mitigated by reducing the corresponding class of travellers.
翻訳日:2022-06-12 09:36:04 公開日:2022-05-26
# (参考訳) 漁業の判別分析における不平等共分散意識とその分類における変異

Unequal Covariance Awareness for Fisher Discriminant Analysis and Its Variants in Classification ( http://arxiv.org/abs/2205.13565v1 )

ライセンス: CC BY-SA 4.0
Thu Nguyen, Quang M. Le, Son N.T. Tu, Binh T. Nguyen(参考訳) Fisher Discriminant Analysis (FDA) は特徴抽出と分類に不可欠なツールの1つである。 さらに、さまざまな問題やデータタイプに適応するため、FDAに基づく多くの改良された技術の開発も動機付けている。 しかし、これらのアプローチは、fdaにおける等分散行列の仮定が通常現実の状況では満たされないという事実を利用しない。 そこで本研究では,FDAにおける非等質共分散行列の効果を緩和する,この事実を考慮に入れた新しいFDA分類規則を提案する。 さらに,分類規則の修正のみを行うため,多くのfda変種にも適用可能であり,これらのアルゴリズムをさらに改良する。 理論的分析により、新しい分類規則はクラス共分散行列を暗黙的に使用することができる一方で、FDAから準判別分析へ移行する際のパラメータの数を少量に増やすことが判明した。 そこで本研究では,新しい分類規則に基づく修正アルゴリズムの性能を示す実験を通して,本手法の有効性を示す。

Fisher Discriminant Analysis (FDA) is one of the essential tools for feature extraction and classification. In addition, it motivates the development of many improved techniques based on the FDA to adapt to different problems or data types. However, none of these approaches make use of the fact that the assumption of equal covariance matrices in FDA is usually not satisfied in practical situations. Therefore, we propose a novel classification rule for the FDA that accounts for this fact, mitigating the effect of unequal covariance matrices in the FDA. Furthermore, since we only modify the classification rule, the same can be applied to many FDA variants, improving these algorithms further. Theoretical analysis reveals that the new classification rule allows the implicit use of the class covariance matrices while increasing the number of parameters to be estimated by a small amount compared to going from FDA to Quadratic Discriminant Analysis. We illustrate our idea via experiments, which show the superior performance of the modified algorithms based on our new classification rule compared to the original ones.
翻訳日:2022-06-05 08:48:00 公開日:2022-05-26
# (参考訳) Seq2Seqモデルを用いた臨床対話転写誤り訂正

Clinical Dialogue Transcription Error Correction using Seq2Seq Models ( http://arxiv.org/abs/2205.13572v1 )

ライセンス: CC BY 4.0
Gayani Nanayakkara, Nirmalie Wiratunga, David Corsar, Kyle Martin, Anjana Wijekoon(参考訳) 良いコミュニケーションは良い医療に不可欠です。 臨床対話は医療従事者と患者との会話であり、医療情報の収集と共有が明確な目的である。 この情報は患者の医療的意思決定に寄与し、医療旅行において重要な役割を果たす。 ノートの取り出しと手書きの切り抜きのプロセスへの依存は非常に非効率であり、ノートのデジタル化時に手書きの書き起こしエラーを引き起こす。 ASR(Automatic Speech Recognition)は、音声からテキストへのアプリケーションにおいて重要な役割を担い、会話型アプリケーションではテキストジェネレータとして直接使用できる。 しかし、臨床対話の記録は多くの一般的な課題とドメイン固有の課題を呈している。 本稿では,臨床対話のasr転写誤り訂正のためのseq2seq学習手法を提案する。 NHS炎症性腸疾患クリニックの専門医が収集したGCDデータセットを4種類の商用ASRシステムで比較検討した。 自己スーパービジョン戦略を用いて,今後研究のために共有するドメイン固有pubmedデータセットを用いて,マスク充填タスク上でseq2seqモデルを微調整する。 マスクフィリング用に微調整されたBARTモデルは、4つの商用ASR出力のうち3つで書き起こし誤りを訂正し、単語誤り率を下げることができた。

Good communication is critical to good healthcare. Clinical dialogue is a conversation between health practitioners and their patients, with the explicit goal of obtaining and sharing medical information. This information contributes to medical decision-making regarding the patient and plays a crucial role in their healthcare journey. The reliance on note taking and manual scribing processes are extremely inefficient and leads to manual transcription errors when digitizing notes. Automatic Speech Recognition (ASR) plays a significant role in speech-to-text applications, and can be directly used as a text generator in conversational applications. However, recording clinical dialogue presents a number of general and domain-specific challenges. In this paper, we present a seq2seq learning approach for ASR transcription error correction of clinical dialogues. We introduce a new Gastrointestinal Clinical Dialogue (GCD) Dataset which was gathered by healthcare professionals from a NHS Inflammatory Bowel Disease clinic and use this in a comparative study with four commercial ASR systems. Using self-supervision strategies, we fine-tune a seq2seq model on a mask-filling task using a domain-specific PubMed dataset which we have shared publicly for future research. The BART model fine-tuned for mask-filling was able to correct transcription errors and achieve lower word error rates for three out of four commercial ASR outputs.
翻訳日:2022-06-05 08:34:35 公開日:2022-05-26
# (参考訳) フルFORCEトレーニングを用いたフィードバック駆動リカレントスパイクニューラルネットワークの学習

Learning in Feedback-driven Recurrent Spiking Neural Networks using full-FORCE Training ( http://arxiv.org/abs/2205.13585v1 )

ライセンス: CC BY 4.0
Ankita Paul, Stefan Wagner and Anup Das(参考訳) フィードバック駆動リカレントスパイクニューラルネットワーク(RSNN)は、動的システムを模倣できる強力な計算モデルである。 しかし、読み出しからリカレント層へのフィードバックループの存在は学習機構を不安定化させ、収束を防止する。 本稿では、トレーニング中にのみ第2のネットワークを導入するRSNNの教師付きトレーニング手順を提案し、ターゲットダイナミクスのヒントを提供する。 提案したトレーニング手順は、リカレント層とリードアウト層の両方(すなわち完全なRSNNシステム)のターゲットを生成することで構成される。 再帰的最小二乗法に基づく第1次および還元制御誤差(FORCE)アルゴリズムを使用して、各レイヤのアクティビティをターゲットに適合させる。 提案したフルFORCEトレーニング手順により、出力とターゲット間の誤差をゼロに抑えるのに必要な修正量を削減できる。 これらの修正はフィードバックループを制御し、トレーニングが収束する。 提案したフルFORCEトレーニング手法の性能向上とノイズの堅牢性について,漏洩統合火災(LIF)ニューロンとレート符号化を用いたRSNNを用いて,8つの力学系をモデル化した。 エネルギー効率のよいハードウェア実装では、フルFORCEトレーニング手順のためにTTFS (Time-to-first-Spike) 符号化が実装されている。 レートコーディングと比較すると、フルFORCEとTTFSのコーディングはスパイクを少なくし、ターゲットのダイナミックスへの高速な収束を容易にする。

Feedback-driven recurrent spiking neural networks (RSNNs) are powerful computational models that can mimic dynamical systems. However, the presence of a feedback loop from the readout to the recurrent layer de-stabilizes the learning mechanism and prevents it from converging. Here, we propose a supervised training procedure for RSNNs, where a second network is introduced only during the training, to provide hint for the target dynamics. The proposed training procedure consists of generating targets for both recurrent and readout layers (i.e., for a full RSNN system). It uses the recursive least square-based First-Order and Reduced Control Error (FORCE) algorithm to fit the activity of each layer to its target. The proposed full-FORCE training procedure reduces the amount of modifications needed to keep the error between the output and target close to zero. These modifications control the feedback loop, which causes the training to converge. We demonstrate the improved performance and noise robustness of the proposed full-FORCE training procedure to model 8 dynamical systems using RSNNs with leaky integrate and fire (LIF) neurons and rate coding. For energy-efficient hardware implementation, an alternative time-to-first-spike (TTFS) coding is implemented for the full- FORCE training procedure. Compared to rate coding, full-FORCE with TTFS coding generates fewer spikes and facilitates faster convergence to the target dynamics.
翻訳日:2022-06-05 08:22:56 公開日:2022-05-26
# (参考訳) drlcomplex:深層強化学習によるタンパク質四元構造再構成

DRLComplex: Reconstruction of protein quaternary structures using deep reinforcement learning ( http://arxiv.org/abs/2205.13594v1 )

ライセンス: CC BY 4.0
Elham Soltanikazemi, Raj S. Roy, Farhan Quadir, Nabin Giri, Alex Morehead, Jianlin Cheng(参考訳) 予測された鎖間残基-residueコンタクトは、タンパク質複合体の4次構造をスクラッチから構築するのに使うことができる。 しかし、予測された鎖間接触を用いてタンパク質四元構造を再構築する手法はごく少数しか開発されていない。 本稿では,深部強化学習(DRLコンプレックス)に基づくエージェントベース自己学習手法を提案する。 CASP-CAPRIホモ二量体とStd_32ヘテロ二量体データセットの2つの標準データセット上でDRLコンプレックスを真および予測された鎖間接触を入力として厳密にテストした。 真の接触を入力として利用し、DRLコンプレックスは2つのデータセットでそれぞれ0.9895と0.9881の平均TMスコアと0.2197と0.92の平均RMSDを達成した。 予測された接触を用いると、ホモ二量体とヘテロ二量体はそれぞれ0.73と0.76のTMスコアが得られる。 実験の結果,再建した第四系構造物の精度は接触予測の精度に依存することがわかった。 鎖間接触から4次構造を再構築するための他の最適化法と比較すると、drlcomplexは高度な勾配降下法とよく似ており、マルコフ連鎖モンテカルロシミュレーション法やシミュレートアニーリングベース法よりも優れており、タンパク質複合体の4次構造再構築におけるdrlcomplexの有効性を検証する。

Predicted inter-chain residue-residue contacts can be used to build the quaternary structure of protein complexes from scratch. However, only a small number of methods have been developed to reconstruct protein quaternary structures using predicted inter-chain contacts. Here, we present an agent-based self-learning method based on deep reinforcement learning (DRLComplex) to build protein complex structures using inter-chain contacts as distance constraints. We rigorously tested DRLComplex on two standard datasets of homodimeric and heterodimeric protein complexes (i.e., the CASP-CAPRI homodimer and Std_32 heterodimer datasets) using both true and predicted interchain contacts as inputs. Utilizing true contacts as input, DRLComplex achieved high average TM-scores of 0.9895 and 0.9881 and a low average interface RMSD (I_RMSD) of 0.2197 and 0.92 on the two datasets, respectively. When predicted contacts are used, the method achieves TM-scores of 0.73 and 0.76 for homodimers and heterodimers, respectively. Our experiments find that the accuracy of reconstructed quaternary structures depends on the accuracy of the contact predictions. Compared to other optimization methods for reconstructing quaternary structures from inter-chain contacts, DRLComplex performs similar to an advanced gradient descent method and better than a Markov Chain Monte Carlo simulation method and a simulated annealing-based method, validating the effectiveness of DRLComplex for quaternary reconstruction of protein complexes.
翻訳日:2022-06-05 08:04:19 公開日:2022-05-26
# (参考訳) Poisson Approximate Likelihoodsを用いた疫病のコンパートメンタルモデルにおける一貫性と高速推論

Consistent and fast inference in compartmental models of epidemics using Poisson Approximate Likelihoods ( http://arxiv.org/abs/2205.13602v1 )

ライセンス: CC BY 4.0
Michael Whitehouse, Nick Whiteley, Lorenzo Rimella(参考訳) 複雑および不均一なモデルに対する疫学的推測のスケールアップの課題に対処するため,Poisson Approximate Likelihood (PAL)法を提案する。 人口制限が決定論的モデルのモチベーションに使用されるような構成的モデリングに対する一般的なODEアプローチとは対照的に、PALは有限人口、確率的構成的モデルに対する近似フィルタリング方程式から導出され、大きな人口制限は最大PAL推定子の整合性を促進する。 我々の理論結果は, 確率的区画モデルの幅広いクラスにまたがって適用できる最初の確率ベースパラメータ推定一貫性結果であると考えられる。 Approximate Bayesian Computation(英語版)やSequential Monte Carlo(英語版)のようなシミュレーションベースの手法と比較して、PALは簡単な実装であり、基本的な算術演算のみを含み、チューニングパラメータは含まない。 例として, 遅延受容粒子内に埋め込まれたマルコフ・チェイン・モンテカルロがベイジアン推論を促進すること, Stanの分化を生かしてインフルエンザの年齢構造モデルに適合すること, 麻疹の空間的メタポピュレーションモデルをキャリブレーションすること, などである。

Addressing the challenge of scaling-up epidemiological inference to complex and heterogeneous models, we introduce Poisson Approximate Likelihood (PAL) methods. In contrast to the popular ODE approach to compartmental modelling, in which a large population limit is used to motivate a deterministic model, PALs are derived from approximate filtering equations for finite-population, stochastic compartmental models, and the large population limit drives the consistency of maximum PAL estimators. Our theoretical results appear to be the first likelihood-based parameter estimation consistency results applicable across a broad class of partially observed stochastic compartmental models. Compared to simulation-based methods such as Approximate Bayesian Computation and Sequential Monte Carlo, PALs are simple to implement, involving only elementary arithmetic operations and no tuning parameters; and fast to evaluate, requiring no simulation from the model and having computational cost independent of population size. Through examples, we demonstrate how PALs can be: embedded within Delayed Acceptance Particle Markov Chain Monte Carlo to facilitate Bayesian inference; used to fit an age-structured model of influenza, taking advantage of automatic differentiation in Stan; and applied to calibrate a spatial meta-population model of measles.
翻訳日:2022-06-05 07:46:10 公開日:2022-05-26
# (参考訳) 小型モバイルセンシングデータセットにおけるインフルエンザとCOVID-19の予測を可能にする自己教師付き事前学習

Self-supervised Pretraining and Transfer Learning Enable Flu and COVID-19 Predictions in Small Mobile Sensing Datasets ( http://arxiv.org/abs/2205.13607v1 )

ライセンス: CC BY 4.0
Mike A. Merrill and Tim Althoff(参考訳) 携帯電話、時計、フィットネストラッカーからの詳細なモバイルセンシングデータは、個人の健康を改善し、新興疾患に対する反応を加速するために、これまで測定できなかった行動変化を定量化し、行動する別の機会を提供する。 自然言語処理やコンピュータビジョンとは異なり、深層表現学習はこの領域にはまだ大きな影響を与えておらず、研究や臨床応用の大部分は、手動で定義された特徴に依存しており、ツリーモデルを強化したり、予測モデリングの精度が不十分なため、完全には行われない。 これは、非常に小さなデータセット(~10^1参加者)を含む行動健康ドメインのユニークな課題であり、欠落したデータが頻繁に含まれており、重要な長距離依存を持つ長い時系列(>10^4)と極端なクラスの不均衡(>10^3:1)で構成されている。

Detailed mobile sensing data from phones, watches, and fitness trackers offer an unparalleled opportunity to quantify and act upon previously unmeasurable behavioral changes in order to improve individual health and accelerate responses to emerging diseases. Unlike in natural language processing and computer vision, deep representation learning has yet to broadly impact this domain, in which the vast majority of research and clinical applications still rely on manually defined features and boosted tree models or even forgo predictive modeling altogether due to insufficient accuracy. This is due to unique challenges in the behavioral health domain, including very small datasets (~10^1 participants), which frequently contain missing data, consist of long time series with critical long-range dependencies (length>10^4), and extreme class imbalances (>10^3:1).
翻訳日:2022-06-05 07:43:32 公開日:2022-05-26
# 等変分拡散確率モデルによるタンパク質の構造と配列生成

Protein Structure and Sequence Generation with Equivariant Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2205.15019v1 )

ライセンス: Link先を確認
Namrata Anand, Tudor Achim(参考訳) タンパク質は、生命を支える細胞過程のかなりの一部を媒介する高分子である。 バイオエンジニアリングにおける重要な課題は、特定の3D構造と標的機能を可能にする化学的性質を持つタンパク質を設計することである。 この目的のために,従来の分子生成モデル法よりもかなり大きなスケールで機能するタンパク質構造と配列の生成モデルを提案する。 モデルは完全に実験データから学習され、タンパク質トポロジーのコンパクトな仕様に基づいて生成し、全原子のバックボーン構成とシーケンスとサイドチェーン予測を生成する。 サンプルの質的,定量的な分析により,モデルの品質を実証する。 サンプルトラジェクトリのビデオはhttps://nanand2.github.io/ proteinsで公開されている。

Proteins are macromolecules that mediate a significant fraction of the cellular processes that underlie life. An important task in bioengineering is designing proteins with specific 3D structures and chemical properties which enable targeted functions. To this end, we introduce a generative model of both protein structure and sequence that can operate at significantly larger scales than previous molecular generative modeling approaches. The model is learned entirely from experimental data and conditions its generation on a compact specification of protein topology to produce a full-atom backbone configuration as well as sequence and side-chain predictions. We demonstrate the quality of the model via qualitative and quantitative analysis of its samples. Videos of sampling trajectories are available at https://nanand2.github.io/proteins .
翻訳日:2022-05-31 17:59:17 公開日:2022-05-26
# (参考訳) 興奮・抑制ニューロンネットワークにおける受容野の創発的構成

Emergent organization of receptive fields in networks of excitatory and inhibitory neurons ( http://arxiv.org/abs/2205.13614v1 )

ライセンス: CC BY 4.0
Leon Lufkin, Ashish Puri, Ganlin Song, Xinyi Zhong, John Lafferty(参考訳) 神経チューニングの基礎となる計算機構として,脳波を発生させる励起と抑制の局所パターンが研究されている。 励起ニューロンと抑制ニューロンのネットワークに基づくスパース符号化アルゴリズムを提案し, 入力刺激に対する受容場として地形図を提示する。 ニューラルネットワークのリークした統合・火災モデルに動機づけられ,人工ニューラルネットワークの典型的アクティベーションモデルを提案する。 自然画像と自然言語テキストを用いたアクティベーションモデルを用いた計算実験を行った。 画像の場合、配向エッジ検出器の見慣れた「ピンホイール」パターンが出現し、テキストの場合、結果として得られる地形図は粒度の単語意味論の2次元表現を示す。 体性感覚入力の合成モデルを用いて実験を行い、ネットワークのダイナミクスが入力の変化によって神経細胞の可塑性にどのように影響するかを調べる。

Local patterns of excitation and inhibition that can generate neural waves are studied as a computational mechanism underlying the organization of neuronal tunings. Sparse coding algorithms based on networks of excitatory and inhibitory neurons are proposed that exhibit topographic maps as the receptive fields are adapted to input stimuli. Motivated by a leaky integrate-and-fire model of neural waves, we propose an activation model that is more typical of artificial neural networks. Computational experiments with the activation model using both natural images and natural language text are presented. In the case of images, familiar "pinwheel" patterns of oriented edge detectors emerge; in the case of text, the resulting topographic maps exhibit a 2-dimensional representation of granular word semantics. Experiments with a synthetic model of somatosensory input are used to investigate how the network dynamics may affect plasticity of neuronal maps under changes to the inputs.
翻訳日:2022-05-31 13:20:31 公開日:2022-05-26
# (参考訳) 感覚神経補綴用ハイブリッドニューラルオートエンコーダとそのバイオンビジョンへの応用

A Hybrid Neural Autoencoder for Sensory Neuroprostheses and Its Applications in Bionic Vision ( http://arxiv.org/abs/2205.13623v1 )

ライセンス: CC BY 4.0
Jacob Granley, Lucas Relic, Michael Beyeler(参考訳) 感覚神経補綴は、失われた感覚機能を回復したり、人間の能力を増強するための有望な技術として登場しつつある。 しかし、現在の装置によって誘発される感覚はしばしば人工的に見え、歪んでいる。 現在のモデルでは、電気刺激に対する神経反応や知覚応答を予測できることが多いが、最適な刺激戦略は逆の問題を解決する。 ここでは、これをエンドツーエンドの最適化問題とみなし、ディープニューラルネットワークエンコーダをトレーニングして、基礎となる生物学的システムを近似した、既知の固定されたフォワードモデルを逆転させる。 概念実証として,視神経人工装具の使用例におけるハイブリッドニューラルオートエンコーダ(hna)の有効性を実証する。 hnaは、mnistおよびcocoデータセットから高忠実度刺激を生成でき、従来のエンコーディング戦略を上回ることができ、すべてのテスト条件でテクニックをサロゲートできることがわかった。 全体としてこれは、不正確な視覚障害者に高品質のビジョンを復活させるという長年の課題への重要な一歩であり、様々な神経義肢技術にとって有望な解決策となるかもしれない。

Sensory neuroprostheses are emerging as a promising technology to restore lost sensory function or augment human capacities. However, sensations elicited by current devices often appear artificial and distorted. Although current models can often predict the neural or perceptual response to an electrical stimulus, an optimal stimulation strategy solves the inverse problem: what is the required stimulus to produce a desired response? Here we frame this as an end-to-end optimization problem, where a deep neural network encoder is trained to invert a known, fixed forward model that approximates the underlying biological system. As a proof of concept, we demonstrate the effectiveness of our hybrid neural autoencoder (HNA) on the use case of visual neuroprostheses. We found that HNA is able to produce high-fidelity stimuli from the MNIST and COCO datasets that outperform conventional encoding strategies and surrogate techniques across all tested conditions. Overall this is an important step towards the long-standing challenge of restoring high-quality vision to people living with incurable blindness and may prove a promising solution for a variety of neuroprosthetic technologies.
翻訳日:2022-05-31 13:02:40 公開日:2022-05-26
# (参考訳) ニューラルリパラメトリゼーションによるスパースグラフの高速最適化

Faster Optimization on Sparse Graphs via Neural Reparametrization ( http://arxiv.org/abs/2205.13624v1 )

ライセンス: CC BY 4.0
Nima Dehmamy, Csaba Both, Jianzhi Long, Rose Yu(参考訳) 数学的最適化では、二階ニュートンの手法は一般に一階法よりも速く収束するが、ヘッセンの逆数を必要とするため計算コストが高い。 しかし、スパースグラフでは、グラフニューラルネットワーク(GNN)が10-100倍の最適化を高速化できる効率的な準ニュートン法を実装できることが判明した。 ニューラル・リパラメトリゼーション(Neural Reparametrization)は最適化パラメータをGNNの出力として修正し、最適化景観を再構築する。 伝播規則として予め計算されたヘッセン法を用いて、gnnは2次情報を効果的に活用し、適応勾配法と同様の効果を得られる。 本手法はアーキテクチャ設計による最適化を実現するため,AdamやRMSPropといった最適化手法と組み合わせて使用することができる。 本手法は, 熱拡散, 同期, 持続的ホモロジーなど, 科学的に関連する問題に適用できることを示す。

In mathematical optimization, second-order Newton's methods generally converge faster than first-order methods, but they require the inverse of the Hessian, hence are computationally expensive. However, we discover that on sparse graphs, graph neural networks (GNN) can implement an efficient Quasi-Newton method that can speed up optimization by a factor of 10-100x. Our method, neural reparametrization, modifies the optimization parameters as the output of a GNN to reshape the optimization landscape. Using a precomputed Hessian as the propagation rule, the GNN can effectively utilize the second-order information, reaching a similar effect as adaptive gradient methods. As our method solves optimization through architecture design, it can be used in conjunction with any optimizers such as Adam and RMSProp. We show the application of our method on scientifically relevant problems including heat diffusion, synchronization and persistent homology.
翻訳日:2022-05-31 12:39:45 公開日:2022-05-26
# (参考訳) 時空間分離型非線形潜在因子学習 : 体性運動野fMRIデータへの応用

Spatio-temporally separable non-linear latent factor learning: an application to somatomotor cortex fMRI data ( http://arxiv.org/abs/2205.13640v1 )

ライセンス: CC BY 4.0
Eloy Geenjaar, Amrit Kashyap, Noah Lewis, Robyn Miller, Vince Calhoun(参考訳) 機能的磁気共鳴イメージング(fMRI)データには複雑な時空間ダイナミクスが含まれているため、研究者は関連性および解釈可能なダイナミクスを抽出しながら信号の次元性を減少させるアプローチを開発した。 動的潜伏因子の全脳発見が可能なfMRIデータのモデルについて検討する。 線形独立成分分析モデルのようなアプローチの利点は広く評価されているが、これらのモデルの非線形拡張は同定の点で困難である。 深層学習の手法は先進的な手法であるが,空間重み付けを効率的に行う新しい手法は,データの高次元性とノイズの存在に対処するために重要である。 本手法は,まずボクセルの構造的および機能的類似性に基づいてスペクトルクラスタリングを行うことにより,非ユークリッド神経画像データへの重み共有を一般化する。 スペクトルクラスタとその割り当ては、入力ポイント間でパラメータを共有するために、適応型多層パーセプトロン(MLP)-ミキサモデルのパッチとして使用できる。 時間的に独立な潜伏因子を促進するために、損失に追加の総相関項を用いる。 本手法は,複数のモータサブタスクを持つデータを用いて評価を行い,各サブタスクに対応する不連続な潜在要因をモデルが捉えているかどうかを評価する。 次に, 潜伏因子についてさらに検討するため, 潜伏因子の空間的位置と運動homunculusを比較した。 最後に,本手法は,現行のソース信号分離・独立成分分析(ICA)のゴールド標準よりもタスク効果が優れていることを示す。

Functional magnetic resonance imaging (fMRI) data contain complex spatiotemporal dynamics, thus researchers have developed approaches that reduce the dimensionality of the signal while extracting relevant and interpretable dynamics. Models of fMRI data that can perform whole-brain discovery of dynamical latent factors are understudied. The benefits of approaches such as linear independent component analysis models have been widely appreciated, however, nonlinear extensions of these models present challenges in terms of identification. Deep learning methods provide a way forward, but new methods for efficient spatial weight-sharing are critical to deal with the high dimensionality of the data and the presence of noise. Our approach generalizes weight sharing to non-Euclidean neuroimaging data by first performing spectral clustering based on the structural and functional similarity between voxels. The spectral clusters and their assignments can then be used as patches in an adapted multi-layer perceptron (MLP)-mixer model to share parameters among input points. To encourage temporally independent latent factors, we use an additional total correlation term in the loss. Our approach is evaluated on data with multiple motor sub-tasks to assess whether the model captures disentangled latent factors that correspond to each sub-task. Then, to assess the latent factors we find further, we compare the spatial location of each latent factor to the motor homunculus. Finally, we show that our approach captures task effects better than the current gold standard of source signal separation, independent component analysis (ICA).
翻訳日:2022-05-31 11:37:11 公開日:2022-05-26
# (参考訳) 継続的ユーザ認証のための機械学習とマウスダイナミクスへの応用

Machine and Deep Learning Applications to Mouse Dynamics for Continuous User Authentication ( http://arxiv.org/abs/2205.13646v1 )

ライセンス: CC BY 4.0
Nyle Siddiqui, Rushit Dave, Naeem Seliya, Mounika Vanamala(参考訳) パスワードのような静的認証手法は、技術や攻撃戦略の進歩によってますます弱まりつつある。 継続的認証は、アカウントにアクセスしたユーザに対して、ユーザ認証にアクセスした偽者ではないことを継続的に確認するために、引き続き監視されるソリューションとして提案されている。 マウスダイナミクスは、ユーザのマウスの動きの振る舞いであり、生体認証であり、継続的な認証スキームを大いに約束している。 この記事では,3つの機械学習アルゴリズムとディープラーニングアルゴリズムを用いて,40人のユーザのデータセットを評価することで,これまでの成果に基づいています。 2つの評価シナリオが検討されている。 バイナリ分類器はユーザ認証に使用され、トップ10ユーザの平均テスト精度85.73%の1次元畳み込みニューラルネットワークである。 マルチクラス分類はまた、このデータセット上の任意の分類器で見た最高精度の92.48%の驚くべきピーク精度に達する人工知能ニューラルネットワークを用いて検討される。

Static authentication methods, like passwords, grow increasingly weak with advancements in technology and attack strategies. Continuous authentication has been proposed as a solution, in which users who have gained access to an account are still monitored in order to continuously verify that the user is not an imposter who had access to the user credentials. Mouse dynamics is the behavior of a users mouse movements and is a biometric that has shown great promise for continuous authentication schemes. This article builds upon our previous published work by evaluating our dataset of 40 users using three machine learning and deep learning algorithms. Two evaluation scenarios are considered: binary classifiers are used for user authentication, with the top performer being a 1-dimensional convolutional neural network with a peak average test accuracy of 85.73% across the top 10 users. Multi class classification is also examined using an artificial neural network which reaches an astounding peak accuracy of 92.48% the highest accuracy we have seen for any classifier on this dataset.
翻訳日:2022-05-31 11:23:59 公開日:2022-05-26
# (参考訳) ニューラルネットワークによる推論の学習:一般化、見えないデータ、ブール測度

Learning to Reason with Neural Networks: Generalization, Unseen Data and Boolean Measures ( http://arxiv.org/abs/2205.13647v1 )

ライセンス: CC BY 4.0
Emmanuel Abbe, Samy Bengio, Elisabetta Cornacchia, Jon Kleinberg, Aryo Lotfi, Maithra Raghu, Chiyuan Zhang(参考訳) 本稿では,[ZRKB21]で導入されたポインタ値検索(PVR)ベンチマークについて考察する。 より一般に、ニューラルネットワーク上での勾配降下(GD)を伴う論理関数の学習について考察する。 まず, 対称ニューラルネットワーク上で勾配降下を伴う論理関数を学習するためには, [zrkb21] による予想を支持し, 対象関数の雑音安定性の観点から一般化誤差を低くすることができることを示した。 分布シフト設定では、保持するデータが1つの特徴の凍結に対応するとき(正準ホールドアウトと呼ばれる)、勾配降下の一般化誤差はいくつかの関連するアーキテクチャに対するブールの影響という観点で厳密な特徴付けが認められる。 これは線形モデルで示され、MLPやTransformerといった他のモデルで実験的にサポートされている。 特に、このようなアーキテクチャやpvr関数のような論理関数の学習においては、gdは低次表現に対する暗黙のバイアスを持つ傾向があり、二次損失の下での一般化誤差に対するブールの影響を与えるという仮説が提唱されている。

This paper considers the Pointer Value Retrieval (PVR) benchmark introduced in [ZRKB21], where a 'reasoning' function acts on a string of digits to produce the label. More generally, the paper considers the learning of logical functions with gradient descent (GD) on neural networks. It is first shown that in order to learn logical functions with gradient descent on symmetric neural networks, the generalization error can be lower-bounded in terms of the noise-stability of the target function, supporting a conjecture made in [ZRKB21]. It is then shown that in the distribution shift setting, when the data withholding corresponds to freezing a single feature (referred to as canonical holdout), the generalization error of gradient descent admits a tight characterization in terms of the Boolean influence for several relevant architectures. This is shown on linear models and supported experimentally on other models such as MLPs and Transformers. In particular, this puts forward the hypothesis that for such architectures and for learning logical functions such as PVR functions, GD tends to have an implicit bias towards low-degree representations, which in turn gives the Boolean influence for the generalization error under quadratic loss.
翻訳日:2022-05-31 11:07:20 公開日:2022-05-26
# (参考訳) ニューラルトランスデューサにおける個人化音声認識のための文脈適応器

Contextual Adapters for Personalized Speech Recognition in Neural Transducers ( http://arxiv.org/abs/2205.13660v1 )

ライセンス: CC BY 4.0
Kanthashree Mysore Sathyendra, Thejaswi Muniyappa, Feng-Ju Chang, Jing Liu, Jinru Su, Grant P. Strimel, Athanasios Mouchtaris, Siegfried Kunzmann(参考訳) エンド・ツー・エンド自動音声認識(E2E ASR)モデルにおける個人的まれな単語認識は、トレーニングデータの欠如による課題である。 この問題に対処する標準的な方法は、推論時の浅い融合メソッドである。 しかしながら、外部言語モデルへの依存と重み付けに対する決定論的アプローチにより、その性能は制限されている。 本稿では,ニューラルトランスデューサを用いたASRモデルにおけるパーソナライズのための学習用ニューラルネットワークアダプタを提案する。 我々のアプローチは、ユーザ定義された単語に偏りを持つだけでなく、事前訓練されたASRモデルを扱う柔軟性も備えています。 社内データセットを用いて、汎用事前学習型ASRモデルにコンテキストアダプタを適用し、パーソナライズを改善することを実証する。 本手法は,モデルの重み付けを一切変更することなく,事前学習したモデルの機能を保ちながら,浅層融合よりも優れる。 さらに、ユーザ定義コンテンツを持つデータセット上でのASRモデルの完全なチューニングよりも、アダプタスタイルのトレーニングが優れていることを示す。

Personal rare word recognition in end-to-end Automatic Speech Recognition (E2E ASR) models is a challenge due to the lack of training data. A standard way to address this issue is with shallow fusion methods at inference time. However, due to their dependence on external language models and the deterministic approach to weight boosting, their performance is limited. In this paper, we propose training neural contextual adapters for personalization in neural transducer based ASR models. Our approach can not only bias towards user-defined words, but also has the flexibility to work with pretrained ASR models. Using an in-house dataset, we demonstrate that contextual adapters can be applied to any general purpose pretrained ASR model to improve personalization. Our method outperforms shallow fusion, while retaining functionality of the pretrained models by not altering any of the model weights. We further show that the adapter style training is superior to full-fine-tuning of the ASR models on datasets with user-defined content.
翻訳日:2022-05-31 10:27:48 公開日:2022-05-26
# (参考訳) 平凡な価値で優先度を説明する

Explaining Preferences with Shapley Values ( http://arxiv.org/abs/2205.13662v1 )

ライセンス: CC BY 4.0
Robert Hu, Siu Lun Chau, Jaime Ferrando Huertas, Dino Sejdinovic(参考訳) 嗜好モデリングは機械学習の柱の1つとなっているが、嗜好の説明の問題はいまだに困難で未解明である。 本稿では,ペア比較データを対象としたShapley値に基づくモデル記述フレームワークである \textsc{Pref-SHAP} を提案する。 選好モデルに対する適切な値関数を導出し、さらにフレームワークを拡張して、テニスゲームにおけるサーフェスタイプなどの \emph{context specific} 情報を説明する。 textsc{pref-shap} の有用性を示すために,本手法を様々な合成および実世界のデータセットに適用し,ベースライン上でよりリッチで洞察に富んだ説明が得られることを示す。

While preference modelling is becoming one of the pillars of machine learning, the problem of preference explanation remains challenging and underexplored. In this paper, we propose \textsc{Pref-SHAP}, a Shapley value-based model explanation framework for pairwise comparison data. We derive the appropriate value functions for preference models and further extend the framework to model and explain \emph{context specific} information, such as the surface type in a tennis game. To demonstrate the utility of \textsc{Pref-SHAP}, we apply our method to a variety of synthetic and real-world datasets and show that richer and more insightful explanations can be obtained over the baseline.
翻訳日:2022-05-31 10:14:45 公開日:2022-05-26
# (参考訳) 偏微分方程式作用素学習のための変圧器

Transformer for Partial Differential Equations' Operator Learning ( http://arxiv.org/abs/2205.13671v1 )

ライセンス: CC BY 4.0
Zijie Li, Kazem Meidani, Amir Barati Farimani(参考訳) 偏微分方程式の解作用素のデータ駆動学習は、基礎となる解を近似するための有望なパラダイムとして最近登場した。 解演算子は通常、問題固有の帰納バイアスに基づいて構築されたディープラーニングモデルによってパラメータ化される。 例えば、関数の値がサンプリングされるローカルグリッド構造を利用する畳み込みニューラルネットワークやグラフニューラルネットワークがある。 一方、アテンションメカニズムは、入力内のパターンを暗黙的に活用する柔軟な方法を提供し、さらに任意のクエリ場所と入力の関係性を提供する。 本稿では,演算子トランスフォーマ(oformer)と呼ばれる,データ駆動演算子学習のための注意に基づくフレームワークを提案する。 本フレームワークは,自己注意,クロスアテンション,一組の多層パーセプトロン(MLP)に基づいて構築されており,入力関数のサンプリングパターンやクエリロケーションについてはほとんど仮定しない。 提案手法は標準ベンチマーク問題と競合し,ランダムなサンプル入力に柔軟に適用可能であることを示す。

Data-driven learning of partial differential equations' solution operators has recently emerged as a promising paradigm for approximating the underlying solutions. The solution operators are usually parameterized by deep learning models that are built upon problem-specific inductive biases. An example is a convolutional or a graph neural network that exploits the local grid structure where functions' values are sampled. The attention mechanism, on the other hand, provides a flexible way to implicitly exploit the patterns within inputs, and furthermore, relationship between arbitrary query locations and inputs. In this work, we present an attention-based framework for data-driven operator learning, which we term Operator Transformer (OFormer). Our framework is built upon self-attention, cross-attention, and a set of point-wise multilayer perceptrons (MLPs), and thus it makes few assumptions on the sampling pattern of the input function or query locations. We show that the proposed framework is competitive on standard benchmark problems and can flexibly be adapted to randomly sampled input.
翻訳日:2022-05-31 09:45:42 公開日:2022-05-26
# (参考訳) モジュール型フレームワークにおけるストリーム音声認識のグローバル正規化

Global Normalization for Streaming Speech Recognition in a Modular Framework ( http://arxiv.org/abs/2205.13674v1 )

ライセンス: CC BY 4.0
Ehsan Variani, Ke Wu, Michael Riley, David Rybach, Matt Shannon, Cyril Allauzen(参考訳) 音声認識におけるラベルバイアス問題に対処するためのGNAT(Globally Normalized Autoregressive Transducer)を提案する。 この解は、シーケンスレベル正規化のための分母の扱いやすい正確な計算を許容する。 理論的および実証的な結果を通じて,グローバル正規化モデルに切り替えることで,ストリーミングモデルと非ストリーミング音声認識モデルの単語誤り率ギャップを大幅に低減できることを示した(librispeechデータセットでは50\%以上減少)。 このモデルは、一般的なニューラル音声認識モデルをすべて包含するモジュラーフレームワークで開発された。 このフレームワークのモジュラリティは、モデル選択の制御された比較と新しいモデルの作成を可能にする。

We introduce the Globally Normalized Autoregressive Transducer (GNAT) for addressing the label bias problem in streaming speech recognition. Our solution admits a tractable exact computation of the denominator for the sequence-level normalization. Through theoretical and empirical results, we demonstrate that by switching to a globally normalized model, the word error rate gap between streaming and non-streaming speech-recognition models can be greatly reduced (by more than 50\% on the Librispeech dataset). This model is developed in a modular framework which encompasses all the common neural speech recognition models. The modularity of this framework enables controlled comparison of modelling choices and creation of new models.
翻訳日:2022-05-31 09:44:42 公開日:2022-05-26
# (参考訳) 自己影響関数を用いたメンバーシップ推論攻撃

Membership Inference Attack Using Self Influence Functions ( http://arxiv.org/abs/2205.13680v1 )

ライセンス: CC BY 4.0
Gilad Cohen, Raja Giryes(参考訳) メンバ推論(MI)攻撃は、機械学習モデルのトレーニングに特定のデータサンプルを使用したかどうかを判断することを目的としている。 したがって、miは医療記録のようなプライベート機密データでトレーニングされたモデルにとって大きなプライバシーの脅威である。 MI攻撃では、モデルのパラメータとアクティベーションが敵から隠されているブラックボックス設定や、攻撃者が利用できるホワイトボックスケースを考えることができる。 そこで本研究では,後者に着目し,影響関数,具体的にはサンプルの自己影響スコアを用いてmi予測を行う新しいmi攻撃を提案する。 我々は、AlexNet、ResNet、DenseNetといった汎用アーキテクチャを用いて、CIFAR-10、CIFAR-100、Tiny ImageNetデータセットに対する攻撃を評価した。 攻撃方法は,データ拡張の有無にかかわらず,新たな最先端結果が得られる。 コードはhttps://github.com/giladcohen/sif_mi_attackで入手できる。

Member inference (MI) attacks aim to determine if a specific data sample was used to train a machine learning model. Thus, MI is a major privacy threat to models trained on private sensitive data, such as medical records. In MI attacks one may consider the black-box settings, where the model's parameters and activations are hidden from the adversary, or the white-box case where they are available to the attacker. In this work, we focus on the latter and present a novel MI attack for it that employs influence functions, or more specifically the samples' self-influence scores, to perform the MI prediction. We evaluate our attack on CIFAR-10, CIFAR-100, and Tiny ImageNet datasets, using versatile architectures such as AlexNet, ResNet, and DenseNet. Our attack method achieves new state-of-the-art results for both training with and without data augmentations. Code is available at https://github.com/giladcohen/sif_mi_attack.
翻訳日:2022-05-31 09:16:19 公開日:2022-05-26
# カーネルヒルベルト空間における線形関数の実験設計

Experimental Design for Linear Functionals in Reproducing Kernel Hilbert Spaces ( http://arxiv.org/abs/2205.13627v1 )

ライセンス: Link先を確認
Mojm\'ir Mutn\'y and Andreas Krause(参考訳) 最適実験設計は、未知の統計量を推測する実験の最も有益な割り当てを決定することを目的としている。 本研究では,再生成核ヒルベルト空間 (rkhss) における線形汎関数推定実験の最適設計について検討する。 この問題は、偏りのないパラメータを推定できる推定可能性条件下での線形回帰設定において広く研究されている。 我々はこの枠組みを RKHS に一般化し、線形汎函数がほぼ推論され、すなわち、偏りが固定されることを許す。 このシナリオは、勾配写像、積分、微分方程式の解など、多くの重要な現代的な応用を捉えている。 線形汎関数のバイアス対応設計を構築するアルゴリズムを提供する。 準ガウス雑音下での固定および適応設計に対する非漸近的信頼セットを導出し、高い確率で有界誤差で推定を証明できる。

Optimal experimental design seeks to determine the most informative allocation of experiments to infer an unknown statistical quantity. In this work, we investigate the optimal design of experiments for {\em estimation of linear functionals in reproducing kernel Hilbert spaces (RKHSs)}. This problem has been extensively studied in the linear regression setting under an estimability condition, which allows estimating parameters without bias. We generalize this framework to RKHSs, and allow for the linear functional to be only approximately inferred, i.e., with a fixed bias. This scenario captures many important modern applications, such as estimation of gradient maps, integrals, and solutions to differential equations. We provide algorithms for constructing bias-aware designs for linear functionals. We derive non-asymptotic confidence sets for fixed and adaptive designs under sub-Gaussian noise, enabling us to certify estimation with bounded error with high probability.
翻訳日:2022-05-30 15:29:19 公開日:2022-05-26
# 漸進分布シフト下における確率的最適化のための予測-補正アルゴリズム

Predictor-corrector algorithms for stochastic optimization under gradual distribution shift ( http://arxiv.org/abs/2205.13575v1 )

ライセンス: Link先を確認
Subha Maity, Debarghya Mukherjee, Moulinath Banerjee, Yuekai Sun(参考訳) 時間変化確率最適化問題は機械学習の実践(段階的なドメインシフト、オブジェクト追跡、戦略的分類など)で頻繁に発生する。 ほとんどの問題は離散時間で解かれるが、基礎となるプロセスは本質的に連続することが多い。 この基礎となる連続性を利用して、時間変化確率最適化のための予測器相関アルゴリズムを開発する。 我々は、損失関数の関連するデリバティブからクエリへの純粋でノイズの多いアクセスがある場合に、繰り返しのエラー境界を提供する。 さらに,本手法は,基礎となる連続プロセスを利用していない非予測的補正手法よりも優れていることを示す。

Time-varying stochastic optimization problems frequently arise in machine learning practice (e.g. gradual domain shift, object tracking, strategic classification). Although most problems are solved in discrete time, the underlying process is often continuous in nature. We exploit this underlying continuity by developing predictor-corrector algorithms for time-varying stochastic optimizations. We provide error bounds for the iterates, both in presence of pure and noisy access to the queries from the relevant derivatives of the loss function. Furthermore, we show (theoretically and empirically in several examples) that our method outperforms non-predictor corrector methods that do not exploit the underlying continuous process.
翻訳日:2022-05-30 15:29:04 公開日:2022-05-26
# $\epsilon$-greedy Policyの下での近似Q-ラーニングとSARSA(0)--差分包摂分析

Approximate Q-learning and SARSA(0) under the $\epsilon$-greedy Policy: a Differential Inclusion Analysis ( http://arxiv.org/abs/2205.13617v1 )

ライセンス: Link先を確認
Aditya Gopalan, Gugan Thoppe(参考訳) q-learningと線形関数近似のsarsa(0)は、$\epsilon$-greedy探索の下で、強化学習(rl)の最適方針を推定する主要な方法である。 グリーディポリシーの不連続性は、これらのアルゴリズムが i のような複雑な現象を示すことを実証的に知られている。 ) 不安定性, ii。 )政策の揺らぎとおしゃべり,iii。 ) 複数の誘引者, iv。 ) 最悪の政策収束。 しかし、これらの振る舞いを説明する公式なレシピが欠けており、これは長年の未解決問題であった(Sutton, 1999)。 我々の研究は、確率的再帰包含と微分包含(DI)を用いて必要な数学的枠組みを構築することでこの問題に対処する。 この新たな観点から,これらの近似アルゴリズムは微分方程式の代わりにdisの適切な不変集合に漸近的に収束することを示す。 さらに、これらの決定論的disの性質は、これらのアルゴリズムの制限行動を完全に支配する。

Q-learning and SARSA(0) with linear function approximation, under $\epsilon$-greedy exploration, are leading methods to estimate the optimal policy in Reinforcement Learning (RL). It has been empirically known that the discontinuous nature of the greedy policies causes these algorithms to exhibit complex phenomena such as i.) instability, ii.) policy oscillation and chattering, iii.) multiple attractors, and iv.) worst policy convergence. However, the literature lacks a formal recipe to explain these behaviors and this has been a long-standing open problem (Sutton, 1999). Our work addresses this by building the necessary mathematical framework using stochastic recursive inclusions and Differential Inclusions (DIs). From this novel viewpoint, our main result states that these approximate algorithms asymptotically converge to suitable invariant sets of DIs instead of differential equations, as is common elsewhere in RL. Furthermore, the nature of these deterministic DIs completely governs the limiting behaviors of these algorithms.
翻訳日:2022-05-30 15:27:27 公開日:2022-05-26
# 複数の慢性状態の自己管理のためのモデル予測制御関数型連続時間ベイズネットワーク

A Model Predictive Control Functional Continuous Time Bayesian Network for Self-Management of Multiple Chronic Conditions ( http://arxiv.org/abs/2205.13639v1 )

ライセンス: Link先を確認
Syed Hasib Akhter Faruqui, Adel Alaeddini, Jing Wang, Susan P Fisher-Hoch, Joseph B Mccormick, and Julian Carvajal Rico(参考訳) 多発性慢性疾患(MCC)は現代における最大の課題の一つである。 MCCの進化は、様々なリスク要因に影響される複雑な確率的プロセスに従っており、既成の状況から、生活習慣、タバコの使用、アルコール使用など)変化可能なライフスタイルの行動要因(例えば、年齢、性別、教育、結婚状態など)まで様々である。 MCCの患者は、新しい慢性疾患や死亡のリスクが高くなっている。 本稿では,MCCの出現軌跡に対する生活習慣変化の影響をオンライン再帰的に検証し,慢性疾患の進行リスクを最小化するための戦略を生成するためのモデル予測制御機能型ベイジアンネットワークを提案する。 提案手法は,計385人の患者を対象とするキャメロン郡ヒスパニックコホート(CCHC)データセットに基づいて検証した。 このデータセットは、ライフスタイルの行動(食事、運動習慣、タバコの使用、アルコール使用)を表す4つの修飾リスク要因と、社会デコグラフィ情報(年齢、性別、教育、結婚状態)を含む4つの非修飾リスク要因に基づいて、5つの慢性状態(糖尿病、肥満、認知障害、高脂血症、高血圧)の出現を調査する。 提案手法は,MCCの進化を相殺するためのライフスタイルの行動リスク要因を改善するための効果的な介入戦略を実証し,異なるシナリオ(例えば,年齢群,MCCの以前の存在)で検証する。

Multiple chronic conditions (MCC) are one of the biggest challenges of modern times. The evolution of MCC follows a complex stochastic process that is influenced by a variety of risk factors, ranging from pre-existing conditions to modifiable lifestyle behavioral factors (e.g. diet, exercise habits, tobacco use, alcohol use, etc.) to non-modifiable socio-demographic factors (e.g., age, gender, education, marital status, etc.). People with MCC are at an increased risk of new chronic conditions and mortality. This paper proposes a model predictive control functional continuous time Bayesian network, an online recursive method to examine the impact of various lifestyle behavioral changes on the emergence trajectories of MCC and generate strategies to minimize the risk of progression of chronic conditions in individual patients. The proposed method is validated based on the Cameron county Hispanic cohort (CCHC) dataset, which has a total of 385 patients. The dataset examines the emergence of 5 chronic conditions (diabetes, obesity, cognitive impairment, hyperlipidemia, and hypertension) based on four modifiable risk factors representing lifestyle behaviors (diet, exercise habits, tobacco use, alcohol use) and four non-modifiable risk factors, including socio-demographic information (age, gender, education, marital status). The proposed method is tested under different scenarios (e.g., age group, the prior existence of MCC), demonstrating the effective intervention strategies for improving the lifestyle behavioral risk factors to offset MCC evolution.
翻訳日:2022-05-30 15:27:05 公開日:2022-05-26
# Mixed Federated Learning: 共同分散型と集中型学習

Mixed Federated Learning: Joint Decentralized and Centralized Learning ( http://arxiv.org/abs/2205.13655v1 )

ライセンス: Link先を確認
Sean Augenstein, Andrew Hard, Lin Ning, Karan Singhal, Satyen Kale, Kurt Partridge, Rajiv Mathews(参考訳) フェデレートラーニング(FL)は、エッジクライアントでのみ実行される生データの計算によって、分散プライバシに敏感なデータから学習を可能にする。 本稿では,コーディネートサーバで計算される損失項(flのプライベートデータ制限を維持しながら)を付加した混合flを提案する。 多くの利点がある。 例えば、データセンターのデータを追加することで、集中型(データセンタ)と分散型(フェデレーション)のトレーニングデータから学習し、期待するデータ分布に合致することができる。 混合FLはまた、サーバへの集中的な計算(例えば、正規化の埋め込み)のオフロードを可能にし、通信とクライアントの計算負荷を大幅に削減する。 これらと他の混合FL使用例に対して, PARALLEL TRAINING, 1-WAY GRADIENTTRAFER, 2-WAY GRADIENTTRAFERの3つのアルゴリズムを提案する。 我々はそれぞれ収束境界を記入し、特定の混合FL問題に適した直観を与える。 最後に,3つのタスクについて広範な実験を行い,混合flが推論分布上でoracleの精度を達成するためにトレーニングデータをブレンドし,通信と計算のオーバーヘッドを90%以上削減できることを実証した。 実験では,異なる混合FL条件下でのアルゴリズムの動作に関する理論的予測を確認した。

Federated learning (FL) enables learning from decentralized privacy-sensitive data, with computations on raw data confined to take place at edge clients. This paper introduces mixed FL, which incorporates an additional loss term calculated at the coordinating server (while maintaining FL's private data restrictions). There are numerous benefits. For example, additional datacenter data can be leveraged to jointly learn from centralized (datacenter) and decentralized (federated) training data and better match an expected inference data distribution. Mixed FL also enables offloading some intensive computations (e.g., embedding regularization) to the server, greatly reducing communication and client computation load. For these and other mixed FL use cases, we present three algorithms: PARALLEL TRAINING, 1-WAY GRADIENT TRANSFER, and 2-WAY GRADIENT TRANSFER. We state convergence bounds for each, and give intuition on which are suited to particular mixed FL problems. Finally we perform extensive experiments on three tasks, demonstrating that mixed FL can blend training data to achieve an oracle's accuracy on an inference distribution, and can reduce communication and computation overhead by over 90%. Our experiments confirm theoretical predictions of how algorithms perform under different mixed FL problem settings.
翻訳日:2022-05-30 15:26:34 公開日:2022-05-26
# RIGID: 欠測データ付きロバスト線形回帰

RIGID: Robust Linear Regression with Missing Data ( http://arxiv.org/abs/2205.13635v1 )

ライセンス: Link先を確認
Alireza Aghasi, MohammadJavad Feizollahi, Saeed Ghadimi(参考訳) 機能に欠落したエントリで線形回帰を行うための堅牢なフレームワークを提案する。 楕円データ分布、特に多変量正規モデルを考えることで、欠落したエントリの分布を条件付きで定式化し、欠落したデータに対する不確実性に起因する最悪のケースエラーを最小限に抑えるロバストなフレームワークを提供することができる。 本稿では,変数間の依存性を自然に考慮して提案した定式化が,最終的に凸プログラムに還元され,カスタマイズされたスケーラブルな解法が実現可能であることを示す。 このような解法を提供するための詳細な分析に加えて,提案フレームワークの挙動を漸近的に解析し,必要な入力パラメータを推定するための技術的議論を行う。 本研究では, 合成, 半合成, 実データを用いて行った実験を補完し, 予測精度とロバスト性を向上し, 競合技術より優れていることを示す。

We present a robust framework to perform linear regression with missing entries in the features. By considering an elliptical data distribution, and specifically a multivariate normal model, we are able to conditionally formulate a distribution for the missing entries and present a robust framework, which minimizes the worst case error caused by the uncertainty about the missing data. We show that the proposed formulation, which naturally takes into account the dependency between different variables, ultimately reduces to a convex program, for which a customized and scalable solver can be delivered. In addition to a detailed analysis to deliver such solver, we also asymptoticly analyze the behavior of the proposed framework, and present technical discussions to estimate the required input parameters. We complement our analysis with experiments performed on synthetic, semi-synthetic, and real data, and show how the proposed formulation improves the prediction accuracy and robustness, and outperforms the competing techniques.
翻訳日:2022-05-30 15:19:38 公開日:2022-05-26
# セマンティックセグメンテーションに基づく複雑な道路・交通シナリオの効率的なテキスト説明

Efficient textual explanations for complex road and traffic scenarios based on semantic segmentation ( http://arxiv.org/abs/2205.14118v1 )

ライセンス: Link先を確認
Yiyue Zhao, Xinyu Yun, Chen Chai, Zhiyu Liu, Wenxuan Fan, Xiao Luo(参考訳) 複雑な運転環境は、自動運転車の視覚的認識に大きな課題をもたらす。 視覚知覚の精度は、多様な気象条件と不確実な交通流の下で急激に低下する。 ブラックボックスモデルは視覚知覚のメカニズムを解釈するのが困難である。 視覚認識システムのユーザ受け入れと信頼性を高めるために、シーンの進化に関するテキストによる説明が不可欠である。 複雑な環境における幾何学とトポロジ構造を分析し、決定と制御の手がかりを提供する。 しかし、既存のシーン説明は別モデルとして実装されている。 包括的なテキスト情報は検出できず、高い計算負荷と時間消費を必要とする。 そこで本研究では,複雑な道路・交通シナリオに対する包括的かつ効率的な説明モデルを提案する。 運転環境の336kビデオフレームから,複雑な道路や交通シナリオの重要画像がデータセットに選択された。 本研究では,伝達学習を通じて意味情報を得るための高精度かつ効率的なセグメンテーションモデルを構築した。 XGBoostアルゴリズムに基づいて包括的モデルを開発した。 モデルは、道路タイプ、競合オブジェクトの動き、シナリオの複雑さを含むテキスト情報を得た。 そのアプローチは現実世界の道路で検証された。 重要な交通要素の認識精度は78.8%に向上した。 各エポックの所要時間は13分であり, 前訓練ネットワークの11.5倍の効率であった。 モデルから分析したテキスト情報も現実と一致していた。 調査結果は、自動運転車が運転環境をどのように検知するかを説明している。 複雑な交通状況に対する事前知識と判断を豊かにすることで、知覚能力を向上させることができる。

The complex driving environment brings great challenges to the visual perception of autonomous vehicles. The accuracy of visual perception drops off sharply under diverse weather conditions and uncertain traffic flow. Black box model makes it difficult to interpret the mechanisms of visual perception. To enhance the user acceptance and reliability of the visual perception system, a textual explanation of the scene evolvement is essential. It analyzes the geometry and topology structure in the complex environment and offers clues to decision and control. However, the existing scene explanation has been implemented as a separate model. It cannot detect comprehensive textual information and requires a high computational load and time consumption. Thus, this study proposed a comprehensive and efficient textual explanation model for complex road and traffic scenarios. From 336k video frames of the driving environment, critical images of complex road and traffic scenarios were selected into a dataset. Through transfer learning, this study established an accurate and efficient segmentation model to gain semantic information. Based on the XGBoost algorithm, a comprehensive model was developed. The model obtained textual information including road types, the motion of conflict objects, and scenario complexity. The approach was verified on the real-world road. It improved the perception accuracy of critical traffic elements to 78.8%. The time consumption reached 13 minutes for each epoch, which was 11.5 times more efficient compared with the pre-trained network. The textual information analyzed from the model was also accordant with reality. The findings explain how autonomous vehicle detects the driving environment, which lays a foundation for subsequent decision and control. It can improve the perception ability by enriching the prior knowledge and judgments for complex traffic situations.
翻訳日:2022-05-30 14:53:25 公開日:2022-05-26
# 放棄を伴う多腕バンディットの探索・搾取・関与

Exploration, Exploitation, and Engagement in Multi-Armed Bandits with Abandonment ( http://arxiv.org/abs/2205.13566v1 )

ライセンス: Link先を確認
Zixian Yang, Xin Liu, Lei Ying(参考訳) マルチアームド・バンディット(mab)は、探査と探査のトレードオフを理解するための古典的なモデルである。 レコメンデーションシステムのための従来のmabモデルは、ユーザが学習の地平線全体にわたってシステムに留まることを前提としている。 ALEKSのような新しいオンライン教育プラットフォームや、TikTokやYouTube Shortsのような新しいビデオレコメンデーションシステムでは、ユーザーがアプリに費やす時間は推奨コンテンツのエンゲージメントによって異なる。 推奨アイテムがユーザを関与できなければ、ユーザは一時的にシステムを離れることができます。 これらのシステムにおける探索, 搾取, エンゲージメントを理解するため, 我々はMAB-Aと呼ばれる新しいモデルを提案し, ここでは「A」は放棄を表すものであり, 放棄確率は現在の推奨項目とユーザの過去の経験(状態)に依存する。 提案手法は,ユーザが推奨項目を好んだ場合の探索(楽観的)と,ユーザが前項目を好まなかった場合の探索(悲観的)の2つのアルゴリズム,ULCBとKL-ULCBを提案する。 ULCBとKL-ULCBの両方が対数的後悔,$O(\log K)$,$K$は訪問数(エピソード数)であることを示す。 さらに、KL-ULCBの下での後悔は漸近的に鋭い。 また,提案アルゴリズムを一般状態設定に拡張する。 シミュレーションの結果,提案アルゴリズムは従来の UCB や KL-UCB やQ-ラーニングに基づくアルゴリズムに比べて有意に低誤差であることがわかった。

Multi-armed bandit (MAB) is a classic model for understanding the exploration-exploitation trade-off. The traditional MAB model for recommendation systems assumes the user stays in the system for the entire learning horizon. In new online education platforms such as ALEKS or new video recommendation systems such as TikTok and YouTube Shorts, the amount of time a user spends on the app depends on how engaging the recommended contents are. Users may temporarily leave the system if the recommended items cannot engage the users. To understand the exploration, exploitation, and engagement in these systems, we propose a new model, called MAB-A where "A" stands for abandonment and the abandonment probability depends on the current recommended item and the user's past experience (called state). We propose two algorithms, ULCB and KL-ULCB, both of which do more exploration (being optimistic) when the user likes the previous recommended item and less exploration (being pessimistic) when the user does not like the previous item. We prove that both ULCB and KL-ULCB achieve logarithmic regret, $O(\log K)$, where $K$ is the number of visits (or episodes). Furthermore, the regret bound under KL-ULCB is asymptotically sharp. We also extend the proposed algorithms to the general-state setting. Simulation results confirm our theoretical analysis and show that the proposed algorithms have significantly lower regrets than the traditional UCB and KL-UCB, and Q-learning-based algorithms.
翻訳日:2022-05-30 14:53:04 公開日:2022-05-26
# プルーニングはモデルの精度に異なる影響を与える

Pruning has a disparate impact on model accuracy ( http://arxiv.org/abs/2205.13574v1 )

ライセンス: Link先を確認
Cuong Tran, Ferdinando Fioretto, Jung-Eun Kim, Rakshit Naidu(参考訳) ネットワークプルーニング(Network pruning)は、最小限の精度で過度なパラメータ化モデルを大幅にスケールダウンできる、広く使われている圧縮技術である。 本稿では, 刈り取りが異なる影響を生み出すか, 悪化させる可能性があることを示す。 この論文は、そのような格差を引き起こす要因について光を当て、この重要な問題に責任を持つグループ間の決定境界における勾配規範と距離の違いを示唆している。 これらの要因を詳細に分析し、理論的および実証的なサポートを提供し、刈り込みによる異なる影響を緩和する単純で効果的なソリューションを提案する。

Network pruning is a widely-used compression technique that is able to significantly scale down overparameterized models with minimal loss of accuracy. This paper shows that pruning may create or exacerbate disparate impacts. The paper sheds light on the factors to cause such disparities, suggesting differences in gradient norms and distance to decision boundary across groups to be responsible for this critical issue. It analyzes these factors in detail, providing both theoretical and empirical support, and proposes a simple, yet effective, solution that mitigates the disparate impacts caused by pruning.
翻訳日:2022-05-30 14:52:35 公開日:2022-05-26
# 確率的プログラムを用いたテンソルプログラム最適化

Tensor Program Optimization with Probabilistic Programs ( http://arxiv.org/abs/2205.13603v1 )

ライセンス: Link先を確認
Junru Shao, Xiyou Zhou, Siyuan Feng, Bohan Hou, Ruihang Lai, Hongyi Jin, Wuwei Lin, Masahiro Masuda, Cody Hao Yu, Tianqi Chen(参考訳) テンソルプログラムの自動最適化は,様々な環境にディープラーニングを展開することによってますます重要になり,効率的な最適化は豊富な探索空間と効率的な探索に依存している。 既存の取り組みの多くは、ドメインの専門家が効率的に検索スペースを成長させる能力に欠ける検索スペースを採用しています。 本稿では,テンソルプログラムのリッチな検索空間を構築するために,ドメイン固有の確率型プログラミング言語であるMetaScheduleを紹介する。 この抽象化により、ドメインの専門家がプログラムを解析し、モジュール的な方法で確率的選択を提案してプログラム変換を作成できる。 また、特定の検索空間に最適化されたプログラムを見つけるために、エンドツーエンドの学習駆動フレームワークを構築します。 実験の結果,MetaScheduleは,最先端のテンソルプログラム最適化フレームワークで使用される検索空間をモジュール形式でカバーできることがわかった。 さらに、ドメインの専門家が検索スペースを便利に拡大し、システムをモジュール化することで、エンドツーエンドのディープラーニングワークロードの48%のスピードアップを実現する。

Automatic optimization for tensor programs becomes increasingly important as we deploy deep learning in various environments, and efficient optimization relies on a rich search space and effective search. Most existing efforts adopt a search space which lacks the ability to efficiently enable domain experts to grow the search space. This paper introduces MetaSchedule, a domain-specific probabilistic programming language abstraction to construct a rich search space of tensor programs. Our abstraction allows domain experts to analyze the program, and easily propose stochastic choices in a modular way to compose program transformation accordingly. We also build an end-to-end learning-driven framework to find an optimized program for a given search space. Experimental results show that MetaSchedule can cover the search space used in the state-of-the-art tensor program optimization frameworks in a modular way. Additionally, it empowers domain experts to conveniently grow the search space and modularly enhance the system, which brings 48% speedup on end-to-end deep learning workloads.
翻訳日:2022-05-30 14:52:24 公開日:2022-05-26
# BagFlip: データ中毒に対する認証された防御

BagFlip: A Certified Defense against Data Poisoning ( http://arxiv.org/abs/2205.13634v1 )

ライセンス: Link先を確認
Yuhao Zhang, Aws Albarghouthi, Loris D'Antoni(参考訳) 機械学習モデルは、攻撃者が学習モデルの予測を変更するためにトレーニングセットを悪意的に修正するデータ中毒攻撃に対して脆弱である。 トリガーレス攻撃では、攻撃者はトレーニングセットを変更できるが、テスト入力は変更できない。 既存のモデルに依存しない防御アプローチはバックドア攻撃を処理できないか、効果的な証明書(防御の証明)を提供していない。 我々は、トリガーレス攻撃とバックドア攻撃の両方を効果的に防御できるモデルに依存しない認証アプローチであるBagFlipを紹介します。 画像分類とマルウェア検出データセットを用いてBagFlipを評価する。 BagFlipは、トリガーレス攻撃の最先端アプローチと同等か、より効果的であり、バックドア攻撃の最先端アプローチよりも効果的である。

Machine learning models are vulnerable to data-poisoning attacks, in which an attacker maliciously modifies the training set to change the prediction of a learned model. In a trigger-less attack, the attacker can modify the training set but not the test inputs, while in a backdoor attack the attacker can also modify test inputs. Existing model-agnostic defense approaches either cannot handle backdoor attacks or do not provide effective certificates (i.e., a proof of a defense). We present BagFlip, a model-agnostic certified approach that can effectively defend against both trigger-less and backdoor attacks. We evaluate BagFlip on image classification and malware detection datasets. BagFlip is equal to or more effective than the state-of-the-art approaches for trigger-less attacks and more effective than the state-of-the-art approaches for backdoor attacks.
翻訳日:2022-05-30 14:52:10 公開日:2022-05-26
# SeedGNN: 教師付きグラフマッチングのためのグラフニューラルネットワーク

SeedGNN: Graph Neural Networks for Supervised Seeded Graph Matching ( http://arxiv.org/abs/2205.13679v1 )

ライセンス: Link先を確認
Liren Yu, Jiaming Xu, Xiaojun Lin(参考訳) 近年,2つの(ラベルのない)グラフをトポロジ情報と小さなシードセットのみを用いてマッチングすることを目的としたグラフマッチングのためのグラフニューラルネットワーク(GNN)の設計に大きな関心が寄せられている。 しかし、シードグラフマッチングのためのこれまでのほとんどのGNNアーキテクチャでは、半教師付きアプローチを採用しており、単一のグラフのシードセットのみから学習し、将来の未確認グラフに最も合うように多くのトレーニング例やグラフから学習しようとはしない。 対照的に本論文は,これまでシードレスグラフマッチングにのみ用いられてきたシードグラフマッチングの教師付きアプローチを提案する最初の例である。 提案するSeedGNNアーキテクチャは,シードグラフマッチングの理論研究から着想を得た,新しい設計選択を多数採用している。 まず、SeedGNNは、異なるサイズのグラフに一般化できる方法で、異なるホップの目撃者を数え、使用する能力を簡単に学習することができる。 第二に、SeedGNNは簡単にマッチしたペアを新しいシードとして使用して、他のノードをパーコレートし、マッチさせることができる。 我々は,SedGNNを合成グラフと実グラフの両方で評価し,既存の文献における非学習アルゴリズムと学習アルゴリズムを比較検討した。 さらに,SedGNNが学習した知識を,異なるサイズとカテゴリのグラフをテストするために一般化できることを確認した。

Recently, there have been significant interests in designing Graph Neural Networks (GNNs) for seeded graph matching, which aims to match two (unlabeled) graphs using only topological information and a small set of seeds. However, most previous GNN architectures for seeded graph matching employ a semi-supervised approach, which learns from only the seed set in a single pair of graphs, and therefore does not attempt to learn from many training examples/graphs to best match future unseen graphs. In contrast, this paper is the first to propose a supervised approach for seeded graph matching, which had so far only been used for seedless graph matching. Our proposed SeedGNN architecture employs a number of novel design choices that are inspired by theoretical studies of seeded graph matching. First, SeedGNN can easily learn the capability of counting and using witnesses of different hops, in a way that can be generalized to graphs with different sizes. Second, SeedGNN can use easily-matched pairs as new seeds to percolate and match other nodes. We evaluate SeedGNN on both synthetic and real graphs, and demonstrate significant performance improvement over both non-learning and learning algorithms in the existing literature. Further, our experiments confirm that the knowledge learned by SeedGNN from training graphs can be generalized to test graphs with different sizes and categories.
翻訳日:2022-05-30 14:51:31 公開日:2022-05-26
# 物理誘導型階層的リワード機構を用いた学習用マルチフィンガーオブジェクトグラフプ

Physics-Guided Hierarchical Reward Mechanism for LearningBased Multi-Finger Object Grasping ( http://arxiv.org/abs/2205.13561v1 )

ライセンス: Link先を確認
Yunsik Jung, Lingfeng Tao, Michael Bowman, Jiucai Zhang, Xiaoli Zhang(参考訳) 多指ロボットハンドによる計算コストの増大と,物体との相互作用により,自律的把握は困難である。 様々な解析手法が開発されているが、計算コストが高いため実世界のアプリケーションでは採用が制限されている。 学習に基づく把握は、高い計算効率によりリアルタイムの動作計画を可能にする。 しかし、学習プロセス中に大きな検索空間を探索する必要がある。 検索スペースは学習効率を低下させ、それがその実践的採用の主要な障壁となっている。 本研究では,解析手法と学習に基づく自律的把握手法の両方の利点を組み合わせた,物理誘導型深層強化学習と階層的リワード機構を開発した。 従来の観察に基づくグリップラーニングとは異なり、物理インフォームドメトリクスを用いて手の構造と物体の特徴間の相関関係を伝達し、学習効率と学習結果を改善する。 また、ロボットが把握タスクを優先的に学習できるようにする階層的報酬機構も開発されている。 シミュレーションおよび物理実験において,MICOロボットアームを用いた把握作業で検証した。 その結果,本手法はタスク性能のベースラインを48%,学習効率を40%向上させた。

Autonomous grasping is challenging due to the high computational cost caused by multi-fingered robotic hands and their interactions with objects. Various analytical methods have been developed yet their high computational cost limits the adoption in real-world applications. Learning-based grasping can afford real-time motion planning thanks to its high computational efficiency. However, it needs to explore large search spaces during its learning process. The search space causes low learning efficiency, which has been the main barrier to its practical adoption. In this work, we develop a novel Physics-Guided Deep Reinforcement Learning with a Hierarchical Reward Mechanism, which combines the benefits of both analytical methods and learning-based methods for autonomous grasping. Different from conventional observation-based grasp learning, physics-informed metrics are utilized to convey correlations between features associated with hand structures and objects to improve learning efficiency and learning outcomes. Further, a hierarchical reward mechanism is developed to enable the robot to learn the grasping task in a prioritized way. It is validated in a grasping task with a MICO robot arm in simulation and physical experiments. The results show that our method outperformed the baseline in task performance by 48% and learning efficiency by 40%.
翻訳日:2022-05-30 14:41:49 公開日:2022-05-26
# デジタルアニールと古典的進化アルゴリズムの比較

Comparing the Digital Annealer with Classical Evolutionary Algorithm ( http://arxiv.org/abs/2205.13586v1 )

ライセンス: Link先を確認
Mayowa Ayodele(参考訳) 近年,最適化問題の解決にアプリケーション固有のハードウェアを利用する研究への関心が高まっている。 特殊なハードウェアを使用するソルバの例として、IBMのQuantum System OneやD-waveのQuantum Annealer (QA)、富士通のDigital Annealer (DA)がある。 これらの解法は汎用機械に実装された従来のメタヒューリスティックよりも高速に問題を最適化するために開発された。 従来の研究では、これらの解法は(GUROBIやCPLEXのような正確な解法よりもはるかに高速に多くの問題を最適化できる)。 ハードウェアソルバと古典的進化的アルゴリズムを比較する際には、そのような結論は得られていない。 遺伝的アルゴリズム(GA)やDA(または他の類似した解法)のような従来の進化的アルゴリズムを公平に比較することは困難である。 さらに、量子や量子に着想を得た解法は特定の形式での問題解決に限られる。 一般的な定式化は、QUBO ( Quadratic Unconstrained Binary Optimisation) である。 しかし、多くの最適化問題は制約され、非双対的な自然表現を持つ。 このような問題をQUBOに変換することは、より問題の難しさやより広い検索スペースにつながる可能性がある。 本稿では, 量子あるいは量子に触発された解法が, 古典的進化アルゴリズムよりも早く, 組合せ最適化問題のqubo変換を最適化できるかどうかを問う。 DAはトラベリングセールスマン, 擬似アサインメント, 多次元Knapsack問題インスタンスにおいて, GAよりも平均目標関数値がよいことを示す。

In more recent years, there has been increasing research interest in exploiting the use of application specific hardware for solving optimisation problems. Examples of solvers that use specialised hardware are IBM's Quantum System One and D-wave's Quantum Annealer (QA) and Fujitsu's Digital Annealer (DA). These solvers have been developed to optimise problems faster than traditional meta-heuristics implemented on general purpose machines. Previous research has shown that these solvers (can optimise many problems much quicker than exact solvers such as GUROBI and CPLEX. Such conclusions have not been made when comparing hardware solvers with classical evolutionary algorithms. Making a fair comparison between traditional evolutionary algorithms, such as Genetic Algorithm (GA), and the DA (or other similar solvers) is challenging because the later benefits from the use of application specific hardware while evolutionary algorithms are often implemented on generation purpose machines. Moreover, quantum or quantum-inspired solvers are limited to solving problems in a specific format. A common formulation used is Quadratic Unconstrained Binary Optimisation (QUBO). Many optimisation problems are however constrained and have natural representations that are non-binary. Converting such problems to QUBO can lead to more problem difficulty and/or larger search space. The question addressed in this paper is whether quantum or quantum-inspired solvers can optimise QUBO transformations of combinatorial optimisation problems faster than classical evolutionary algorithms applied to the same problems in their natural representations. We show that the DA often presents better average objective function values than GA on Travelling Salesman, Quadratic Assignment and Multi-dimensional Knapsack Problem instances.
翻訳日:2022-05-30 14:40:24 公開日:2022-05-26
# レコメンダシステムのシークエンシャルな性質が評価過程を乱す

Sequential Nature of Recommender Systems Disrupts the Evaluation Process ( http://arxiv.org/abs/2205.13681v1 )

ライセンス: Link先を確認
Ali Shirali(参考訳) データセットはしばしばシーケンシャルな方法で生成され、前回のサンプルと中間的な決定や介入がその後のサンプルに影響を与える。 これは、リコメンデータシステムなど、人間とAIの相互作用が顕著な場合に特に顕著である。 サンプル間でのこの関係の重要性を特徴付けるために,一般的な評価プロセスにおいて逆攻撃を用いることを提案する。 本稿では,観測データの順序のみに基づいて設定した秘密テストから活用可能な追加情報量について,シーケンス認識型ブースティング攻撃を提案する。 提案手法をテストするために,実データと合成データを用いて,MovieLense-100kデータセットの評価プロセスが,近い競合を考える上で重要な$\sim1\%$に影響されることを示す。 コードは公開されている。

Datasets are often generated in a sequential manner, where the previous samples and intermediate decisions or interventions affect subsequent samples. This is especially prominent in cases where there are significant human-AI interactions, such as in recommender systems. To characterize the importance of this relationship across samples, we propose to use adversarial attacks on popular evaluation processes. We present sequence-aware boosting attacks and provide a lower bound on the amount of extra information that can be exploited from a confidential test set solely based on the order of the observed data. We use real and synthetic data to test our methods and show that the evaluation process on the MovieLense-100k dataset can be affected by $\sim1\%$ which is important when considering the close competition. Codes are publicly available.
翻訳日:2022-05-30 14:39:56 公開日:2022-05-26
# トポロジカル隠れマルコフモデル

Topological Hidden Markov Models ( http://arxiv.org/abs/2205.13608v1 )

ライセンス: Link先を確認
Adam B Kashlak, Prachi Loliencar, Giseon Heo(参考訳) 隠れマルコフモデル(HMM)は、幅広いアプリケーションを持つ古典的なモデリングツールである。 当初、観測は有限のアルファベットに限定されていたが、すぐに多変量連続分布に拡張された。 本稿では、d$-次元ユークリッド空間における正規分布の混合から局所凸位相空間における一般ガウス測度混合へ、hmmをさらに拡張する。 主な革新は、無限次元空間における確率密度関数のプロキシとしてOnsager-Machlup関数を用いることである。 これにより、所定のアプリケーションに適したキャメロン・マーティン空間を選択することができる。 ブラウンおよび分数ブラウンのサンプルパスやornstein-uhlenbeck法などのシミュレーション拡散過程に適用することにより,本手法の汎用性を示す。 本手法は小児の閉塞性睡眠時無呼吸の診断を目的として,夜間ポリソムノグラフィ時系列データから睡眠状態の同定に応用した。 また、1940年から1990年にかけてアルバータ州エドモントンで毎年行われる累積降雪曲線にも適用されている。

The hidden Markov model (HMM) is a classic modeling tool with a wide swath of applications. Its inception considered observations restricted to a finite alphabet, but it was quickly extended to multivariate continuous distributions. In this article, we further extend the HMM from mixtures of normal distributions in $d$-dimensional Euclidean space to general Gaussian measure mixtures in locally convex topological spaces. The main innovation is the use of the Onsager-Machlup functional as a proxy for the probability density function in infinite dimensional spaces. This allows for choice of a Cameron-Martin space suitable for a given application. We demonstrate the versatility of this methodology by applying it to simulated diffusion processes such as Brownian and fractional Brownian sample paths as well as the Ornstein-Uhlenbeck process. Our methodology is applied to the identification of sleep states from overnight polysomnography time series data with the aim of diagnosing Obstructive Sleep Apnea in pediatric patients. It is also applied to a series of annual cumulative snowfall curves from 1940 to 1990 in the city of Edmonton, Alberta.
翻訳日:2022-05-30 14:39:26 公開日:2022-05-26
# 回転同変幾何最適化のためのベクトルアダム

VectorAdam for Rotation Equivariant Geometry Optimization ( http://arxiv.org/abs/2205.13599v1 )

ライセンス: Link先を確認
Selena Ling, Nicholas Sharp, Alec Jacobson(参考訳) 機械学習における幾何学的問題の発生は、その出力を回転または他の変換の作用下で保存する同変法の開発を必要とした。 同時に、Adam最適化アルゴリズムは、幾何最適化における機械学習や従来のタスクよりもはるかに効果的であることが証明されている。 本研究では,ベクトル値データの最適化にAdamを適用することは,座標毎のモーメント更新による回転同変ではなく,実際に重要なアーティファクトやバイアスをもたらすことを観察する。 本稿では,最適化変数のベクトル構造を考慮に入れたAdam回転同変を簡単な修正であるVectorAdamを用いて解くことを提案する。 機械学習や従来の幾何学的最適化の問題に対するこのアプローチを実証し、同変ベクトルadamはベクトル値データに適用すると従来のadamのアーティファクトとバイアスを、等価あるいは改良された収束率で解決することを示した。

The rise of geometric problems in machine learning has necessitated the development of equivariant methods, which preserve their output under the action of rotation or some other transformation. At the same time, the Adam optimization algorithm has proven remarkably effective across machine learning and even traditional tasks in geometric optimization. In this work, we observe that naively applying Adam to optimize vector-valued data is not rotation equivariant, due to per-coordinate moment updates, and in fact this leads to significant artifacts and biases in practice. We propose to resolve this deficiency with VectorAdam, a simple modification which makes Adam rotation-equivariant by accounting for the vector structure of optimization variables. We demonstrate this approach on problems in machine learning and traditional geometric optimization, showing that equivariant VectorAdam resolves the artifacts and biases of traditional Adam when applied to vector-valued data, with equivalent or even improved rates of convergence.
翻訳日:2022-05-30 14:04:29 公開日:2022-05-26
# 潜伏分離性に基づくバックドア防御の回避

Circumventing Backdoor Defenses That Are Based on Latent Separability ( http://arxiv.org/abs/2205.13613v1 )

ライセンス: Link先を確認
Xiangyu Qi, Tinghao Xie, Saeed Mahloujifar, Prateek Mittal(参考訳) ディープラーニングモデルは、バックドア中毒の攻撃に弱い。 特に敵は、トレーニングデータのごく一部を変更するだけで、隠れたバックドアをモデルに埋め込むことができる。 一方, バックドア毒による攻撃は, バックドアモデルの潜伏空間に有意なサインを残す傾向にあり, 毒サンプルとクリーンサンプルは潜伏空間に2つの分離可能なクラスターを形成する傾向にある。 これらの観察は、隠れたDNNモデルが毒と清潔な集団の分離可能な潜伏表現を学習することを示す潜伏分離性仮定の人気を生んでいる。 多くの一般的な防御(スペクトルシグネチャ、アクティベーションクラスタリング、スキャンなど)は、この仮定に基づいて正確に構築されています。 しかし,本論文では,より高度な中毒戦略を用いた適応的なバックドア中毒攻撃の設計により,潜伏分離を著しく抑制できることを示す。 さらに興味深いのは、当社のアダプティブアタックが、この分離可能性の仮定に基づいて明示的に構築されていない、他の典型的なバックドア防御を回避できることです。 以上の結果から,潜伏分離性仮定を破る可能性のある適応的バックドア毒殺攻撃は,現在および将来の防衛効果を評価する上で重要であると考えられた。

Deep learning models are vulnerable to backdoor poisoning attacks. In particular, adversaries can embed hidden backdoors into a model by only modifying a very small portion of its training data. On the other hand, it has also been commonly observed that backdoor poisoning attacks tend to leave a tangible signature in the latent space of the backdoored model i.e. poison samples and clean samples form two separable clusters in the latent space. These observations give rise to the popularity of latent separability assumption, which states that the backdoored DNN models will learn separable latent representations for poison and clean populations. A number of popular defenses (e.g. Spectral Signature, Activation Clustering, SCAn, etc.) are exactly built upon this assumption. However, in this paper, we show that the latent separation can be significantly suppressed via designing adaptive backdoor poisoning attacks with more sophisticated poison strategies, which consequently render state-of-the-art defenses based on this assumption less effective (and often completely fail). More interestingly, we find that our adaptive attacks can even evade some other typical backdoor defenses that do not explicitly build on this separability assumption. Our results show that adaptive backdoor poisoning attacks that can breach the latent separability assumption should be seriously considered for evaluating existing and future defenses.
翻訳日:2022-05-30 14:04:13 公開日:2022-05-26
# fight poison with poison: decoupling benign correlations による裏口毒の検出

Fight Poison with Poison: Detecting Backdoor Poison Samples via Decoupling Benign Correlations ( http://arxiv.org/abs/2205.13616v1 )

ライセンス: Link先を確認
Xiangyu Qi, Tinghao Xie, Saeed Mahloujifar, Prateek Mittal(参考訳) 本研究では,深層ニューラルネットワーク(DNN)に対するバックドア中毒に対する防御のための毒サンプル検出について検討した。 この問題に対する先行技術の基礎となる原則は、これらの2つの異なる集団自身を区別し、特定された毒を除去するために、毒と清潔な集団に対するバックドアモデルの識別可能な行動を活用することである。 有毒なデータセットでトレーニングされたバックドアモデルでは、バックドアとクリーンサンプルの分離可能な潜在表現が学習される。 このような分離行動は多くの既存攻撃に対して実証的に存在するが、分離性は制御されておらず、分離の程度は様々な毒の戦略、データセット、およびバックドアモデルのトレーニング構成によって様々である。 さらに悪いことに、最近の適応的中毒戦略は「識別可能な行動」を大幅に削減し、その結果、ほとんどの先行技術が効果を低下させる(あるいは完全に失敗する)。 これらの制限は、ディフェンダーが制御していないいくつかの区別可能な行動への受動的依存から直接生じる。 このような制限を緩和するため,本研究では,バックドアモデルが毒物や清潔なサンプルに対して一定の識別可能な行動をとることを受動的に仮定する代わりに,この2つの異なる集団に対して異なる行動をとるように訓練されたモデルを積極的に強制することを提案する。 具体的には,攻撃防御の具体例として混乱訓練を導入する。

In this work, we study poison samples detection for defending against backdoor poisoning attacks on deep neural networks (DNNs). A principled idea underlying prior arts on this problem is to utilize the backdoored models' distinguishable behaviors on poison and clean populations to distinguish between these two different populations themselves and remove the identified poison. Many prior arts build their detectors upon a latent separability assumption, which states that backdoored models trained on the poisoned dataset will learn separable latent representations for backdoor and clean samples. Although such separation behaviors empirically exist for many existing attacks, there is no control on the separability and the extent of separation can vary a lot across different poison strategies, datasets, as well as the training configurations of backdoored models. Worse still, recent adaptive poison strategies can greatly reduce the "distinguishable behaviors" and consequently render most prior arts less effective (or completely fail). We point out that these limitations directly come from the passive reliance on some distinguishable behaviors that are not controlled by defenders. To mitigate such limitations, in this work, we propose the idea of active defense -- rather than passively assuming backdoored models will have certain distinguishable behaviors on poison and clean samples, we propose to actively enforce the trained models to behave differently on these two different populations. Specifically, we introduce confusion training as a concrete instance of active defense.
翻訳日:2022-05-30 14:03:51 公開日:2022-05-26
# universal adversarial perturbation を用いた物体検出モデルに対するサービス拒否攻撃

Denial-of-Service Attack on Object Detection Model Using Universal Adversarial Perturbation ( http://arxiv.org/abs/2205.13618v1 )

ライセンス: Link先を確認
Avishag Shapira, Alon Zolfi, Luca Demetrio, Battista Biggio, Asaf Shabtai(参考訳) 深層学習に基づく物体検出器に対する敵意攻撃は、ここ数年にわたって広く研究されてきた。 モデルの完全性(すなわち、モデルの予測の信頼性)を妥協することだけを目的として提案された攻撃は、モデルの可用性を標的とした敵対的な攻撃であり、自動運転のような安全クリティカルな領域において重要な側面である。 本稿では,最先端のオブジェクト検出器であるYOLOの決定遅延に悪影響を及ぼす新しいアプローチであるNMS-Spongeを提案し,UAP(Universal Adversarial Perturbation)を適用してモデルの有効性を損なう。 実験では,提案するUAPにより,原対象の検出を保ちながら「幻」オブジェクトを追加することにより,個々のフレームの処理時間を向上できることを示した。

Adversarial attacks against deep learning-based object detectors have been studied extensively in the past few years. The proposed attacks aimed solely at compromising the models' integrity (i.e., trustworthiness of the model's prediction), while adversarial attacks targeting the models' availability, a critical aspect in safety-critical domains such as autonomous driving, have not been explored by the machine learning research community. In this paper, we propose NMS-Sponge, a novel approach that negatively affects the decision latency of YOLO, a state-of-the-art object detector, and compromises the model's availability by applying a universal adversarial perturbation (UAP). In our experiments, we demonstrate that the proposed UAP is able to increase the processing time of individual frames by adding "phantom" objects while preserving the detection of the original objects.
翻訳日:2022-05-30 14:03:22 公開日:2022-05-26
# エージェントに基づくモンテカルロシミュレーションデータからブラックボックスとグレイボックスのケモティックPDE/クロージャを学習する

Learning black- and gray-box chemotactic PDEs/closures from agent based Monte Carlo simulation data ( http://arxiv.org/abs/2205.13545v1 )

ライセンス: Link先を確認
Seungjoon Lee, Yorgos M. Psarellis, Constantinos I. Siettos, Ioannis G. Kevrekidis(参考訳) 本研究では,e.coli細菌の運動性の忠実な個別確率シミュレーションから,マクロケモティック偏微分方程式(pdes)とそれにつながるクロージャをデータ駆動で発見するための機械学習フレームワークを提案する。 微細で詳細なハイブリッド(連続-モンテカルロ)シミュレーションモデルは、基礎となる生物物理学を具現化し、そのパラメータは個々の細胞の実験的観察から情報を得る。 我々は,有効なPDEの法則をパラメトリズする集合可観測物の相似集合を同定するために,ガウスプロセスフレームワーク内の自動妥当性決定(ARD)を利用する。 これらの観測値を用いて、第2段階において、機械学習回帰器を用いて粗粒の「ケラー・セゲル類」ケモティックPDEを効果的に学習する。 (a)フィードフォワードニューラルネットワークおよび (b)ガウス過程。 学習された法則は(pdeの法則構造に関する事前の知識が仮定されていない場合)ブラックボックスや、方程式の一部(例えば純拡散部分)が知られ、回帰過程において「ハードワイヤ」であるグレイボックスとすることができる。 また,解析的に知られている近似閉包のデータ駆動補正(加法と関数)についても論じる。

We propose a machine learning framework for the data-driven discovery of macroscopic chemotactic Partial Differential Equations (PDEs) -- and the closures that lead to them -- from high-fidelity, individual-based stochastic simulations of E.coli bacterial motility. The fine scale, detailed, hybrid (continuum - Monte Carlo) simulation model embodies the underlying biophysics, and its parameters are informed from experimental observations of individual cells. We exploit Automatic Relevance Determination (ARD) within a Gaussian Process framework for the identification of a parsimonious set of collective observables that parametrize the law of the effective PDEs. Using these observables, in a second step we learn effective, coarse-grained "Keller-Segel class" chemotactic PDEs using machine learning regressors: (a) (shallow) feedforward neural networks and (b) Gaussian Processes. The learned laws can be black-box (when no prior knowledge about the PDE law structure is assumed) or gray-box when parts of the equation (e.g. the pure diffusion part) is known and "hardwired" in the regression process. We also discuss data-driven corrections (both additive and functional) of analytically known, approximate closures.
翻訳日:2022-05-30 14:01:44 公開日:2022-05-26
# 任意顧客参加によるフェデレーション学習の統一分析

A Unified Analysis of Federated Learning with Arbitrary Client Participation ( http://arxiv.org/abs/2205.13648v1 )

ライセンス: Link先を確認
Shiqiang Wang, Mingyue Ji(参考訳) Federated Learning(FL)は、断続的なクライアント可用性と計算/通信効率の課題に直面します。 結果として、ある時点でFLに参加することができるのは、少数のクライアントのみとなる。 クライアントの部分的参加が収束にどのように影響するかを理解することは重要ですが、既存の作業の多くは、理想化された参加パターンや、ジェネリックパターンの非ゼロ最適性エラーによる結果のどちらかを考えています。 本稿では,任意のクライアント参加を伴うflの統一収束解析を提案する。 まず、複数のFLラウンドの間隔でパラメータ更新を増幅するフェデレーション平均化(FedAvg)の一般化版を紹介する。 次に,1つの期間における顧客参加の効果を捉えた新しい分析手法を提案する。 この用語を解析することにより、確率的勾配降下(SGD)の下位境界と特定の設定における最先端結果とを一致させる非確率的および確率的ケースを含む、幅広い参加パターンの収束上限を得る。 また、様々な洞察、推奨、実験結果についても論じる。

Federated learning (FL) faces challenges of intermittent client availability and computation/communication efficiency. As a result, only a small subset of clients can participate in FL at a given time. It is important to understand how partial client participation affects convergence, but most existing works have either considered idealized participation patterns or obtained results with non-zero optimality error for generic patterns. In this paper, we provide a unified convergence analysis for FL with arbitrary client participation. We first introduce a generalized version of federated averaging (FedAvg) that amplifies parameter updates at an interval of multiple FL rounds. Then, we present a novel analysis that captures the effect of client participation in a single term. By analyzing this term, we obtain convergence upper bounds for a wide range of participation patterns, including both non-stochastic and stochastic cases, which match either the lower bound of stochastic gradient descent (SGD) or the state-of-the-art results in specific settings. We also discuss various insights, recommendations, and experimental results.
翻訳日:2022-05-30 14:01:20 公開日:2022-05-26
# CA-UDA: 最適アサインメントと擬似ラベルリファインメントによる教師なしドメイン適応

CA-UDA: Class-Aware Unsupervised Domain Adaptation with Optimal Assignment and Pseudo-Label Refinement ( http://arxiv.org/abs/2205.13579v1 )

ライセンス: Link先を確認
Can Zhang, Gim Hee Lee(参考訳) 教師なしドメイン適応(UDA)に関する最近の研究は、対象データ中の不足ラベルのサロゲートとして優れた擬似ラベルの選択に焦点を当てている。 しかし、ソースとターゲットドメインの共有ネットワークが典型的には擬似ラベル選択に使用されるため、擬似ラベルを劣化させるソースドメインバイアスは依然として存在する。 準最適特徴空間のソースからターゲットへのドメインアライメントもまた、不十分なパフォーマンスをもたらす可能性がある。 本稿では, 擬似ラベルの品質向上のためのCA-UDAを提案し, 最適課題, 擬似ラベル改善戦略, クラス対応ドメインアライメントを提案する。 我々は疑似ラベル改良のためのソース領域バイアスを軽減するために補助ネットワークを用いる。 私たちの直感は、ターゲットドメインの根底にあるセマンティクスが、ドメインシフト中のソース機能から推測される擬似ラベルを洗練するのに役立ちます。 さらに、最適な割り当ては、ソース・ツー・ターゲットドメインの機能を最適に調整でき、クラス・アウェアなドメインアライメントは、分類決定境界を維持しながら、同時にドメイン間隙を閉じることができる。 いくつかのベンチマークデータセットの大規模な実験により,画像分類タスクにおいて,我々の手法が最先端の性能を達成できることが示されている。

Recent works on unsupervised domain adaptation (UDA) focus on the selection of good pseudo-labels as surrogates for the missing labels in the target data. However, source domain bias that deteriorates the pseudo-labels can still exist since the shared network of the source and target domains are typically used for the pseudo-label selections. The suboptimal feature space source-to-target domain alignment can also result in unsatisfactory performance. In this paper, we propose CA-UDA to improve the quality of the pseudo-labels and UDA results with optimal assignment, a pseudo-label refinement strategy and class-aware domain alignment. We use an auxiliary network to mitigate the source domain bias for pseudo-label refinement. Our intuition is that the underlying semantics in the target domain can be fully exploited to help refine the pseudo-labels that are inferred from the source features under domain shift. Furthermore, our optimal assignment can optimally align features in the source-to-target domains and our class-aware domain alignment can simultaneously close the domain gap while preserving the classification decision boundaries. Extensive experiments on several benchmark datasets show that our method can achieve state-of-the-art performance in the image classification task.
翻訳日:2022-05-30 13:56:17 公開日:2022-05-26
# 好酸球性食道炎診断のための新しい空間バイオマーカー推定のための人工知能の利用

Harnessing Artificial Intelligence to Infer Novel Spatial Biomarkers for the Diagnosis of Eosinophilic Esophagitis ( http://arxiv.org/abs/2205.13583v1 )

ライセンス: Link先を確認
Ariel Larey, Eliel Aknin, Nati Daniel, Garrett A. Osswald, Julie M. Caldwell, Mark Rochman, Tanya Wasserman, Margaret H. Collins, Nicoleta C. Arva, Guang-Yu Yang, Marc E. Rothenberg, Yonatan Savir(参考訳) 好酸球性食道炎 (EoE) は食道過敏症を伴う慢性アレルギー性食道炎である。 胃食道逆流症に次いでEoEは、成人および小児の慢性難治性摂食障害の原因の1つである。 eoe診断では食道生検で食道好酸球の密度を列挙する必要があるが、これはやや主観的な作業であり、時間を要するため複雑な組織構造を処理できる能力が低下する。 従来の人工知能(AI)アプローチは、最大好酸球密度領域の同定と定量化に重点を置いた組織学的診断を改善することを目的としていた。 しかしながら、この計量は、スライド画像全体にわたって好酸球や他の組織学的特徴の分布を考慮しない。 そこで我々は, 好酸球のセマンティックセグメンテーションと基底領域分布に基づいて, 局所的および空間的バイオマーカーを推定する人工知能プラットフォームを開発した。 好酸球の最大密度(Peak Eosinophil Count [PEC])と最大基底帯分画の他に,好酸球と基底帯分画の分布を反映した2つの追加指標を同定した。 このアプローチにより,EoEの活性を予測し,EoE患者の組織学的重症度を分類する意思決定支援システムが実現される。 400名の被験者から得られた1066個の生検スライドを含むコホートを用いて, 組織学的重症度分類精度86.70%, 感度84.50%, 特異度90.09%を得た。 本研究は, 細胞数を計測するだけでなく, 診断や治療の予測にも役立つパーソナライズされた意思決定支援システムの実現に向けて, バイオプシー機能全体の分布を体系的に分析することの重要性を強調する。

Eosinophilic esophagitis (EoE) is a chronic allergic inflammatory condition of the esophagus associated with elevated esophageal eosinophils. Second only to gastroesophageal reflux disease, EoE is one of the leading causes of chronic refractory dysphagia in adults and children. EoE diagnosis requires enumerating the density of esophageal eosinophils in esophageal biopsies, a somewhat subjective task that is time-consuming, thus reducing the ability to process the complex tissue structure. Previous artificial intelligence (AI) approaches that aimed to improve histology-based diagnosis focused on recapitulating identification and quantification of the area of maximal eosinophil density. However, this metric does not account for the distribution of eosinophils or other histological features, over the whole slide image. Here, we developed an artificial intelligence platform that infers local and spatial biomarkers based on semantic segmentation of intact eosinophils and basal zone distributions. Besides the maximal density of eosinophils (referred to as Peak Eosinophil Count [PEC]) and a maximal basal zone fraction, we identify two additional metrics that reflect the distribution of eosinophils and basal zone fractions. This approach enables a decision support system that predicts EoE activity and classifies the histological severity of EoE patients. We utilized a cohort that includes 1066 biopsy slides from 400 subjects to validate the system's performance and achieved a histological severity classification accuracy of 86.70%, sensitivity of 84.50%, and specificity of 90.09%. Our approach highlights the importance of systematically analyzing the distribution of biopsy features over the entire slide and paves the way towards a personalized decision support system that will assist not only in counting cells but can also potentially improve diagnosis and provide treatment prediction.
翻訳日:2022-05-30 13:30:47 公開日:2022-05-26
# 3次元セマンティクスセグメンテーションのためのピラミッド融合ネットワークを用いた深部センサ融合

Deep Sensor Fusion with Pyramid Fusion Networks for 3D Semantic Segmentation ( http://arxiv.org/abs/2205.13629v1 )

ライセンス: Link先を確認
Hannah Schieber, Fabian Duerr, Torsten Schoen and J\"urgen Beyerer(参考訳) 自動運転車のロバストな環境認識は、カメラ、ライダー、レーダーといった多様なセンサーセットを重要視する、非常に難しい課題である。 記録されたセンサデータを理解する過程では、3Dセマンティックセグメンテーションが重要な役割を果たす。 そこで本研究では,ライダーとカメラのためのピラミッド型深層融合アーキテクチャを提案し,交通シーンの3次元セマンティックセマンティックセグメンテーションを改善する。 個々のセンサーバックボーンは、カメライメージとライダーポイント雲の特徴マップを抽出する。 新しいピラミッド融合バックボーンは、これらの特徴マップを異なるスケールで融合させ、機能ピラミッドのマルチモーダル特徴を組み合わせて、価値のあるマルチモーダル、マルチスケール特徴を計算する。 ピラミッド融合ヘッドはこれらのピラミッドの特徴を集約し、センサーバックボーンの最終特徴を組み込んだ後期融合ステップでさらに洗練する。 本手法は,屋外の2つの難解なデータセットと異なる核融合戦略とセットアップについて検討した。 これは最近のrange viewベースのlidarアプローチを上回り、これまでに提案された核融合戦略やアーキテクチャをすべて上回っている。

Robust environment perception for autonomous vehicles is a tremendous challenge, which makes a diverse sensor set with e.g. camera, lidar and radar crucial. In the process of understanding the recorded sensor data, 3D semantic segmentation plays an important role. Therefore, this work presents a pyramid-based deep fusion architecture for lidar and camera to improve 3D semantic segmentation of traffic scenes. Individual sensor backbones extract feature maps of camera images and lidar point clouds. A novel Pyramid Fusion Backbone fuses these feature maps at different scales and combines the multimodal features in a feature pyramid to compute valuable multimodal, multi-scale features. The Pyramid Fusion Head aggregates these pyramid features and further refines them in a late fusion step, incorporating the final features of the sensor backbones. The approach is evaluated on two challenging outdoor datasets and different fusion strategies and setups are investigated. It outperforms recent range view based lidar approaches as well as all so far proposed fusion strategies and architectures.
翻訳日:2022-05-30 13:30:15 公開日:2022-05-26
# 深層強化学習を用いたエントロピー最大化のための動的ネットワーク再構成

Dynamic Network Reconfiguration for Entropy Maximization using Deep Reinforcement Learning ( http://arxiv.org/abs/2205.13578v1 )

ライセンス: Link先を確認
Christoffel Doorman, Victor-Alexandru Darvariu, Stephen Hailes, Mirco Musolesi(参考訳) ネットワーク理論における重要な問題は、定量化対象を最適化するためにグラフを再設定する方法である。 ネットワーク化されたシステムの普遍性を考えると、このような研究は薬物や物質設計から電気通信まで、様々な状況で幅広い実用的応用がある。 しかし、再構成可能な大きな決定空間は、この問題を計算的に集約する。 本稿では,マルコフ決定過程(MDP)として指定された構造特性を最適化するネットワークリウィリングの問題を提起し,意思決定者が順次実施する修正予算を付与する。 そこで本研究では,ディープq-network (dqn) アルゴリズムとグラフニューラルネットワーク (gnns) に基づく汎用的アプローチを提案する。 次に,サイバーセキュリティのケーススタディ,すなわち侵入防止のためのコンピュータネットワーク再構成問題への適用について検討する。 典型的なシナリオでは、攻撃者は、彼らが浸透しようとしているシステムの(部分的な)マップを持っているかもしれない。 これは、ネットワークのサプライズを増やすことを目的としているエントロピー最大化問題と見なすことができる。 実際、エントロピーはネットワークトポロジをナビゲートすることの難しさのプロキシ測定として機能する。 提案手法は,合成グラフや実世界のグラフをランダムに切り換えるよりも高速なエントロピーゲインを得るのに,計算コストが低く,訓練中に見られたグラフよりも大きなグラフに一般化できることを実証する。 攻撃シナリオのシミュレーションは、学習したリウィリング戦略の有効性を確認する。

A key problem in network theory is how to reconfigure a graph in order to optimize a quantifiable objective. Given the ubiquity of networked systems, such work has broad practical applications in a variety of situations, ranging from drug and material design to telecommunications. The large decision space of possible reconfigurations, however, makes this problem computationally intensive. In this paper, we cast the problem of network rewiring for optimizing a specified structural property as a Markov Decision Process (MDP), in which a decision-maker is given a budget of modifications that are performed sequentially. We then propose a general approach based on the Deep Q-Network (DQN) algorithm and graph neural networks (GNNs) that can efficiently learn strategies for rewiring networks. We then discuss a cybersecurity case study, i.e., an application to the computer network reconfiguration problem for intrusion protection. In a typical scenario, an attacker might have a (partial) map of the system they plan to penetrate; if the network is effectively "scrambled", they would not be able to navigate it since their prior knowledge would become obsolete. This can be viewed as an entropy maximization problem, in which the goal is to increase the surprise of the network. Indeed, entropy acts as a proxy measurement of the difficulty of navigating the network topology. We demonstrate the general ability of the proposed method to obtain better entropy gains than random rewiring on synthetic and real-world graphs while being computationally inexpensive, as well as being able to generalize to larger graphs than those seen during training. Simulations of attack scenarios confirm the effectiveness of the learned rewiring strategies.
翻訳日:2022-05-30 13:29:57 公開日:2022-05-26
# 筋骨格運動制御のためのコンタクト豊富なシミュレーションスイートMyoSuite

MyoSuite -- A contact-rich simulation suite for musculoskeletal motor control ( http://arxiv.org/abs/2205.13600v1 )

ライセンス: Link先を確認
Vittorio Caggiano, Huawei Wang, Guillaume Durandau, Massimo Sartori and Vikash Kumar(参考訳) 連続制御領域の具体化エージェントは、生物におけるアジャイルとニムブルな行動を可能にする筋骨格特性を探索できるタスクへの露出が限られていた。 神経筋骨格制御の高度化は、運動学習コミュニティに新たな課題をもたらす可能性がある。 同時に、複雑な神経制御問題を解決するエージェントは、ニューロリハビリテーションや協調ロボット工学などの分野に影響を及ぼす。 ヒトのバイオメカニクスは複雑なマルチジョイント・マルチアクチュベータ・筋骨格系を基盤としている。 感覚運動系は、物理的な世界で知的な行動を示すのに必要な筋肉の運動を定義し、条件付けする感覚接触豊かで固有的な入力に依存する。 現在の筋骨格制御の枠組みは、物理的世界の相互作用能力とともに筋骨格系の生理学的洗練をサポートしない。 さらに、それらは複雑で熟練した運動タスクに埋め込まれたり、大規模学習パラダイムを研究するのに計算的に効果的でスケーラブルではない。 今回紹介するMyoSuiteは、肘、手首、手の生理学的に正確なバイオメカニカルモデルで、物理的な接触能力を備えており、複雑で熟練した接触に富んだ現実世界のタスクを学習することができる。 簡単な姿勢制御から、キーを回したり、ペンを回したり、2つのボールを片手で回転させたりといった熟練したハンドオブジェクトインタラクションまで、さまざまなモーター制御課題を提供する。 筋骨格形状(腱移動)、補助装置(外骨格補助)、筋収縮動態(筋疲労、サルコパニア)の生理的変化を補助することにより、時間的変化を伴う実生活課題を提示し、最も継続的な制御ベンチマークが欠落しているタスクにおける現実的な非定常条件を明らかにする。

Embodied agents in continuous control domains have had limited exposure to tasks allowing to explore musculoskeletal properties that enable agile and nimble behaviors in biological beings. The sophistication behind neuro-musculoskeletal control can pose new challenges for the motor learning community. At the same time, agents solving complex neural control problems allow impact in fields such as neuro-rehabilitation, as well as collaborative-robotics. Human biomechanics underlies complex multi-joint-multi-actuator musculoskeletal systems. The sensory-motor system relies on a range of sensory-contact rich and proprioceptive inputs that define and condition muscle actuation required to exhibit intelligent behaviors in the physical world. Current frameworks for musculoskeletal control do not support physiological sophistication of the musculoskeletal systems along with physical world interaction capabilities. In addition, they are neither embedded in complex and skillful motor tasks nor are computationally effective and scalable to study large-scale learning paradigms. Here, we present MyoSuite -- a suite of physiologically accurate biomechanical models of elbow, wrist, and hand, with physical contact capabilities, which allow learning of complex and skillful contact-rich real-world tasks. We provide diverse motor-control challenges: from simple postural control to skilled hand-object interactions such as turning a key, twirling a pen, rotating two balls in one hand, etc. By supporting physiological alterations in musculoskeletal geometry (tendon transfer), assistive devices (exoskeleton assistance), and muscle contraction dynamics (muscle fatigue, sarcopenia), we present real-life tasks with temporal changes, thereby exposing realistic non-stationary conditions in our tasks which most continuous control benchmarks lack.
翻訳日:2022-05-30 13:28:52 公開日:2022-05-26
# 推薦の公平性:調査

Fairness in Recommendation: A Survey ( http://arxiv.org/abs/2205.13619v1 )

ライセンス: Link先を確認
Yunqi Li, Hanxiong Chen, Shuyuan Xu, Yingqiang Ge, Juntao Tan, Yongfeng Zhang(参考訳) 機械学習の最も普及している応用の1つとして、推奨システムは人間の意思決定を支援する上で重要な役割を果たす。 ユーザの満足度とプラットフォームの関心度は,生成した推奨結果の品質と密接に関連している。 しかし、高度にデータ駆動のシステムとして、レコメンダシステムはデータやアルゴリズムのバイアスの影響を受け、不公平な結果をもたらし、システムへの依存を弱める可能性がある。 その結果、推薦設定における潜在的不公平問題に対処することが重要である。 近年,レコメンデーションシステムにおける公平性への配慮が注目され,レコメンデーションの公平性を促進するためのアプローチに関する文献が増えている。 しかし、研究はむしろ断片化されており、体系的な組織を欠いているため、新たな研究者をドメインに侵入することは困難である。 これにより、既存のフェアネスに関するレコメンデーションに関する調査を体系的に実施する動機付けとなります。 本調査は、推薦文学における公正性の基盤に焦点を当てる。 まず、公平性研究の概観を提供するため、分類やランク付けといった基本的な機械学習タスクにおける公平性に関する簡単な紹介と、レコメンダシステムにおける公平性を研究する際に考慮すべきより複雑な状況と課題を紹介する。 その後、現在のフェアネス定義の分類法、フェアネス改善のための典型的な手法、そして、レコメンデーションにおけるフェアネス研究のためのデータセットに焦点を当てて、レコメンデーションにフェアネスを導入する。 また、フェアネス研究の課題と機会についても述べ、フェアリコメンデーション研究分野の推進などを目指している。

As one of the most pervasive applications of machine learning, recommender systems are playing an important role on assisting human decision making. The satisfaction of users and the interests of platforms are closely related to the quality of the generated recommendation results. However, as a highly data-driven system, recommender system could be affected by data or algorithmic bias and thus generate unfair results, which could weaken the reliance of the systems. As a result, it is crucial to address the potential unfairness problems in recommendation settings. Recently, there has been growing attention on fairness considerations in recommender systems with more and more literature on approaches to promote fairness in recommendation. However, the studies are rather fragmented and lack a systematic organization, thus making it difficult to penetrate for new researchers to the domain. This motivates us to provide a systematic survey of existing works on fairness in recommendation. This survey focuses on the foundations for fairness in recommendation literature. It first presents a brief introduction about fairness in basic machine learning tasks such as classification and ranking in order to provide a general overview of fairness research, as well as introduce the more complex situations and challenges that need to be considered when studying fairness in recommender systems. After that, the survey will introduce fairness in recommendation with a focus on the taxonomies of current fairness definitions, the typical techniques for improving fairness, as well as the datasets for fairness studies in recommendation. The survey also talks about the challenges and opportunities in fairness research with the hope of promoting the fair recommendation research area and beyond.
翻訳日:2022-05-30 13:28:21 公開日:2022-05-26
# データフローに基づく粗粒リコンフィギャラブルアレーへのアプリケーションマッピングのための強化学習アプローチ

Reinforcement Learning Approach for Mapping Applications to Dataflow-Based Coarse-Grained Reconfigurable Array ( http://arxiv.org/abs/2205.13675v1 )

ライセンス: Link先を確認
Andre Xian Ming Chang, Parth Khopkar, Bashar Romanous, Abhishek Chaurasia, Patrick Estep, Skyler Windh, Doug Vanesko, Sheik Dawood Beer Mohideen, Eugenio Culurciello(参考訳) Streaming Engine (SE) は、プログラムの柔軟性と高性能なエネルギー効率を提供する粗い粒度再構成可能なアレーである。 SE上で実行されるアプリケーションプログラムは、同期データフロー(SDF)グラフの組み合わせとして表現され、すべての命令はノードとして表現される。 各ノードは、プログラムの正しい実行を保証するために、SE内の正しいスロットと配列にマッピングされる必要がある。 これは、SEマイクロアーキテクチャの専門知識と知識を必要とするため、手動でマッピングを見つけることのできない、広範囲でスパースな検索空間を持つ最適化問題を生み出す。 本稿では,グローバルグラフアテンション(gga)モジュールと不正配置のマスキングを用いた強化学習フレームワークを提案する。 我々は、SEデバイスとその制約をモデル化する報酬関数に基づいて、SEタイルに操作を配置するモデルを訓練するために、近似ポリシー最適化を使用する。 GGAモジュールはグラフニューラルネットワークとアテンションモジュールで構成される。 グラフニューラルネットワークはsdfsの埋め込みを生成し、アテンションブロックはシーケンシャルな操作配置のモデル化に使用される。 特定のワークロードがSEにどのようにマッピングされるか、およびマッピング品質に影響する要因について、その結果を示す。 平均してGGAの追加はクロックサイクルの総数で10%向上し、マスキングによって得られる報酬が20%向上することがわかった。

The Streaming Engine (SE) is a Coarse-Grained Reconfigurable Array which provides programming flexibility and high-performance with energy efficiency. An application program to be executed on the SE is represented as a combination of Synchronous Data Flow (SDF) graphs, where every instruction is represented as a node. Each node needs to be mapped to the right slot and array in the SE to ensure the correct execution of the program. This creates an optimization problem with a vast and sparse search space for which finding a mapping manually is impractical because it requires expertise and knowledge of the SE micro-architecture. In this work we propose a Reinforcement Learning framework with Global Graph Attention (GGA) module and output masking of invalid placements to find and optimize instruction schedules. We use Proximal Policy Optimization in order to train a model which places operations into the SE tiles based on a reward function that models the SE device and its constraints. The GGA module consists of a graph neural network and an attention module. The graph neural network creates embeddings of the SDFs and the attention block is used to model sequential operation placement. We show results on how certain workloads are mapped to the SE and the factors affecting mapping quality. We find that the addition of GGA, on average, finds 10% better instruction schedules in terms of total clock cycles taken and masking improves reward obtained by 20%.
翻訳日:2022-05-30 13:27:57 公開日:2022-05-26
# 重要スパシフィケーションを用いたGromov-Wasserstein距離の効率的な近似

Efficient Approximation of Gromov-Wasserstein Distance using Importance Sparsification ( http://arxiv.org/abs/2205.13573v1 )

ライセンス: Link先を確認
Mengyu Li, Jun Yu, Hongteng Xu, Cheng Meng(参考訳) 計量測度空間の有効な計量として、Gromov-Wasserstein (GW) 距離は、点雲やグラフのような構造化データの一致する問題の可能性を示している。 しかし、計算の複雑さが高いため、実際の用途は限られている。 この課題を克服するために、GW距離を効率的に近似するためのSpar-GWと呼ばれる新しい重要空間分割法を提案する。 特に, 密結合行列を考慮せず, 単純かつ効果的なサンプリング戦略を用いてスパース結合行列を構築し, 少ない計算量で更新する。 提案したSpar-GW法は任意の地上費用でGW距離に適用可能であることを示し、任意の小さな$\delta>0$に対して$\mathcal{O}(n^4)$から$\mathcal{O}(n^{2+\delta})$に複雑性を減少させる。 さらに、この方法は、エントロピーGW距離、融合GW距離、不均衡GW距離を含むGW距離の変種を近似するために拡張することができる。 実験により,Spar-GWと最先端の手法の両課題における優位性を示す。

As a valid metric of metric-measure spaces, Gromov-Wasserstein (GW) distance has shown the potential for the matching problems of structured data like point clouds and graphs. However, its application in practice is limited due to its high computational complexity. To overcome this challenge, we propose a novel importance sparsification method, called Spar-GW, to approximate GW distance efficiently. In particular, instead of considering a dense coupling matrix, our method leverages a simple but effective sampling strategy to construct a sparse coupling matrix and update it with few computations. We demonstrate that the proposed Spar-GW method is applicable to the GW distance with arbitrary ground cost, and it reduces the complexity from $\mathcal{O}(n^4)$ to $\mathcal{O}(n^{2+\delta})$ for an arbitrary small $\delta>0$. In addition, this method can be extended to approximate the variants of GW distance, including the entropic GW distance, the fused GW distance, and the unbalanced GW distance. Experiments show the superiority of our Spar-GW to state-of-the-art methods in both synthetic and real-world tasks.
翻訳日:2022-05-30 13:24:32 公開日:2022-05-26
# 指数傾斜によるトレーニングデータのレンズによる新しいタスクの理解

Understanding new tasks through the lens of training data via exponential tilting ( http://arxiv.org/abs/2205.13577v1 )

ライセンス: Link先を確認
Subha Maity, Mikhail Yurochkin, Moulinath Banerjee, Yuekai Sun(参考訳) 新しいタスクに機械学習モデルをデプロイすることは、現代のトレーニングデータセットの大きさにもかかわらず、大きな課題である。 しかし、トレーニングデータを新たな(ターゲット)タスクのより代表的なものとして再重み付けすることが可能である。 対象タスクの分布に関する洞察を得るために,トレーニングサンプルを改良する問題を考える。 具体的には, 指数的傾き推定に基づく分布シフトモデルを定式化し, ラベル付き列車とラベル付き対象データセットとのkl発散を最小化する列車データ重要度を学習する。 学習したトレインデータの重み付けは、目標のパフォーマンス評価、微調整、モデル選択といった下流タスクに使用できる。 水鳥とブレッドスベンチマークにおける本手法の有効性を実証する。

Deploying machine learning models to new tasks is a major challenge despite the large size of the modern training datasets. However, it is conceivable that the training data can be reweighted to be more representative of the new (target) task. We consider the problem of reweighing the training samples to gain insights into the distribution of the target task. Specifically, we formulate a distribution shift model based on the exponential tilt assumption and learn train data importance weights minimizing the KL divergence between labeled train and unlabeled target datasets. The learned train data weights can then be used for downstream tasks such as target performance evaluation, fine-tuning, and model selection. We demonstrate the efficacy of our method on Waterbirds and Breeds benchmarks.
翻訳日:2022-05-30 13:24:10 公開日:2022-05-26
# ソーシャルネットワークにおける信念の進化

Evolution of beliefs in social networks ( http://arxiv.org/abs/2205.13587v1 )

ライセンス: Link先を確認
Pushpi Paranamana, Pei Wang, Patrick Shafto(参考訳) 社会の信念の進化は、世代を超えて社会内の人々の相互作用(水平伝達)の産物である(垂直伝達)。 研究者は水平と垂直の両方の伝送を別々に研究している。 先行研究を拡張し,マルコフ連鎖理論から水平および垂直伝達による信念進化の解析へツールを適用するための新しい理論的枠組みを提案する。 静的ネットワーク、ランダムに変化するネットワーク、およびホモフィリーに基づく動的ネットワークの3つのケースを分析する。 前者2人はネットワーク構造が信念とは無関係であると仮定するが、後者は人々が同様の信念を持つ人々とコミュニケーションをとる傾向があると仮定する。 一般条件下では、静的およびランダムに変化するネットワークは、収束率とともに、すべての個人の間で単一の信念の集合に収束することが証明される。 ホモフィリーに基づくネットワーク構造は、一般に、すべての者が共有する信念の集合に収束せず、初期信念の関数として異なる制限的信念の数に対する下限を証明している。 今後の研究に先立つ理論や方向性について論じる。

Evolution of beliefs of a society are a product of interactions between people (horizontal transmission) in the society over generations (vertical transmission). Researchers have studied both horizontal and vertical transmission separately. Extending prior work, we propose a new theoretical framework which allows application of tools from Markov chain theory to the analysis of belief evolution via horizontal and vertical transmission. We analyze three cases: static network, randomly changing network, and homophily-based dynamic network. Whereas the former two assume network structure is independent of beliefs, the latter assumes that people tend to communicate with those who have similar beliefs. We prove under general conditions that both static and randomly changing networks converge to a single set of beliefs among all individuals along with the rate of convergence. We prove that homophily-based network structures do not in general converge to a single set of beliefs shared by all and prove lower bounds on the number of different limiting beliefs as a function of initial beliefs. We conclude by discussing implications for prior theories and directions for future work.
翻訳日:2022-05-30 13:23:58 公開日:2022-05-26
# 高速変数選択による拡張ガウス過程BSS-ANOVAのテーブル状および時系列回帰に対する高速かつ正確な選択

Fast variable selection makes scalable Gaussian process BSS-ANOVA a speedy and accurate choice for tabular and time series regression ( http://arxiv.org/abs/2205.13676v1 )

ライセンス: Link先を確認
David S. Mebane, Kyle Hayes and Ali Baheri(参考訳) ガウス過程 (GP) は長い歴史を持つ非パラメトリック回帰エンジンである。 従来のGPカーネルの回帰は$\mathcal{O}(N^3)$であり、$N$はデータセットのサイズである。 拡張性のあるGPアプローチの1つとして、2009年に開発されたKLカーネルのBSS-ANOVAがある。 トレーニングでは$\mathcal{O}(NP)$、予測では$\mathcal{O}(P)$である。 単語の数を迅速かつ効果的に制限する新しい変数選択法は、大きな表付きデータセットに対する競合的精度、トレーニング、推論時間を持つ方法をもたらす。 このアルゴリズムは,ベイジアンおよび赤池情報基準(BIC/AIC)を用いて,モデル忠実度とモデル複雑性のバランスをとる。 推論速度と精度は、動的システムの微分を静的問題としてモデル化し、高次スキームを用いて学習力学を統合することにより、特にモデルのない方法で動的システムのモデリングに有用である。 提案手法は,'susceptible, infected, recovered' (sir) トイ問題に対して,'cascaded tanks' ベンチマークデータセットとともに強制機能として使用される透過性を示す。 導関数の静的予測はランダムフォレストと残留ニューラルネットワークで比較し、時系列予測ではlstmとgrrecurrentニューラルネットワークで比較する。 gpは、(ニューラルネットワークの場合)多くの桁違いに少ない計算を実行する一方で、すべてのモデリングタスクで他の手法を精度で上回っている。 トレーニングセットに現れる機能と定性的に異なる一連の強制関数の予測を含むSIRテストでは、GPが正しいダイナミクスをキャプチャし、ニューラルネットワークはそれを実行できなかった。

Gaussian processes (GPs) are non-parametric regression engines with a long history. They are often overlooked in modern machine learning contexts because of scalability issues: regression for traditional GP kernels are $\mathcal{O}(N^3)$ where $N$ is the size of the dataset. One of a number of scalable GP approaches is the Karhunen-Lo\'eve (KL) decomposed kernel BSS-ANOVA, developed in 2009. It is $\mathcal{O}(NP)$ in training and $\mathcal{O}(P)$ per point in prediction, where $P$ is the number of terms in the ANOVA / KL expansion. A new method of forward variable selection, quickly and effectively limits the number of terms, yielding a method with competitive accuracies, training and inference times for large tabular datasets. The new algorithm balances model fidelity with model complexity using Bayesian and Akaike information criteria (BIC/AIC). The inference speed and accuracy makes the method especially useful for modeling dynamic systems in a model-free manner, by modeling the derivative in a dynamic system as a static problem, then integrating the learned dynamics using a high-order scheme. The methods are demonstrated on a `Susceptible, Infected, Recovered' (SIR) toy problem, with the transmissibility used as forcing function, along with the `Cascaded Tanks' benchmark dataset. Comparisons on the static prediction of derivatives are made with a Random Forest and Residual Neural Network, while for the timeseries prediction comparisons are made with LSTM and GRU recurrent neural networks. The GP outperforms the other methods in all modeling tasks on accuracy, while (in the case of the neural networks) performing many orders of magnitude fewer calculations. For the SIR test, which involved prediction for a set of forcing functions qualitatively different from those appearing in the training set, the GP captured the correct dynamics while the neural networks failed to do so.
翻訳日:2022-05-30 13:23:41 公開日:2022-05-26
# 低ランク宝くじ:行列微分方程式による効率的な低ランクニューラルネットワークの探索

Low-rank lottery tickets: finding efficient low-rank neural networks via matrix differential equations ( http://arxiv.org/abs/2205.13571v1 )

ライセンス: Link先を確認
Steffen Schotth\"ofer, Emanuele Zangrando, Jonas Kusch, Gianluca Ceruti, Francesco Tudisco(参考訳) ニューラルネットワークは様々なアプリケーションで大きな成功を収めています。 しかし、メモリフットプリントと計算要求は、ハードウェアやエネルギー資源に制限のあるアプリケーション環境では実用的ではない。 本研究では,効率的な低ランクサブネットワークを見つけるための新しいアルゴリズムを提案する。 驚くべきことに、これらのサブネットワークは、すでにトレーニングフェーズ中に決定され、適応され、トレーニングと評価の両方で必要とされる全体的な時間とメモリリソースが大幅に削減される。 主なアイデアは、重み行列をローランク多様体に制限し、トレーニング中にフルマトリクスではなくローランク因子を更新することである。 所定の多様体に制限されたトレーニング更新を導出するために,行列微分方程式の動的モデル次数減少法を用いる。 さらに,学習中のランクを自動的に動的に適応させ,所望の近似精度を得る。 提案手法の効率は,完全連結および畳み込みネットワーク上での各種数値実験により実証された。

Neural networks have achieved tremendous success in a large variety of applications. However, their memory footprint and computational demand can render them impractical in application settings with limited hardware or energy resources. In this work, we propose a novel algorithm to find efficient low-rank subnetworks. Remarkably, these subnetworks are determined and adapted already during the training phase and the overall time and memory resources required by both training and evaluating them is significantly reduced. The main idea is to restrict the weight matrices to a low-rank manifold and to update the low-rank factors rather than the full matrix during training. To derive training updates that are restricted to the prescribed manifold, we employ techniques from dynamic model order reduction for matrix differential equations. Moreover, our method automatically and dynamically adapts the ranks during training to achieve a desired approximation accuracy. The efficiency of the proposed method is demonstrated through a variety of numerical experiments on fully-connected and convolutional networks.
翻訳日:2022-05-30 12:58:19 公開日:2022-05-26
# 共同創設者の顔におけるペシミズム--マルコフ決定過程における効果的なオフライン強化学習の可能性

Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes ( http://arxiv.org/abs/2205.13589v1 )

ライセンス: Link先を確認
Miao Lu, Yifei Min, Zhaoran Wang, Zhuoran Yang(参考訳) 半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。 特に、潜在状態に依存する可能性のある行動ポリシーによって収集されたデータセットから最適なポリシーを学習することを目指している。 このようなデータセットは、潜在状態が動作と観測に同時に影響を及ぼすという意味で、既存のオフラインrlアルゴリズムでは禁止されている。 この目的のために、一般関数近似の文脈において、共役バイアスと最適と振舞いポリシーの間の分布シフトに対処する、Shaunderline{P}roxy変数 \underline{P}essimistic \underline{P}olicy \underline{O}ptimization (\texttt{P3O})アルゴリズムを提案する。 texttt{P3O} の中核は、近位因果推論によって構築された悲観的信頼領域の結合配列であり、ミニマックス推定として定式化されている。 連結データセット上の部分カバレッジ仮定の下で、\textt{p3o} が$n^{-1/2}$-suboptimality を達成することを証明し、ここで $n$ はデータセット内の軌道数である。 我々の知る限り、 \texttt{P3O} はPOMDP に対して、データセットを合成した最初の証明可能なオフライン RL アルゴリズムである。

We study offline reinforcement learning (RL) in partially observable Markov decision processes. In particular, we aim to learn an optimal policy from a dataset collected by a behavior policy which possibly depends on the latent state. Such a dataset is confounded in the sense that the latent state simultaneously affects the action and the observation, which is prohibitive for existing offline RL algorithms. To this end, we propose the \underline{P}roxy variable \underline{P}essimistic \underline{P}olicy \underline{O}ptimization (\texttt{P3O}) algorithm, which addresses the confounding bias and the distributional shift between the optimal and behavior policies in the context of general function approximation. At the core of \texttt{P3O} is a coupled sequence of pessimistic confidence regions constructed via proximal causal inference, which is formulated as minimax estimation. Under a partial coverage assumption on the confounded dataset, we prove that \texttt{P3O} achieves a $n^{-1/2}$-suboptimality, where $n$ is the number of trajectories in the dataset. To our best knowledge, \texttt{P3O} is the first provably efficient offline RL algorithm for POMDPs with a confounded dataset.
翻訳日:2022-05-30 12:58:05 公開日:2022-05-26
# 連続発話から対話表現を学ぶ

Learning Dialogue Representations from Consecutive Utterances ( http://arxiv.org/abs/2205.13568v1 )

ライセンス: Link先を確認
Zhihan Zhou, Dejiao Zhang, Wei Xiao, Nicholas Dingwall, Xiaofei Ma, Andrew O. Arnold, Bing Xiang(参考訳) 高品質な対話表現を学ぶことは様々な対話指向タスクの解決に不可欠であり、特に対話システムはデータ不足に苦しむことが多い。 本稿では,多岐にわたる対話タスクに適した効果的な対話表現を学習する自己指導型コントラスト学習手法である対話文埋め込み(DSE)を提案する。 DSEは、対照的な学習のための正のペアと同じ対話の連続的な発話を取り、対話から学習する。 その単純さにもかかわらず、DSEは他の対話表現や普遍文表現モデルよりもはるかに優れた表現能力を達成する。 異なる意味的粒度の対話表現を調べる5つの下流対話課題についてDSEを評価する。 少数ショットとゼロショットの設定による実験では、DSEはベースラインを大きなマージンで上回っている。 例えば、6つのデータセット上の1ショットインテント分類において、最強の教師なしベースラインよりも13のパフォーマンス改善を実現している。 また、モデルの利点と限界についても分析します。

Learning high-quality dialogue representations is essential for solving a variety of dialogue-oriented tasks, especially considering that dialogue systems often suffer from data scarcity. In this paper, we introduce Dialogue Sentence Embedding (DSE), a self-supervised contrastive learning method that learns effective dialogue representations suitable for a wide range of dialogue tasks. DSE learns from dialogues by taking consecutive utterances of the same dialogue as positive pairs for contrastive learning. Despite its simplicity, DSE achieves significantly better representation capability than other dialogue representation and universal sentence representation models. We evaluate DSE on five downstream dialogue tasks that examine dialogue representation at different semantic granularities. Experiments in few-shot and zero-shot settings show that DSE outperforms baselines by a large margin. For example, it achieves 13 average performance improvement over the strongest unsupervised baseline in 1-shot intent classification on 6 datasets. We also provide analyses on the benefits and limitations of our model.
翻訳日:2022-05-30 12:56:17 公開日:2022-05-26
# 大規模言語モデルにおける微分プライベートデコーディング

Differentially Private Decoding in Large Language Models ( http://arxiv.org/abs/2205.13621v1 )

ライセンス: Link先を確認
Jimit Majmudar, Christophe Dupuy, Charith Peris, Sami Smaili, Rahul Gupta, Richard Zemel(参考訳) 近年の大規模自然言語処理(NLP)システムでは,大規模かつ多様なコーパスを出発点として,事前訓練済みのLarge Language Model(LLM)を採用している。 実際に、事前訓練されたモデルはタスク固有のデータセットを微調整することで、幅広いタスクに適応する。 LLMは有効ではあるが、トレーニングデータのインスタンスを記憶して、事前トレーニング中に処理されたプライベート情報を明らかにすることが示されている。 潜在的リークは、LSMが微調整された下流タスクにさらに伝播する可能性がある。 一方、プライバシ保護アルゴリズムは通常、スクラッチから再トレーニングを伴います。 本研究では,復号段階で既に訓練済みのモデルに適用可能な,単純で分かりやすく,計算的に軽量な摂動機構を提案する。 我々の摂動機構はモデル非依存であり、任意のLLMと併用することができる。 本稿では,提案機構が独立にプライベートであることを示す理論的解析と,プライバシとユーティリティのトレードオフを示す実験結果について述べる。

Recent large-scale natural language processing (NLP) systems use a pre-trained Large Language Model (LLM) on massive and diverse corpora as a headstart. In practice, the pre-trained model is adapted to a wide array of tasks via fine-tuning on task-specific datasets. LLMs, while effective, have been shown to memorize instances of training data thereby potentially revealing private information processed during pre-training. The potential leakage might further propagate to the downstream tasks for which LLMs are fine-tuned. On the other hand, privacy-preserving algorithms usually involve retraining from scratch, which is prohibitively expensive for LLMs. In this work, we propose a simple, easy to interpret, and computationally lightweight perturbation mechanism to be applied to an already trained model at the decoding stage. Our perturbation mechanism is model-agnostic and can be used in conjunction with any LLM. We provide theoretical analysis showing that the proposed mechanism is differentially private, and experimental results showing a privacy-utility trade-off.
翻訳日:2022-05-30 12:54:44 公開日:2022-05-26
# Quark: 強化アンラーニングによる制御可能なテキスト生成

Quark: Controllable Text Generation with Reinforced Unlearning ( http://arxiv.org/abs/2205.13636v1 )

ライセンス: Link先を確認
Ximing Lu, Sean Welleck, Liwei Jiang, Jack Hessel, Lianhui Qin, Peter West, Prithviraj Ammanabrolu, Yejin Choi(参考訳) 大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。 生成されたテキストは攻撃的あるいは有害な言語を含み、重要な繰り返しを含むか、利用者が求めるものとは異なる感情を持つ。 本研究では, 言語モデルを, すべきでないことの信号に基づいて微調整することで, 誤認識を解き明かす作業について考察する。 我々は,(非)不要な性質を定量化する報酬関数を最適化するアルゴリズムであるquantized reward konditioning (quark)を導入する。 クォークが交互に (i)現在の言語モデルでサンプルを集めること。 (ii) 言語モデルの入力に先立つ報酬トークンによって識別された各分位数を報酬に基づいて分位数に分類し、 三 報酬トークンに条件付された各定量値のサンプルに対する標準言語モデリング損失を使用し、一方、KL分割ペナルティを介して元の言語モデルの近くに留まる。 生成時にハイリワードトークンを条件付けすることで、モデルは不要なプロパティの少ないテキストを生成する。 未学習の毒性、ネガティブな感情、反復について、我々の実験は、Quarkが標準言語モデリングプリミティブにのみ依存しながら、強力なベースラインとPPO(Schulman et al. 2017)のような最先端の強化学習方法の両方を上回っていることを示している。

Large-scale language models often learn behaviors that are misaligned with user expectations. Generated text may contain offensive or toxic language, contain significant repetition, or be of a different sentiment than desired by the user. We consider the task of unlearning these misalignments by fine-tuning the language model on signals of what not to do. We introduce Quantized Reward Konditioning (Quark), an algorithm for optimizing a reward function that quantifies an (un)wanted property, while not straying too far from the original model. Quark alternates between (i) collecting samples with the current language model, (ii) sorting them into quantiles based on reward, with each quantile identified by a reward token prepended to the language model's input, and (iii) using a standard language modeling loss on samples from each quantile conditioned on its reward token, while remaining nearby the original language model via a KL-divergence penalty. By conditioning on a high-reward token at generation time, the model generates text that exhibits less of the unwanted property. For unlearning toxicity, negative sentiment, and repetition, our experiments show that Quark outperforms both strong baselines and state-of-the-art reinforcement learning methods like PPO (Schulman et al. 2017), while relying only on standard language modeling primitives.
翻訳日:2022-05-30 12:54:28 公開日:2022-05-26
# 任意の順序自己回帰モデルによる正しい方法の訓練と推論

Training and Inference on Any-Order Autoregressive Models the Right Way ( http://arxiv.org/abs/2205.13554v1 )

ライセンス: Link先を確認
Andy Shih, Dorsa Sadigh, Stefano Ermon(参考訳) 変数の任意の部分集合に対する条件付き推論は、マスク付き言語モデリングや画像インパインティングといった重要な応用を伴う確率的推論の核となる問題である。 近年、XLNetのような人気モデルを含むAny-Order Autoregressive Models (AO-ARMs)のファミリーは、広範囲のドメインにわたる任意の条件タスクにおいて、ブレークスルーのパフォーマンスを示している。 しかし、その成功にもかかわらず、本稿では、以前のAO-ARMの定式化に際し、大幅な改善が認められる。 まず、AO-ARMは確率モデルにおいて冗長性に悩まされており、複数の異なる方法で同じ分布を定義する。 効率的な任意条件推論のサポートを維持しながら、より小さな不定条件セットでトレーニングすることで、この冗長性を軽減します。 第二に,単変量条件のトレーニング損失は,推論中により頻繁に評価される。 提案手法は,テキスト(Text8),画像(CIFAR10, ImageNet32),連続表データドメインの任意の条件付きモデリングにおいて,トラクタビリティを損なうことなく性能を向上させる。

Conditional inference on arbitrary subsets of variables is a core problem in probabilistic inference with important applications such as masked language modeling and image inpainting. In recent years, the family of Any-Order Autoregressive Models (AO-ARMs) -- which includes popular models such as XLNet -- has shown breakthrough performance in arbitrary conditional tasks across a sweeping range of domains. But, in spite of their success, in this paper we identify significant improvements to be made to previous formulations of AO-ARMs. First, we show that AO-ARMs suffer from redundancy in their probabilistic model, i.e., they define the same distribution in multiple different ways. We alleviate this redundancy by training on a smaller set of univariate conditionals that still maintains support for efficient arbitrary conditional inference. Second, we upweight the training loss for univariate conditionals that are evaluated more frequently during inference. Our method leads to improved performance with no compromises on tractability, giving state-of-the-art likelihoods in arbitrary conditional modeling on text (Text8), image (CIFAR10, ImageNet32), and continuous tabular data domains.
翻訳日:2022-05-30 12:53:43 公開日:2022-05-26
# (参考訳) CNNはMyopicです

CNNs are Myopic ( http://arxiv.org/abs/2205.10760v2 )

ライセンス: CC BY 4.0
Vamshi C. Madala and Shivkumar Chandrasekaran(参考訳) 畳み込みニューラルネットワーク(CNN)は、一見認識不能な小さなタイルのみを用いて画像を分類する。 このようなタイルのみを用いてトレーニングされたCNNが、フルイメージでトレーニングされたCNNのパフォーマンスにマッチしたり、超えたりできることを示す。 逆に、フルイメージでトレーニングされたCNNは、小さなタイル上で同様の予測を示す。 また,この振る舞いを説明するように,畳み込みデータセットに対する最初の事前理論モデルを提案する。 このことは、CNNが最先端の精度を達成するために、画像のグローバルな構造を理解する必要はないという長年の疑いをさらに支持する。 驚くことに、過度に適合する必要はない。

We claim that Convolutional Neural Networks (CNNs) learn to classify images using only small seemingly unrecognizable tiles. We show experimentally that CNNs trained only using such tiles can match or even surpass the performance of CNNs trained on full images. Conversely, CNNs trained on full images show similar predictions on small tiles. We also propose the first a priori theoretical model for convolutional data sets that seems to explain this behavior. This gives additional support to the long standing suspicion that CNNs do not need to understand the global structure of images to achieve state-of-the-art accuracies. Surprisingly it also suggests that over-fitting is not needed either.
翻訳日:2022-05-30 04:28:37 公開日:2022-05-26
# (参考訳) 植物画像の自動生成とラベル付けのための分類学習曲線の検討

Investigating classification learning curves for automatically generated and labelled plant images ( http://arxiv.org/abs/2205.10955v2 )

ライセンス: CC BY-SA 4.0
Michael A. Beck, Christopher P. Bidinosti, Christopher J. Henry, Manisha Ajmani(参考訳) 教師あり機械学習の文脈において、学習曲線は、未知のデータに対するモデルの性能が、モデルを訓練するのに使用されるサンプルの量とどのように関連しているかを記述する。 本稿では,異なる生育段階のマニトバ草原に共通する作物や雑草を代表とする植物画像のデータセットを提案する。 本稿では、ResNetアーキテクチャを用いて、このデータに基づく分類タスクの学習曲線を決定する。 以上の結果から,学習曲線は大規模・応用・モデルに対する権力-法則関係によって支配されているという証拠が得られた。 さらに,ラベルノイズとトレーニング可能なパラメータの低減が,このデータセットの学習曲線に与える影響について検討する。 どちらの効果も、これらの効果なしで観察されるのと同じ分類性能を達成するために、不均等により大きなトレーニングセットを必要とするモデルに繋がる。

In the context of supervised machine learning a learning curve describes how a model's performance on unseen data relates to the amount of samples used to train the model. In this paper we present a dataset of plant images with representatives of crops and weeds common to the Manitoba prairies at different growth stages. We determine the learning curve for a classification task on this data with the ResNet architecture. Our results are in accordance with previous studies and add to the evidence that learning curves are governed by power-law relationships over large scales, applications, and models. We further investigate how label noise and the reduction of trainable parameters impacts the learning curve on this dataset. Both effects lead to the model requiring disproportionally larger training sets to achieve the same classification performance as observed without these effects.
翻訳日:2022-05-29 14:38:10 公開日:2022-05-26
# (参考訳) コントラスト的・非コントラスト的自己監督型学習はグローバルおよび局所スペクトル埋め込み法を復元する

Contrastive and Non-Contrastive Self-Supervised Learning Recover Global and Local Spectral Embedding Methods ( http://arxiv.org/abs/2205.11508v2 )

ライセンス: CC BY 4.0
Randall Balestriero, Yann LeCun(参考訳) 自己監督学習(SSL)は、入力とペアの正の関係は意味のある表現を学ぶのに十分である。 多くのモダリティにおいて教師付きメソッドを上回っており、理論的基礎は限定的であり、メソッド固有であり、実践者に原則化された設計ガイドラインを提供していない。 本稿では,これらの制約に対処するために,スペクトル多様体学習の推進力に基づく統一フレームワークを提案する。 この研究の過程で、VICReg, SimCLR, BarlowTwins et al. がラプラシア固有写像や多次元スケーリングなどの固有スペクトル法に対応することを厳密に証明する。 この統合によって私たちは (i)各方法の閉形式最適表現 (ii) 各手法の線形状態における閉形式最適ネットワークパラメータ。 三 訓練中に用いた対関係がこれらの量及び下流タスクのパフォーマンスに与える影響、及び、最も重要なこと。 (iv)大域的スペクトル埋め込み法と局所的スペクトル埋め込み法への対比的手法と非矛盾的手法の間の最初の理論的橋渡しは、それぞれの利点と限界をほのめかしている。 例えば i) ペア関係が下流タスクと一致している場合、SSLメソッドは正常に使用でき、教師付きメソッドを回復するが、低データ状態においては、VICRegの不分散ハイパーパラメータは高くなければならない。 (2) 下流タスクとペア関係が一致しない場合、VICReg は SimCLR や BarlowTwins よりも小さな分散ハイパーパラメータを持つ方がよい。

Self-Supervised Learning (SSL) surmises that inputs and pairwise positive relationships are enough to learn meaningful representations. Although SSL has recently reached a milestone: outperforming supervised methods in many modalities\dots the theoretical foundations are limited, method-specific, and fail to provide principled design guidelines to practitioners. In this paper, we propose a unifying framework under the helm of spectral manifold learning to address those limitations. Through the course of this study, we will rigorously demonstrate that VICReg, SimCLR, BarlowTwins et al. correspond to eponymous spectral methods such as Laplacian Eigenmaps, Multidimensional Scaling et al. This unification will then allow us to obtain (i) the closed-form optimal representation for each method, (ii) the closed-form optimal network parameters in the linear regime for each method, (iii) the impact of the pairwise relations used during training on each of those quantities and on downstream task performances, and most importantly, (iv) the first theoretical bridge between contrastive and non-contrastive methods towards global and local spectral embedding methods respectively, hinting at the benefits and limitations of each. For example, (i) if the pairwise relation is aligned with the downstream task, any SSL method can be employed successfully and will recover the supervised method, but in the low data regime, VICReg's invariance hyper-parameter should be high; (ii) if the pairwise relation is misaligned with the downstream task, VICReg with small invariance hyper-parameter should be preferred over SimCLR or BarlowTwins.
翻訳日:2022-05-29 10:44:42 公開日:2022-05-26
# (参考訳) 希少音イベント検出のための適応的少数ショット学習アルゴリズム

Adaptive Few-Shot Learning Algorithm for Rare Sound Event Detection ( http://arxiv.org/abs/2205.11738v2 )

ライセンス: CC BY 4.0
Chendong Zhao, Jianzong Wang, Leilai Li, Xiaoyang Qu, Jing Xiao(参考訳) 音の事象検出は、周囲の環境音を理解することによって事象を推測することである。 希少な音響事象が少なかったため、事前知識を過度に習得したよく訓練された検出器には困難が伴う。 一方、少数ショット学習法は、新しい限定データタスクに直面する際に、優れた一般化能力を約束する。 近年のアプローチはこの分野で有望な成果を上げている。 しかし、これらのアプローチは各サポートの例を独立に扱い、タスク全体から他の例の情報を無視している。 このため、従来の手法のほとんどは、入力された各データに適応しない全てのテスト時間タスクに同じ機能を埋め込むように制約されている。 そこで本研究では,メトリックベースの数ショット学習フレームワークに容易に組み込むことができる新しいタスク適応モジュールを提案する。 モジュールはタスク関連の特徴次元を識別できる。 モジュールを組み込むことで,ベースライン法,特にトランスダクティブ伝搬ネットワークにおける2つのデータセットのパフォーマンスが大幅に向上する。 例えば、ESC-50では5ウェイ1ショット精度+6.8%、ノイズESC-50では+5.9%である。 ドメインミスマッチ設定におけるアプローチを調査し,従来の手法よりも優れた結果を得る。

Sound event detection is to infer the event by understanding the surrounding environmental sounds. Due to the scarcity of rare sound events, it becomes challenging for the well-trained detectors which have learned too much prior knowledge. Meanwhile, few-shot learning methods promise a good generalization ability when facing a new limited-data task. Recent approaches have achieved promising results in this field. However, these approaches treat each support example independently, ignoring the information of other examples from the whole task. Because of this, most of previous methods are constrained to generate a same feature embedding for all test-time tasks, which is not adaptive to each inputted data. In this work, we propose a novel task-adaptive module which is easy to plant into any metric-based few-shot learning frameworks. The module could identify the task-relevant feature dimension. Incorporating our module improves the performance considerably on two datasets over baseline methods, especially for the transductive propagation network. Such as +6.8% for 5-way 1-shot accuracy on ESC-50, and +5.9% on noiseESC-50. We investigate our approach in the domain-mismatch setting and also achieve better results than previous methods.
翻訳日:2022-05-29 05:20:23 公開日:2022-05-26
# (参考訳) DPPの最大習熟度学習の硬さ

Hardness of Maximum Likelihood Learning of DPPs ( http://arxiv.org/abs/2205.12377v2 )

ライセンス: CC BY 4.0
Elena Grigorescu, Brendan Juba, Karl Wimmer, Ning Xie(参考訳) 決定点過程 (Determinantal Point Processs, DPPs) は負相関集合に対する確率論的モデルである。 DPPは、多様だが代表的なデータサブセットを選択するために、機械学習アプリケーションに成功している。 機械学習における DPP に関する基礎研究において、クレスザは博士論文(2011年)で、与えられたデータセットに対する最大可能性 DPP モデルを見つける問題はNP完全である、と推測した。 この研究で、我々はクレスザの予想を証明する。 実際、近似結果のより強い硬さを証明している:$\left(1-O(\frac{1}{\log^9{N}})\right)$-approximation to the maximum log-likelihood of a $N$ elements is NP-complete。 近似係数は$\frac{1}{(1+o(1))\log{m}}$ 条件付き($m$ のサブセットからなるデータセットに対して)であり、すべての$n$要素が$o(1/n)$ のサブセットに現れる場合、1-\frac{1+o(1)}{\log n}$ に改善できる。 手法の面では、データセット上のdppの最大ログ類似度を近似し、ハイパーグラフ上の「ベクトル彩色」問題のギャップインスタンスを解決する。 このようなハイパーグラフはBogdanov, Obata and Trevisan (FOCS 2002) の有界グラフ構造の上に構築され、Alon and Capalbo (FOCS 2007) の強い拡張によってさらに拡張され、我々の目的に役立てられる。

Determinantal Point Processes (DPPs) are a widely used probabilistic model for negatively correlated sets. DPPs have been successfully employed in Machine Learning applications to select a diverse, yet representative subset of data. In seminal work on DPPs in Machine Learning, Kulesza conjectured in his PhD Thesis (2011) that the problem of finding a maximum likelihood DPP model for a given data set is NP-complete. In this work we prove Kulesza's conjecture. In fact, we prove the following stronger hardness of approximation result: even computing a $\left(1-O(\frac{1}{\log^9{N}})\right)$-approximation to the maximum log-likelihood of a DPP on a ground set of $N$ elements is NP-complete. At the same time, we also obtain the first polynomial-time algorithm that achieves a nontrivial worst-case approximation to the optimal log-likelihood: the approximation factor is $\frac{1}{(1+o(1))\log{m}}$ unconditionally (for data sets that consist of $m$ subsets), and can be improved to $1-\frac{1+o(1)}{\log N}$ if all $N$ elements appear in a $O(1/N)$-fraction of the subsets. In terms of techniques, we reduce approximating the maximum log-likelihood of DPPs on a data set to solving a gap instance of a "vector coloring" problem on a hypergraph. Such a hypergraph is built on a bounded-degree graph construction of Bogdanov, Obata and Trevisan (FOCS 2002), and is further enhanced by the strong expanders of Alon and Capalbo (FOCS 2007) to serve our purposes.
翻訳日:2022-05-29 02:01:14 公開日:2022-05-26
# (参考訳) 凸最適化によるワッサースタイン勾配方向の最適ニューラルネットワーク近似

Optimal Neural Network Approximation of Wasserstein Gradient Direction via Convex Optimization ( http://arxiv.org/abs/2205.13098v1 )

ライセンス: CC BY 4.0
Yifei Wang, Peng Chen, Mert Pilanci, Wuchen Li(参考訳) ワッサーシュタイン勾配方向の計算は、後方サンプリング問題や科学計算に必須である。 有限サンプルによるワッサーシュタイン勾配の近似は変分問題を解く必要がある。 正方形ReLUアクティベーションを持つ2層ネットワーク群において、半定値プログラミング(SDP)緩和を導出する変動問題について検討する。 このSDPは、2層ネットワークを含むより広い関数群におけるワッサーシュタイン勾配の近似と見なすことができる。 凸 sdp の解法により、この関数のクラスにおけるワッサーシュタイン勾配方向の最適近似が得られる。 PDE制約ベイズ推定とパラメータ推定を含む数値実験により,提案手法の有効性が示された。

The computation of Wasserstein gradient direction is essential for posterior sampling problems and scientific computing. The approximation of the Wasserstein gradient with finite samples requires solving a variational problem. We study the variational problem in the family of two-layer networks with squared-ReLU activations, towards which we derive a semi-definite programming (SDP) relaxation. This SDP can be viewed as an approximation of the Wasserstein gradient in a broader function family including two-layer networks. By solving the convex SDP, we obtain the optimal approximation of the Wasserstein gradient direction in this class of functions. Numerical experiments including PDE-constrained Bayesian inference and parameter estimation in COVID-19 modeling demonstrate the effectiveness of the proposed method.
翻訳日:2022-05-28 07:07:46 公開日:2022-05-26
# (参考訳) Deep-XFCT:マイクロX線とCTによる深層学習3次元ミネラル解放解析

Deep-XFCT: Deep learning 3D-mineral liberation analysis with micro X-ray fluorescence and computed tomography ( http://arxiv.org/abs/2205.13102v1 )

ライセンス: CC BY 4.0
Patrick Kin Man Tung, Amalia Yunita Halim, Huixin Wang, Anne Rich, Christopher Marjo, Klaus Regenauer-Lieb(参考訳) x-ray micro-computed tomography (micro-ct) の急速な発展は、粒子および粒度特性の3次元解析、粒子密度と形状因子の決定、鉱物結合の推定、解放とロックの新たな機会を開く。 鉱物の解放分析における現在の実践は、体積特性への外挿の体系的誤りにつながる2次元表現に基づいている。 したがって, トモグラフィデータに基づく新しい定量的手法は, 鉱物鉱床のキャラクタリゼーション, ミネラルプロセッシング, テリングのキャラクタリゼーション, 岩石タイプ, 層序の精密化, 資源産業, 環境・物質科学への応用のための貯水池のキャラクタリゼーションに必要不可欠である。 これまでの3次元鉱物解放分析には単純な非破壊的手法は存在していない。 深層学習を用いたマイクロCTとマイクロX線蛍光(micro-XRF)を組み合わせた新しい開発法を提案する。 微視的CTデータセット中の石英とフェルトスパーを区別する難しい課題を克服した結晶マグマ岩の半自動マルチモーダル解析に成功した。 このアプローチは普遍的であり、さらなる洗練のために任意のマルチモーダルおよびマルチインストラクション分析に拡張することができる。 我々は,micro-CTとmicro-XRFを組み合わせることで,現場および実験室で3Dミネラル解放解析を行う新たな機会が得られると結論付けた。

The rapid development of X-ray micro-computed tomography (micro-CT) opens new opportunities for 3D analysis of particle and grain-size characterisation, determination of particle densities and shape factors, estimation of mineral associations and liberation and locking. Current practices in mineral liberation analysis are based on 2D representations leading to systematic errors in the extrapolation to volumetric properties. New quantitative methods based on tomographic data are therefore urgently required for characterisation of mineral deposits, mineral processing, characterisation of tailings, rock typing, stratigraphic refinement, reservoir characterisation for applications in the resource industry, environmental and material sciences. To date, no simple non-destructive method exists for 3D mineral liberation analysis. We present a new development based on combining micro-CT with micro-X-ray fluorescence (micro-XRF) using deep learning. We demonstrate successful semi-automated multi-modal analysis of a crystalline magmatic rock where the new technique overcomes the difficult task of differentiating feldspar from quartz in micro-CT data set. The approach is universal and can be extended to any multi-modal and multi-instrument analysis for further refinement. We conclude that the combination of micro-CT and micro-XRF already provides a new opportunity for robust 3D mineral liberation analysis in both field and laboratory applications.
翻訳日:2022-05-28 06:43:58 公開日:2022-05-26
# (参考訳) ペアワイズ分類によるクラスタ顔の学習

Learn to Cluster Faces via Pairwise Classification ( http://arxiv.org/abs/2205.13117v1 )

ライセンス: CC BY 4.0
Junfu Liu, Di Qiu, Pengfei Yan, Xiaolin Wei(参考訳) 顔クラスタリングは、巨大なラベルのない顔データを活用する上で重要な役割を果たす。 近年,グラフベースの顔クラスタリング手法が注目されている。 しかし、それらは通常、特に大規模グラフで過剰なメモリ消費に苦しめられ、様々な実世界のシーンでアプリケーションを制限する推論におけるサンプル間の接続性を決定するために経験則的なしきい値に依存する。 このような問題に対処するため,本稿では対角から顔クラスタリングについて検討する。 具体的には,顔クラスタリングタスクを対関係分類タスクとして定式化し,大規模グラフ上でのメモリ消費学習を回避した。 分類器は、サンプル間の関係を直接決定でき、文脈情報を利用して強化される。 さらに,本手法の効率をさらに向上するため,分類器に送信されるペアの選択を誘導するランク重み付き密度を提案する。 実験結果から,提案手法は複数の公開クラスタリングベンチマークにおいて高速に動作し,メモリ消費におけるグラフベースのクラスタリング手法と比較して大きな優位性を示す。

Face clustering plays an essential role in exploiting massive unlabeled face data. Recently, graph-based face clustering methods are getting popular for their satisfying performances. However, they usually suffer from excessive memory consumption especially on large-scale graphs, and rely on empirical thresholds to determine the connectivities between samples in inference, which restricts their applications in various real-world scenes. To address such problems, in this paper, we explore face clustering from the pairwise angle. Specifically, we formulate the face clustering task as a pairwise relationship classification task, avoiding the memory-consuming learning on large-scale graphs. The classifier can directly determine the relationship between samples and is enhanced by taking advantage of the contextual information. Moreover, to further facilitate the efficiency of our method, we propose a rank-weighted density to guide the selection of pairs sent to the classifier. Experimental results demonstrate that our method achieves state-of-the-art performances on several public clustering benchmarks at the fastest speed and shows a great advantage in comparison with graph-based clustering methods on memory consumption.
翻訳日:2022-05-28 06:25:44 公開日:2022-05-26
# (参考訳) パラフレージングのメトリクスを理解する

Understanding Metrics for Paraphrasing ( http://arxiv.org/abs/2205.13119v1 )

ライセンス: CC0 1.0
Omkar Patil, Rahul Singh and Tarun Joshi(参考訳) パラフレーズ生成は難しい問題です。 これは、テキスト生成機能に制限があるだけでなく、パラフレーズとして適合するものとそれに対応するメトリクスの適切な定義が欠けているためでもある。 パラフレージング品質の評価基準は、進行中の研究課題である。 他のタスクから借用された既存のメトリクスのほとんどは、優れたパラフレーズの完全な本質を捉えておらず、しばしば境界線ケースで失敗する。 本研究では, パラフレーズの品質を, 精度, ノベルティ, フラレンシの次元に沿って測定する指標として, ROUGE_P$を提案する。 また,現在の自然言語生成指標が不十分であることを示す実証的証拠も提供し,これらの望ましいパラフレーズの望ましい特性を計測する。 優れたパラフレーズの生成と評価に何が必要なのかをより深く理解するために、メトリクスのレンズからのパラフレーズモデルの微調整と生成について検討する。

Paraphrase generation is a difficult problem. This is not only because of the limitations in text generation capabilities but also due that to the lack of a proper definition of what qualifies as a paraphrase and corresponding metrics to measure how good it is. Metrics for evaluation of paraphrasing quality is an on going research problem. Most of the existing metrics in use having been borrowed from other tasks do not capture the complete essence of a good paraphrase, and often fail at borderline-cases. In this work, we propose a novel metric $ROUGE_P$ to measure the quality of paraphrases along the dimensions of adequacy, novelty and fluency. We also provide empirical evidence to show that the current natural language generation metrics are insufficient to measure these desired properties of a good paraphrase. We look at paraphrase model fine-tuning and generation from the lens of metrics to gain a deeper understanding of what it takes to generate and evaluate a good paraphrase.
翻訳日:2022-05-28 06:13:13 公開日:2022-05-26
# (参考訳) 記号物理学習者:モンテカルロ木探索による制御方程式の発見

Symbolic Physics Learner: Discovering governing equations via Monte Carlo tree search ( http://arxiv.org/abs/2205.13134v1 )

ライセンス: CC BY-SA 4.0
Fangzheng Sun, Yang Liu, Jian-Xun Wang, Hao Sun(参考訳) 非線形力学は自然界においてユビキタスであり、様々な科学・工学分野でよく見られる。 限られたデータから非線形ダイナミクスを管理する分析式を蒸留することは不可欠だが困難である。 そこで本研究では,非線形力学の数学的構造を明らかにするために,SPL(Symbolic Physics Learner)マシンを提案する。 鍵となる概念は、数理演算やシステム状態変数を計算規則や記号で解釈し、式木を通して数式を象徴的に推論し、モンテカルロ木探索(mcts)エージェントを用いて測定データに基づいて最適な式木を探索する。 MCTSエージェントは、表現木のトラバースを通じて楽観的な選択ポリシーを取得し、基礎となる物理の算術表現にマップする。 提案手法の特徴は,探索の柔軟性と発見方程式に対するparsimonyの適用である。 pslマシンの有効性と優位性を数値例で示し、最先端のベースラインと比較した。

Nonlinear dynamics is ubiquitous in nature and commonly seen in various science and engineering disciplines. Distilling analytical expressions that govern nonlinear dynamics from limited data remains vital but challenging. To tackle this fundamental issue, we propose a novel Symbolic Physics Learner (SPL) machine to discover the mathematical structure of nonlinear dynamics. The key concept is to interpret mathematical operations and system state variables by computational rules and symbols, establish symbolic reasoning of mathematical formulas via expression trees, and employ a Monte Carlo tree search (MCTS) agent to explore optimal expression trees based on measurement data. The MCTS agent obtains an optimistic selection policy through the traversal of expression trees, featuring the one that maps to the arithmetic expression of underlying physics. Salient features of the proposed framework include search flexibility and enforcement of parsimony for discovered equations. The efficacy and superiority of the PSL machine are demonstrated by numerical examples, compared with state-of-the-art baselines.
翻訳日:2022-05-28 05:54:20 公開日:2022-05-26
# (参考訳) MixMIM:効率的な視覚表現学習のための混合・マスク画像モデリング

MixMIM: Mixed and Masked Image Modeling for Efficient Visual Representation Learning ( http://arxiv.org/abs/2205.13137v1 )

ライセンス: CC BY 4.0
Jihao Liu, Xin Huang, Yu Liu, Hongsheng Li(参考訳) 本研究では,様々な階層型視覚変換器に適用可能なMIM法であるMixMIM(Mixed and Masked Image Modeling)を提案する。 既存のMIM法は、入力トークンのランダムなサブセットを特別なMASKシンボルに置き換え、劣化した画像から元の画像トークンを再構成することを目的としている。 しかし,MASKシンボルの使用によってトレーニングが大幅に遅くなり,マスク比が大きい(例えばBeiTの40%)ため,トレーニングファインタニングの不整合が生じることがわかった。 対照的に、ある画像のマスクされたトークンを別の画像の目に見えるトークン、すなわち混合画像に置き換える。 次に、混合入力から元の2つの画像を再構成する二重再構成を行い、効率を大幅に向上させる。 MixMIMは様々なアーキテクチャに適用できるが、本論文ではよりシンプルだがより強力な階層変換器を探索し、MixMIM-B, -L, -Hでスケールする。 実験により、MixMIMは高品質な視覚表現を効率的に学習できることが示されている。 特に、88Mパラメータを持つMixMIM-Bは600エポックで事前トレーニングすることで、ImageNet-1K上で85.1%のトップ-1精度を達成する。 さらに、他の6つのデータセットでの転送パフォーマンスは、MixMIMが従来のMIMメソッドよりもFLOP/パフォーマンストレードオフが優れていることを示している。 コードはhttps://github.com/Sense-X/MixMIMで入手できる。

In this study, we propose Mixed and Masked Image Modeling (MixMIM), a simple but efficient MIM method that is applicable to various hierarchical Vision Transformers. Existing MIM methods replace a random subset of input tokens with a special MASK symbol and aim at reconstructing original image tokens from the corrupted image. However, we find that using the MASK symbol greatly slows down the training and causes training-finetuning inconsistency, due to the large masking ratio (e.g., 40% in BEiT). In contrast, we replace the masked tokens of one image with visible tokens of another image, i.e., creating a mixed image. We then conduct dual reconstruction to reconstruct the original two images from the mixed input, which significantly improves efficiency. While MixMIM can be applied to various architectures, this paper explores a simpler but stronger hierarchical Transformer, and scales with MixMIM-B, -L, and -H. Empirical results demonstrate that MixMIM can learn high-quality visual representations efficiently. Notably, MixMIM-B with 88M parameters achieves 85.1% top-1 accuracy on ImageNet-1K by pretraining for 600 epochs, setting a new record for neural networks with comparable model sizes (e.g., ViT-B) among MIM methods. Besides, its transferring performances on the other 6 datasets show MixMIM has better FLOPs / performance tradeoff than previous MIM methods. Code is available at https://github.com/Sense-X/MixMIM.
翻訳日:2022-05-28 05:18:59 公開日:2022-05-26
# (参考訳) クラス不均衡テキスト分類のための教師なし強化適応

Unsupervised Reinforcement Adaptation for Class-Imbalanced Text Classification ( http://arxiv.org/abs/2205.13139v1 )

ライセンス: CC BY 4.0
Yuexin Wu and Xiaolei Huang(参考訳) クラス不均衡は、異なるドメインのトレーニングモデルとテストモデルに自然に存在する。 unsupervised domain adaptation(uda)は、ソースドメインからのアクセス可能なアノテーションと、対象ドメインからのラベルなしデータのみを使用して、モデルパフォーマンスを増強する。 しかし、既存の最先端のUDAモデルはドメイン不変表現を学習し、主にドメイン間のクラスバランスのデータに基づいて評価する。 本研究では,ドメイン間の特徴量と不均衡なラベルを協調的に活用する強化学習による教師なしドメイン適応手法を提案する。 そこで本論文では,テキスト分類タスクを実験し,提案手法と5つのベースラインを比較した。 3つのデータセットの実験により,提案手法はドメイン不変表現を効果的に学習し,不均衡なクラスにテキスト分類器を適用できることが証明された。 コードはhttps://github.com/woqingdoua/imbalanceclassで入手できる。

Class imbalance naturally exists when train and test models in different domains. Unsupervised domain adaptation (UDA) augments model performance with only accessible annotations from the source domain and unlabeled data from the target domain. However, existing state-of-the-art UDA models learn domain-invariant representations and evaluate primarily on class-balanced data across domains. In this work, we propose an unsupervised domain adaptation approach via reinforcement learning that jointly leverages feature variants and imbalanced labels across domains. We experiment with the text classification task for its easily accessible datasets and compare the proposed method with five baselines. Experiments on three datasets prove that our proposed method can effectively learn robust domain-invariant representations and successfully adapt text classifiers on imbalanced classes over domains. The code is available at https://github.com/woqingdoua/ImbalanceClass.
翻訳日:2022-05-28 05:06:46 公開日:2022-05-26
# (参考訳) 改良ビタビアルゴリズムによる感性分析のための文法検出

Grammar Detection for Sentiment Analysis through Improved Viterbi Algorithm ( http://arxiv.org/abs/2205.13148v1 )

ライセンス: CC BY 4.0
Surya Teja Chavali, Charan Tej Kandavalli, Sugash T M(参考訳) 文法検出は、原文の音声タグ付けの一部ともいわれるが、名前付きエンティティ認識、質問応答、感情分析など、様々な自然言語処理パイプラインの基盤となる構成要素であると考えられている。 言い換えれば、音声タグ付けの部分とは、名詞、動詞、形容詞、副詞などを含む文の各単語を指定し、タグ付けするタスクである。 感性分析は、ある文の感情的トーンが中立か正か負かを決定するのに慣れた手順である。 フレーズ内の論文やエンティティに極性スコアを割り当てるために、インテキスト分析と分析、機械学習と自然言語処理が組み込まれている。 pos taggerを使ったこの感情分析は、特定のトピックに対して、より広い大衆の要約を促すのに役立ちます。 そこで我々は,posタグ付けにviterbiアルゴリズム,隠れマルコフモデル,制約に基づくviterbiアルゴリズムを用いる。 精度を比較することで、文の文字を決定するための感性分析モデルの最上位の正確な結果を選択する。

Grammar Detection, also referred to as Parts of Speech Tagging of raw text, is considered an underlying building block of the various Natural Language Processing pipelines like named entity recognition, question answering, and sentiment analysis. In short, forgiven a sentence, Parts of Speech tagging is the task of specifying and tagging each word of a sentence with nouns, verbs, adjectives, adverbs, and more. Sentiment Analysis may well be a procedure accustomed to determining if a given sentence's emotional tone is neutral, positive or negative. To assign polarity scores to the thesis or entities within phrase, in-text analysis and analytics, machine learning and natural language processing, approaches are incorporated. This Sentiment Analysis using POS tagger helps us urge a summary of the broader public over a specific topic. For this, we are using the Viterbi algorithm, Hidden Markov Model, Constraint based Viterbi algorithm for POS tagging. By comparing the accuracies, we select the foremost accurate result of the model for Sentiment Analysis for determining the character of the sentence.
翻訳日:2022-05-28 04:52:32 公開日:2022-05-26
# (参考訳) テンソル構造入力に対するコスト効率のよいガウステンソルネットワーク埋め込み

Cost-efficient Gaussian Tensor Network Embeddings for Tensor-structured Inputs ( http://arxiv.org/abs/2205.13163v1 )

ライセンス: CC BY 4.0
Linjian Ma and Edgar Solomonik(参考訳) 本研究ではテンソルネットワーク構造を持つランダム行列(S$)であるテンソルネットワーク埋め込みについて述べる。 これらの埋め込みはテンソルネットワーク構造入力の次元的還元を$x$で行い、テンソル分解やカーネル回帰のようなアプリケーションを加速するために使われてきた。 既存の研究は、特定の構造を持つ入力に対して$x$の埋め込みを設計しており、$Sx$を計算する計算コストは効率的である。 より一般的なテンソルネットワーク構造を持つ入力に対して、スケッチサイズ(ローサイズ:$S$)とスケッチ計算コストの両方が低いような、ガウスランダムテンソルからなるテンソルネットワーク埋め込みを体系的に設計する方法を提供する。 我々は、スケッチ行列の列に還元できる一般的なテンソルネットワーク埋め込みを解析する。 このような埋め込みの精度を定量化し、この条件を満たし、どの入力次元よりもスケッチサイズが小さい埋め込みを用いて、漸近的コスト低下境界を導出するのに十分な条件を提供する。 そして、そのような埋め込みを用いて入力データを効率的にスケッチするアルゴリズムを提供する。 アルゴリズムで使用される埋め込みのスケッチサイズは、入力のスケッチ次元の数に線形に依存する。 テンソルの縮約が古典的密度行列乗算アルゴリズムを用いて行われると仮定すると、このアルゴリズムは、$O(\sqrt{m})$のコストローバウンドで漸近コストを達成し、$m$はスケッチサイズである。 さらに、入力中の各テンソルがスケッチが必要な次元を持つ場合、このアルゴリズムは最適なスケッチの漸近コストを得る。 スケッチ解析を不正確なテンソル分解最適化アルゴリズムに適用する。 cp分解のためのスケッチアルゴリズムは,複数領域の既存処理よりも漸近的に高速であり,既存のテンソルトレインラウンドングアルゴリズムの最適性を示す。

This work discusses tensor network embeddings, which are random matrices ($S$) with tensor network structure. These embeddings have been used to perform dimensionality reduction of tensor network structured inputs $x$ and accelerate applications such as tensor decomposition and kernel regression. Existing works have designed embeddings for inputs $x$ with specific structures, such that the computational cost for calculating $Sx$ is efficient. We provide a systematic way to design tensor network embeddings consisting of Gaussian random tensors, such that for inputs with more general tensor network structures, both the sketch size (row size of $S$) and the sketching computational cost are low. We analyze general tensor network embeddings that can be reduced to a sequence of sketching matrices. We provide a sufficient condition to quantify the accuracy of such embeddings and derive sketching asymptotic cost lower bounds using embeddings that satisfy this condition and have a sketch size lower than any input dimension. We then provide an algorithm to efficiently sketch input data using such embeddings. The sketch size of the embedding used in the algorithm has a linear dependence on the number of sketching dimensions of the input. Assuming tensor contractions are performed with classical dense matrix multiplication algorithms, this algorithm achieves asymptotic cost within a factor of $O(\sqrt{m})$ of our cost lower bound, where $m$ is the sketch size. Further, when each tensor in the input has a dimension that needs to be sketched, this algorithm yields the optimal sketching asymptotic cost. We apply our sketching analysis to inexact tensor decomposition optimization algorithms. We provide a sketching algorithm for CP decomposition that is asymptotically faster than existing work in multiple regimes, and show optimality of an existing algorithm for tensor train rounding.
翻訳日:2022-05-28 04:43:34 公開日:2022-05-26
# (参考訳) 4次元再サンプリングによる光場雨滴除去

Light Field Raindrop Removal via 4D Re-sampling ( http://arxiv.org/abs/2205.13165v1 )

ライセンス: CC BY 4.0
Dong Jing, Shuo Zhang, Song Chang, Youfang Lin(参考訳) 光界雨滴除去(LFRR)は、光界(LF)の雨滴によって隠された背景領域を復元することを目的としている。 単一画像と比較すると、LFはシーンを定期的に高密度にサンプリングすることで、より豊富な情報を提供する。 雨滴はlfの背景よりも差が大きいため、雨滴によって引き起こされたテクスチャの詳細の大部分は他の視点で見ることができる。 本稿では,再サンプリングモジュールとリファインメントモジュールからなる入力雨滴LFにおいて,雨滴のない領域の補似画素情報を直接利用して,新しいLFRRネットワークを提案する。 特に、再サンプリングモジュールは、再サンプリング位置予測と提案する4次元補間により雨滴による汚染が少ない新しいlfを生成する。 改良モジュールは、完全に遮蔽された背景領域の復元を改善し、4次元補間による画素誤差を補正する。 さらに、モデルトレーニングと検証のための最初の実シーンLFRRデータセットを慎重に構築する。 実験により,提案手法は雨滴を効果的に除去し,背景復元とビューの一貫性維持の両方において最先端のパフォーマンスを実現することを実証した。

The Light Field Raindrop Removal (LFRR) aims to restore the background areas obscured by raindrops in the Light Field (LF). Compared with single image, the LF provides more abundant information by regularly and densely sampling the scene. Since raindrops have larger disparities than the background in the LF, the majority of texture details occluded by raindrops are visible in other views. In this paper, we propose a novel LFRR network by directly utilizing the complementary pixel information of raindrop-free areas in the input raindrop LF, which consists of the re-sampling module and the refinement module. Specifically, the re-sampling module generates a new LF which is less polluted by raindrops through re-sampling position predictions and the proposed 4D interpolation. The refinement module improves the restoration of the completely occluded background areas and corrects the pixel error caused by 4D interpolation. Furthermore, we carefully build the first real scene LFRR dataset for model training and validation. Experiments demonstrate that the proposed method can effectively remove raindrops and achieves state-of-the-art performance in both background restoration and view consistency maintenance.
翻訳日:2022-05-28 03:56:41 公開日:2022-05-26
# (参考訳) 生成コモンセンス推論を再考する - 事前注文アプローチ

Revisiting Generative Commonsense Reasoning: A Pre-Ordering Approach ( http://arxiv.org/abs/2205.13183v1 )

ライセンス: CC BY 4.0
Chao Zhao and Faeze Brahman and Tenghao Huang and Snigdha Chaturvedi(参考訳) 事前学習モデル(PTM)は自然言語生成(NLG)を大幅に改善した。 しかし、どの程度の常識知識を持っているのかは不明である。 NLGモデルのコモンセンス知識を評価することを目的として、最近の研究は、生成コモンセンス推論(例えば、順序のない概念の集合を与えられた論理文を構成する)の問題を提案した。 既存のアプローチでは、PTMは、外部知識やタスク固有の事前学習目標を導入することで克服できる、このタスクに十分なパラメトリック知識を欠いていると仮定されている。 この傾向と異なり, PTMの生成コモンセンス推論能力は, 入力の順序に依存しない性質から過小評価されている。 特に,入力概念の順序が,その常識的知識を利用するPTMの能力に影響を与えると仮定する。 そこで本研究では,与えられた概念の順序を生成前に精巧に操作する事前注文手法を提案する。 実験によると、我々のアプローチは、多くの外部データやリソースにアクセスするより洗練されたモデルよりも優れています。

Pre-trained models (PTMs) have lead to great improvements in natural language generation (NLG). However, it is still unclear how much commonsense knowledge they possess. With the goal of evaluating commonsense knowledge of NLG models, recent work has proposed the problem of generative commonsense reasoning, e.g., to compose a logical sentence given a set of unordered concepts. Existing approaches to this problem hypothesize that PTMs lack sufficient parametric knowledge for this task, which can be overcome by introducing external knowledge or task-specific pre-training objectives. Different from this trend, we argue that PTM's inherent ability for generative commonsense reasoning is underestimated due to the order-agnostic property of its input. In particular, we hypothesize that the order of the input concepts can affect the PTM's ability to utilize its commonsense knowledge. To this end, we propose a pre-ordering approach to elaborately manipulate the order of the given concepts before generation. Experiments show that our approach can outperform the more sophisticated models that have access to a lot of external data and resources.
翻訳日:2022-05-28 03:55:45 公開日:2022-05-26
# (参考訳) HiLoアテンションを用いた高速ビジョントランス

Fast Vision Transformers with HiLo Attention ( http://arxiv.org/abs/2205.13213v1 )

ライセンス: CC BY 4.0
Zizheng Pan, Jianfei Cai, Bohan Zhuang(参考訳) ビジョントランスフォーマー(ViT)はコンピュータビジョンにおける最新の重要なブレークスルーを引き起こしている。 彼らの効率的な設計は、主に計算複雑性の間接メートル法、すなわちFLOPによって導かれるが、スループットのような直接メートル法と明確なギャップがある。 そこで本稿では,効率的なViTの設計原理として,ターゲットプラットフォーム上での直接速度評価を提案する。 特に,より高速なモデルサイズで,既存の最先端手法に対して良好に動作可能な,シンプルで効果的なViTであるLITv2を紹介する。 LITv2の中核は、HiLoをダブする新しい自己保持機構である。 HiLoは、画像中の高頻度が局所的な細部を捉え、低頻度がグローバル構造に焦点をあてているという洞察にインスパイアされている。 そこで,本研究では,頭部を2つのグループに分割し,各ウィンドウ内における自己注意によって高頻度を符号化し,各ウィンドウ内における平均低周波鍵と入力特徴マップ内の各クエリ位置とのグローバルな関係をモデル化する手法を提案する。 両グループの効率的な設計から, FLOP, 速度, メモリ消費を総合的にベンチマークすることで, HiLo は既存の注意機構よりも優れていることを示す。 hiloを搭載したlitv2は、画像分類、高密度検出、セグメンテーションなど、主要なビジョンタスクのバックボーンとして機能する。 コードはhttps://github.com/zip-group/litv2で入手できる。

Vision Transformers (ViTs) have triggered the most recent and significant breakthroughs in computer vision. Their efficient designs are mostly guided by the indirect metric of computational complexity, i.e., FLOPs, which however has a clear gap with the direct metric such as throughput. Thus, we propose to use the direct speed evaluation on the target platform as the design principle for efficient ViTs. Particularly, we introduce LITv2, a simple and effective ViT which performs favourably against the existing state-of-the-art methods across a spectrum of different model sizes with faster speed. At the core of LITv2 is a novel self-attention mechanism, which we dub HiLo. HiLo is inspired by the insight that high frequencies in an image capture local fine details and low frequencies focus on global structures, whereas a multi-head self-attention layer neglects the characteristic of different frequencies. Therefore, we propose to disentangle the high/low frequency patterns in an attention layer by separating the heads into two groups, where one group encodes high frequencies via self-attention within each local window, and another group performs the attention to model the global relationship between the average-pooled low-frequency keys from each window and each query position in the input feature map. Benefit from the efficient design for both groups, we show that HiLo is superior to the existing attention mechanisms by comprehensively benchmarking on FLOPs, speed and memory consumption on GPUs. Powered by HiLo, LITv2 serves as a strong backbone for mainstream vision tasks including image classification, dense detection and segmentation. Code is available at https://github.com/zip-group/LITv2.
翻訳日:2022-05-28 03:42:42 公開日:2022-05-26
# (参考訳) フェデレーション学習のための符号化領域における勾配の集約

Aggregating Gradients in Encoded Domain for Federated Learning ( http://arxiv.org/abs/2205.13216v1 )

ライセンス: CC BY 4.0
Dun Zeng, Shiyu Liu, Zenglin Xu(参考訳) 悪意のある攻撃者や、正直なサーバは、連合学習でアップロードされた勾配からプライベートクライアントデータを盗むことができる。 現在の保護法(例えば、追加のホモモルフィック暗号システム)は、連合学習システムのセキュリティを保証することができるが、さらなる計算と通信コストをもたらす。 このフレームワークにより、サーバは、単一のクライアントの生の勾配にアクセスすることなく、エンコードされたドメイン内の勾配を集約できる。 したがって、 \texttt{fedage} は、追加の通信コストなしで同じ予測性能を維持しながら、好奇心のあるサーバが勾配盗みを防止できる。 さらに,提案手法が微分プライバシーのためのガウス機構であることを理論的に証明する。 最後に,いくつかのフェデレーション設定下でのtexttt{FedAGE} の評価を行い,提案手法の有効性を実証した。

Malicious attackers and an honest-but-curious server can steal private client data from uploaded gradients in federated learning. Although current protection methods (e.g., additive homomorphic cryptosystem) can guarantee the security of the federated learning system, they bring additional computation and communication costs. To mitigate the cost, we propose the \texttt{FedAGE} framework, which enables the server to aggregate gradients in an encoded domain without accessing raw gradients of any single client. Thus, \texttt{FedAGE} can prevent the curious server from gradient stealing while maintaining the same prediction performance without additional communication costs. Furthermore, we theoretically prove that the proposed encoding-decoding framework is a Gaussian mechanism for differential privacy. Finally, we evaluate \texttt{FedAGE} under several federated settings, and the results have demonstrated the efficacy of the proposed framework.
翻訳日:2022-05-28 03:23:31 公開日:2022-05-26
# (参考訳) QSpeech: 低量子量子音声アプリケーションツールキット

QSpeech: Low-Qubit Quantum Speech Application Toolkit ( http://arxiv.org/abs/2205.13221v1 )

ライセンス: CC BY 4.0
Zhenhou Hong, Jianzong Wang, Xiaoyang Qu, Chendong Zhao, Wei Tao and Jing Xiao(参考訳) 低量子ビットの量子デバイスは、ノイズ中間スケール量子(NISQ)時代に一般的である。 しかしながら、低量子ビット量子デバイス上で動作する量子ニューラルネットワーク(QNN)は、多くの量子ビットを必要とする変分量子回路(VQC)に基づいているため、難しい。 したがって、QNNとVQCを低量子ビットの量子デバイスで動作させることが重要である。 本研究では,低量子VQCと呼ばれる新しいVQCを提案する。 VQCは入力次元に基づいて多数の量子ビットを必要とするが、線形変換を伴う低量子ビットVQCはこの条件を解放することができる。 これにより、QNNは低量子ビットの量子デバイス上で音声アプリケーションを実行することができる。 さらに、VQCと比較して、提案した低ビットVQCはトレーニングプロセスをより安定させることができる。 低量子ビットVQCに基づいて、音声分野におけるハイブリッド量子古典ニューラルネットワークの高速プロトタイピングのためのライブラリQSpeechを実装した。 音声応用のための量子ニューラルネットワーク層とqnnモデルが多数存在する。 音声コマンド認識とテキスト音声合成の実験により、提案した低ビットVQCはVQCより優れ、より安定であることを示す。

Quantum devices with low qubits are common in the Noisy Intermediate-Scale Quantum (NISQ) era. However, Quantum Neural Network (QNN) running on low-qubit quantum devices would be difficult since it is based on Variational Quantum Circuit (VQC), which requires many qubits. Therefore, it is critical to make QNN with VQC run on low-qubit quantum devices. In this study, we propose a novel VQC called the low-qubit VQC. VQC requires numerous qubits based on the input dimension; however, the low-qubit VQC with linear transformation can liberate this condition. Thus, it allows the QNN to run on low-qubit quantum devices for speech applications. Furthermore, as compared to the VQC, our proposed low-qubit VQC can stabilize the training process more. Based on the low-qubit VQC, we implement QSpeech, a library for quick prototyping of hybrid quantum-classical neural networks in the speech field. It has numerous quantum neural layers and QNN models for speech applications. Experiments on Speech Command Recognition and Text-to-Speech show that our proposed low-qubit VQC outperforms VQC and is more stable.
翻訳日:2022-05-28 02:44:37 公開日:2022-05-26
# (参考訳) censor-aware semi-supervised learningによる医学画像からの生存時間予測

Censor-aware Semi-supervised Learning for Survival Time Prediction from Medical Images ( http://arxiv.org/abs/2205.13226v1 )

ライセンス: CC BY 4.0
Renato Hermoza, Gabriel Maicas, Jacinto C. Nascimento, Gustavo Carneiro(参考訳) 医療画像からの生存時間予測は、正確な推定によって医療品質が向上する治療計画において重要である。 生存モデルの訓練に影響を与える1つの問題は検閲データである。 現在の生存予測アプローチのほとんどは、検閲されたデータを扱うことができるCoxモデルに基づいているが、生存時間ではなくハザード関数を出力するため、アプリケーションの範囲は限られている。 一方、生存時間を予測する手法は、通常検閲されたデータを無視し、トレーニングセットの未活用につながる。 そこで本研究では,すべての検閲データと無検閲データを用いて生存時間を予測する新しいトレーニング手法を提案する。 筆者らは,検閲されたデータを,死までの時間が低いサンプルとして扱い,疑似ラベルを推定し,検閲を意識した生存時間回帰器を半監督することを提案する。 TCGA-GMおよびNLSTデータセットの病理像とX線像について検討した。 その結果,両データセットの生存予測精度が得られた。

Survival time prediction from medical images is important for treatment planning, where accurate estimations can improve healthcare quality. One issue affecting the training of survival models is censored data. Most of the current survival prediction approaches are based on Cox models that can deal with censored data, but their application scope is limited because they output a hazard function instead of a survival time. On the other hand, methods that predict survival time usually ignore censored data, resulting in an under-utilization of the training set. In this work, we propose a new training method that predicts survival time using all censored and uncensored data. We propose to treat censored data as samples with a lower-bound time to death and estimate pseudo labels to semi-supervise a censor-aware survival time regressor. We evaluate our method on pathology and x-ray images from the TCGA-GM and NLST datasets. Our results establish the state-of-the-art survival prediction accuracy on both datasets.
翻訳日:2022-05-28 02:28:08 公開日:2022-05-26
# (参考訳) ソーシャルロボットと時間知識グラフを用いた共生児童感情支援

Symbiotic Child Emotional Support with Social Robots and Temporal Knowledge Graphs ( http://arxiv.org/abs/2205.13229v1 )

ライセンス: CC BY 4.0
Isabella Saccardi, Duygu Sezen Islakoglu, Anouk Neerincx, Federica Lucia Vinella(参考訳) 現在の青少年ケアプログラムでは、学校や病院で1対1の援助として若者や家族の専門家から支援を受ける(精神保健、家族問題、学習障害、自閉症)。 時折、社会ロボットは子供との1対1のインタラクションを支援するような設定で機能することがある。 本稿では,社会ロボットの知識グラフ(KG)を用いたリアルタイム感情支援(ES)のための共生フレームワークの開発を提案する。 子ども向けESの文献(8歳から12歳)からドメイン固有コーパスを増補し,イベントの歴史を含むシナリオ駆動型コンテキストを提供することにより,実験的な知識対応ESフレームワークの開発を提案する。 このフレームワークはどちらも、子どもにESステートメントを提供することで社会ロボットを誘導し、子どもの感情状態や関連する出来事を時間とともに追跡・解釈する専門家を支援する。

In current youth-care programs, children with needs (mental health, family issues, learning disabilities, and autism) receive support from youth and family experts as one-to-one assistance at schools or hospitals. Occasionally, social robots have featured in such settings as support roles in a one-to-one interaction with the child. In this paper, we suggest the development of a symbiotic framework for real-time Emotional Support (ES) with social robots Knowledge Graphs (KG). By augmenting a domain-specific corpus from the literature on ES for children (between the age of 8 and 12) and providing scenario-driven context including the history of events, we suggest developing an experimental knowledge-aware ES framework. The framework both guides the social robot in providing ES statements to the child and assists the expert in tracking and interpreting the child's emotional state and related events over time.
翻訳日:2022-05-28 02:17:36 公開日:2022-05-26
# (参考訳) 短いビデオレコメンデーションのための制約付き強化学習

Constrained Reinforcement Learning for Short Video Recommendation ( http://arxiv.org/abs/2205.13248v1 )

ライセンス: CC BY 4.0
Qingpeng Cai, Ruohan Zhan, Chi Zhang, Jie Zheng, Guangwei Ding, Pinghua Gong, Dong Zheng, Peng Jiang(参考訳) ソーシャルメディア上でのショートビデオの普及は、ビデオ共有プラットフォームの推奨システムを最適化する新たな機会と課題をもたらす。 ユーザは、ウォッチタイムやビデオとのさまざまなインタラクションなど、リコメンデーションに対する複雑で多面的な応答を提供する。 その結果、単一の目的に関する確立されたレコメンデーションアルゴリズムは、包括的ユーザエクスペリエンスの最適化という新たな要求を満たすには不十分である。 本稿では,ビデオ共有・ダウンロードなどのユーザインタラクションの補助的応答を調節する制約により,プラットフォームが長期にわたってユーザ監視時間の主目的を最適化したいという制約付きマルコフ決定プロセス(MDP)として,短いビデオレコメンデーションの問題を定式化する。 制約付きMDPを解決するために,アクター批判フレームワークに基づく2段階強化学習手法を提案する。 ステージ1では、各補助応答を最適化する個別のポリシーを学習する。 第二段階では 政策を学びます (i)主応答を最適化し、 (二)第一段階において学んだ政策に近づかないこと。これにより、この主要な政策の補助者に対する性能が実質的に保証される。 広範なシミュレーションを通じて,本手法は,目標の最適化と他とのバランスの両立において,代替案よりも有効であることを示す。 さらに、短いビデオレコメンデーションのライブ実験において、我々のアプローチの利点が示され、ビデオビューからの視聴時間やインタラクションの点で、他のベースラインを著しく上回っている。 当社のアプローチは,プラットフォーム上のユーザエクスペリエンスを最適化する目的で,本番システムで完全にローンチされています。

The wide popularity of short videos on social media poses new opportunities and challenges to optimize recommender systems on the video-sharing platforms. Users provide complex and multi-faceted responses towards recommendations, including watch time and various types of interactions with videos. As a result, established recommendation algorithms that concern a single objective are not adequate to meet this new demand of optimizing comprehensive user experiences. In this paper, we formulate the problem of short video recommendation as a constrained Markov Decision Process (MDP), where platforms want to optimize the main goal of user watch time in long term, with the constraint of accommodating the auxiliary responses of user interactions such as sharing/downloading videos. To solve the constrained MDP, we propose a two-stage reinforcement learning approach based on actor-critic framework. At stage one, we learn individual policies to optimize each auxiliary response. At stage two, we learn a policy to (i) optimize the main response and (ii) stay close to policies learned at the first stage, which effectively guarantees the performance of this main policy on the auxiliaries. Through extensive simulations, we demonstrate effectiveness of our approach over alternatives in both optimizing the main goal as well as balancing the others. We further show the advantage of our approach in live experiments of short video recommendations, where it significantly outperforms other baselines in terms of watch time and interactions from video views. Our approach has been fully launched in the production system to optimize user experiences on the platform.
翻訳日:2022-05-28 02:09:07 公開日:2022-05-26
# (参考訳) DT-SV:話者検証のための変換器に基づく時間領域アプローチ

DT-SV: A Transformer-based Time-domain Approach for Speaker Verification ( http://arxiv.org/abs/2205.13249v1 )

ライセンス: CC BY 4.0
Nan Zhang, Jianzong Wang, Zhenhou Hong, Chendong Zhao, Xiaoyang Qu, Jing Xiao(参考訳) 話者検証(SV)は、話者の発話の同一性が基準音声と同じかどうかを判定することを目的としている。 近年,SVシステムのためのディープニューラルネットワークを用いた話者埋め込みの抽出が主流となっている。 近年,SV分野において様々な注意機構やトランスフォーマーネットワークが広く研究されている。 しかし、svで元のトランスフォーマーを直接利用すると、出力機能に関するフレームレベルの情報が無駄になり、キャパシティの制限や話者埋め込みの識別につながる可能性がある。 そこで本研究では, 差分損失と呼ばれる新しい損失関数を用いて, 異なるトランス層の特徴情報を統合したトランスフォーマーアーキテクチャによる発話レベル話者埋め込みの導出手法を提案する。 差分損失はフレームレベルの特徴を発話レベルの表現に集約することを目的としており、トランスフォーマーに迅速に統合することができる。 また,学習可能なメル・フバンクエネルギー特徴抽出器であるタイムドメイン特徴抽出器を導入し,メル・フバンク特徴を標準のメル・フバンク抽出器よりも高精度かつ効率的に計算する。 拡散損失と時間領域特徴抽出器を組み合わせることで,高速なトレーニング速度と高精度な時間領域SVモデル(DT-SV)を提案する。 実験の結果,提案モデルは他のモデルと比較して優れた性能が得られることがわかった。

Speaker verification (SV) aims to determine whether the speaker's identity of a test utterance is the same as the reference speech. In the past few years, extracting speaker embeddings using deep neural networks for SV systems has gone mainstream. Recently, different attention mechanisms and Transformer networks have been explored widely in SV fields. However, utilizing the original Transformer in SV directly may have frame-level information waste on output features, which could lead to restrictions on capacity and discrimination of speaker embeddings. Therefore, we propose an approach to derive utterance-level speaker embeddings via a Transformer architecture that uses a novel loss function named diffluence loss to integrate the feature information of different Transformer layers. Therein, the diffluence loss aims to aggregate frame-level features into an utterance-level representation, and it could be integrated into the Transformer expediently. Besides, we also introduce a learnable mel-fbank energy feature extractor named time-domain feature extractor that computes the mel-fbank features more precisely and efficiently than the standard mel-fbank extractor. Combining Diffluence loss and Time-domain feature extractor, we propose a novel Transformer-based time-domain SV model (DT-SV) with faster training speed and higher accuracy. Experiments indicate that our proposed model can achieve better performance in comparison with other models.
翻訳日:2022-05-28 01:36:24 公開日:2022-05-26
# (参考訳) Active Labeling: 確率勾配のストリーミング

Active Labeling: Streaming Stochastic Gradients ( http://arxiv.org/abs/2205.13255v1 )

ライセンス: CC BY 4.0
Vivien Cabannes, Francis Bach, Vianney Perchet, Alessandro Rudi(参考訳) 機械学習のワークホースは確率勾配降下である。 確率勾配にアクセスするには、訓練データセットの反復的な入出力ペアを考えることが一般的である。 興味深いことに、この論文の主な動機は、確率勾配にアクセスするための完全な監督を必要としないようである。 部分的監督に基づくアクティブラーニングを一般化する「アクティブラベリング」問題を定式化した後、サンプル数に対する一般化誤差の割合を確実に最小化するストリーミング技術を提供する。 我々はロバスト回帰のためのテクニックを深く説明します。

The workhorse of machine learning is stochastic gradient descent. To access stochastic gradients, it is common to consider iteratively input/output pairs of a training dataset. Interestingly, it appears that one does not need full supervision to access stochastic gradients, which is the main motivation of this paper. After formalizing the "active labeling" problem, which generalizes active learning based on partial supervision, we provide a streaming technique that provably minimizes the ratio of generalization error over number of samples. We illustrate our technique in depth for robust regression.
翻訳日:2022-05-28 01:22:07 公開日:2022-05-26
# (参考訳) MemeTector: ミーム検出に重点を置く

MemeTector: Enforcing deep focus for meme detection ( http://arxiv.org/abs/2205.13268v1 )

ライセンス: CC BY-SA 4.0
Christos Koutlis, Manos Schinas, Symeon Papadopoulos(参考訳) 画像ミーム、特にその広く知られている変種画像マクロは、テキストと画像を組み合わせる特別なメディアタイプであり、ソーシャルメディアでユーモア、皮肉、皮肉、憎しみなどの表現に使用される。 ソーシャルメディアから画像ミームを正確に回収し、オンライン現象の文化的・社会的側面をよりよく捉え、潜在的な問題(音声、偽情報)を検出することが重要である。 基本的に、画像マクロの背景画像は、人間が容易に認識できる通常の画像であるが、完全な画像マクロと特徴マップの類似性のため、マシンにとって面倒である。 したがって、適切な特徴写像を蓄積することで、画像ミームの概念の深い理解につながる可能性がある。 そこで本研究では,画像ミームの視覚的部分を正規画像クラスのインスタンスとして,初期画像ミームをイメージミームクラスのインスタンスとして,モデルに画像ミームを特徴付ける重要な部分に集中させる手法を提案する。 さらに,標準的なvitアーキテクチャ上にトレーニング可能なアテンション機構を採用し,モデルがこれらの重要な部分に集中し,予測を解釈可能にする能力を高めた。 モデルロバスト性と精度の観点から,Webスクラッピングされたテキスト存在の正規画像を含むいくつかのトレーニングおよびテストシナリオを考察する。 これらの結果から, 訓練中に十分なテキストの存在感と軽視的部分の利用が相まって, 最高の, 最も堅牢なモデルが得られた。

Image memes and specifically their widely-known variation image macros, is a special new media type that combines text with images and is used in social media to playfully or subtly express humour, irony, sarcasm and even hate. It is important to accurately retrieve image memes from social media to better capture the cultural and social aspects of online phenomena and detect potential issues (hate-speech, disinformation). Essentially, the background image of an image macro is a regular image easily recognized as such by humans but cumbersome for the machine to do so due to feature map similarity with the complete image macro. Hence, accumulating suitable feature maps in such cases can lead to deep understanding of the notion of image memes. To this end, we propose a methodology that utilizes the visual part of image memes as instances of the regular image class and the initial image memes as instances of the image meme class to force the model to concentrate on the critical parts that characterize an image meme. Additionally, we employ a trainable attention mechanism on top of a standard ViT architecture to enhance the model's ability to focus on these critical parts and make the predictions interpretable. Several training and test scenarios involving web-scraped regular images of controlled text presence are considered in terms of model robustness and accuracy. The findings indicate that light visual part utilization combined with sufficient text presence during training provides the best and most robust model, surpassing state of the art.
翻訳日:2022-05-28 01:21:03 公開日:2022-05-26
# (参考訳) 高コンボリューションニューラルネットワークを用いた急性リンパ性白血病の検出

Acute Lymphoblastic Leukemia Detection Using Hypercomplex-Valued Convolutional Neural Networks ( http://arxiv.org/abs/2205.13273v1 )

ライセンス: CC BY 4.0
Guilherme Vieira and Marcos Eduardo Valle(参考訳) 本稿では,超複素代数上で定義された畳み込みニューラルネットワークを用いて,血液スメアデジタル顕微鏡画像中のリンパ球を分類する。 このような分類は、血液型である急性リンパ性白血病(ALL)の診断に有用である。 8つの超複素数値畳み込みニューラルネットワーク(HvCNN)と実数値畳み込みニューラルネットワークを用いて分類タスクを行う。 以上の結果から,HvCNNは実数値モデルよりも優れた性能を示し,パラメータの少ない精度を示す。 さらに,HSV符号化画像を処理するクリフォード代数に基づくHvCNNは,観測精度が最も高かった。 正確には、我々のHvCNNは平均精度96.6%の精度で、all-IDB2データセットを50%の列車分割で使用し、その値は最先端のモデルに非常に近いが、パラメータが大幅に少ないより単純なアーキテクチャを使用した。

This paper features convolutional neural networks defined on hypercomplex algebras applied to classify lymphocytes in blood smear digital microscopic images. Such classification is helpful for the diagnosis of acute lymphoblast leukemia (ALL), a type of blood cancer. We perform the classification task using eight hypercomplex-valued convolutional neural networks (HvCNNs) along with real-valued convolutional networks. Our results show that HvCNNs perform better than the real-valued model, showcasing higher accuracy with a much smaller number of parameters. Moreover, we found that HvCNNs based on Clifford algebras processing HSV-encoded images attained the highest observed accuracies. Precisely, our HvCNN yielded an average accuracy rate of 96.6% using the ALL-IDB2 dataset with a 50% train-test split, a value extremely close to the state-of-the-art models but using a much simpler architecture with significantly fewer parameters.
翻訳日:2022-05-28 01:03:49 公開日:2022-05-26
# (参考訳) マルチモーダルインタラクティブエージェントの評価

Evaluating Multimodal Interactive Agents ( http://arxiv.org/abs/2205.13274v1 )

ライセンス: CC BY 4.0
Josh Abramson, Arun Ahuja, Federico Carnevale, Petko Georgiev, Alex Goldin, Alden Hung, Jessica Landon, Timothy Lillicrap, Alistair Muldal, Blake Richards, Adam Santoro, Tamara von Glehn, Greg Wayne, Nathaniel Wong, Chen Yan(参考訳) 人間と自然に対話できるエージェントを作ることは、人工知能(ai)研究の共通の目標である。 オンラインの人間とエージェントのインタラクションの収集は遅くて費用がかかるが、より高速なプロキシメトリクスは、対話的な評価とよく相関しないことが多い。 本稿では,これらの評価指標のメリットを評価し,標準化テストスイート(STS)と呼ばれる新しい評価手法を提案する。 stsは、実際の人間の相互作用データから抽出された行動シナリオを使用する。 エージェントは、リプレイされたシナリオコンテキストを確認し、命令を受け取り、オフラインでインタラクションを完了するために制御される。 これらのエージェント継続は、成功または失敗をマークするために人間の注釈者に記録され、成功の継続の割合に応じてランク付けされる。 結果のSTSは、高速で、制御され、解釈可能で、自然主義的な相互作用を代表している。 さらに、STSは私たちの標準的な評価指標の多くを集約し、人間と自然に対話できるエージェントを生み出すための研究の進歩を加速します。 https://youtu.be/YR1TngGORGQ

Creating agents that can interact naturally with humans is a common goal in artificial intelligence (AI) research. However, evaluating these interactions is challenging: collecting online human-agent interactions is slow and expensive, yet faster proxy metrics often do not correlate well with interactive evaluation. In this paper, we assess the merits of these existing evaluation metrics and present a novel approach to evaluation called the Standardised Test Suite (STS). The STS uses behavioural scenarios mined from real human interaction data. Agents see replayed scenario context, receive an instruction, and are then given control to complete the interaction offline. These agent continuations are recorded and sent to human annotators to mark as success or failure, and agents are ranked according to the proportion of continuations in which they succeed. The resulting STS is fast, controlled, interpretable, and representative of naturalistic interactions. Altogether, the STS consolidates much of what is desirable across many of our standard evaluation metrics, allowing us to accelerate research progress towards producing agents that can interact naturally with humans. https://youtu.be/YR1TngGORGQ
翻訳日:2022-05-28 00:30:32 公開日:2022-05-26
# (参考訳) 熱画像における意味セグメンテーション:比較調査

Semantic Segmentation for Thermal Images: A Comparative Survey ( http://arxiv.org/abs/2205.13278v1 )

ライセンス: CC BY 4.0
Z\"ulfiye K\"ut\"uk, G\"orkem Algan(参考訳) セマンティックセグメンテーションは、他のコンピュータビジョン問題と比較して画像の低レベル空間情報を必要とするため、難しい課題である。 画素レベルの分類の精度は、画像内の画像の限界や物体の境界の曖昧さなど、多くの要因に影響される。 従来の手法では、ディープニューラルネットワーク(dnn)を用いて可視スペクトルで撮影された3チャンネルのrgb画像を利用する。 サーマルイメージングカメラは、天候や照明条件に関わらず詳細を捉えることができるため、セグメンテーション中に熱画像は著しく寄与する。 セマンティックセグメンテーションにおける赤外線スペクトルの使用には、自動運転、医療画像、農業、防衛産業など、多くの現実世界のユースケースがある。 この幅広いユースケースのため、赤外線スペクトルの助けを借りて正確な意味セグメンテーションアルゴリズムを設計することは重要な課題である。 一つのアプローチは、可視光と赤外線の両方のスペクトル画像を入力として使うことである。 これらの方法は、複数の入力のアライメントと処理に余分な労力を要し、豊富な入力情報によって高い精度を達成することができる。 別のアプローチは、熱画像のみを使用することで、より小さなユースケースでハードウェアコストを削減できる。 セマンティクスセグメンテーション法に関する調査は複数存在するが,赤外線スペクトルを用いたセマンティクスセグメンテーションを中心とした包括的調査は欠落している。 本研究の目的は,文学におけるアルゴリズムの提示と,それらの入力画像による分類によって,このギャップを埋めることである。

Semantic segmentation is a challenging task since it requires excessively more low-level spatial information of the image compared to other computer vision problems. The accuracy of pixel-level classification can be affected by many factors, such as imaging limitations and the ambiguity of object boundaries in an image. Conventional methods exploit three-channel RGB images captured in the visible spectrum with deep neural networks (DNN). Thermal images can significantly contribute during the segmentation since thermal imaging cameras are capable of capturing details despite the weather and illumination conditions. Using infrared spectrum in semantic segmentation has many real-world use cases, such as autonomous driving, medical imaging, agriculture, defense industry, etc. Due to this wide range of use cases, designing accurate semantic segmentation algorithms with the help of infrared spectrum is an important challenge. One approach is to use both visible and infrared spectrum images as inputs. These methods can accomplish higher accuracy due to enriched input information, with the cost of extra effort for the alignment and processing of multiple inputs. Another approach is to use only thermal images, enabling less hardware cost for smaller use cases. Even though there are multiple surveys on semantic segmentation methods, the literature lacks a comprehensive survey centered explicitly around semantic segmentation using infrared spectrum. This work aims to fill this gap by presenting algorithms in the literature and categorizing them by their input images.
翻訳日:2022-05-28 00:09:54 公開日:2022-05-26
# (参考訳) SAR画像を用いたInfoGANにおける潜時符号の解析的解釈

Analytical Interpretation of Latent Codes in InfoGAN with SAR Images ( http://arxiv.org/abs/2205.13294v1 )

ライセンス: CC BY 4.0
Zhenpeng Feng, Milos Dakovic, Hongbing Ji, Mingzhe Zhu, Ljubisa Stankovic(参考訳) GAN(Generative Adversarial Networks)は、豊富な光リアル合成開口レーダ(SAR)画像を合成することができる。 最近のgan(例えばinfogan)の中には、潜在コードを導入することで合成画像の特定の特性を編集できるものもある。 実際のSAR画像のターゲットは、撮像機構によって異なる性質を持つため、SAR画像合成には重要である。 InfoGANのプロパティ操作の成功にもかかわらず、これらの潜伏コードがどのように合成されたプロパティに影響を及ぼすかについては明確に説明されていない。 本稿では,非線形な方法でSAR画像の特性に影響を与えるために,遅延符号が絡み合っていることを示す。 潜在コードに対する特性推定子を導入することで、潜在コードと異なる特性の間の絡み合った因果関係を分解する完全に解析的な非線形モデルを提供できる。 さらに, 定性的, 定量的な実験結果から, 特性は潜在符号で計算でき, 逆に, 満足できる潜在符号は所望の性質から推定できることがわかった。 この場合、プロパティは期待どおりに潜在コードで操作できる。

Generative Adversarial Networks (GANs) can synthesize abundant photo-realistic synthetic aperture radar (SAR) images. Some recent GANs (e.g., InfoGAN), are even able to edit specific properties of the synthesized images by introducing latent codes. It is crucial for SAR image synthesis since the targets in real SAR images are with different properties due to the imaging mechanism. Despite the success of InfoGAN in manipulating properties, there still lacks a clear explanation of how these latent codes affect synthesized properties, thus editing specific properties usually relies on empirical trials, unreliable and time-consuming. In this paper, we show that latent codes are disentangled to affect the properties of SAR images in a non-linear manner. By introducing some property estimators for latent codes, we are able to provide a completely analytical nonlinear model to decompose the entangled causality between latent codes and different properties. The qualitative and quantitative experimental results further reveal that the properties can be calculated by latent codes, inversely, the satisfying latent codes can be estimated given desired properties. In this case, properties can be manipulated by latent codes as we expect.
翻訳日:2022-05-27 23:56:38 公開日:2022-05-26
# (参考訳) SARS-CoV-2 横流デバイスの画像解析に基づく結果解釈

SARS-CoV-2 Result Interpretation based on Image Analysis of Lateral Flow Devices ( http://arxiv.org/abs/2205.13311v1 )

ライセンス: CC BY 4.0
Neeraj Vashistha(参考訳) 広く使われている遺伝子量子化技術であるLFDは、SARS-CoV-2の存在を検出するために一般的に使われている。 ウイルスの感染拡大の抑制と予防を可能にする。 ウイルスの負荷に応じて、LFDは感度が異なり、正常なユーザに対しては、結果を解釈するためのさらなる課題が提示される。 機械学習アルゴリズムの進化により、画像処理と分析は前例のない成長を遂げた。 本研究は,lfdの制御領域の視覚的特徴を研究するために,コンピュータビジョンと機械学習の新たな画像解析手法を用いた。 ここでは、LFDを含む任意の画像に対して、正、負、あるいは不確定な結果を自動的に導き出す。 これにより、医療従事者の人的関与や認知バイアスの負担が軽減される。

The widely used gene quantisation technique, Lateral Flow Device (LFD), is now commonly used to detect the presence of SARS-CoV-2. It is enabling the control and prevention of the spread of the virus. Depending on the viral load, LFD have different sensitivity and self-test for normal user present additional challenge to interpret the result. With the evolution of machine learning algorithms, image processing and analysis has seen unprecedented growth. In this interdisciplinary study, we employ novel image analysis methods of computer vision and machine learning field to study visual features of the control region of LFD. Here, we automatically derive results for any image containing LFD into positive, negative or inconclusive. This will reduce the burden of human involvement of health workers and perception bias.
翻訳日:2022-05-27 23:15:46 公開日:2022-05-26
# (参考訳) 深層学習を用いた風と波高の時空間関係の学習

Learning the spatio-temporal relationship between wind and significant wave height using deep learning ( http://arxiv.org/abs/2205.13325v1 )

ライセンス: CC BY 4.0
Said Obakrim, Val\'erie Monbet, Nicolas Raillard, Pierre Ailliot(参考訳) 海洋波の気候は海岸付近やオフショアの人間の活動に大きな影響を与え、その特性は波力変換器やシーダイクのような海洋構造の設計に寄与する。 そのため、エンジニアは長期にわたる海洋波のパラメータを必要とする。 数値モデルは海洋波データの貴重な情報源であるが、計算上は高価である。 その結果、統計とデータ駆動のアプローチは、ここ数十年で注目を集めている。 本研究は,2段階の深層学習モデルを用いて,ビスケー湾の沖合における北大西洋風と有意波高(hs)の時空間関係を調査した。 最初のステップでは、畳み込みニューラルネットワーク(CNN)を使用して、Hsに寄与する空間的特徴を抽出する。 次に、長期記憶(LSTM)を用いて、風と波の長期時間依存性を学習する。

Ocean wave climate has a significant impact on near-shore and off-shore human activities, and its characterisation can help in the design of ocean structures such as wave energy converters and sea dikes. Therefore, engineers need long time series of ocean wave parameters. Numerical models are a valuable source of ocean wave data; however, they are computationally expensive. Consequently, statistical and data-driven approaches have gained increasing interest in recent decades. This work investigates the spatio-temporal relationship between North Atlantic wind and significant wave height (Hs) at an off-shore location in the Bay of Biscay, using a two-stage deep learning model. The first step uses convolutional neural networks (CNNs) to extract the spatial features that contribute to Hs. Then, long short-term memory (LSTM) is used to learn the long-term temporal dependencies between wind and waves.
翻訳日:2022-05-27 23:07:43 公開日:2022-05-26
# (参考訳) TransBoost: ディープトランスダクションによる最高のイメージネットパフォーマンスの向上

TransBoost: Improving the Best ImageNet Performance using Deep Transduction ( http://arxiv.org/abs/2205.13331v1 )

ライセンス: CC BY 4.0
Omer Belhasin, Guy Bar-Shalom, Ran El-Yaniv(参考訳) 本稿では,学習中に提供される任意の(ラベルなし)テストセットのパフォーマンスを改善するために,任意の深層神経モデルの微調整手順としてtransboostを提案する。 TransBoostは大きなマージン原理にインスパイアされ、効率的で使いやすい。 ImageNetの分類性能は、ResNets、MobileNetV3-L、EfficientNetB0、ViT-S、ConvNext-Tなど多くのアーキテクチャ上でTransBoostによって一貫して大幅に改善されている。 さらに,TransBoostは多様な画像分類データセットに有効であることを示す。

This paper deals with deep transductive learning, and proposes TransBoost as a procedure for fine-tuning any deep neural model to improve its performance on any (unlabeled) test set provided at training time. TransBoost is inspired by a large margin principle and is efficient and simple to use. The ImageNet classification performance is consistently and significantly improved with TransBoost on many architectures such as ResNets, MobileNetV3-L, EfficientNetB0, ViT-S, and ConvNext-T. Additionally we show that TransBoost is effective on a wide variety of image classification datasets.
翻訳日:2022-05-27 22:59:09 公開日:2022-05-26
# (参考訳) コントラスト学習による目標認識型抽象的関連作業生成

Target-aware Abstractive Related Work Generation with Contrastive Learning ( http://arxiv.org/abs/2205.13339v1 )

ライセンス: CC BY 4.0
Xiuying Chen, Hind Alamro, Mingzhe Li, Shen Gao, Rui Yan, Xin Gao, Xiangliang Zhang(参考訳) 関連作業部は学術論文の重要な構成要素であり、参考論文の文脈における対象論文の貢献を強調している。 著者は、自動生成された関連する作業セクションをドラフトとして使用して、最終的な関連作業を完成させることで、時間と労力を節約できる。 既存の作業部生成手法の多くは、対象の作業と参照論文の比較議論を行うために、既成の文章を抽出することに依存している。 しかし、このような文章は事前に書く必要があり、実際に入手することは困難である。 そこで本稿では,新たな文からなる関連作業区間を生成可能な抽象的目標認識関連作業生成器(TAG)を提案する。 具体的には、まず、参照紙と対象紙の関係をターゲット中心の注意機構でモデル化するターゲット対応グラフエンコーダを提案する。 復号化過程において,キーフレーズを意味指標として,グラフ内の異なるレベルのノードに付随する階層的デコーダを提案する。 最後に、より情報的な関連作業を生成するために、生成した関連作業と参照との相互情報を最大化し、非参照で最小化するマルチレベルコントラスト最適化目標を提案する。 2つの公開研究者データセットに関する広範囲な実験により、提案モデルが、自動評価と調整された人間評価の観点で、いくつかの強力なベースラインに対して相当な改善をもたらすことが示された。

The related work section is an important component of a scientific paper, which highlights the contribution of the target paper in the context of the reference papers. Authors can save their time and effort by using the automatically generated related work section as a draft to complete the final related work. Most of the existing related work section generation methods rely on extracting off-the-shelf sentences to make a comparative discussion about the target work and the reference papers. However, such sentences need to be written in advance and are hard to obtain in practice. Hence, in this paper, we propose an abstractive target-aware related work generator (TAG), which can generate related work sections consisting of new sentences. Concretely, we first propose a target-aware graph encoder, which models the relationships between reference papers and the target paper with target-centered attention mechanisms. In the decoding process, we propose a hierarchical decoder that attends to the nodes of different levels in the graph with keyphrases as semantic indicators. Finally, to generate a more informative related work, we propose multi-level contrastive optimization objectives, which aim to maximize the mutual information between the generated related work with the references and minimize that with non-references. Extensive experiments on two public scholar datasets show that the proposed model brings substantial improvements over several strong baselines in terms of automatic and tailored human evaluations.
翻訳日:2022-05-27 22:41:02 公開日:2022-05-26
# (参考訳) キーワードとインスタンス:テキスト生成のためのハイブリッド粒度を統合する階層的コントラスト学習フレームワーク

Keywords and Instances: A Hierarchical Contrastive Learning Framework Unifying Hybrid Granularities for Text Generation ( http://arxiv.org/abs/2205.13346v1 )

ライセンス: CC BY 4.0
Mingzhe Li, XieXiong Lin, Xiuying Chen, Jinxiong Chang, Qishen Zhang, Feng Wang, Taifeng Wang, Zhongyi Liu, Wei Chu, Dongyan Zhao, Rui Yan(参考訳) 対照的な学習は、"露出バイアス"問題を緩和し、異なる参照品質を差別的に利用するために、生成タスクにおいて驚くべき成功を収めた。 既存の作品は、各単語の寄与を区別することなく、インスタンスレベルでのコントラスト学習に焦点を当てているのに対して、キーワードはテキストの要点であり、制約されたマッピング関係を支配する。 そこで本研究では,入力テキストにおけるハイブリッドな粒度意味的意味を統一する階層的コントラスト学習機構を提案する。 具体的には,まず正負対の対比相関によってキーワード表現を反復的に洗練するキーワードグラフを提案する。 次に,単語が文分布からサンプリングされたノードであると仮定し,インスタンスレベルとキーワードレベルのコントラストを構成する。 最後に、独立なコントラストレベル間のギャップを橋渡しし、共通コントラスト消滅問題に取り組むために、インスタンス分布に対するコントラストキーワードノード間の不一致を測定するコントラスト間メカニズムを提案する。 実験により,我々のモデルがパラフラージング,対話生成,ストーリーテリングタスクにおいて,競合ベースラインよりも優れていることが証明された。

Contrastive learning has achieved impressive success in generation tasks to militate the "exposure bias" problem and discriminatively exploit the different quality of references. Existing works mostly focus on contrastive learning on the instance-level without discriminating the contribution of each word, while keywords are the gist of the text and dominant the constrained mapping relationships. Hence, in this work, we propose a hierarchical contrastive learning mechanism, which can unify hybrid granularities semantic meaning in the input text. Concretely, we first propose a keyword graph via contrastive correlations of positive-negative pairs to iteratively polish the keyword representations. Then, we construct intra-contrasts within instance-level and keyword-level, where we assume words are sampled nodes from a sentence distribution. Finally, to bridge the gap between independent contrast levels and tackle the common contrast vanishing problem, we propose an inter-contrast mechanism that measures the discrepancy between contrastive keyword nodes respectively to the instance distribution. Experiments demonstrate that our model outperforms competitive baselines on paraphrasing, dialogue generation, and storytelling tasks.
翻訳日:2022-05-27 22:23:15 公開日:2022-05-26
# (参考訳) コサイン類似性を用いた文書ベクトルの再検討

The Document Vectors Using Cosine Similarity Revisited ( http://arxiv.org/abs/2205.13357v1 )

ライセンス: CC BY 4.0
Zhang Bingyu and Nikolay Arefyev(参考訳) IMDB 映画レビューデータセットの最先端テスト精度 (97.42\%) は \citet{thongtan-phienthrakul-2019-sentiment} によって報告され,コサイン類似性 (DV-ngrams-cosine) を用いた文書ベクトルで訓練されたロジスティック回帰分類器と,ネイブ・ベイズによって拡張されたバグ・オブ・N-grams (BON) ベクターを用いて達成された。 トレーニング済みのTransformerベースの大規模なモデルでは、多くのデータセットやタスクにわたるSOTA結果が示されているが、前述のモデルは、IMDBデータセットでのみトレーニングされた、はるかにシンプルであるにもかかわらず、それらを上回るものではない。 本稿では,このモデルの評価手順におけるエラーについて述べるとともに,その優れた性能をimdbデータセット上で解析しようとした際に見いだした。 さらに、以前報告した97.42\%の検査精度は無効であり、93.68\%に補正されるべきであることを示す。 また、異なる量のトレーニングデータ(imdbデータセットのサブセット)を用いてモデル性能を分析し、トランスフォーマベースのrobertaモデルと比較する。 その結果,ラベル付きトレーニングセットが非常に小さい(10~20文書)場合には,dv-ngrams-cosineはrobertaよりも優れたパフォーマンスを示すことがわかった。 最後に,dv-ngrams-cosineのトレーニングプロセスにおいて,ナイーブ・ベイズ重みに基づくサブサンプリング方式を導入することで,トレーニングの高速化と品質の向上を実現する。

The current state-of-the-art test accuracy (97.42\%) on the IMDB movie reviews dataset was reported by \citet{thongtan-phienthrakul-2019-sentiment} and achieved by the logistic regression classifier trained on the Document Vectors using Cosine Similarity (DV-ngrams-cosine) proposed in their paper and the Bag-of-N-grams (BON) vectors scaled by Naive Bayesian weights. While large pre-trained Transformer-based models have shown SOTA results across many datasets and tasks, the aforementioned model has not been surpassed by them, despite being much simpler and pre-trained on the IMDB dataset only. In this paper, we describe an error in the evaluation procedure of this model, which was found when we were trying to analyze its excellent performance on the IMDB dataset. We further show that the previously reported test accuracy of 97.42\% is invalid and should be corrected to 93.68\%. We also analyze the model performance with different amounts of training data (subsets of the IMDB dataset) and compare it to the Transformer-based RoBERTa model. The results show that while RoBERTa has a clear advantage for larger training sets, the DV-ngrams-cosine performs better than RoBERTa when the labelled training set is very small (10 or 20 documents). Finally, we introduce a sub-sampling scheme based on Naive Bayesian weights for the training process of the DV-ngrams-cosine, which leads to faster training and better quality.
翻訳日:2022-05-27 22:08:33 公開日:2022-05-26
# (参考訳) 転送と共有: 長期データによる半教師付き学習

Transfer and Share: Semi-Supervised Learning from Long-Tailed Data ( http://arxiv.org/abs/2205.13358v1 )

ライセンス: CC BY 4.0
Tong Wei, Qian-Yu Liu, Jiang-Xin Shi, Wei-Wei Tu, Lan-Zhe Guo(参考訳) Long-Tailed Semi-Supervised Learning (LTSSL) は、少数のサンプルに注釈を付けたクラス不均衡データから学習することを目的としている。 既存のソリューションは通常、複雑な最適化問題を解決するためにかなりのコストを必要とする。 本稿では,ロングテールの半教師付きデータを有効に活用するためのtra(transfer and share)を提案する。 TRASは、従来のSSLモデルの不均衡な擬似ラベル分布を繊細な機能を通じて変換し、マイノリティクラスの監視信号を強化する。 その後、マイノリティクラスが大きな注目を集めるように、分布をターゲットモデルに転送する。 興味深いことに、TRASは従来のように正確な擬似ラベルを生成するのではなく、よりバランスのとれた擬似ラベル分布がマイノリティクラスのトレーニングに実質的に恩恵をもたらすことを示した。 アプローチを簡単にするため、TRASは従来のSSLモデルとターゲットモデルのトレーニングを単一のプロシージャにマージし、特徴抽出器を共有することで、両方の分類器が表現学習を改善する。 広範な実験によると、TRASは、クラス全体とマイノリティクラス全体の最先端メソッドよりもはるかに高い精度を提供する。

Long-Tailed Semi-Supervised Learning (LTSSL) aims to learn from class-imbalanced data where only a few samples are annotated. Existing solutions typically require substantial cost to solve complex optimization problems, or class-balanced undersampling which can result in information loss. In this paper, we present the TRAS (TRAnsfer and Share) to effectively utilize long-tailed semi-supervised data. TRAS transforms the imbalanced pseudo-label distribution of a traditional SSL model via a delicate function to enhance the supervisory signals for minority classes. It then transfers the distribution to a target model such that the minority class will receive significant attention. Interestingly, TRAS shows that more balanced pseudo-label distribution can substantially benefit minority-class training, instead of seeking to generate accurate pseudo-labels as in previous works. To simplify the approach, TRAS merges the training of the traditional SSL model and the target model into a single procedure by sharing the feature extractor, where both classifiers help improve the representation learning. According to extensive experiments, TRAS delivers much higher accuracy than state-of-the-art methods in the entire set of classes as well as minority classes.
翻訳日:2022-05-27 21:57:50 公開日:2022-05-26
# (参考訳) 連続表現学習における特徴忘れ

Feature Forgetting in Continual Representation Learning ( http://arxiv.org/abs/2205.13359v1 )

ライセンス: CC BY 4.0
Xiao Zhang, Dejing Dou, Ji Wu(参考訳) 継続的かつ生涯学習では、優れた表現学習はパフォーマンスの向上と新しいタスクを学ぶ際のサンプル複雑さの低減に寄与する。 単純な連続学習においても、表現が「破滅的な忘れ」に苦しむことはないという証拠があるが、その特徴についてはほとんど知られていない。 本稿では,連続学習における表現学習,特に特徴忘れ問題に関する理解を深めることを目的としている。 連続的な学習における表現を評価するためのプロトコルを考案し、それを用いて連続的な表現学習の基本的傾向の概要を示し、その一貫性の欠如と潜在的な問題を示す。 特徴忘れ問題を研究するために、ニューラルネットワークにおける特徴忘れの傾向を識別し可視化する合成データセットを作成する。 最後に,ゲーティングアダプタを用いて,特徴の忘れを軽減するための簡単な手法を提案する。 我々は、表現学習の改善は、継続学習における古いタスクと新しいタスクの両方に利益をもたらすと結論づける。

In continual and lifelong learning, good representation learning can help increase performance and reduce sample complexity when learning new tasks. There is evidence that representations do not suffer from "catastrophic forgetting" even in plain continual learning, but little further fact is known about its characteristics. In this paper, we aim to gain more understanding about representation learning in continual learning, especially on the feature forgetting problem. We devise a protocol for evaluating representation in continual learning, and then use it to present an overview of the basic trends of continual representation learning, showing its consistent deficiency and potential issues. To study the feature forgetting problem, we create a synthetic dataset to identify and visualize the prevalence of feature forgetting in neural networks. Finally, we propose a simple technique using gating adapters to mitigate feature forgetting. We conclude by discussing that improving representation learning benefits both old and new tasks in continual learning.
翻訳日:2022-05-27 21:44:55 公開日:2022-05-26
# (参考訳) 多忠実型パワーフローソルバ

Multi-fidelity power flow solver ( http://arxiv.org/abs/2205.13362v1 )

ライセンス: CC BY 4.0
Sam Yang, Bjorn Vaagensmith, Deepika Patra, Ryan Hruska, Tyler Phillips(参考訳) 本稿では,高速な高次元グリッド電力流シミュレーションと,少ない高忠実度データを用いたコンテンエンス解析のために,MFNN(Multi-fidelity Neural Network)を提案する。 提案モデルは2つのネットワークから構成される - 直流近似を低忠実度データとしてトレーニングし、低忠実度と高忠実度の両方の電力フローデータに基づいてトレーニングされた高忠実度ニューラルネットワークに結合する。 各ネットワークは、一般化のための離散グリッドトポロジーベクトル(例えば$k$の切断や一致を含む$n$の電力線)によってモデルをパラメータ化する潜在モジュールを特徴とし、ターゲットとする高忠実出力は線形関数と非線形関数の重み付き和である。 14-および118-busのテストケースで実験を行い、不均衡な並行性データと高忠実度サンプル比に対するn-k$の電力流量予測精度に基づいて性能評価を行った。 ここでは,MFNNのポテンシャルとその限界を,直流近似よりも最大2桁高速かつ高精度な電力流解で証明した。

We propose a multi-fidelity neural network (MFNN) tailored for rapid high-dimensional grid power flow simulations and contingency analysis with scarce high-fidelity contingency data. The proposed model comprises two networks -- the first one trained on DC approximation as low-fidelity data and coupled to a high-fidelity neural net trained on both low- and high-fidelity power flow data. Each network features a latent module which parametrizes the model by a discrete grid topology vector for generalization (e.g., $n$ power lines with $k$ disconnections or contingencies, if any), and the targeted high-fidelity output is a weighted sum of linear and nonlinear functions. We tested the model on 14- and 118-bus test cases and evaluated its performance based on the $n-k$ power flow prediction accuracy with respect to imbalanced contingency data and high-to-low-fidelity sample ratio. The results presented herein demonstrate MFNN's potential and its limits with up to two orders of magnitude faster and more accurate power flow solutions than DC approximation.
翻訳日:2022-05-27 21:16:19 公開日:2022-05-26
# (参考訳) メガピクセルのワンショット顔再現

One-Shot Face Reenactment on Megapixels ( http://arxiv.org/abs/2205.13368v1 )

ライセンス: CC BY 4.0
Wonjun Kang, Geonsu Lee, Hyung Il Koo, Nam Ik Cho(参考訳) Face Reenactmentの目標は、ターゲット表現とヘッドをソースIDを保持しながらソース顔に転送することである。 顔関連アプリケーションの人気により、この話題について多くの研究がなされている。 しかし、既存の方法の結果はまだ低解像度に留まり、フォトリアリズムを欠いている。 そこで本研究では,MegaFRと呼ばれる一発・高解像度顔再現法を提案する。 正確には、3dmmベースのレンダリング画像を使用することでstyleganを活用し、高品質なビデオなしで機能するロス関数を設計し、高品質なビデオデータセットの欠如を克服する。 また、極端なポーズや表現を扱うために反復精製を適用する。 提案手法は3dmmパラメータを介してソースイメージを制御するので,ソースイメージを明示的に操作できる。 フェースフロンダリゼーション,アイインペイント,トーキングヘッド生成など,様々な応用にMegaFRを適用した。 実験結果から,本手法は表現と頭部のポーズから同一性を取り除き,従来の手法よりも優れていた。

The goal of face reenactment is to transfer a target expression and head pose to a source face while preserving the source identity. With the popularity of face-related applications, there has been much research on this topic. However, the results of existing methods are still limited to low-resolution and lack photorealism. In this work, we present a one-shot and high-resolution face reenactment method called MegaFR. To be precise, we leverage StyleGAN by using 3DMM-based rendering images and overcome the lack of high-quality video datasets by designing a loss function that works without high-quality videos. Also, we apply iterative refinement to deal with extreme poses and/or expressions. Since the proposed method controls source images through 3DMM parameters, we can explicitly manipulate source images. We apply MegaFR to various applications such as face frontalization, eye in-painting, and talking head generation. Experimental results show that our method successfully disentangles identity from expression and head pose, and outperforms conventional methods.
翻訳日:2022-05-27 21:06:25 公開日:2022-05-26
# (参考訳) 多変量関数データのための分類アンサンブルとWebサーベイにおけるマウス運動への応用

Classification ensembles for multivariate functional data with application to mouse movements in web surveys ( http://arxiv.org/abs/2205.13380v1 )

ライセンス: CC BY 4.0
Amanda Fern\'andez-Fontelo and Felix Henninger and Pascal J. Kieslich and Frauke Kreuter and Sonja Greven(参考訳) 本稿では,多変量関数型データ分類のための新しいアンサンブルモデルを提案する。 我々のモデルは、現在の半距離法を単変量から多変量体へと拡張し、関数間の距離を計算するための新しい半距離法を提案し、より柔軟な解法を考える。 これらのアンサンブルモデルを用いて,調査データの品質向上を目的として,調査質問の難易度を特定する。 難易度予測因子として,難易度レベルが異なる2つのシナリオを作成するために,複数の質問を操作した web 調査 を用いたマウス運動軌跡を用いた。

We propose new ensemble models for multivariate functional data classification as combinations of semi-metric-based weak learners. Our models extend current semi-metric-type methods from the univariate to the multivariate case, propose new semi-metrics to compute distances between functions, and consider more flexible options for combining weak learners using stacked generalisation methods. We apply these ensemble models to identify respondents' difficulty with survey questions, with the aim to improve survey data quality. As predictors of difficulty, we use mouse movement trajectories from the respondents' interaction with a web survey, in which several questions were manipulated to create two scenarios with different levels of difficulty.
翻訳日:2022-05-27 21:04:41 公開日:2022-05-26
# (参考訳) 適切に構築された場合、機械学習モデルは不要である:ニューロイメージング研究からの証拠

Machine Learning Models Are Not Necessarily Biased When Constructed Properly: Evidence from Neuroimaging Studies ( http://arxiv.org/abs/2205.13421v1 )

ライセンス: CC BY 4.0
Rongguang Wang, Pratik Chaudhari, Christos Davatzikos(参考訳) 多くの医学分野において機械学習が提供してきた大きな約束にもかかわらず、性別、年齢分布、人種や民族、病院、データ取得機器やプロトコルに対する潜在的な偏見や一般化が懸念されている。 最近の研究、および3つの脳疾患の文脈において、適切に訓練された機械学習モデルは様々な条件にまたがってうまく一般化でき、バイアスに悩まされない実験データを提供する。 具体的には, アルツハイマー病, 統合失調症, 自閉症スペクトラム障害の診断にマルチスタディmriを用いて, 性別, 年齢, 人種などの属性に関連する異なるサブグループ間で, 訓練されたモデルの正確性が一致し, 臨床研究も異なることが判明した。 統計学、臨床、遺伝的要因、認知スコアの多元データを含むモデルも偏りがないことが判明した。 これらのモデルは、いくつかのケースでは構造的な測定でのみ訓練されたサブグループよりも予測精度が高いが、これらの追加機能が役に立たない状況もある。

Despite the great promise that machine learning has offered in many fields of medicine, it has also raised concerns about potential biases and poor generalization across genders, age distributions, races and ethnicities, hospitals, and data acquisition equipment and protocols. In the current study, and in the context of three brain diseases, we provide experimental data which support that when properly trained, machine learning models can generalize well across diverse conditions and do not suffer from biases. Specifically, by using multi-study magnetic resonance imaging consortia for diagnosing Alzheimer's disease, schizophrenia, and autism spectrum disorder, we find that, the accuracy of well-trained models is consistent across different subgroups pertaining to attributes such as gender, age, and racial groups, as also different clinical studies. We find that models that incorporate multi-source data from demographic, clinical, genetic factors and cognitive scores are also unbiased. These models have better predictive accuracy across subgroups than those trained only with structural measures in some cases but there are also situations when these additional features do not help.
翻訳日:2022-05-27 20:36:49 公開日:2022-05-26
# (参考訳) Opinion Spam Detection: 機械学習とネットワークベースアルゴリズムを用いた新しいアプローチ

Opinion Spam Detection: A New Approach Using Machine Learning and Network-Based Algorithms ( http://arxiv.org/abs/2205.13422v1 )

ライセンス: CC BY 4.0
Kiril Danilchenko, Michael Segal, Dan Vilenchik(参考訳) eコマースは経済の最も急速に成長している分野だ。 オンラインレビューは、消費者が製品やサービスを評価し比較する上で重要な役割を果たす。 その結果、偽レビュー(オピニオンスパム)がより普及し、顧客やサービスプロバイダに悪影響を与えている。 信頼できるラベル付きデータがないなど、自動的に意見スパマーを特定することが難しい理由はたくさんある。 この制限は、機械学習パイプラインの既製の適用を妨げる。 本稿では,ユーザのグラフ構造を活かしたメッセージパッシングアルゴリズムと機械学習を組み合わせることで,ラベル付きデータの不足を補う新しい手法を提案する。 トレーニングステップ(アクティブラーニング)のためにラベルをサンプリングする新しい方法を考案し、典型的な一様サンプリングを置き換える。 Yelp.comによる3つの大規模な実世界のデータセットの実験は、我々の手法が最先端のアクティブな学習アプローチと、さらに大きなラベル付きデータのセットを使用してトレーニングを行う機械学習手法より優れていることを示している。

E-commerce is the fastest-growing segment of the economy. Online reviews play a crucial role in helping consumers evaluate and compare products and services. As a result, fake reviews (opinion spam) are becoming more prevalent and negatively impacting customers and service providers. There are many reasons why it is hard to identify opinion spammers automatically, including the absence of reliable labeled data. This limitation precludes an off-the-shelf application of a machine learning pipeline. We propose a new method for classifying reviewers as spammers or benign, combining machine learning with a message-passing algorithm that capitalizes on the users' graph structure to compensate for the possible scarcity of labeled data. We devise a new way of sampling the labels for the training step (active learning), replacing the typical uniform sampling. Experiments on three large real-world datasets from Yelp.com show that our method outperforms state-of-the-art active learning approaches and also machine learning methods that use a much larger set of labeled data for training.
翻訳日:2022-05-27 20:18:21 公開日:2022-05-26
# (参考訳) ビジネス文書からの情報抽出のための協調学習スパン抽出とシーケンスラベリング

Jointly Learning Span Extraction and Sequence Labeling for Information Extraction from Business Documents ( http://arxiv.org/abs/2205.13434v1 )

ライセンス: CC BY 4.0
Nguyen Hong Son, Hieu M. Vu, Tuan-Anh D. Nguyen, Minh-Tien Nguyen(参考訳) 本稿ではビジネス文書の新しい情報抽出モデルを提案する。 スパン抽出とシーケンスラベリングのみに基づく以前の研究とは異なり、このモデルはスパン抽出とシーケンスラベリングの両方の利点を考慮に入れている。 この組み合わせにより、モデルは少ない情報(少ない量の抽出された情報)で長いドキュメントを扱うことができる。 モデルはエンドツーエンドでトレーニングされ、2つのタスクを統一的に最適化する。 英語と日本語の4つのビジネスデータセットの実験結果から,本モデルは有望な結果となり,通常のスパンベース抽出法よりもはるかに高速であることがわかった。 コードも利用可能である。

This paper introduces a new information extraction model for business documents. Different from prior studies which only base on span extraction or sequence labeling, the model takes into account advantage of both span extraction and sequence labeling. The combination allows the model to deal with long documents with sparse information (the small amount of extracted information). The model is trained end-to-end to jointly optimize the two tasks in a unified manner. Experimental results on four business datasets in English and Japanese show that the model achieves promising results and is significantly faster than the normal span-based extraction method. The code is also available.
翻訳日:2022-05-27 20:04:16 公開日:2022-05-26
# (参考訳) FedAug: 異種データのフェデレーション学習を改善するローカルラーニングバイアスの削減

FedAug: Reducing the Local Learning Bias Improves Federated Learning on Heterogeneous Data ( http://arxiv.org/abs/2205.13462v1 )

ライセンス: CC BY 4.0
Yongxin Guo, Tao Lin, Xiaoying Tang(参考訳) フェデレーション学習(federated learning, fl)は、ローカルに保持されたデータから学習し、クライアントのプライバシーを保護する機械学習パラダイムである。 しかし、このようなスキームは現在、クライアントの不均一なデータによって引き起こされる遅く不安定な収束によって制約されている。 本研究では,教師付きflにおける局所更新に伴う課題を説明するバイアス付き局所学習の3つの未熟な現象を明らかにする。 そこで我々は,これらの課題に取り組むために,特徴や分類器の局所学習バイアスを低減する新しい統一アルゴリズムfedaugを提案する。 FedAugはAugMeanとAugCAの2つのコンポーネントで構成されている。 augmeanはモデルの出力分布のバランスをとることで局所分類器のバイアスを軽減する。 augcaはグローバル機能に近いが、他の入力分布から学んだものとは大きく異なるクライアント不変機能を学ぶ。 一連の実験において、FedAugは他のSOTA FLとドメイン一般化(DG)ベースラインを一貫して上回り、2つのコンポーネント(AugMeanとAugCA)が個別のパフォーマンス向上をもたらすことを示した。

Federated Learning (FL) is a machine learning paradigm that learns from data kept locally to safeguard the privacy of clients, whereas local SGD is typically employed on the clients' devices to improve communication efficiency. However, such a scheme is currently constrained by the slow and unstable convergence induced by clients' heterogeneous data. In this work, we identify three under-explored phenomena of the biased local learning that may explain these challenges caused by local updates in supervised FL. As a remedy, we propose FedAug, a novel unified algorithm that reduces the local learning bias on features and classifiers to tackle these challenges. FedAug consists of two components: AugMean and AugCA. AugMean alleviates the bias in the local classifiers by balancing the output distribution of models. AugCA learns client invariant features that are close to global features but considerably distinct from those learned from other input distributions. In a series of experiments, we show that FedAug consistently outperforms other SOTA FL and domain generalization (DG) baselines, in which both two components (i.e., AugMean and AugCA) have individual performance gains.
翻訳日:2022-05-27 19:47:17 公開日:2022-05-26
# (参考訳) aiの分野における研究領域の特徴

Characterising Research Areas in the field of AI ( http://arxiv.org/abs/2205.13471v1 )

ライセンス: CC BY 4.0
Alessandra Belfiore, Angelo Salatino, Francesco Osborne(参考訳) 人工知能(AI)への関心は急速に高まり続けており、AI研究がどこに向かっているかを理解するために研究者や組織を支援することが不可欠である。 本研究では,openalexから検索したaiの257k記事の書誌分析を行った。 トピックの共起ネットワーク上でクラスタリング分析を行うことで,主な概念テーマを特定した。 最後に,このようなテーマが時間とともにどのように進化するかを観察した。 その結果は、ディープラーニングや機械学習、物のインターネットといった研究テーマに対する学術的関心の高まりを表している。

Interest in Artificial Intelligence (AI) continues to grow rapidly, hence it is crucial to support researchers and organisations in understanding where AI research is heading. In this study, we conducted a bibliometric analysis on 257K articles in AI, retrieved from OpenAlex. We identified the main conceptual themes by performing clustering analysis on the co-occurrence network of topics. Finally, we observed how such themes evolved over time. The results highlight the growing academic interest in research themes like deep learning, machine learning, and internet of things.
翻訳日:2022-05-27 19:32:28 公開日:2022-05-26
# (参考訳) スパース観測による時空間グラフからの欠落データ再構成

Learning to Reconstruct Missing Data from Spatiotemporal Graphs with Sparse Observations ( http://arxiv.org/abs/2205.13479v1 )

ライセンス: CC BY 4.0
Ivan Marisca, Andrea Cini, Cesare Alippi(参考訳) 多変量時系列を(おそらく動的)グラフ上の時間信号としてモデル化することは、時系列解析のためのモデルの開発を可能にする効果的な表現フレームワークである。 実際、グラフの離散列は自己回帰グラフニューラルネットワークによって処理され、時間と空間の各離散点における表現を再帰的に学習することができる。 時空間グラフは、しばしば高度に疎結合であり、時系列は、例えば信頼性の低いセンサーネットワークのために、複数の、同時、そして長いデータ列によって特徴づけられる。 この文脈では、自己回帰モデルは不安定であり、不安定な学習ダイナミクスを示す。 そこで,本論文の目的は,有効なモデル学習の課題に対処し,利用可能な観測値のみを条件に再構成を行うことで,データポイントの欠落を解消することである。 特に,高度にスパースな離散的観測の組が与えられた場合,インプテーションタスクに合わせた時空間拡散アーキテクチャを用いて時間と空間の点の表現を学習する,注意に基づく新しいアーキテクチャのクラスを提案する。 表現は、対応するセンサとその隣接ノードの観測を再構築するためにエンドツーエンドで訓練される。 現状と比較して、予測エラーを伝達したり、前後の時間依存性をエンコードするために双方向モデルを必要とすることなく、スパースデータを処理します。 代表ベンチマーク実験の結果,提案手法の有効性が示された。

Modeling multivariate time series as temporal signals over a (possibly dynamic) graph is an effective representational framework that allows for developing models for time series analysis. In fact, discrete sequences of graphs can be processed by autoregressive graph neural networks to recursively learn representations at each discrete point in time and space. Spatiotemporal graphs are often highly sparse, with time series characterized by multiple, concurrent, and even long sequences of missing data, e.g., due to the unreliable underlying sensor network. In this context, autoregressive models can be brittle and exhibit unstable learning dynamics. The objective of this paper is, then, to tackle the problem of learning effective models to reconstruct, i.e., impute, missing data points by conditioning the reconstruction only on the available observations. In particular, we propose a novel class of attention-based architectures that, given a set of highly sparse discrete observations, learn a representation for points in time and space by exploiting a spatiotemporal diffusion architecture aligned with the imputation task. Representations are trained end-to-end to reconstruct observations w.r.t. the corresponding sensor and its neighboring nodes. Compared to the state of the art, our model handles sparse data without propagating prediction errors or requiring a bidirectional model to encode forward and backward time dependencies. Empirical results on representative benchmarks show the effectiveness of the proposed method.
翻訳日:2022-05-27 19:27:32 公開日:2022-05-26
# (参考訳) DeepJoint: 臨床状況の変化によるロバスト生存モデル

DeepJoint: Robust Survival Modelling Under Clinical Presence Shift ( http://arxiv.org/abs/2205.13481v1 )

ライセンス: CC BY 4.0
Vincent Jeanselme, Glen Martin, Niels Peek, Matthew Sperrin, Brian Tom and Jessica Barrett(参考訳) 医学における観察データは、患者と医療システムの間の複雑な相互作用の結果生じる。 サンプリングプロセスは、しばしば非常に不規則であり、それ自体が情報的プロセスを構成する。 このようなデータを使用して予測モデルを開発する場合、この現象はしばしば無視され、プラクティスが進化するときにモデルの最適性能と一般化性に繋がる。 本研究では, 生存率に並行して, 前後, 観察間, 欠如過程という3つの臨床存在次元をモデル化するマルチタスクリカレントニューラルネットワークを提案する。 MIMIC III 実験による予測課題では, 現状予測モデル (C-index at 1 day horizon: 0.878) と比較して, これらの3つのプロセスの明示的モデリングにより性能が向上した。 さらに, 平日, 週末に入院した患者との比較により, 臨床的存在条件の変化に強い効果が認められた。 この分析は、臨床存在感を研究・活用し、パフォーマンスを改善し、より移動しやすい臨床モデルを作成することの重要性を示している。

Observational data in medicine arise as a result of the complex interaction between patients and the healthcare system. The sampling process is often highly irregular and itself constitutes an informative process. When using such data to develop prediction models, this phenomenon is often ignored, leading to sub-optimal performance and generalisability of models when practices evolve. We propose a multi-task recurrent neural network which models three clinical presence dimensions -- namely the longitudinal, the inter-observation and the missingness processes -- in parallel to the survival outcome. On a prediction task using MIMIC III laboratory tests, explicit modelling of these three processes showed improved performance in comparison to state-of-the-art predictive models (C-index at 1 day horizon: 0.878). More importantly, the proposed approach was more robust to change in the clinical presence setting, demonstrated by performance comparison between patients admitted on weekdays and weekends. This analysis demonstrates the importance of studying and leveraging clinical presence to improve performance and create more transportable clinical models.
翻訳日:2022-05-27 19:10:21 公開日:2022-05-26
# (参考訳) スマートフォン写真の知覚色差の測定

Measuring Perceptual Color Differences of Smartphone Photography ( http://arxiv.org/abs/2205.13489v1 )

ライセンス: CC BY 4.0
Zhihua Wang, Keshuo Xu, Yang Yang, Jianlei Dong, Shuhang Gu, Lihao Xu, Yuming Fang, and Kede Ma(参考訳) 現代のスマートフォン写真では、知覚色差(CD)の測定が非常に重要である。 長い歴史にもかかわらず、ほとんどのcd措置は均質なカラーパッチの心理物理学的データや単純な自然画像の限られた数によって制限されている。 したがって、既存のCD対策が、より大きなコンテンツ複雑さと学習ベースの画像信号プロセッサを特徴とするスマートフォン写真時代を一般化するかどうかは疑わしい。 本稿では,自然画像の知覚的CD評価において,これまでで最大の画像データセットを構築した。 1)フラッグシップスマートフォン6台で撮影。 2)photoshopによる編集。 3)スマートフォンの内蔵フィルタによる後処理,及び 4)不正確な色プロファイルで再現した。 次に、3万対の画像ペアの知覚cdを注意深く制御した実験室環境で収集する大規模心理物理学実験を行う。 新たに確立したデータセットに基づいて,従来のメトリクスの一般化として,軽量ニューラルネットワークに基づくエンドツーエンド学習可能なcd公式を構築する最初の試みの一つである。 広範な実験により、最適化された式は28の既存のcd測度を大きなマージンで上回り、密接な監督なしで合理的なローカルcdマップを提供し、カラーパッチデータにうまく一般化し、経験的に数学的な意味で適切な計量として振る舞うことが示されている。

Measuring perceptual color differences (CDs) is of great importance in modern smartphone photography. Despite the long history, most CD measures have been constrained by psychophysical data of homogeneous color patches or a limited number of simplistic natural images. It is thus questionable whether existing CD measures generalize in the age of smartphone photography characterized by greater content complexities and learning-based image signal processors. In this paper, we put together so far the largest image dataset for perceptual CD assessment, in which the natural images are 1) captured by six flagship smartphones, 2) altered by Photoshop, 3) post-processed by built-in filters of the smartphones, and 4) reproduced with incorrect color profiles. We then conduct a large-scale psychophysical experiment to gather perceptual CDs of 30,000 image pairs in a carefully controlled laboratory environment. Based on the newly established dataset, we make one of the first attempts to construct an end-to-end learnable CD formula based on a lightweight neural network, as a generalization of several previous metrics. Extensive experiments demonstrate that the optimized formula outperforms 28 existing CD measures by a large margin, offers reasonable local CD maps without the use of dense supervision, generalizes well to color patch data, and empirically behaves as a proper metric in the mathematical sense.
翻訳日:2022-05-27 18:50:35 公開日:2022-05-26
# (参考訳) 時空間時系列のスパースグラフ学習

Sparse Graph Learning for Spatiotemporal Time Series ( http://arxiv.org/abs/2205.13492v1 )

ライセンス: CC BY 4.0
Andrea Cini, Daniele Zambon, Cesare Alippi(参考訳) 時空間時系列予測のためのグラフニューラルネットワークの成果は、関係性制約がニューラル予測アーキテクチャに正の帰納バイアスをもたらすことを示している。 しかし、多くの場合、基礎となるデータ生成プロセスの特徴となるリレーショナル情報は使用不可能であり、その後、リレーショナルグラフがその後の処理ステージで使用するデータから推論する問題が発生する。 本稿では,グラフ上の分布をモデル化し,エンドツーエンドの予測精度を最大化することにより,関係依存性を学習する,新しい確率的手法を提案する。 モンテカルロスコアに基づく勾配推定のための統合分散低減手法に基づく新しいグラフ学習手法は理論的に基礎と有効である。 グラデーション推定器をグラフ学習問題に合わせることで,最先端の予測性能を実現すると同時に,学習グラフのスパース性と計算負荷の両方を制御できることを示した。 提案手法を総合的および実世界のベンチマークでの有効性を実証的に評価し,提案手法が,エンドツーエンド予測アーキテクチャの学習成分であると同時に,スタンドアロンのグラフ識別手順として使用できることを示した。

Outstanding achievements of graph neural networks for spatiotemporal time series prediction show that relational constraints introduce a positive inductive bias into neural forecasting architectures. Often, however, the relational information characterizing the underlying data generating process is unavailable; the practitioner is then left with the problem of inferring from data which relational graph to use in the subsequent processing stages. We propose novel, principled -- yet practical -- probabilistic methods that learn the relational dependencies by modeling distributions over graphs while maximizing, at the same time, end-to-end the forecasting accuracy. Our novel graph learning approach, based on consolidated variance reduction techniques for Monte Carlo score-based gradient estimation, is theoretically grounded and effective. We show that tailoring the gradient estimators to the graph learning problem allows us also for achieving state-of-the-art forecasting performance while controlling, at the same time, both the sparsity of the learned graph and the computational burden. We empirically assess the effectiveness of the proposed method on synthetic and real-world benchmarks, showing that the proposed solution can be used as a stand-alone graph identification procedure as well as a learned component of an end-to-end forecasting architecture.
翻訳日:2022-05-27 18:20:12 公開日:2022-05-26
# (参考訳) ニューラルネットワークのロバストトレーニングのための分析フレームワーク

An Analytic Framework for Robust Training of Artificial Neural Networks ( http://arxiv.org/abs/2205.13502v1 )

ライセンス: CC BY 4.0
Ramin Barati, Reza Safabakhsh, Mohammad Rahmati(参考訳) 学習モデルの信頼性は、さまざまな産業における機械学習の展開の成功の鍵となる。 強靭なモデル、特に敵の攻撃の影響を受けないモデルを作成するには、敵の事例現象を包括的に理解する必要がある。 しかし,機械学習の問題の複雑な性質から,この現象を説明することは困難である。 その結果, 逆例の簡易モデルを提案し, この現象のいくつかの側面を予測して検証する研究が数多く行われている。 これらの研究は、逆の例の多くの異なる特徴をカバーしているが、この現象の幾何学的および分析的モデリングに対する全体論的アプローチには達していない。 本稿では,学習理論の現象を研究するための公式な枠組みを提案し,複雑な解析と正則性を利用して,ニューラルネットワークの堅牢な学習ルールを提案する。 複雑な解析の助けを借りて,この現象の幾何学的視点と解析的視点を無力に移動させ,調和関数との関係を明らかにすることにより,現象に関するさらなる洞察を与えることができる。 本モデルを用いて, 敵例の移動可能性など, 敵例の最も興味深い特徴をいくつか説明し, 現象の影響を緩和するための新しいアプローチの道を開くことができる。

The reliability of a learning model is key to the successful deployment of machine learning in various industries. Creating a robust model, particularly one unaffected by adversarial attacks, requires a comprehensive understanding of the adversarial examples phenomenon. However, it is difficult to describe the phenomenon due to the complicated nature of the problems in machine learning. Consequently, many studies investigate the phenomenon by proposing a simplified model of how adversarial examples occur and validate it by predicting some aspect of the phenomenon. While these studies cover many different characteristics of the adversarial examples, they have not reached a holistic approach to the geometric and analytic modeling of the phenomenon. This paper propose a formal framework to study the phenomenon in learning theory and make use of complex analysis and holomorphicity to offer a robust learning rule for artificial neural networks. With the help of complex analysis, we can effortlessly move between geometric and analytic perspectives of the phenomenon and offer further insights on the phenomenon by revealing its connection with harmonic functions. Using our model, we can explain some of the most intriguing characteristics of adversarial examples, including transferability of adversarial examples, and pave the way for novel approaches to mitigate the effects of the phenomenon.
翻訳日:2022-05-27 17:49:49 公開日:2022-05-26
# (参考訳) PACEをピックアップする: Ensemble Pseudo-Labelingによる高速でシンプルなドメイン適応

Pick up the PACE: Fast and Simple Domain Adaptation via Ensemble Pseudo-Labeling ( http://arxiv.org/abs/2205.13508v1 )

ライセンス: CC BY 4.0
Christopher Liao, Theodoros Tsiligkaridis, Brian Kulis(参考訳) ドメイン適応(DA)は、分布外ラベル付きデータによるテスト精度の向上の可能性から、近年、ディープラーニング研究者から広く注目を集めている。 ほとんどの最先端のdaアルゴリズムは、大量のハイパーパラメータチューニングを必要とし、必要なバッチサイズのために計算集約的である。 本研究では,(1)共分散マッチングによるドメインアライメント,(2)擬似ラベル,(3)アンサンブルの3段階からなる,高速でシンプルなDA手法を提案する。 このメソッドを$\textbf{pace}$, for $\textbf{p}$seudo-labels, $\textbf{a}$lignment of $\textbf{c}$ovariances, $\textbf{e}$nsembles と呼びます。 PACEは、現代の事前訓練されたバックボーンのアンサンブルから抽出された固定された特徴に基づいて訓練される。 paceは、ニューラルネットワークをトレーニングせずに、ほとんどのベンチマーク適応タスクで$\textbf{5 - 10 \%}$で以前の最先端を上回っている。 PACEは、最先端のDA手法と比較して、トレーニング時間とハイパーパラメータチューニング時間をそれぞれ82\%と97\%に削減する。 https://github.com/Chris210634/PACE-Domain-Adaptation

Domain Adaptation (DA) has received widespread attention from deep learning researchers in recent years because of its potential to improve test accuracy with out-of-distribution labeled data. Most state-of-the-art DA algorithms require an extensive amount of hyperparameter tuning and are computationally intensive due to the large batch sizes required. In this work, we propose a fast and simple DA method consisting of three stages: (1) domain alignment by covariance matching, (2) pseudo-labeling, and (3) ensembling. We call this method $\textbf{PACE}$, for $\textbf{P}$seudo-labels, $\textbf{A}$lignment of $\textbf{C}$ovariances, and $\textbf{E}$nsembles. PACE is trained on top of fixed features extracted from an ensemble of modern pretrained backbones. PACE exceeds previous state-of-the-art by $\textbf{5 - 10 \%}$ on most benchmark adaptation tasks without training a neural network. PACE reduces training time and hyperparameter tuning time by $82\%$ and $97\%$, respectively, when compared to state-of-the-art DA methods. Code is released here: https://github.com/Chris210634/PACE-Domain-Adaptation
翻訳日:2022-05-27 17:32:07 公開日:2022-05-26
# (参考訳) カーネルリッジレス回帰は低次元では矛盾する

Kernel Ridgeless Regression is Inconsistent for Low Dimensions ( http://arxiv.org/abs/2205.13525v1 )

ライセンス: CC0 1.0
Daniel Beaglehole, Mikhail Belkin, Parthe Pandit(参考訳) シフト不変カーネルの大規模クラスに対するカーネル補間は、トレーニングセットに適応した帯域幅であっても一定次元では一致しないことを示す。

We show that kernel interpolation for a large class of shift-invariant kernels is inconsistent in fixed dimension, even with bandwidth adaptive to the training set.
翻訳日:2022-05-27 16:02:03 公開日:2022-05-26
# フェルミイオンニューラルネットにおける$o(n^2)$ユニバーサル反対称性

$O(N^2)$ Universal Antisymmetry in Fermionic Neural Networks ( http://arxiv.org/abs/2205.13205v1 )

ライセンス: Link先を確認
Tianyu Pang, Shuicheng Yan, Min Lin(参考訳) フェルミネット(Fermionic Neural Network, FermiNet)は、多電子シュリンガー方程式の解法としてモンテカルロ法(VMC)で用いられる、最近提案された波動関数Ansatzである。 FermiNetは置換同変アーキテクチャを提案し、スレーター行列式を適用して反対称性を誘導する。 FermiNetは1つの行列式を持つ普遍近似能力を持つことが証明されており、十分なパラメータが与えられた任意の反対称関数を表現するのに十分である。 しかし、漸近的な計算ボトルネックはスレーター行列式から来ており、これは電子に対して$O(N^3)$でスケールする。 本稿では,スレーター行列式を,実装が容易で計算コストを$O(N^2)$に削減できる対反対称性構成で置き換える。 さらに、置換同値なアーキテクチャに基づくペアワイズ構成が任意の反対称関数を普遍的に表現できることを形式的に証明する。

Fermionic neural network (FermiNet) is a recently proposed wavefunction Ansatz, which is used in variational Monte Carlo (VMC) methods to solve the many-electron Schr\"odinger equation. FermiNet proposes permutation-equivariant architectures, on which a Slater determinant is applied to induce antisymmetry. FermiNet is proved to have universal approximation capability with a single determinant, namely, it suffices to represent any antisymmetric function given sufficient parameters. However, the asymptotic computational bottleneck comes from the Slater determinant, which scales with $O(N^3)$ for $N$ electrons. In this paper, we substitute the Slater determinant with a pairwise antisymmetry construction, which is easy to implement and can reduce the computational cost to $O(N^2)$. Furthermore, we formally prove that the pairwise construction built upon permutation-equivariant architectures can universally represent any antisymmetric function.
翻訳日:2022-05-27 15:44:31 公開日:2022-05-26
# 学習に基づくロボットナビゲーションシステムの検証

Verifying Learning-Based Robotic Navigation Systems ( http://arxiv.org/abs/2205.13536v1 )

ライセンス: Link先を確認
Guy Amir, Davide Corsi, Raz Yerushalmi, Luca Marzari, David Harel, Alessandro Farinelli and Guy Katz(参考訳) 深層強化学習(DRL)は、リアクティブシステム内で複雑なポリシーが学習される様々なタスクにおいて、主要なディープラーニングパラダイムとなっている。 並行して、ディープニューラルネットワークの検証に関する重要な研究が最近行われている。 しかし、現在ではDRL制御システムにおける最新の検証ツールの使用を示す研究はほとんど行われていない。 このケーススタディな論文では、このギャップを埋め始め、地図のないロボットナビゲーションの重要なタスクに焦点をあてる。従来のロボット工学の問題では、通常DRLエージェントによって制御されるロボットが、未知のアリーナから望ましい目標に向かって効率的に安全にナビゲートする必要がある。 提案手法は, ロボットが有効なモデル選択, すなわち, 候補ポリシーのプールから最適なポリシーを選択するプロセスにおいて, 最新の検証エンジンをどのように利用できるかを示すものである。 具体的には、衝突や無限ループなどの準最適挙動を示すポリシの検出と排除に検証を使用する。 また,過度に保守的な振る舞いを持つモデルを特定するために検証を適用することで,ターゲットへの最適で短いパスを見つけるのに優れたポリシを選択することができる。 本研究は,実際のロボットに対して広範な実験を行い,本手法が検出した最適下方策が実際に欠陥があることを確認した。 また,我々の検証駆動アプローチを最先端の勾配攻撃と比較し,勾配に基づく手法が不適切であることを実証した。 我々の研究は、現実世界のロボットにおける最適DRLポリシーを認識し、望ましくないポリシーをフィルタリングするために、DNN検証バックエンドを使用した最初の例である。 この研究で示された手法は、ディープラーニングベースのエージェントを組み込んだ広範囲のアプリケーションドメインに適用できると考えています。

Deep reinforcement learning (DRL) has become a dominant deep-learning paradigm for various tasks in which complex policies are learned within reactive systems. In parallel, there has recently been significant research on verifying deep neural networks. However, to date, there has been little work demonstrating the use of modern verification tools on real, DRL-controlled systems. In this case-study paper, we attempt to begin bridging this gap, and focus on the important task of mapless robotic navigation -- a classic robotics problem, in which a robot, usually controlled by a DRL agent, needs to efficiently and safely navigate through an unknown arena towards a desired target. We demonstrate how modern verification engines can be used for effective model selection, i.e., the process of selecting the best available policy for the robot in question from a pool of candidate policies. Specifically, we use verification to detect and rule out policies that may demonstrate suboptimal behavior, such as collisions and infinite loops. We also apply verification to identify models with overly conservative behavior, thus allowing users to choose superior policies that are better at finding an optimal, shorter path to a target. To validate our work, we conducted extensive experiments on an actual robot, and confirmed that the suboptimal policies detected by our method were indeed flawed. We also compared our verification-driven approach to state-of-the-art gradient attacks, and our results demonstrate that gradient-based methods are inadequate in this setting. Our work is the first to demonstrate the use of DNN verification backends for recognizing suboptimal DRL policies in real-world robots, and for filtering out unwanted policies. We believe that the methods presented in this work can be applied to a large range of application domains that incorporate deep-learning-based agents.
翻訳日:2022-05-27 15:44:12 公開日:2022-05-26
# (参考訳) 変分量子固有解法における不毛高原の緩和

Mitigating barren plateaus of variational quantum eigensolvers ( http://arxiv.org/abs/2205.13539v1 )

ライセンス: CC BY 4.0
Xia Liu, Geng Liu, Jiaxin Huang, Xin Wang(参考訳) 変分量子アルゴリズム(VQA)は、短期量子コンピュータに有用な応用を確立することが期待されている。 しかし、近年の研究では、VQAsの性能はアンサーゼの能力に大きく依存しており、バレンプラトーのような最適化問題(すなわち消滅勾配)によって著しく制限されていることが指摘されている。 本研究は、トレーニング性を改善した正確な量子力学シミュレーションのための状態効率アンサッツ(SEA)を提案する。 まず,seaは普遍ansatzよりもはるかに少ないパラメータで任意の純粋状態を生成することができ,基底状態推定などのタスクに効率的であることを示す。 また、準備された状態の絡み合いを調整する柔軟性があり、弱い絡み合いをシミュレートする効率をさらに向上するために適用することができる。 第2に,海は普遍的な波動関数表現性を有していても一元的な2-設計ではないことを示し,不毛高原のゾーンを避けてトレーサビリティを向上させる大きな可能性を秘めている。 さらに, 基底状態推定の例を多数検討し, 導関数の分散と全体最適化挙動の有意な改善を得た。 この結果から,SEAはターゲット問題に対する冗長表現性を犠牲にしてバレン高原を緩和できることが示された。

Variational quantum algorithms (VQAs) are expected to establish valuable applications on near-term quantum computers. However, recent works have pointed out that the performance of VQAs greatly relies on the capability of the ansatzes and is seriously limited by optimization issues such as barren plateaus (i.e., vanishing gradients). This work proposes the state efficient ansatz (SEA) for accurate quantum dynamics simulations with improved trainability. First, we show that SEA can generate an arbitrary pure state with much fewer parameters than a universal ansatz, making it efficient for tasks like ground state estimation. It also has the flexibility in adjusting the entanglement of the prepared state, which could be applied to further improve the efficiency of simulating weak entanglement. Second, we show that SEA is not a unitary 2-design even if it has universal wavefunction expressibility and thus has great potential to improve the trainability by avoiding the zone of barren plateaus. We further investigate a plethora of examples in ground state estimation and notably obtain significant improvements in the variances of derivatives and the overall optimization behaviors. This result indicates that SEA can mitigate barren plateaus by sacrificing the redundant expressibility for the target problem.
翻訳日:2022-05-27 15:42:08 公開日:2022-05-26
# SigMaNet: すべてを支配するラプラシアン

SigMaNet: One Laplacian to Rule Them All ( http://arxiv.org/abs/2205.13459v1 )

ライセンス: Link先を確認
Stefano Fiorini, Stefano Coniglio, Michele Ciavotta and Enza Messina(参考訳) 本稿では,無向グラフと有向グラフの両方を,符号や大きさに制限されない重みで処理できる汎用グラフ畳み込みネットワーク(GCN)であるSigMaNetを紹介する。 SigMaNet の土台は一般化されたラプラシア行列 Sign-Magnetic Laplacian (L^\sigma$) の導入である。 このような行列の採用により、スペクトルGCNの理論を正および負の重みを持つ有向グラフに拡張することにより、現在の文献のギャップを埋めることができる。 l^{\sigma}$ は、いくつかの最先端アーキテクチャがベースとなっている伝統的なラプラキア行列では享受できないいくつかの望ましい性質を示す。 特に、$l^\sigma$ は完全にパラメータフリーであり、これは磁気ラプラシアン $l^{(q)}$ のようなラプラシアン作用素の場合ではない。 l^\sigma$ はアプローチを単純化すると同時に、その方向の観点で辺の記号の自然な解釈を可能にする。 提案するネットワークSigMaNetは,グラフ構造に関わらず,検討したすべてのタスクにおいて,競争力があることが判明した。

This paper introduces SigMaNet, a generalized Graph Convolutional Network (GCN) capable of handling both undirected and directed graphs with weights not restricted in sign and magnitude. The cornerstone of SigMaNet is the introduction of a generalized Laplacian matrix: the Sign-Magnetic Laplacian ($L^\sigma$). The adoption of such a matrix allows us to bridge a gap in the current literature by extending the theory of spectral GCNs to directed graphs with both positive and negative weights. $L^{\sigma}$ exhibits several desirable properties not enjoyed by the traditional Laplacian matrices on which several state-of-the-art architectures are based. In particular, $L^\sigma$ is completely parameter-free, which is not the case of Laplacian operators such as the Magnetic Laplacian $L^{(q)}$, where the calibration of the parameter q is an essential yet problematic component of the operator. $L^\sigma$ simplifies the approach, while also allowing for a natural interpretation of the signs of the edges in terms of their directions. The versatility of the proposed approach is amply demonstrated experimentally; the proposed network SigMaNet turns out to be competitive in all the tasks we considered, regardless of the graph structure.
翻訳日:2022-05-27 15:07:23 公開日:2022-05-26
# TempoRL:オフポリティ強化学習における時間的優先事項

TempoRL: Temporal Priors for Exploration in Off-Policy Reinforcement Learning ( http://arxiv.org/abs/2205.13528v1 )

ライセンス: Link先を確認
Marco Bagatella, Sammy Christen and Otmar Hilliges(参考訳) 効率的な探索は、深層強化学習において重要な課題である。 複雑なタスクにおける強化学習を効率的に加速するために、動作先行などいくつかの手法がオフラインデータを活用することができる。 しかし、手作業が実証されたタスクから過度に逸脱した場合、そのような手法の有効性は制限される。 本研究では,より多様なタスクによって共有されるオフラインデータから,行動と指向性の相関などの特徴を学習することを提案する。 そこで本研究では,実演された軌跡の時間的一貫性を直接モデル化し,単純なタスクで収集したデータに基づいても複雑なタスクの探索を促進できる状態独立時間優先法を提案する。 さらに,政策と行動の確率的混合から動的に抽出し,オフポリシー強化学習における行動優先のための新しい統合手法を提案する。 我々は,このアプローチを強固なベースラインと比較し,分散報酬設定下での長期連続制御タスクにおける強化学習を促進できることを示す実証的証拠を提供する。

Efficient exploration is a crucial challenge in deep reinforcement learning. Several methods, such as behavioral priors, are able to leverage offline data in order to efficiently accelerate reinforcement learning on complex tasks. However, if the task at hand deviates excessively from the demonstrated task, the effectiveness of such methods is limited. In our work, we propose to learn features from offline data that are shared by a more diverse range of tasks, such as correlation between actions and directedness. Therefore, we introduce state-independent temporal priors, which directly model temporal consistency in demonstrated trajectories, and are capable of driving exploration in complex tasks, even when trained on data collected on simpler tasks. Furthermore, we introduce a novel integration scheme for action priors in off-policy reinforcement learning by dynamically sampling actions from a probabilistic mixture of policy and action prior. We compare our approach against strong baselines and provide empirical evidence that it can accelerate reinforcement learning in long-horizon continuous control tasks under sparse reward settings.
翻訳日:2022-05-27 15:07:02 公開日:2022-05-26
# 多相多目的マニピュレーションのための適応的階層報酬を用いた深層強化学習

Deep Reinforcement Learning with Adaptive Hierarchical Reward for MultiMulti-Phase Multi Multi-Objective Dexterous Manipulation ( http://arxiv.org/abs/2205.13441v1 )

ライセンス: Link先を確認
Lingfeng Tao, Jiucai Zhang, Xiaoli Zhang(参考訳) 有害な操作タスクは通常、複数の目的を持ち、これらの目的の優先順位は操作タスクの異なるフェーズで変化する。 優先度の変動により、ロボットは深層強化学習(DRL)法で最適なポリシーをほとんど学ばず、あるいはうまくいかなかった。 そこで本研究では,drlエージェントに複数の目標を優先して操作タスクを学習させる適応的階層的報酬機構(ahrm)を開発した。 AHRMは、学習プロセス中の目的の優先順位を決定し、報酬階層を更新して、異なるフェーズで変化する目標の優先順位に適応することができる。 提案手法は,障害物を取り囲む目標をロボットが操作する必要があるjacoロボットアームを用いた多目的操作タスクにおいて検証される。 シミュレーションと物理実験の結果,提案手法はタスク性能と学習効率のロボット学習を改善した。

Dexterous manipulation tasks usually have multiple objectives, and the priorities of these objectives may vary at different phases of a manipulation task. Varying priority makes a robot hardly or even failed to learn an optimal policy with a deep reinforcement learning (DRL) method. To solve this problem, we develop a novel Adaptive Hierarchical Reward Mechanism (AHRM) to guide the DRL agent to learn manipulation tasks with multiple prioritized objectives. The AHRM can determine the objective priorities during the learning process and update the reward hierarchy to adapt to the changing objective priorities at different phases. The proposed method is validated in a multi-objective manipulation task with a JACO robot arm in which the robot needs to manipulate a target with obstacles surrounded. The simulation and physical experiment results show that the proposed method improved robot learning in task performance and learning efficiency.
翻訳日:2022-05-27 15:06:43 公開日:2022-05-26
# DGSVis:動的グラフにおける階層スナップショットの可視化解析

DGSVis: Visual Analysis of Hierarchical Snapshots in Dynamic Graph ( http://arxiv.org/abs/2205.13220v1 )

ライセンス: Link先を確認
Baofeng Chang(参考訳) ダイナミックグラフの可視化は、複数のドメイン内のエンティティ間の時間変化の関係(ソーシャルメディア分析、学術協力分析、チームスポーツ分析など)を表すため、研究者の集中を惹きつける。 視覚解析手法の統合は、動的グラフの提示、比較、レビューにおいて重要となる。 動的グラフの可視化は長年開発されてきたが、大規模かつ時間集約的な動的グラフデータを微妙な変化で効果的に視覚化する方法は研究者にとって依然として難しい。 このタイプの動的グラフデータに対して有効な解析法を提供するために、ユーザが動的グラフを多面的および階層的スナップショットに分割するのに役立つ、ヒューマン・イン・ループを含むスナップショット生成アルゴリズムを提案する。 さらに,ユーザによる動的グラフインサイトへのアクセスを効果的に支援するdsvis(visual analysis prototype system)を設計した。 DGSVisはグラフィカルな操作インターフェースを統合し、ユーザーが視覚的にインタラクティブにスナップショットを生成するのに役立つ。 動的グラフデータの階層的なスナップショットを可視化するための概要と詳細を備えている。 この種の動的グラフデータに対する提案手法の有用性と効率性を説明するため,バスケットボール選手ネットワークを用いた2つのケーススタディをコンペティションで紹介する。 さらに、評価を行い、経験豊富な可視化専門家からエキサイティングなフィードバックを受けます。

Dynamic graph visualization attracts researchers' concentration as it represents time-varying relationships between entities in multiple domains (e.g., social media analysis, academic cooperation analysis, team sports analysis). Integrating visual analytic methods is consequential in presenting, comparing, and reviewing dynamic graphs. Even though dynamic graph visualization is developed for many years, how to effectively visualize large-scale and time-intensive dynamic graph data with subtle changes is still challenging for researchers. To provide an effective analysis method for this type of dynamic graph data, we propose a snapshot generation algorithm involving Human-In-Loop to help users divide the dynamic graphs into multi-granularity and hierarchical snapshots for further analysis. In addition, we design a visual analysis prototype system (DGSVis) to assist users in accessing the dynamic graph insights effectively. DGSVis integrates a graphical operation interface to help users generate snapshots visually and interactively. It is equipped with the overview and details for visualizing hierarchical snapshots of the dynamic graph data. To illustrate the usability and efficiency of our proposed methods for this type of dynamic graph data, we introduce two case studies based on basketball player networks in a competition. In addition, we conduct an evaluation and receive exciting feedback from experienced visualization experts.
翻訳日:2022-05-27 15:04:39 公開日:2022-05-26
# SHREC 2022:画像とRGB-Dデータを用いた道路舗装の穴と亀裂検出

SHREC 2022: pothole and crack detection in the road pavement using images and RGB-D data ( http://arxiv.org/abs/2205.13326v1 )

ライセンス: Link先を確認
Elia Moscoso Thompson, Andrea Ranieri, Silvia Biasotti, Miguel Chicchon, Ivan Sipiran, Minh-Khoi Pham, Thang-Long Nguyen-Ho, Hai-Dang Nguyen, Minh-Triet Tran(参考訳) 本稿では,SHREC 2022の道路舗装におけるポットホールと亀裂検出のための評価手法について述べる。 道路面のセマンティクスセグメンテーションのための合計7つの異なるランを比較し、参加者から6つとベースライン法とを比較した。 すべてのメソッドがディープラーニング技術を利用し、そのパフォーマンスは同じ環境(つまり単一のjupyterノートブック)を使ってテストされる。 身近な深度カメラで収集した3836のセマンティックセグメンテーション画像/マスクペアと797のrgb-dビデオクリップからなるトレーニングセットが参加者に提供された。 次に、検証セットの496のイメージ/マスクペア、テストセットの504のペア、最後に8のビデオクリップで評価する。 結果の分析は,ビデオクリップの映像分割と質的分析の定量的指標に基づいて行われる。 参加と結果から,シナリオは非常に興味深く,rgb-dデータの利用はいまだに困難であることが示された。

This paper describes the methods submitted for evaluation to the SHREC 2022 track on pothole and crack detection in the road pavement. A total of 7 different runs for the semantic segmentation of the road surface are compared, 6 from the participants plus a baseline method. All methods exploit Deep Learning techniques and their performance is tested using the same environment (i.e.: a single Jupyter notebook). A training set, composed of 3836 semantic segmentation image/mask pairs and 797 RGB-D video clips collected with the latest depth cameras was made available to the participants. The methods are then evaluated on the 496 image/mask pairs in the validation set, on the 504 pairs in the test set and finally on 8 video clips. The analysis of the results is based on quantitative metrics for image segmentation and qualitative analysis of the video clips. The participation and the results show that the scenario is of great interest and that the use of RGB-D data is still challenging in this context.
翻訳日:2022-05-27 15:04:19 公開日:2022-05-26
# PreF: コンパクトなニューラル表現のためのファソリアル埋め込み場

PREF: Phasorial Embedding Fields for Compact Neural Representations ( http://arxiv.org/abs/2205.13524v1 )

ライセンス: Link先を確認
Binbin Huang, Xinhao Yan, Anpei Chen, Shenghua Gao, Jingyi Yu(参考訳) 本稿では, 神経信号モデリングと再構成作業を容易にするためのコンパクトな表現として, ファサール埋め込み場 \emph{PREF} を提案する。 純粋な多層パーセプトロン(MLP)ベースの神経技術は低周波信号に偏りがあり、詳細を失うのを避けるために深層やフーリエエンコーディングに依存している。 代わりに PreF はフーリエ埋め込み空間のファサー定式化に基づくコンパクトで物理的に説明可能な符号化場を用いる。 我々は,最新の空間埋め込み手法に対するprefの利点を示すために,包括的理論解析を行う。 そこで我々は, PreF の逆フーリエ変換スキームと新しい Parseval 正規化器を用いた高効率な周波数学習フレームワークを開発した。 大規模実験により, 小型のprefを用いた神経信号処理技術は, 2次元画像補完, 3次元sdf表面回帰, 5次元放射野再構成に匹敵することを示した。

We present a phasorial embedding field \emph{PREF} as a compact representation to facilitate neural signal modeling and reconstruction tasks. Pure multi-layer perceptron (MLP) based neural techniques are biased towards low frequency signals and have relied on deep layers or Fourier encoding to avoid losing details. PREF instead employs a compact and physically explainable encoding field based on the phasor formulation of the Fourier embedding space. We conduct a comprehensive theoretical analysis to demonstrate the advantages of PREF over the latest spatial embedding techniques. We then develop a highly efficient frequency learning framework using an approximated inverse Fourier transform scheme for PREF along with a novel Parseval regularizer. Extensive experiments show our compact PREF-based neural signal processing technique is on par with the state-of-the-art in 2D image completion, 3D SDF surface regression, and 5D radiance field reconstruction.
翻訳日:2022-05-27 15:04:01 公開日:2022-05-26
# 倫理観

Prismal view of ethics ( http://arxiv.org/abs/2205.13370v1 )

ライセンス: Link先を確認
Sarah Isufi, Kristijan Poje, Igor Vukobratovic and Mario Brcic(参考訳) 我々は倫理を精査し、ツールになる可能性のある抽象的な性質の形で洞察を引き出そうとする。 倫理をゲームと結びつけ、倫理のパフォーマンスについて話し、競争とパフォーマンスのよい倫理の調整の相互作用に好奇心を持ち込み、増大する実体の集合を統一する可能性のある発展の視点を提供したいと考えています。 これらすべては、ゲームに対して非常に否定的な計算複雑性によって、長い影の下にあります。 この分析は、現代のAIシステムを人間社会に統合するためにAI倫理に使用されるかもしれないモデリングの側面を見つけるための第一歩である。

We shall have a hard look at ethics and try to extract insights in the form of abstract properties that might become tools. We want to connect ethics to games, talk about the performance of ethics, introduce curiosity into the interplay between competing and coordinating in well-performing ethics, and offer a view of possible developments that could unify increasing aggregates of entities. All this is under a long shadow cast by computational complexity that is quite negative about games. This analysis is the first step toward finding modeling aspects that might be used in AI ethics for integrating modern AI systems into human society.
翻訳日:2022-05-27 15:03:45 公開日:2022-05-26
# 多目的QUBOソルバー:双対象2次アサインメント

Multi-objective QUBO Solver: Bi-objective Quadratic Assignment ( http://arxiv.org/abs/2205.13399v1 )

ライセンス: Link先を確認
Mayowa Ayodele and Richard Allmendinger and Manuel L\'opez-Ib\'a\~nez and Matthieu Parizy(参考訳) 量子および量子に着想を得た最適化アルゴリズムは、二進法、二進法、非制約形式で表される問題を解くために設計されている。 したがって、組合せ最適化問題は、これらのアルゴリズムで解くために、二次非制約バイナリ最適化問題(QUBO)として定式化されることが多い。 さらに、これらのQUBOソルバは、富士通のDigital Annealer(DA)やD-WaveのQuantum Annealerといった、膨大なスピードアップを達成するために、特別なハードウェアを用いて実装されることが多い。 しかし、それらは単一の目的の解法であり、多くの現実世界の問題には複数の相反する目的がある。 したがって、これらのQUBOソルバを使用する場合の一般的な実践は、そのような多目的問題を単一目的問題の列にまとめることである。 これらの解法の設計上のトレードオフのため、各スカラー化の定式化には局所的最適を求めるよりも多くの時間を要する可能性がある。 本稿では,商用のquboソルバをスカラライズに基づかない多目的解法としてサポートするアルゴリズムを拡張した最初の試みを示す。 提案された多目的daアルゴリズムは、二目的二次代入問題で検証される。 アルゴリズムの性能は採用されているアーカイブ戦略に大きく依存しており、daと非スカラー化法を組み合わせて複数の目的を最適化することで、最終的なソリューション品質の面で現在のdaのスカラ化バージョンを上回っている。

Quantum and quantum-inspired optimisation algorithms are designed to solve problems represented in binary, quadratic and unconstrained form. Combinatorial optimisation problems are therefore often formulated as Quadratic Unconstrained Binary Optimisation Problems (QUBO) to solve them with these algorithms. Moreover, these QUBO solvers are often implemented using specialised hardware to achieve enormous speedups, e.g. Fujitsu's Digital Annealer (DA) and D-Wave's Quantum Annealer. However, these are single-objective solvers, while many real-world problems feature multiple conflicting objectives. Thus, a common practice when using these QUBO solvers is to scalarise such multi-objective problems into a sequence of single-objective problems. Due to design trade-offs of these solvers, formulating each scalarisation may require more time than finding a local optimum. We present the first attempt to extend the algorithm supporting a commercial QUBO solver as a multi-objective solver that is not based on scalarisation. The proposed multi-objective DA algorithm is validated on the bi-objective Quadratic Assignment Problem. We observe that algorithm performance significantly depends on the archiving strategy adopted, and that combining DA with non-scalarisation methods to optimise multiple objectives outperforms the current scalarised version of the DA in terms of final solution quality.
翻訳日:2022-05-27 15:03:34 公開日:2022-05-26
# ランダムモデル上の凝集によるスクリーニング実験における因子選択

Factor selection in screening experiments by aggregation over random models ( http://arxiv.org/abs/2205.13497v1 )

ライセンス: Link先を確認
Rakhi Singh, John Stufken(参考訳) スクリーニング実験は、多くの潜在的に重要な要因から、少数の真に重要な要因をスクリーニングするのに有用である。 Gauss-Dantzig Selector (GDS) は、しばしばスクリーニング実験において好ましい分析方法である。 主効果モデルを考えると誤った結論が出るが、2要素相互作用に制限された相互作用項を含むと、モデル項の数が劇的に増加し、GDS分析に挑戦する。 ランダムに選択された相互作用のみを含む複数のモデル上でgds分析を行うgauss-dantzig selector aggregate over random models (gds-arm) と呼ばれる新しい解析法を提案する。 これらの異なる分析結果が集約され、重要な要因が特定される。 提案手法について検討し,チューニングパラメータの選択を提案し,実データとシミュレーションデータを用いてその性能について検討する。

Screening experiments are useful for screening out a small number of truly important factors from a large number of potentially important factors. The Gauss-Dantzig Selector (GDS) is often the preferred analysis method for screening experiments. Just considering main-effects models can result in erroneous conclusions, but including interaction terms, even if restricted to two-factor interactions, increases the number of model terms dramatically and challenges the GDS analysis. We propose a new analysis method, called Gauss-Dantzig Selector Aggregation over Random Models (GDS-ARM), which performs a GDS analysis on multiple models that include only some randomly selected interactions. Results from these different analyses are then aggregated to identify the important factors. We discuss the proposed method, suggest choices for the tuning parameters, and study its performance on real and simulated data.
翻訳日:2022-05-27 15:03:04 公開日:2022-05-26
# RACE:NoCチャネルバッファの適応制御を改善する強化学習フレームワーク

RACE: A Reinforcement Learning Framework for Improved Adaptive Control of NoC Channel Buffers ( http://arxiv.org/abs/2205.13130v1 )

ライセンス: Link先を確認
Kamil Khan, Sudeep Pasricha, and Ryan Gary Kim(参考訳) Network-on-chip (NoC) アーキテクチャは、パケット切替時にルータリソースの競合に対処するために、バッファーを使用してフリットを格納する。 近年,低消費電力化と隣接ルータ間の適応的nocバッファ化を実現するため,可逆型マルチファンクションチャネル(rmc)バッファが提案されている。 適応バッファリングはバッファ利用を最大化することでNoC性能を向上させることができるが、RCCバッファ割り当てを制御するには、混雑を意識し、スケーラブルでプロアクティブなポリシーが必要である。 本稿では,ネットワークの混雑に対する認識を向上する新しい強化学習(RL)フレームワーク RACE と,RL エージェントを RMC バッファ制御のより良い決定へ導くための新たな報酬指標 (falsefulls) を提案する。 RACEは、最先端のNoCバッファ制御ポリシに対して、NoCレイテンシを最大48.9%削減し、エネルギー消費を最大47.1%削減する。

Network-on-chip (NoC) architectures rely on buffers to store flits to cope with contention for router resources during packet switching. Recently, reversible multi-function channel (RMC) buffers have been proposed to simultaneously reduce power and enable adaptive NoC buffering between adjacent routers. While adaptive buffering can improve NoC performance by maximizing buffer utilization, controlling the RMC buffer allocations requires a congestion-aware, scalable, and proactive policy. In this work, we present RACE, a novel reinforcement learning (RL) framework that utilizes better awareness of network congestion and a new reward metric ("falsefulls") to help guide the RL agent towards better RMC buffer control decisions. We show that RACE reduces NoC latency by up to 48.9%, and energy consumption by up to 47.1% against state-of-the-art NoC buffer control policies.
翻訳日:2022-05-27 15:01:47 公開日:2022-05-26
# ハイパーグラフ分割の最近の進歩

More Recent Advances in (Hyper)Graph Partitioning ( http://arxiv.org/abs/2205.13202v1 )

ライセンス: Link先を確認
\"Umit V. \c{C}ataly\"urek, Karen D. Devine, Marcelo Fonseca Faraj, Lars Gottesb\"urren, Tobias Heuer, Henning Meyerhenke, Peter Sanders, Sebastian Schlag, Christian Schulz, Daniel Seemaier, Dorothea Wagner(参考訳) 近年、バランスのとれた(ハイパー)グラフ分割アルゴリズムの設計と評価において重要な進歩がなされている。 我々は,過去10年間のバランスのとれた(ハイパー)グラフ分割のための実用的なアルゴリズムの動向と今後の研究動向について調査する。 私たちの仕事は、そのトピックに関する以前の調査の更新として役立ちます。 特にこの調査は、ハイパーグラフのパーティショニングとストリーミングアルゴリズムをカバーすることで、以前の調査を拡張し、並列アルゴリズムにさらに重点を置いている。

In recent years, significant advances have been made in the design and evaluation of balanced (hyper)graph partitioning algorithms. We survey trends of the last decade in practical algorithms for balanced (hyper)graph partitioning together with future research directions. Our work serves as an update to a previous survey on the topic. In particular, the survey extends the previous survey by also covering hypergraph partitioning and streaming algorithms, and has an additional focus on parallel algorithms.
翻訳日:2022-05-27 15:01:28 公開日:2022-05-26
# 慣性閉じ込め融合のためのトランスファー学習駆動設計最適化

Transfer learning driven design optimization for inertial confinement fusion ( http://arxiv.org/abs/2205.13519v1 )

ライセンス: Link先を確認
K. D. Humbird and J. L. Peterson(参考訳) 転送学習は、シミュレーションと実験データを共通のフレームワークに組み込む予測モデルを作成するための有望なアプローチである。 このテクニックでは、ニューラルネットワークはまず、大きなシミュレーションのデータベース上でトレーニングされ、その後、分散した実験データのセットで部分的に再トレーニングされ、現実と一貫性のある予測を調整する。 従来、この技術は、シミュレーション単独よりも正確なOmegaとNIF慣性閉じ込め融合(ICF)実験の予測モデルの作成に用いられてきた。 本研究では,ベイズ最適化による実験中性子収率の最大化を目標とする移動学習駆動型ICFキャンペーンを行う。 トランスファー学習モデルは,20実験未満で,小型設計空間における最大収率の5%以内の収率を達成する。 さらに,本手法は,icf設計において一般的なモデルキャリブレーション手法よりも,設計の最適化に有効であることを示す。 ICF設計へのこのようなアプローチは、不確実性の下で実験性能の堅牢な最適化を可能にする。

Transfer learning is a promising approach to creating predictive models that incorporate simulation and experimental data into a common framework. In this technique, a neural network is first trained on a large database of simulations, then partially retrained on sparse sets of experimental data to adjust predictions to be more consistent with reality. Previously, this technique has been used to create predictive models of Omega and NIF inertial confinement fusion (ICF) experiments that are more accurate than simulations alone. In this work, we conduct a transfer learning driven hypothetical ICF campaign in which the goal is to maximize experimental neutron yield via Bayesian optimization. The transfer learning model achieves yields within 5% of the maximum achievable yield in a modest-sized design space in fewer than 20 experiments. Furthermore, we demonstrate that this method is more efficient at optimizing designs than traditional model calibration techniques commonly employed in ICF design. Such an approach to ICF design could enable robust optimization of experimental performance under uncertainty.
翻訳日:2022-05-27 15:01:22 公開日:2022-05-26
# 高忠実度画像意味伝達のための知覚的学習ソースチャネル符号化

Perceptual Learned Source-Channel Coding for High-Fidelity Image Semantic Transmission ( http://arxiv.org/abs/2205.13120v1 )

ライセンス: Link先を確認
Jun Wang, Sixian Wang, Jincheng Dai, Zhongwei Si, Dekun Zhou, Kai Niu(参考訳) エンド・ツー・エンドの無線画像意味伝達を実現する新しい手法として,深層学習とコミュニケーションの両コミュニティにおいて,深層学習に基づくジョイント・ソース・チャネル・コーディング(ディープJSCC)法が登場している。 しかし、現在のディープJSCC画像伝送システムは、通常、ピーク信号対雑音比(PSNR)やマルチスケール構造類似度(MS-SSIM)といった従来の歪み指標に最適化されている。 しかし、伝送速度が低い場合は、不完全な無線チャネルのため、これらの歪みの指標はピクセル単位の保存を好むため、重要性を失う。 意味コミュニケーションにおける人間の視覚的知覚を考慮に入れるためには,従来のPSNRやMS-SSIMの指標を超える高度JSCCシステムを開発することが重要である。 本稿では,大域的な意味情報や局所的なテクスチャを保存しがちな深いJSCCを最適化するために,敵対的損失を導入する。 当社の新しいディープjsccアーキテクチャは、エンコーダ、ワイヤレスチャネル、デコーダ/ジェネレータ、判別器を組み合わせることで、知覚的損失と敵対的損失の両方で共同で学習します。 提案手法は,最先端技術による画像符号化伝送システムや従来型の深部JSCCシステムよりも,人間の視覚効果をはるかに向上させる。 ユーザ調査により,画像伝送品質の知覚的類似性を実現することで,約50~%の無線チャネル帯域幅コストを削減できることを確認した。

As one novel approach to realize end-to-end wireless image semantic transmission, deep learning-based joint source-channel coding (deep JSCC) method is emerging in both deep learning and communication communities. However, current deep JSCC image transmission systems are typically optimized for traditional distortion metrics such as peak signal-to-noise ratio (PSNR) or multi-scale structural similarity (MS-SSIM). But for low transmission rates, due to the imperfect wireless channel, these distortion metrics lose significance as they favor pixel-wise preservation. To account for human visual perception in semantic communications, it is of great importance to develop new deep JSCC systems optimized beyond traditional PSNR and MS-SSIM metrics. In this paper, we introduce adversarial losses to optimize deep JSCC, which tends to preserve global semantic information and local texture. Our new deep JSCC architecture combines encoder, wireless channel, decoder/generator, and discriminator, which are jointly learned under both perceptual and adversarial losses. Our method yields human visually much more pleasing results than state-of-the-art engineered image coded transmission systems and traditional deep JSCC systems. A user study confirms that achieving the perceptually similar end-to-end image transmission quality, the proposed method can save about 50\% wireless channel bandwidth cost.
翻訳日:2022-05-27 14:58:31 公開日:2022-05-26
# 撮像する、または撮像しない:望ましくない物体の全ての光学的消去を備えたクラス特異的回折カメラ

To image, or not to image: Class-specific diffractive cameras with all-optical erasure of undesired objects ( http://arxiv.org/abs/2205.13122v1 )

ライセンス: Link先を確認
Bijie Bai, Yi Luo, Tianyi Gan, Jingtian Hu, Yuhang Li, Yifan Zhao, Deniz Mengu, Mona Jarrahi, and Aydogan Ozcan(参考訳) プライバシー保護は、デジタル時代においてますます関心を集めており、マシンビジョン技術は、パブリックとプライベートの両方の設定で広く使われている。 既存の方法では、カメライメージの暗号化や、デジタルアルゴリズムによる画像情報の隠蔽やブルーリングなどによって、この問題に対処している。 本稿では,対象物体のクラス固有の画像化と,他の物体のクラスを瞬時に全光消去するカメラ設計について述べる。 この回折カメラは、ディープラーニングを用いて構成された透過面からなり、入力フィールドオブビューに位置する対象物のターゲットクラスを選択的に撮像する。 その製造後、薄い回折層は光モードフィルタリングを行い、対象データクラスまたはクラスのグループに属するオブジェクトの画像を正確に形成し、出力フィールド・オブ・ビューで他のデータクラスのオブジェクトを瞬時に消去する。 同じフレームワークを使用して、ターゲットデータクラスのオブジェクトがすべてのオプティカルクラス固有の暗号化のためにピクセル単位で置換され、他のオブジェクトが出力画像から不可逆的に消去されるクラス固有の置換カメラの設計もデモする。 クラス固有の回折カメラの成功は、テラヘルツ波(THz)と3Dプリントした回折層を用いて実験的に実証され、MNIST手書き桁データセットの1つのクラスのみを選択的に撮像し、他の手書き桁を全光学的に消去した。 この回折カメラの設計は、可視波長や赤外波長など、電磁スペクトルの様々な部分に拡張することができ、プライバシー保護デジタルカメラやタスク固有のデータ効率イメージングのための変革的な機会を提供する。

Privacy protection is a growing concern in the digital era, with machine vision techniques widely used throughout public and private settings. Existing methods address this growing problem by, e.g., encrypting camera images or obscuring/blurring the imaged information through digital algorithms. Here, we demonstrate a camera design that performs class-specific imaging of target objects with instantaneous all-optical erasure of other classes of objects. This diffractive camera consists of transmissive surfaces structured using deep learning to perform selective imaging of target classes of objects positioned at its input field-of-view. After their fabrication, the thin diffractive layers collectively perform optical mode filtering to accurately form images of the objects that belong to a target data class or group of classes, while instantaneously erasing objects of the other data classes at the output field-of-view. Using the same framework, we also demonstrate the design of class-specific permutation cameras, where the objects of a target data class are pixel-wise permuted for all-optical class-specific encryption, while the other objects are irreversibly erased from the output image. The success of class-specific diffractive cameras was experimentally demonstrated using terahertz (THz) waves and 3D-printed diffractive layers that selectively imaged only one class of the MNIST handwritten digit dataset, all-optically erasing the other handwritten digits. This diffractive camera design can be scaled to different parts of the electromagnetic spectrum, including, e.g., the visible and infrared wavelengths, to provide transformative opportunities for privacy-preserving digital cameras and task-specific data-efficient imaging.
翻訳日:2022-05-27 14:58:03 公開日:2022-05-26
# ワイヤレスディープビデオセマンティックトランスミッション

Wireless Deep Video Semantic Transmission ( http://arxiv.org/abs/2205.13129v1 )

ライセンス: Link先を確認
Sixian Wang, Jincheng Dai, Zijian Liang, Kai Niu, Zhongwei Si, Chao Dong, Xiaoqi Qin, Ping Zhang(参考訳) 本稿では,無線チャネル上でのエンドツーエンドビデオ伝送を実現するための,高効率なディープジョイントソースチャネル符号化手法を設計する。 提案手法は,ビデオフレーム間の意味的特徴を適応的に抽出し,無線チャネル上の意味的特徴領域表現を深層結合型通信路符号化により送信するために,非線形変換と条件付き符号化アーキテクチャを利用する。 我々のフレームワークはディープビデオセマンティックトランスミッション (DVST) という名前で収集される。 特に、特徴領域コンテキストによって提供される強い時間的事前の利点により、学習された非線形変換関数は時間的適応となり、その結果、現在のフレームの伝達を導くリッチでより正確なエントロピーモデルが得られる。 そこで,ビデオソースのディープジョイントソースチャネル符号化をカスタマイズするために,新しいレート適応伝送機構を開発した。 送信性能を最大化するために、ビデオフレーム内およびビデオフレーム間のチャンネル帯域幅を割り当てることを学ぶ。 DVST全体の設計は、知覚的品質指標やマシンビジョンタスクパフォーマンス指標の下でのエンドツーエンドの伝送速度歪み性能を最小化する最適化問題として定式化されている。 標準的なビデオソーステストシーケンスや様々な通信シナリオを通じて、我々のDVSTは一般的に従来の無線ビデオ符号化伝送方式を超越できることを示す実験である。 提案するDVSTフレームワークは,ビデオコンテンツ認識とマシンビジョンタスク統合機能により,将来的なセマンティックコミュニケーションを十分にサポートすることができる。

In this paper, we design a new class of high-efficiency deep joint source-channel coding methods to achieve end-to-end video transmission over wireless channels. The proposed methods exploit nonlinear transform and conditional coding architecture to adaptively extract semantic features across video frames, and transmit semantic feature domain representations over wireless channels via deep joint source-channel coding. Our framework is collected under the name deep video semantic transmission (DVST). In particular, benefiting from the strong temporal prior provided by the feature domain context, the learned nonlinear transform function becomes temporally adaptive, resulting in a richer and more accurate entropy model guiding the transmission of current frame. Accordingly, a novel rate adaptive transmission mechanism is developed to customize deep joint source-channel coding for video sources. It learns to allocate the limited channel bandwidth within and among video frames to maximize the overall transmission performance. The whole DVST design is formulated as an optimization problem whose goal is to minimize the end-to-end transmission rate-distortion performance under perceptual quality metrics or machine vision task performance metrics. Across standard video source test sequences and various communication scenarios, experiments show that our DVST can generally surpass traditional wireless video coded transmission schemes. The proposed DVST framework can well support future semantic communications due to its video content-aware and machine vision task integration abilities.
翻訳日:2022-05-27 14:57:31 公開日:2022-05-26
# トポロジー最適化を用いた樹木復元

Tree Reconstruction using Topology Optimisation ( http://arxiv.org/abs/2205.13192v1 )

ライセンス: Link先を確認
Thomas Lowe and Joshua Pinskier(参考訳) スキャンされた環境から正確なデジタルツリーモデルを生成することは、森林、農業、その他の屋外産業にとって、バイオマスの特定、転倒の危険、トラバータビリティ、アニメーションやゲームなどのデジタルアプリケーションなど、重要な課題である。 既存の樹冠復元法は、樹冠や樹冠などの特徴識別(特徴識別)を頼りに、森林を個々の木に分割し、枝構造グラフを生成して、疎葉樹や一様林に限定する。 しかし、自然界は、樹木がかなりの異質性を持ち、周囲の環境によってしばしば侵食される乱雑な場所である。 本稿では,樹木の枝構造を構造トポロジー最適化法を適用し,風荷重を支える最適物質分布を求めることにより,木構造を推定する点雲データから,木の枝構造を抽出する一般的な手法を提案する。 本稿では,この最適化の結果を多種多様なスキャンで示し,本手法の利点と欠点について考察する。 木を含むデータセットの変動度が高く, 閉塞率が高いにもかかわらず, 多くの場合, 詳細かつ正確な木構造を生成する。

Generating accurate digital tree models from scanned environments is invaluable for forestry, agriculture, and other outdoor industries in tasks such as identifying biomass, fall hazards and traversability, as well as digital applications such as animation and gaming. Existing methods for tree reconstruction rely on feature identification (trunk, crown, etc) to heuristically segment a forest into individual trees and generate a branch structure graph, limiting their application to sparse trees and uniform forests. However, the natural world is a messy place in which trees present with significant heterogeneity and are frequently encroached upon by the surrounding environment. We present a general method for extracting the branch structure of trees from point cloud data, which estimates the structure of trees by adapting the methods of structural topology optimisation to find the optimal material distribution to support wind-loading. We present the results of this optimisation over a wide variety of scans, and discuss the benefits and drawbacks of this novel approach to tree structure reconstruction. Despite the high variability of datasets containing trees, and the high rate of occlusions, our method generates detailed and accurate tree structures in most cases.
翻訳日:2022-05-27 14:57:06 公開日:2022-05-26
# 3次元顔認証に対する物理世界対応攻撃

A Physical-World Adversarial Attack Against 3D Face Recognition ( http://arxiv.org/abs/2205.13412v1 )

ライセンス: Link先を確認
Yanjie Li, Yiquan Li, Bin Xiao(参考訳) 知的端末では3d顔認識システムが広く採用されており、構造化光イメージングは3d形状を測定する一般的な方法である。 しかし、この手法は容易に攻撃でき、不正確な3D顔認証につながる。 本稿では, 構造光攻撃と呼ばれる, 縁構造光システムに対する, 物理的に達成可能な新たな攻撃法を提案する。 この攻撃はプロジェクターを用いて顔に光対向レンズを投射し、よく設計されたノイズを持つ点雲を生成する。 まず,物理世界攻撃における3次元逆数例の堅牢性を高める3次元変換不変損失関数を提案する。 次に,3次元逆方向の例をプロジェクタの入力に逆転させて位相シフト画像にノイズを配置し,構造的光画像の過程をモデル化する。 攻撃に備えて実世界の構造化光システムを構築し、最先端の3D顔認識ニューラルネットワークを試験する。 実験の結果,本手法は物理的システムを効果的に攻撃でき,投影画像の小さな修正だけでよいことがわかった。

3D face recognition systems have been widely employed in intelligent terminals, among which structured light imaging is a common method to measure the 3D shape. However, this method could be easily attacked, leading to inaccurate 3D face recognition. In this paper, we propose a novel, physically-achievable attack on the fringe structured light system, named structured light attack. The attack utilizes a projector to project optical adversarial fringes on faces to generate point clouds with well-designed noises. We firstly propose a 3D transform-invariant loss function to enhance the robustness of 3D adversarial examples in the physical-world attack. Then we reverse the 3D adversarial examples to the projector's input to place noises on phase-shift images, which models the process of structured light imaging. A real-world structured light system is constructed for the attack and several state-of-the-art 3D face recognition neural networks are tested. Experiments show that our method can attack the physical system successfully and only needs minor modifications of projected images.
翻訳日:2022-05-27 14:56:45 公開日:2022-05-26
# GraphPMU:地域分布レベルと高調波PMU測定を用いたグラフ表現学習によるイベントクラスタリング

GraphPMU: Event Clustering via Graph Representation Learning Using Locationally-Scarce Distribution-Level Fundamental and Harmonic PMU Measurements ( http://arxiv.org/abs/2205.13116v1 )

ライセンス: Link先を確認
Armin Aligholian and Hamed Mohsenian-Rad(参考訳) 本稿では,配電系統における状況認識を高めるために,配電系統のファサー測定ユニット(D-PMU)が捉えた事象の種類と原因を特定する複雑な作業について述べる。 私たちの目標は、この分野における2つの基本的な課題に取り組むことです。 a) D-PMUsからデータを購入し,設置し,ストリーミングするコストが高いため,測定場所の不足 b) イベントシグネチャに関する事前知識が限られているのは,イベントが多様で,脆弱で,本質的にスケジュールされていないという事実による。 これらの課題に対処するため,グラフPMUと呼ばれる教師なしグラフ表現学習手法を提案する。 1) 配電網のグラフ上で利用可能な少数のファサー測定単位の相対的位置に関するトポロジカル情報を利用する。 2) 一般的に使用される基本ファサーの測定値だけでなく, 様々な事象のシグネチャの分析過程における高調波ファサーの測定値も少ない。 幾つかのケーススタディの詳細な分析を通して,GraphPMUは文献の一般的な手法よりも高い性能を発揮することを示す。

This paper is concerned with the complex task of identifying the type and cause of the events that are captured by distribution-level phasor measurement units (D-PMUs) in order to enhance situational awareness in power distribution systems. Our goal is to address two fundamental challenges in this field: a) scarcity in measurement locations due to the high cost of purchasing, installing, and streaming data from D-PMUs; b) limited prior knowledge about the event signatures due to the fact that the events are diverse, infrequent, and inherently unscheduled. To tackle these challenges, we propose an unsupervised graph-representation learning method, called GraphPMU, to significantly improve the performance in event clustering under locationally-scarce data availability by proposing the following two new directions: 1) using the topological information about the relative location of the few available phasor measurement units on the graph of the power distribution network; 2) utilizing not only the commonly used fundamental phasor measurements, bus also the less explored harmonic phasor measurements in the process of analyzing the signatures of various events. Through a detailed analysis of several case studies, we show that GraphPMU can highly outperform the prevalent methods in the literature.
翻訳日:2022-05-27 14:56:28 公開日:2022-05-26
# cali3f:キャリブレーション・ファストフェアフェデレーション・レコメンデーション・システム

Cali3F: Calibrated Fast Fair Federated Recommendation System ( http://arxiv.org/abs/2205.13121v1 )

ライセンス: Link先を確認
Zhitao Zhu, Shijing Si, Jianzong Wang, Jing Xiao(参考訳) プライバシー保護に関する規制が厳しくなり、連邦学習への関心が高まった。 分散機械学習フレームワークとして、データローカライズを維持しながら、デバイス上でグローバルモデルをトレーニングすることで、分離されたデータ島を橋渡しする。 推奨システムに特有な,プライバシ保存協調型推薦を実現するために,多数の連帯推奨アルゴリズムが提案されている。 しかし、いくつかの制約は未解決のままである。 ひとつの大きな懸念は、フェデレーション学習の参加者間の公平性を保証する方法、すなわちデバイス間でのレコメンデーションパフォーマンスの均一性を維持する方法だ。 一方,データの不均一性とネットワークの制限により,収束速度に新たな課題が生じる。 そこで本稿では,まず,推薦性能の公平性を改善するために,個人化された推薦システムトレーニングアルゴリズムを提案する。 次に,クラスタリングに基づくアグリゲーション手法を適用し,トレーニングプロセスを高速化する。 この2つのコンポーネントを組み合わせることで、キャリブレーションされた高速かつ公正なフェデレーションレコメンデーションフレームワークであるCali3Fを提案しました。 cali3fはクラスタ内パラメータ共有アプローチによる収束問題に対処するだけでなく、局所モデルをグローバルモデルで校正することで公平性を大幅に向上させる。 標準ベンチマークデータセット間でCali3Fの性能を実証し、従来のアグリゲーションアプローチと比較して有効性を検討した。

The increasingly stringent regulations on privacy protection have sparked interest in federated learning. As a distributed machine learning framework, it bridges isolated data islands by training a global model over devices while keeping data localized. Specific to recommendation systems, many federated recommendation algorithms have been proposed to realize the privacy-preserving collaborative recommendation. However, several constraints remain largely unexplored. One big concern is how to ensure fairness between participants of federated learning, that is, to maintain the uniformity of recommendation performance across devices. On the other hand, due to data heterogeneity and limited networks, additional challenges occur in the convergence speed. To address these problems, in this paper, we first propose a personalized federated recommendation system training algorithm to improve the recommendation performance fairness. Then we adopt a clustering-based aggregation method to accelerate the training process. Combining the two components, we proposed Cali3F, a calibrated fast and fair federated recommendation framework. Cali3F not only addresses the convergence problem by a within-cluster parameter sharing approach but also significantly boosts fairness by calibrating local models with the global model. We demonstrate the performance of Cali3F across standard benchmark datasets and explore the efficacy in comparison to traditional aggregation approaches.
翻訳日:2022-05-27 14:56:07 公開日:2022-05-26
# (参考訳) トランスフォーマーは時系列予測に有効か?

Are Transformers Effective for Time Series Forecasting? ( http://arxiv.org/abs/2205.13504v1 )

ライセンス: CC BY 4.0
Ailing Zeng, Muxi Chen, Lei Zhang, Qiang Xu(参考訳) 近年,時系列予測(TSF)タスク,特に長期TSF問題に対するTransformerベースのソリューションが急増している。 トランスフォーマーアーキテクチャは、長い列のペア要素間の意味的相関を効果的に抽出するために、自己アテンション機構に依存している。 しかし,時系列モデリングでは連続点の順序集合間の時間的関係を抽出する。 その結果,Transformer ベースの手法が長期連続予測の適切な解であるか否かは,これらの研究で示された性能改善にもかかわらず,調査する上で興味深い問題である。 本研究では,Transformer ベースの TSF ソリューションの有効性を疑う。 彼らの実験では、比較された(非トランスフォーマー)ベースラインは主に自己回帰予測ソリューションであり、通常は避けられないエラー蓄積効果のために長期的な予測能力が劣っている。 対照的に、我々はDLinearという名前の恥ずかしいほど単純なアーキテクチャを使って、直接マルチステップ(DMS)予測を行い、比較を行う。 DLinearは、時系列をトレンドと残りのシリーズに分解し、2つの1層線形ネットワークを用いて予測タスクをモデル化する。 驚くべきことに、ほとんどの場合、既存の複雑なTransformerベースのモデルよりも大きなマージンで優れている。 そこで本研究では,Transformer を用いた TSF ソリューションの長期予測精度が比較的高いことは,Transformer アーキテクチャの時間的関係抽出能力とはほとんど関係がないと結論づける。 その代わり、主に非自己回帰的なDMS予測戦略が原因である。 本研究は,将来,他の時系列解析タスク(異常検出など)に対するTransformerベースのソリューションの有効性を再考することを願っている。

Recently, there has been a surge of Transformer-based solutions for the time series forecasting (TSF) task, especially for the challenging long-term TSF problem. Transformer architecture relies on self-attention mechanisms to effectively extract the semantic correlations between paired elements in a long sequence, which is permutation-invariant and anti-ordering to some extent. However, in time series modeling, we are to extract the temporal relations among an ordering set of continuous points. Consequently, whether Transformer-based techniques are the right solutions for long-term time series forecasting is an interesting problem to investigate, despite the performance improvements shown in these studies. In this work, we question the validity of Transformer-based TSF solutions. In their experiments, the compared (non-Transformer) baselines are mainly autoregressive forecasting solutions, which usually have a poor long-term prediction capability due to inevitable error accumulation effects. In contrast, we use an embarrassingly simple architecture named DLinear that conducts direct multi-step (DMS) forecasting for comparison. DLinear decomposes the time series into a trend and a remainder series and employs two one-layer linear networks to model these two series for the forecasting task. Surprisingly, it outperforms existing complex Transformer-based models in most cases by a large margin. Therefore, we conclude that the relatively higher long-term forecasting accuracy of Transformer-based TSF solutions shown in existing works has little to do with the temporal relation extraction capabilities of the Transformer architecture. Instead, it is mainly due to the non-autoregressive DMS forecasting strategy used in them. We hope this study also advocates revisiting the validity of Transformer-based solutions for other time series analysis tasks (e.g., anomaly detection) in the future.
翻訳日:2022-05-27 14:55:15 公開日:2022-05-26
# 局所次元推定によるGANの潜時空間の解析

Analyzing the Latent Space of GAN through Local Dimension Estimation ( http://arxiv.org/abs/2205.13182v1 )

ライセンス: Link先を確認
Jaewoong Choi, Geonho Hwang, Hyunsoo Cho, Myungjoo Kang(参考訳) 高忠実な画像合成におけるスタイルベースのgan(stylegans)の素晴らしい成功は、その潜在空間の意味的性質を理解する研究の動機となった。 近年,学習された潜在空間$\mathcal{w}$ における局所摂動と局所pca成分との間に密接な関係が観察された。 しかし、乱れた摂動の数の理解は依然として困難である。 この観測に基づいて,事前学習GANモデルにおける任意の中間層に対する局所次元推定アルゴリズムを提案する。 推定される内在次元は、乱れのある局所摂動の数に対応する。 この観点から、我々はStyleGANにおけるマッピングネットワークの中間層を解析する。 我々の分析はStyleGANにおける$\mathcal{W}$-spaceの成功を明らかにし、代替案を提案する。 さらに,本質的次元推定は,潜在空間に対する大域的ベイズ結合性と乱れの教師なし評価の可能性を開く。 提案手法は歪みと呼ばれ,学習された潜在空間上の固有接空間の不整合を計測する。 計量は純粋に幾何学的であり、追加の属性情報を必要としない。 それでも、この計量は、大域的ベイズ適合性と教師付き非絡み合いスコアと高い相関を示す。 我々の発見は、gan 内の中間的潜在空間の間で、世界的不連続な潜在空間の教師なし選択への道を開くものである。

The impressive success of style-based GANs (StyleGANs) in high-fidelity image synthesis has motivated research to understand the semantic properties of their latent spaces. Recently, a close relationship was observed between the semantically disentangled local perturbations and the local PCA components in the learned latent space $\mathcal{W}$. However, understanding the number of disentangled perturbations remains challenging. Building upon this observation, we propose a local dimension estimation algorithm for an arbitrary intermediate layer in a pre-trained GAN model. The estimated intrinsic dimension corresponds to the number of disentangled local perturbations. In this perspective, we analyze the intermediate layers of the mapping network in StyleGANs. Our analysis clarifies the success of $\mathcal{W}$-space in StyleGAN and suggests an alternative. Moreover, the intrinsic dimension estimation opens the possibility of unsupervised evaluation of global-basis-compatibility and disentanglement for a latent space. Our proposed metric, called Distortion, measures an inconsistency of intrinsic tangent space on the learned latent space. The metric is purely geometric and does not require any additional attribute information. Nevertheless, the metric shows a high correlation with the global-basis-compatibility and supervised disentanglement score. Our findings pave the way towards an unsupervised selection of globally disentangled latent space among the intermediate latent spaces in a GAN.
翻訳日:2022-05-27 14:34:22 公開日:2022-05-26
# ct画像からの肝腫瘍分割のための分離ピラミッド相関ネットワーク

Decoupled Pyramid Correlation Network for Liver Tumor Segmentation from CT images ( http://arxiv.org/abs/2205.13199v1 )

ライセンス: Link先を確認
Yao Zhang, Jiawei Yang, Yang Liu, Jiang Tian, Siyun Wang, Cheng Zhong, Zhongchao Shi, Yang Zhang, Zhiqiang He(参考訳) 目的:ct画像からの肝腫瘍自動分画は肝異常の介入や手術計画に必須の前提条件である。 しかし,腫瘍径のばらつきや不均質なテクスチャが大きいため,肝腫瘍の正確な分画はいまだに困難である。 医用画像セグメンテーションのための完全畳み込みネットワーク(fcn)に基づく最近の進歩は、識別ピラミッド特徴の学習を成功させた。 本稿では, FCNに埋め込まれた低レベルの特徴と高レベルの特徴をフル活用し, 注意機構を活用する脱結合ピラミッド相関ネットワーク(DPC-Net)を提案する。 方法: 入力画像から多レベル特徴を抽出する強力なピラミッド特徴エンコーダ(PFE)を最初に設計する。 次に,空間的次元(高さ,幅,深さ)と意味的次元(チャネル)の特徴を分離する。 さらに,空間相関モジュール (spacor) と意味相関モジュール (semcor) の2種類の注意モジュールを用いて,多レベル特徴の相関を再帰的に測定する。 前者は、低レベル機能におけるグローバルセマンティクス情報を、高レベルのセマンティクスのガイダンスで選択的に強調する。 後者は、低レベル特徴の指導により、高レベル特徴の空間的詳細を適応的に強化する。 結果:MICCAI 2017 LiTS Liver tumor Segmentation (LiTS) 課題データセットのDPC-Netを評価する。 Dice similarity Coefficient (DSC) と ASSD (Average Symmetric Surface Distance) を用いて評価を行う。 提案法は肝腫瘍分節に対するDSC76.4%, ASSD0.838mmを検索し, 最先端の方法よりも優れていた。 また、dscが96.0%、asdが1.636mmの肝分画で競争結果を得る。

Purpose: Automated liver tumor segmentation from Computed Tomography (CT) images is a necessary prerequisite in the interventions of hepatic abnormalities and surgery planning. However, accurate liver tumor segmentation remains challenging due to the large variability of tumor sizes and inhomogeneous texture. Recent advances based on Fully Convolutional Network (FCN) for medical image segmentation drew on the success of learning discriminative pyramid features. In this paper, we propose a Decoupled Pyramid Correlation Network (DPC-Net) that exploits attention mechanisms to fully leverage both low- and high-level features embedded in FCN to segment liver tumor. Methods: We first design a powerful Pyramid Feature Encoder (PFE) to extract multi-level features from input images. Then we decouple the characteristics of features concerning spatial dimension (i.e., height, width, depth) and semantic dimension (i.e., channel). On top of that, we present two types of attention modules, Spatial Correlation (SpaCor) and Semantic Correlation (SemCor) modules, to recursively measure the correlation of multi-level features. The former selectively emphasizes global semantic information in low-level features with the guidance of high-level ones. The latter adaptively enhance spatial details in high-level features with the guidance of low-level ones. Results: We evaluate the DPC-Net on MICCAI 2017 LiTS Liver Tumor Segmentation (LiTS) challenge dataset. Dice Similarity Coefficient (DSC) and Average Symmetric Surface Distance (ASSD) are employed for evaluation. The proposed method obtains a DSC of 76.4% and an ASSD of 0.838 mm for liver tumor segmentation, outperforming the state-of-the-art methods. It also achieves a competitive results with a DSC of 96.0% and an ASSD of 1.636 mm for liver segmentation.
翻訳日:2022-05-27 14:34:05 公開日:2022-05-26
# スケーラブルな動的ルーティングによるタスクカスタマイズ型自己監督型事前学習

Task-Customized Self-Supervised Pre-training with Scalable Dynamic Routing ( http://arxiv.org/abs/2205.13267v1 )

ライセンス: Link先を確認
Zhili Liu, Jianhua Han, Lanqing Hong, Hang Xu, Kai Chen, Chunjing Xu, Zhenguo Li(参考訳) 自己教師付き学習(SSL)、特に対照的な手法は、セマンティックアノテーションなしで効果的な伝達可能な表現を学ぶことで、近年注目を集めている。 セルフ教師付き事前トレーニングの一般的な実践は、できるだけ多くのデータを使用することである。 しかし、特定の下流タスクでは、事前学習における無関係なデータを含むと、我々の広範な実験から観察された下流性能が低下する可能性がある。 一方、既存のSSLメソッドでは、異なるタスクの事前トレーニングで異なるダウンストリームタスクにカスタマイズされたデータセットを使用することは、負担がかかりやすい。 この問題に対処するため,我々は,タスクをカスタマイズした事前学習モデルを用いて,複数の下流タスクに一度トレーニングし,効率的にデプロイ可能な,スケーラブルな動的ルーティング(sdr)と呼ばれる新しいsslパラダイムを提案する。 具体的には,SDRnetを各種サブネットで構築し,データ認識プログレッシブトレーニングによって各サブネットを1つのサブセットでトレーニングする。 ダウンストリームタスクが到着すると、トレーニング済みのすべてのサブネットをルートして、そのウェイトに合わせて最善を尽くします。 実験の結果,SDR は ImageNet 上で256 のサブネットを同時にトレーニングすることが可能であり,フルイメージネット上で訓練された統一モデルよりも優れた転送性能を実現し,11 下流分類タスクの平均精度と PASCAL VOC 検出タスクにおけるAP を達成できた。

Self-supervised learning (SSL), especially contrastive methods, has raised attraction recently as it learns effective transferable representations without semantic annotations. A common practice for self-supervised pre-training is to use as much data as possible. For a specific downstream task, however, involving irrelevant data in pre-training may degenerate the downstream performance, observed from our extensive experiments. On the other hand, for existing SSL methods, it is burdensome and infeasible to use different downstream-task-customized datasets in pre-training for different tasks. To address this issue, we propose a novel SSL paradigm called Scalable Dynamic Routing (SDR), which can be trained once and deployed efficiently to different downstream tasks with task-customized pre-trained models. Specifically, we construct the SDRnet with various sub-nets and train each sub-net with only one subset of the data by data-aware progressive training. When a downstream task arrives, we route among all the pre-trained sub-nets to get the best along with its corresponding weights. Experiment results show that our SDR can train 256 sub-nets on ImageNet simultaneously, which provides better transfer performance than a unified model trained on the full ImageNet, achieving state-of-the-art (SOTA) averaged accuracy over 11 downstream classification tasks and AP on PASCAL VOC detection task.
翻訳日:2022-05-27 14:33:38 公開日:2022-05-26
# 注意とソフトargmaxを用いた教師なしマルチオブジェクトセグメンテーション

Unsupervised Multi-object Segmentation Using Attention and Soft-argmax ( http://arxiv.org/abs/2205.13271v1 )

ライセンス: Link先を確認
Bruno Sauvalle and Arnaud de La Fortelle(参考訳) 本稿では,シーン内に存在する各オブジェクトに対して特徴ベクトルを関連付け,ソフトargmaxを用いてこれらのオブジェクトの座標を予測するための注意機構を用いた,教師なしオブジェクト中心表現学習とマルチオブジェクト検出とセグメンテーションのための新しいアーキテクチャを提案する。 トランスエンコーダは、オクルージョンと冗長検出を処理し、個別にトレーニング済みのバックグラウンドモデルがバックグラウンド再構築を担当する。 このアーキテクチャは、複雑な合成ベンチマークにおける技術状況を大幅に上回り、実世界のトラフィックビデオへの応用例を提供する。

We introduce a new architecture for unsupervised object-centric representation learning and multi-object detection and segmentation, which uses an attention mechanism to associate a feature vector to each object present in the scene and to predict the coordinates of these objects using soft-argmax. A transformer encoder handles occlusions and redundant detections, and a separate pre-trained background model is in charge of background reconstruction. We show that this architecture significantly outperforms the state of the art on complex synthetic benchmarks and provide examples of applications to real-world traffic videos.
翻訳日:2022-05-27 14:33:11 公開日:2022-05-26
# VIDI: インシデントのビデオデータセット

VIDI: A Video Dataset of Incidents ( http://arxiv.org/abs/2205.13277v1 )

ライセンス: Link先を確認
Duygu Sesver, Alp Eren Gen\c{c}o\u{g}lu, \c{C}a\u{g}r{\i} Emre Y{\i}ld{\i}z, Zehra G\"unindi, Faeze Habibi, Ziya Ata Yaz{\i}c{\i}, Haz{\i}m Kemal Ekenel(参考訳) 自然災害やインシデントの自動検出は、迅速な対応ツールとしてより重要になっている。 静止画とテキストを用いてインシデントを検出する研究が数多く行われている。 しかし、時間的情報を利用するアプローチの数は限られている。 この主な理由の1つは、様々なインシデントタイプを持つ多様なビデオデータセットが存在しないことである。 そこで本稿では,映像データセットであるvidi(video dataset of incidents)について,43のインシデントカテゴリに対応する4,534の動画クリップを含む。 各インシデントクラスには、平均10秒間のビデオが100本ほどある。 多様性を高めるために、ビデオはいくつかの言語で検索されている。 近年の最先端技術であるVision TransformerとTimeSformerの性能評価や,インシデント分類のためのビデオベース情報の提供について検討するために,VIDIとインシデントデータセットのベンチマーク実験を行った。 我々は,近年の手法が事故分類精度を向上させることを示した。 ビデオデータを使うことは、そのタスクにとって非常に有益であることが分かりました。 ビデオデータを使用することで、トップ1の精度は67.37%から76.56%に向上し、1フレームで得られた。 VIDIは一般公開される予定だ。 追加資料は以下のリンクで見ることができる。

Automatic detection of natural disasters and incidents has become more important as a tool for fast response. There have been many studies to detect incidents using still images and text. However, the number of approaches that exploit temporal information is rather limited. One of the main reasons for this is that a diverse video dataset with various incident types does not exist. To address this need, in this paper we present a video dataset, Video Dataset of Incidents, VIDI, that contains 4,534 video clips corresponding to 43 incident categories. Each incident class has around 100 videos with a duration of ten seconds on average. To increase diversity, the videos have been searched in several languages. To assess the performance of the recent state-of-the-art approaches, Vision Transformer and TimeSformer, as well as to explore the contribution of video-based information for incident classification, we performed benchmark experiments on the VIDI and Incidents Dataset. We have shown that the recent methods improve the incident classification accuracy. We have found that employing video data is very beneficial for the task. By using the video data, the top-1 accuracy is increased to 76.56% from 67.37%, which was obtained using a single frame. VIDI will be made publicly available. Additional materials can be found at the following link: https://github.com/vididataset/VIDI.
翻訳日:2022-05-27 14:33:00 公開日:2022-05-26
# オブジェクトが重要:ロバストカメラ再ローカライゼーションのためのオブジェクト関係グラフの学習

Objects Matter: Learning Object Relation Graph for Robust Camera Relocalization ( http://arxiv.org/abs/2205.13280v1 )

ライセンス: Link先を確認
Chengyu Qiao, Zhiyu Xiang and Xinglu Wang(参考訳) 視覚再局在は、1つ以上の画像からカメラのポーズを推定することを目的としている。 近年,深層学習に基づくポーズ回帰手法が注目されている。 彼らは、事前に構築された地図や保存された画像に頼ることなく絶対的なポーズを予測する。 しかし、複雑な外観変化と実際のダイナミクスを持つ環境下でのロバストな再局在は依然として非常に困難である。 本稿では,物体間の深い関係を抽出し,画像特徴の識別性を高めることを提案する。 特に、画像中のオブジェクトを抽出し、オブジェクトの意味的接続と相対的な空間的手がかりを組み込むために、深いオブジェクト関係グラフ(org)を構築する。 ORGモジュールをいくつかの一般的なポーズ回帰モデルに統合する。 屋内および屋外の各種データセットに対する大規模な実験により,本手法は性能を著しく向上し,従来の手法よりも優れていたことを示す。

Visual relocalization aims to estimate the pose of a camera from one or more images. In recent years deep learning based pose regression methods have attracted many attentions. They feature predicting the absolute poses without relying on any prior built maps or stored images, making the relocalization very efficient. However, robust relocalization under environments with complex appearance changes and real dynamics remains very challenging. In this paper, we propose to enhance the distinctiveness of the image features by extracting the deep relationship among objects. In particular, we extract objects in the image and construct a deep object relation graph (ORG) to incorporate the semantic connections and relative spatial clues of the objects. We integrate our ORG module into several popular pose regression models. Extensive experiments on various public indoor and outdoor datasets demonstrate that our method improves the performance significantly and outperforms the previous approaches.
翻訳日:2022-05-27 14:32:41 公開日:2022-05-26
# 自動走行用魚眼カメラの概観:概観, 調査, 課題

Surround-view Fisheye Camera Perception for Automated Driving: Overview, Survey and Challenges ( http://arxiv.org/abs/2205.13281v1 )

ライセンス: Link先を確認
Varun Ravi Kumar, Ciaran Eising, Christian Witt, and Senthil Yogamani(参考訳) サラウンドビュー魚眼カメラは、自動走行の近距離センシングに一般的に使用される。 車両の4面に4つの魚眼カメラが装備されており、周辺地域全体を取り囲む360{\deg}をカバーできる。 主な用途は、自動駐車、交通渋滞支援、都市運転である。 限られたデータセットがあり、自動車の知覚に焦点をあてているのは遠距離場知覚である。 遠距離視野とは対照的に、サラウンドビューの知覚は、10cmの高精度物体検出要件と物体の部分視認性により、さらなる課題をもたらす。 魚眼カメラの半径歪みが大きいため、標準的なアルゴリズムはサラウンドビューのユースケースに容易に拡張できない。 そこで我々は,研究者や実践者を対象に,自動魚眼カメラ認識のための自己完結型基準を提供する。 まず,一般的な魚眼カメラモデルの統一的分類学的処理を行う。 次に,様々な認識課題と既存文献について論じる。 最後に,課題と今後の方向性について論じる。

Surround-view fisheye cameras are commonly used for near-field sensing in automated driving. Four fisheye cameras on four sides of the vehicle are sufficient to cover 360{\deg} around the vehicle capturing the entire near-field region. Some primary use cases are automated parking, traffic jam assist, and urban driving. There are limited datasets and very little work on near-field perception tasks as the main focus in automotive perception is on far-field perception. In contrast to far-field, surround-view perception poses additional challenges due to high precision object detection requirements of 10cm and partial visibility of objects. Due to the large radial distortion of fisheye cameras, standard algorithms can not be extended easily to the surround-view use case. Thus we are motivated to provide a self-contained reference for automotive fisheye camera perception for researchers and practitioners. Firstly, we provide a unified and taxonomic treatment of commonly used fisheye camera models. Secondly, we discuss various perception tasks and existing literature. Finally, we discuss the challenges and future direction.
翻訳日:2022-05-27 14:32:27 公開日:2022-05-26
# 歩行者軌道予測のための社会解釈木

Social Interpretable Tree for Pedestrian Trajectory Prediction ( http://arxiv.org/abs/2205.13296v1 )

ライセンス: Link先を確認
Liushuai Shi, Le Wang, Chengjiang Long, Sanping Zhou, Fang Zheng, Nanning Zheng, Gang Hua(参考訳) 複数の社会的に受け入れられる将来の振る舞いを理解することは、多くのビジョンアプリケーションにとって必須のタスクです。 本稿では,このマルチモーダル予測課題に対処するために, 観測軌道の事前情報に基づいて手作り木を構築し, 将来の複数の軌道をモデル化する, ソーシャル・解釈可能木(sit)と呼ばれる木ベース手法を提案する。 具体的には、木の根から葉への経路は、個々の将来の軌跡を表す。 SITは、木を高次速度で構築し、木の複雑さとカバレッジをバランスさせ、マルチモダリティを促進するために優雅に最適化する粗大な最適化戦略を採用している。 最後に,教師強制精錬操作を用いて最終微視的軌跡を予測する。 潜在的な将来の軌跡を表すために暗黙の潜伏変数を利用する従来の方法と比較すると、木の中の経路は粗い動き(例えば、まっすぐにして右に曲がる)を明示的に説明することができ、より良い解釈性を提供する。 ETH-UCYとStanford Droneのデータセットによる実験結果からは,手作り木にもかかわらず,我々の手法が最先端の手法の性能に適合または超えることを示した。 興味深いことに、トレーニングなしで構築された生のツリーは、従来のディープニューラルネットワークベースのアプローチを上回っている。 一方,本手法は長期予測に十分な柔軟性を示し,K$の予測値が異なる。

Understanding the multiple socially-acceptable future behaviors is an essential task for many vision applications. In this paper, we propose a tree-based method, termed as Social Interpretable Tree (SIT), to address this multi-modal prediction task, where a hand-crafted tree is built depending on the prior information of observed trajectory to model multiple future trajectories. Specifically, a path in the tree from the root to leaf represents an individual possible future trajectory. SIT employs a coarse-to-fine optimization strategy, in which the tree is first built by high-order velocity to balance the complexity and coverage of the tree and then optimized greedily to encourage multimodality. Finally, a teacher-forcing refining operation is used to predict the final fine trajectory. Compared with prior methods which leverage implicit latent variables to represent possible future trajectories, the path in the tree can explicitly explain the rough moving behaviors (e.g., go straight and then turn right), and thus provides better interpretability. Despite the hand-crafted tree, the experimental results on ETH-UCY and Stanford Drone datasets demonstrate that our method is capable of matching or exceeding the performance of state-of-the-art methods. Interestingly, the experiments show that the raw built tree without training outperforms many prior deep neural network based approaches. Meanwhile, our method presents sufficient flexibility in long-term prediction and different best-of-$K$ predictions.
翻訳日:2022-05-27 14:31:06 公開日:2022-05-26
# クロスアーキテクチャな自己教師型ビデオ表現学習

Cross-Architecture Self-supervised Video Representation Learning ( http://arxiv.org/abs/2205.13313v1 )

ライセンス: Link先を確認
Sheng Guo, Zihua Xiong, Yujie Zhong, Limin Wang, Xiaobo Guo, Bing Han, Weilin Huang(参考訳) 本稿では,自己教師型ビデオ表現学習のためのクロスアーキテクチャコントラスト学習(CACL)フレームワークを提案する。 CACLは3D CNNとビデオトランスフォーマーで構成されており、コントラスト学習のための多様な正対を生成するために並列に使用される。 これにより、モデルはこのような多様で有意義なペアから強い表現を学ぶことができる。 さらに、時間順に2つのビデオシーケンス間の編集距離を明示的に予測できる時間的自己教師型学習モジュールを導入する。 これにより、CACLが学習したビデオレベルの表現に強く補完するリッチな時間表現を学習することができる。 提案手法は,UCF101およびHMDB51データセット上での映像検索と行動認識のタスクにおいて,ビデオMoCoやMoCo+BEといった最先端の手法を大きなマージンで上回り,優れた性能を実現する。 コードはhttps://github.com/guoshengcv/caclで入手できる。

In this paper, we present a new cross-architecture contrastive learning (CACL) framework for self-supervised video representation learning. CACL consists of a 3D CNN and a video transformer which are used in parallel to generate diverse positive pairs for contrastive learning. This allows the model to learn strong representations from such diverse yet meaningful pairs. Furthermore, we introduce a temporal self-supervised learning module able to predict an Edit distance explicitly between two video sequences in the temporal order. This enables the model to learn a rich temporal representation that compensates strongly to the video-level representation learned by the CACL. We evaluate our method on the tasks of video retrieval and action recognition on UCF101 and HMDB51 datasets, where our method achieves excellent performance, surpassing the state-of-the-art methods such as VideoMoCo and MoCo+BE by a large margin. The code is made available at https://github.com/guoshengcv/CACL.
翻訳日:2022-05-27 14:30:41 公開日:2022-05-26
# 場所と場所を学習する -- 教師なしの場所とアイデンティティ追跡

Learning What and Where -- Unsupervised Disentangling Location and Identity Tracking ( http://arxiv.org/abs/2205.13349v1 )

ライセンス: Link先を確認
Manuel Traub, Sebastian Otte, Tobias Menge, Matthias Karlbauer, Jannik Th\"ummel, Martin V. Butz(参考訳) 私たちの脳は、視覚データストリームをバックグラウンドとサルエントなオブジェクトにほとんど無力に分解することができます。 さらに、物体を追跡し、その動きや相互作用を予測できる。 対照的に、CATERのような最近のオブジェクト推論データセットは、特に明示的なオブジェクトエンコーディング、オブジェクト永続性、オブジェクト推論をターゲットとする場合、現在のビジョンベースのAIシステムの根本的な欠点を明らかにしている。 本稿では,CATER追跡課題に長けている非教師なしのLOCation and Identity Tracking System (Loci)を紹介する。 lociは脳の背側-腹側経路にインスパイアされ、自己監視された分離機構によって結合する問題に取り組む。 我々の自己回帰ニューラルネットワークは、視覚的な入力ストリームを、同じパラメータ化と自律的に採用されたニューラルネットワークモジュールに分割し、分散します。 各モジュールは、圧縮されたGestaltエンコーディングの場所を場所と結合する。 深い潜伏エンコーディングレベルでは、相互作用ダイナミクスが処理される。 現在のベンチマークで優れたパフォーマンスを示すだけでなく、lociは、個々のエンティティと時空間的相互作用のダイナミクスをイベント構造に統合しているように見える脳内の、より深いネットワーク化されたプロセスに似た、より深い説明指向のビデオ処理のステージを設定できるかもしれない。

Our brain can almost effortlessly decompose visual data streams into background and salient objects. Moreover, it can track the objects and anticipate their motion and interactions. In contrast, recent object reasoning datasets, such as CATER, have revealed fundamental shortcomings of current vision-based AI systems, particularly when targeting explicit object encodings, object permanence, and object reasoning. We introduce an unsupervised disentangled LOCation and Identity tracking system (Loci), which excels on the CATER tracking challenge. Inspired by the dorsal-ventral pathways in the brain, Loci tackles the what-and-where binding problem by means of a self-supervised segregation mechanism. Our autoregressive neural network partitions and distributes the visual input stream across separate, identically-parameterized and autonomously recruited neural network modules. Each module binds what with where, that is, compressed Gestalt encodings with locations. On the deep latent encoding levels interaction dynamics are processed. Besides exhibiting superior performance in current benchmarks, we propose that Loci may set the stage for deeper, explanation-oriented video processing -- akin to some deeper networked processes in the brain that appear to integrate individual entity and spatiotemporal interaction dynamics into event structures.
翻訳日:2022-05-27 14:30:25 公開日:2022-05-26
# 後方一貫した特徴埋め込みを用いた視覚検索の連続学習

Continual Learning for Visual Search with Backward Consistent Feature Embedding ( http://arxiv.org/abs/2205.13384v1 )

ライセンス: Link先を確認
Timmy S. T. Wan, Jun-Cheng Chen, Tzer-Yi Wu, Chu-Song Chen(参考訳) ビジュアル検索では、ギャラリーセットが徐々に成長し、実際にデータベースに追加される可能性がある。 しかし、既存のメソッドはデータセット全体をトレーニングしたモデルに依存しており、モデルの継続的な更新を無視している。 さらに、モデルが更新されると、新しいモデルはギャラリー全体の機能を再抽出し、互換性のある機能空間を維持し、大きなギャラリーセットに対して高い計算コストを課す必要がある。 長期視覚探索の課題に対処するため,後方埋め込み整合性を持つ漸進的に成長するギャラリーを処理可能な継続学習(CL)アプローチを導入する。 セッション間データコヒーレンス、隣り合うセッションモデルコヒーレンス、セッション内差別の損失を強制し、継続的な学習を行う。 分離された設定に加えて、私たちのCLソリューションは、初期およびモデル更新で知られているすべてのカテゴリを仮定することなく、曖昧なバウンダリに対する新しいクラスを徐々に追加する状況にも取り組みます。 我々の知る限り、これは後方一貫性のある機能埋め込みの問題に対処する最初のCLメソッドであり、新しいセッションで新しいクラスを実現できる。 様々なベンチマークに関する広範囲な実験は、幅広い設定下での我々のアプローチの有効性を示している。

In visual search, the gallery set could be incrementally growing and added to the database in practice. However, existing methods rely on the model trained on the entire dataset, ignoring the continual updating of the model. Besides, as the model updates, the new model must re-extract features for the entire gallery set to maintain compatible feature space, imposing a high computational cost for a large gallery set. To address the issues of long-term visual search, we introduce a continual learning (CL) approach that can handle the incrementally growing gallery set with backward embedding consistency. We enforce the losses of inter-session data coherence, neighbor-session model coherence, and intra-session discrimination to conduct a continual learner. In addition to the disjoint setup, our CL solution also tackles the situation of increasingly adding new classes for the blurry boundary without assuming all categories known in the beginning and during model update. To our knowledge, this is the first CL method both tackling the issue of backward-consistent feature embedding and allowing novel classes to occur in the new sessions. Extensive experiments on various benchmarks show the efficacy of our approach under a wide range of setups.
翻訳日:2022-05-27 14:30:03 公開日:2022-05-26
# 動作セグメンテーションのための境界認識損失を考慮した効率的なU変換器

Efficient U-Transformer with Boundary-Aware Loss for Action Segmentation ( http://arxiv.org/abs/2205.13425v1 )

ライセンス: Link先を確認
Dazhao Du, Bing Su, Yu Li, Zhongang Qi, Lingyu Si, Ying Shan(参考訳) アクション分類は大きな進歩を遂げているが、長い未編集ビデオからのアクションのセグメンテーションと認識は依然として難しい問題である。 最先端のほとんどの手法は、時間的畳み込みに基づくモデルの設計に重点を置いているが、長期的な時間的依存関係のモデリングと時間的畳み込みの柔軟性の制限は、これらのモデルの可能性を制限する。 近年, フレキシブルかつ強いシーケンスモデリング能力を持つトランスフォーマーモデルが様々なタスクに応用されている。 しかしながら、インダクティブバイアスの欠如と長いビデオシーケンスの処理の非効率は、アクションセグメンテーションにおけるトランスフォーマーの適用を制限する。 本稿では,U-Netアーキテクチャを組み込んで,時間的畳み込みを伴わない純粋トランスフォーマーモデルの設計を行う。 U-Transformerアーキテクチャは、隣接するフレームが同じクラスに属する可能性が高い誘導バイアスを導入しながら複雑さを減少させるが、粗い解像度の導入は境界の誤分類をもたらす。 境界フレームとその隣接フレーム間の類似度分布は、その境界フレームがアクションセグメントの開始か終了かに依存することを観測する。 そこで我々は,注意モジュールからフレーム間の類似度スコアの分布に基づく境界認識損失を提案し,境界認識能力を向上させる。 広範な実験により,モデルの有効性が示された。

Action classification has made great progress, but segmenting and recognizing actions from long untrimmed videos remains a challenging problem. Most state-of-the-art methods focus on designing temporal convolution-based models, but the limitations on modeling long-term temporal dependencies and inflexibility of temporal convolutions limit the potential of these models. Recently, Transformer-based models with flexible and strong sequence modeling ability have been applied in various tasks. However, the lack of inductive bias and the inefficiency of handling long video sequences limit the application of Transformer in action segmentation. In this paper, we design a pure Transformer-based model without temporal convolutions by incorporating the U-Net architecture. The U-Transformer architecture reduces complexity while introducing an inductive bias that adjacent frames are more likely to belong to the same class, but the introduction of coarse resolutions results in the misclassification of boundaries. We observe that the similarity distribution between a boundary frame and its neighboring frames depends on whether the boundary frame is the start or end of an action segment. Therefore, we further propose a boundary-aware loss based on the distribution of similarity scores between frames from attention modules to enhance the ability to recognize boundaries. Extensive experiments show the effectiveness of our model.
翻訳日:2022-05-27 14:29:43 公開日:2022-05-26
# 人行動認識のための教師なしSTDPを用いた2D対3D畳み込みニューラルネットワーク

2D versus 3D Convolutional Spiking Neural Networks Trained with Unsupervised STDP for Human Action Recognition ( http://arxiv.org/abs/2205.13474v1 )

ライセンス: Link先を確認
Mireille El-Assal, Pierre Tirilly, Ioan Marius Bilasco(参考訳) 最近の技術進歩は、コンピュータビジョンの領域におけるビデオ分析の重要性を強調している。 しかし、ビデオ解析は従来のニューラルネットワーク(anns)に比べて計算コストがかなり高い。 スパイクニューラルネットワーク(snn)は、スパイクの形で情報を処理する第3世代の生物学的に妥当なモデルである。 スパイクタイミング依存塑性(STDP)ルールを用いたSNNによる教師なし学習は、通常の人工ニューラルネットワークのボトルネックを克服する可能性があるが、STDPベースのSNNはまだ未成熟であり、その性能はANNよりもはるかに劣っている。 本研究では,人間の行動認識の課題に挑戦した場合のsnsの性能について検討する。この課題は映像監視など,コンピュータビジョンに多くのリアルタイム応用があるためである。 本稿では,教師なしSTDPで学習した多層3次元畳み込みSNNモデルを提案する。 我々は,このモデルの性能を,KTHとWeizmannデータセットに挑戦する2次元STDPベースのSNNの性能と比較する。 また,これらのモデルの単層モデルと多層モデルの比較を行い,性能評価を行った。 本稿では,STDPベースの畳み込みSNNが3次元カーネルを用いて動きパターンを学習し,動画からの動きに基づく認識を可能にすることを示す。 最後に,STDPをベースとした2次元畳み込みよりも3次元畳み込みの方が優れていることを示す。

Current advances in technology have highlighted the importance of video analysis in the domain of computer vision. However, video analysis has considerably high computational costs with traditional artificial neural networks (ANNs). Spiking neural networks (SNNs) are third generation biologically plausible models that process the information in the form of spikes. Unsupervised learning with SNNs using the spike timing dependent plasticity (STDP) rule has the potential to overcome some bottlenecks of regular artificial neural networks, but STDP-based SNNs are still immature and their performance is far behind that of ANNs. In this work, we study the performance of SNNs when challenged with the task of human action recognition, because this task has many real-time applications in computer vision, such as video surveillance. In this paper we introduce a multi-layered 3D convolutional SNN model trained with unsupervised STDP. We compare the performance of this model to those of a 2D STDP-based SNN when challenged with the KTH and Weizmann datasets. We also compare single-layer and multi-layer versions of these models in order to get an accurate assessment of their performance. We show that STDP-based convolutional SNNs can learn motion patterns using 3D kernels, thus enabling motion-based recognition from videos. Finally, we give evidence that 3D convolution is superior to 2D convolution with STDP-based SNNs, especially when dealing with long video sequences.
翻訳日:2022-05-27 14:29:20 公開日:2022-05-26
# AdaptFormer: スケーラブルな視覚認識のための視覚変換器の適応

AdaptFormer: Adapting Vision Transformers for Scalable Visual Recognition ( http://arxiv.org/abs/2205.13535v1 )

ライセンス: Link先を確認
Shoufa Chen, Chongjian Ge, Zhan Tong, Jiangliu Wang, Yibing Song, Jue Wang, Ping Luo(参考訳) 事前訓練されたビジョントランスフォーマー(ViT)はコンピュータビジョンにおいて大きな成功を収めたが、様々な画像やビデオタスクにViTを適応させることは、各モデルが異なるタスクに独立して包括的に微調整する必要があるという重い計算と記憶負荷のために困難である。 この課題に対処するために,プリトレーニングされたvitを様々な画像や映像タスクに効率的に適応させることができるトランスフォーマー(adaptformer)の効果的な適応手法を提案する。 以前の芸術よりも魅力的な利益がいくつかある。 ひとつは、AdaptFormerが導入する軽量モジュールで、ViTに2%未満のパラメータを追加するだけで、オリジナルのトレーニング済みパラメータを更新することなく、ViTの転送可能性を向上させることができる。 第二に、異なるトランスフォーマーでプラグイン&プレイでき、多くのビジュアルタスクにスケーラブルである。 第3に、5つの画像とビデオデータセットに関する広範な実験は、adaptformerがターゲットドメインのvitsを大幅に改善していることを示している。 例えば、わずか1.5%の追加パラメータを更新すると、Something~v2 と HMDB51 で完全に調整されたモデルと比較して約10%と19%の改善が達成される。 プロジェクトページ: http://www.shoufachen.com/adaptformer-page

Although the pre-trained Vision Transformers (ViTs) achieved great success in computer vision, adapting a ViT to various image and video tasks is challenging because of its heavy computation and storage burdens, where each model needs to be independently and comprehensively fine-tuned to different tasks, limiting its transferability in different domains. To address this challenge, we propose an effective adaptation approach for Transformer, namely AdaptFormer, which can adapt the pre-trained ViTs into many different image and video tasks efficiently. It possesses several benefits more appealing than prior arts. Firstly, AdaptFormer introduces lightweight modules that only add less than 2% extra parameters to a ViT, while it is able to increase the ViT's transferability without updating its original pre-trained parameters, significantly outperforming the existing 100% fully fine-tuned models on action recognition benchmarks. Secondly, it can be plug-and-play in different Transformers and scalable to many visual tasks. Thirdly, extensive experiments on five image and video datasets show that AdaptFormer largely improves ViTs in the target domains. For example, when updating just 1.5% extra parameters, it achieves about 10% and 19% relative improvement compared to the fully fine-tuned models on Something-Something~v2 and HMDB51, respectively. Project page: http://www.shoufachen.com/adaptformer-page.
翻訳日:2022-05-27 14:28:57 公開日:2022-05-26
# BEVFusion:Unified Bird's-Eye View Representationによるマルチタスクマルチセンサーフュージョン

BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation ( http://arxiv.org/abs/2205.13542v1 )

ライセンス: Link先を確認
Zhijian Liu, Haotian Tang, Alexander Amini, Xinyu Yang, Huizi Mao, Daniela Rus, Song Han(参考訳) 高精度で信頼性の高い自動運転システムには,マルチセンサ融合が不可欠である。 最近のアプローチは、ポイントレベルの融合に基づいており、LiDARポイントクラウドをカメラ機能で強化している。 しかし、カメラ対LiDARプロジェクションは、カメラ特徴のセマンティックな密度を捨て、特に3Dシーンセグメンテーションのようなセマンティック指向タスクにおいて、このような手法の有効性を妨げる。 本稿では,効率良く汎用的なマルチタスクマルチセンサ融合フレームワークであるbevfusionで,この深く根ざした慣習を破る。 共有鳥眼ビュー(BEV)表現空間におけるマルチモーダルな特徴を統一し、幾何学的情報と意味的情報の両方を良好に保存する。 これを実現するために,bevプールを最適化したビュートランスフォーメーションのボトルネックを診断し,40倍以上のレイテンシ削減を行う。 BEVFusionは基本的にタスクに依存しず、アーキテクチャ上のほとんど変更なしに異なる3D知覚タスクをシームレスにサポートする。 3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、計算コストは1.9倍である。

Multi-sensor fusion is essential for an accurate and reliable autonomous driving system. Recent approaches are based on point-level fusion: augmenting the LiDAR point cloud with camera features. However, the camera-to-LiDAR projection throws away the semantic density of camera features, hindering the effectiveness of such methods, especially for semantic-oriented tasks (such as 3D scene segmentation). In this paper, we break this deeply-rooted convention with BEVFusion, an efficient and generic multi-task multi-sensor fusion framework. It unifies multi-modal features in the shared bird's-eye view (BEV) representation space, which nicely preserves both geometric and semantic information. To achieve this, we diagnose and lift key efficiency bottlenecks in the view transformation with optimized BEV pooling, reducing latency by more than 40x. BEVFusion is fundamentally task-agnostic and seamlessly supports different 3D perception tasks with almost no architectural changes. It establishes the new state of the art on nuScenes, achieving 1.3% higher mAP and NDS on 3D object detection and 13.6% higher mIoU on BEV map segmentation, with 1.9x lower computation cost.
翻訳日:2022-05-27 14:28:30 公開日:2022-05-26
# 高速収束と一般化のためのトレーニング可能なウェイト平均化

Trainable Weight Averaging for Fast Convergence and Better Generalization ( http://arxiv.org/abs/2205.13104v1 )

ライセンス: Link先を確認
Tao Li, Zhehao Huang, Qinghua Tao, Yingwen Wu, Xiaolin Huang(参考訳) 確率勾配降下(SGD)とその変種は、ディープニューラルネットワーク(DNN)を訓練するためのデファクト手法として一般的に考えられている。 SGDの最近の改良は、主に降下アルゴリズムそのものに焦点が当てられているが、過去のソリューションを反復的な方法として活用することに注意を払っている研究はほとんどない。 最近の興味深い試みは確率的ウェイト平均化(SWA)であり、これは訓練の尾の段階で解を単に平均化することで一般化を著しく改善する。 本稿では, 平均化係数の最適化を提案し, 歴史的解に代表される減算部分空間における新しいトレーニング手法であるTWA(Trainable Weight Averaging)を導いた。 TWAは非常に効率的で、訓練の自由度が小さいため、優れた一般化能力を有する。 これにより、SWAからの推定誤差を大幅に低減し、SWAソリューションをさらに改善するだけでなく、SWAが失敗するトレーニングヘッドで生成されるソリューションを最大限に活用することができる。 大規模な数値実験で。 (i)TWAは学習率に敏感なSWAに対して一貫した改善を実現する。 (II)トレーニングの先頭段階にTWAを適用すると、コンバージェンスが大幅にスピードアップし、CIFARが40%以上、ImageNetが30%以上削減され、通常のトレーニングに比べて一般化が向上する。 コードはhttps://github.com/nblt/twaでリリースされる。

Stochastic gradient descent (SGD) and its variants are commonly considered as the de-facto methods to train deep neural networks (DNNs). While recent improvements to SGD mainly focus on the descent algorithm itself, few works pay attention to utilizing the historical solutions -- as an iterative method, SGD has actually gone through substantial explorations before its final convergence. Recently, an interesting attempt is stochastic weight averaging (SWA), which significantly improves the generalization by simply averaging the solutions at the tail stage of training. In this paper, we propose to optimize the averaging coefficients, leading to our Trainable Weight Averaging (TWA), essentially a novel training method in a reduced subspace spanned by historical solutions. TWA is quite efficient and has good generalization capability as the degree of freedom for training is small. It largely reduces the estimation error from SWA, making it not only further improve the SWA solutions but also take full advantage of the solutions generated in the head of training where SWA fails. In the extensive numerical experiments, (i) TWA achieves consistent improvements over SWA with less sensitivity to learning rate; (ii) applying TWA in the head stage of training largely speeds up the convergence, resulting in over 40% time saving on CIFAR and 30% on ImageNet with improved generalization compared with regular training. The code is released at https://github.com/nblt/TWA.
翻訳日:2022-05-27 14:25:34 公開日:2022-05-26
# コンテキストPandoraのボックス

Contextual Pandora's Box ( http://arxiv.org/abs/2205.13114v1 )

ライセンス: Link先を確認
Alexia Atsidakou, Constantine Caramanis, Evangelia Gergatsouli, Orestis Papadigenopoulos, Christos Tzamos(参考訳) pandoraのボックスは基本的な確率的最適化問題であり、意思決定者は、各選択肢の価値を探求する検索コストを最小化しながら、優れた選択肢を見つけなければならない。 当初の定式化では、すべての選択肢の値に対して正確な事前が与えられていると仮定され、最近の研究では、先行が不明なPandoraのBoxのオンライン版が研究されている。 この作業では、コンテキストを取り入れながらPandoraのBoxをオンライン設定に拡張します。 各ラウンドで、各ラウンドで変化する可能性のある未知の事前分布から引き出されたコンテキスト、探索コスト、未知の値を持つ、いくつかの代替案が提示されます。 我々の主な成果は、全ての事前分布を正確に知る最適アルゴリズムと相反する非回帰アルゴリズムである。 我々のアルゴリズムはバンディット設定でも動作し、アルゴリズムは探索されなかった代替品の値を決して学習しない。 この結果を可能にする鍵となる手法は,コンテキストを平均ではなく対応する分布の予約値に結びつけるコンテキストバンディットにおける実現可能性条件の修正である。

Pandora's Box is a fundamental stochastic optimization problem, where the decision-maker must find a good alternative while minimizing the search cost of exploring the value of each alternative. In the original formulation, it is assumed that accurate priors are given for the values of all the alternatives, while recent work studies the online variant of Pandora's Box where priors are originally unknown. In this work, we extend Pandora's Box to the online setting, while incorporating context. At every round, we are presented with a number of alternatives each having a context, an exploration cost and an unknown value drawn from an unknown prior distribution that may change at every round. Our main result is a no-regret algorithm that performs comparably well to the optimal algorithm which knows all prior distributions exactly. Our algorithm works even in the bandit setting where the algorithm never learns the values of the alternatives that were not explored. The key technique that enables our result is novel a modification of the realizability condition in contextual bandits that connects a context to the reservation value of the corresponding distribution rather than its mean
翻訳日:2022-05-27 14:25:11 公開日:2022-05-26
# データ解析のための適応構成パラメータを用いた直交確率構成ネットワーク

Orthogonal Stochastic Configuration Networks with Adaptive Construction Parameter for Data Analytics ( http://arxiv.org/abs/2205.13191v1 )

ライセンス: Link先を確認
Wei Dai, Chuanfeng Ning, Shiyu Pei, Song Zhu, Xuesong Wang(参考訳) ランダム化学習者モデルとして、ランダム重みとバイアスが、普遍的な近似と高速な学習を保証するための監督機構を用いて割り当てられていることは注目に値する。 しかし、このランダム性により、SCNは冗長で品質の低い近似線形相関ノードを生成する傾向が高くなり、結果として非コンパクトネットワーク構造となる。 機械学習の基本的な原則、すなわちパラメータの少ないモデルでは、一般化が改善されている。 本稿では, グラムシュミット直交技術を用いて, ネットワーク構造低減のための低品質の隠れノードをろ過する直交scnを提案する。 OSCNの普遍近似特性と鍵構成パラメータの適応的設定を詳述した。 さらに、出力重みを動的に決定するためにインクリメンタル更新スキームを開発し、計算効率の向上に寄与する。 最後に、2つの数値例と複数の実世界の回帰と分類データセットによる実験結果から,提案手法の有効性と妥当性を実証した。

As a randomized learner model, SCNs are remarkable that the random weights and biases are assigned employing a supervisory mechanism to ensure universal approximation and fast learning. However, the randomness makes SCNs more likely to generate approximate linear correlative nodes that are redundant and low quality, thereby resulting in non-compact network structure. In the light of a fundamental principle in machine learning, that is, a model with fewer parameters holds improved generalization. This paper proposes orthogonal SCN, termed OSCN, to filtrate out the low-quality hidden nodes for network structure reduction by incorporating Gram-Schmidt orthogonalization technology. The universal approximation property of OSCN and an adaptive setting for the key construction parameters have been presented in details. In addition, an incremental updating scheme is developed to dynamically determine the output weights, contributing to improved computational efficiency. Finally, experimental results on two numerical examples and several real-world regression and classification datasets substantiate the effectiveness and feasibility of the proposed approach.
翻訳日:2022-05-27 14:24:52 公開日:2022-05-26
# シミュレーション集中型ハードウェア設計のための協調蒸留メタ学習

Collaborative Distillation Meta Learning for Simulation Intensive Hardware Design ( http://arxiv.org/abs/2205.13225v1 )

ライセンス: Link先を確認
Haeyeon Kim, Minsu Kim, Joungho Kim, Jinkyoo Park(参考訳) 本稿では,ハードウェア設計のシミュレーションのための新しい共同蒸留メタラーニング(CDML)フレームワークを提案する。 深部強化学習(DRL)は様々なハードウェア設計問題において有望な性能を示している。 しかし、DRLベースのハードウェア設計に関する以前の研究は、単純化された目的の問題にしか対処しなかった。 実際、シミュレーションによる実世界の電気性能の客観的評価は時間と計算の両面でコストがかかるため、広範な報酬計算を含むdrlスキームは不適当である。 本稿では,cdmlフレームワークを,シミュレーション集約型ハードウェア設計問題の一つであるコンデンサ配置問題(dpp)の分離に適用する。 cdmlフレームワークは、コンテキストベースのメタ学習と、再利用可能な解法を作成するための協調蒸留スキームで構成されている。 コンテキストベースのメタ学習者は、探索ポート(ターゲット回路ブロック)の位置を捕捉し、一般化能力を向上させる。 等変ラベル変換を用いた共同蒸留方式は, 試料効率を向上するだけでなく, 一般化能力も向上する, プレースメント問題の動作置換(AP)-等変の性質を強制する。 我々のCDMLは, 実世界の目的, パワー整合性, ゼロショット転送能力の両面で, ニューラルベースラインと反復的設計手法の両方に優れていた。

This paper proposes a novel collaborative distillation meta learning (CDML) framework for simulation intensive hardware design problems. Deep reinforcement learning (DRL) has shown promising performance in various hardware design problems. However, previous works on DRL-based hardware design only dealt with problems with simplified objectives, which are not practical. In fact, the objective evaluation of real-world electrical performance through simulation is costly in terms of both time and computation, making DRL scheme involving extensive reward calculations not suitable. In this paper, we apply the CDML framework to decoupling capacitor placement problem (DPP), one of the significant simulation intensive hardware design problems. The CDML framework consists of a context-based meta learner and collaborative distillation scheme to produce a reusable solver. The context-based meta learner captures the location of probing port (i.e., target circuit block) and improves generalization capability. The collaborative distillation scheme with equivariant label transformation imposes the action-permutation (AP)-equivariant nature of placement problems, which not only improves sample efficiency but also improves generalization capability. Extensive experimental results verified that our CDML outperforms both neural baselines and iterative conventional design methods in terms of real-world objective, power integrity, with zero-shot transfer-ability.
翻訳日:2022-05-27 14:24:36 公開日:2022-05-26
# DT+GNN:決定木を用いた完全に説明可能なグラフニューラルネットワーク

DT+GNN: A Fully Explainable Graph Neural Network using Decision Trees ( http://arxiv.org/abs/2205.13234v1 )

ライセンス: Link先を確認
Peter M\"uller, Lukas Faber, Karolis Martinkus, Roger Wattenhofer(参考訳) 本稿では,完全説明可能な決定木グラフニューラルネットワーク(DT+GNN)アーキテクチャを提案する。 既存のブラックボックスGNNやポストホックな説明法とは異なり、DT+GNNの推論は各ステップで検査できる。 そこで我々はまず,ノードとメッセージの分類的状態空間を使用する,微分可能なGNN層を構築する。 これにより、GNNの訓練済みMLPを決定木に変換することができます。 これらの木は、新しく提案した手法を用いて、小さくて容易に解釈できるように刈り取られる。 また、決定木を使って従来の説明を計算できます。 実世界のデータセットと合成GNN説明可能性ベンチマークの両方で、このアーキテクチャは従来のGNNと同様に機能することを示す。 さらに、dt+gnnの説明可能性を活用して、これらのデータセットの多くについて興味深い洞察を得ました。 また、DT+GNNの意思決定を検査するインタラクティブなWebツールも提供します。

We propose the fully explainable Decision Tree Graph Neural Network (DT+GNN) architecture. In contrast to existing black-box GNNs and post-hoc explanation methods, the reasoning of DT+GNN can be inspected at every step. To achieve this, we first construct a differentiable GNN layer, which uses a categorical state space for nodes and messages. This allows us to convert the trained MLPs in the GNN into decision trees. These trees are pruned using our newly proposed method to ensure they are small and easy to interpret. We can also use the decision trees to compute traditional explanations. We demonstrate on both real-world datasets and synthetic GNN explainability benchmarks that this architecture works as well as traditional GNNs. Furthermore, we leverage the explainability of DT+GNNs to find interesting insights into many of these datasets, with some surprising results. We also provide an interactive web tool to inspect DT+GNN's decision making.
翻訳日:2022-05-27 14:24:14 公開日:2022-05-26
# 完全準同型暗号を用いたプライバシ保存ウェーブレットウェーブレットニューラルネットワーク

Privacy-Preserving Wavelet Wavelet Neural Network with Fully Homomorphic Encryption ( http://arxiv.org/abs/2205.13265v1 )

ライセンス: Link先を確認
Syed Imtiaz Ahamed and Vadlamani Ravi(参考訳) プライバシ保護機械学習(PPML)の主な目的は、プライバシ保護と、マシンラーニングモデルの構築に使用されるデータに対するセキュリティを提供することである。 PPMLにはSecure Multi-Party Computation, Differential Privacy, Homomorphic Encryption (HE)など,さまざまなテクニックがある。 これらのテクニックは、さまざまな機械学習モデル、さらにはDeep Learning Networksと組み合わせて、データのプライバシとユーザのアイデンティティを保護する。 本稿では,プライバシを保護しつつ,モデルの効率を損なわない完全準同型の暗号化ウェーブレットニューラルネットワークを提案する。 金融・医療分野から収集した7つのデータセットに対して,提案手法の有効性を検証した。 その結果,提案手法は暗号化されていないモデルと同様の性能を示した。

The main aim of Privacy-Preserving Machine Learning (PPML) is to protect the privacy and provide security to the data used in building Machine Learning models. There are various techniques in PPML such as Secure Multi-Party Computation, Differential Privacy, and Homomorphic Encryption (HE). The techniques are combined with various Machine Learning models and even Deep Learning Networks to protect the data privacy as well as the identity of the user. In this paper, we propose a fully homomorphic encrypted wavelet neural network to protect privacy and at the same time not compromise on the efficiency of the model. We tested the effectiveness of the proposed method on seven datasets taken from the finance and healthcare domains. The results show that our proposed model performs similarly to the unencrypted model.
翻訳日:2022-05-27 14:23:44 公開日:2022-05-26
# 分子グラフによる三角コントラスト学習

Triangular Contrastive Learning on Molecular Graphs ( http://arxiv.org/abs/2205.13279v1 )

ライセンス: Link先を確認
MinGyu Choi, Wonseok Shin, Yijingxiu Lu, Sun Kim(参考訳) 近年のコントラスト学習手法は様々なタスクにおいて有効であることが示されており、データ拡張に不変な一般化表現を学習することで、アートパフォーマンスの状況に繋がる。 実語ダウンストリームタスクの大部分が単一形式のデータを使っている一方で、自己教師付き学習で使用される大きなラベルのないデータの多面的性質については、単一のモダリティをトレーニングして、他のモダリティから多様な視点を学習できるマルチモーダルフレームワークが重要な課題である。 本稿では,三角コントラスト学習のための普遍的なフレームワークであるtricl(triangular contrastive learning)を提案する。 TriCLは、正と負の三重項の面積を同時に対比することで、埋め込み空間の角幾何学を学ぶ、新しいモード間コントラスト損失である三角面積損失を利用する。 アライメントと均一性の観点からの埋め込み空間のシステマティックな観察により、三角形のエリアロスは、角度によるモジュラリティの識別により、ライン崩壊問題に対処できることを示した。 また, 分子特性予測の下流タスクにおけるTriCLの性能を実証し, 組込み空間の利点が下流タスクの性能に有効であることを示唆した。

Recent contrastive learning methods have shown to be effective in various tasks, learning generalizable representations invariant to data augmentation thereby leading to state of the art performances. Regarding the multifaceted nature of large unlabeled data used in self-supervised learning while majority of real-word downstream tasks use single format of data, a multimodal framework that can train single modality to learn diverse perspectives from other modalities is an important challenge. In this paper, we propose TriCL (Triangular Contrastive Learning), a universal framework for trimodal contrastive learning. TriCL takes advantage of Triangular Area Loss, a novel intermodal contrastive loss that learns the angular geometry of the embedding space through simultaneously contrasting the area of positive and negative triplets. Systematic observation on embedding space in terms of alignment and uniformity showed that Triangular Area Loss can address the line-collapsing problem by discriminating modalities by angle. Our experimental results also demonstrate the outperformance of TriCL on downstream task of molecular property prediction which implies that the advantages of the embedding space indeed benefits the performance on downstream tasks.
翻訳日:2022-05-27 14:23:32 公開日:2022-05-26
# 深層ニューラルネットワークの損失景観解析のための奥行き埋め込み原理

Embedding Principle in Depth for the Loss Landscape Analysis of Deep Neural Networks ( http://arxiv.org/abs/2205.13283v1 )

ライセンス: Link先を確認
Zhiwei Bai, Tao Luo, Zhi-Qin John Xu, Yaoyu Zhang(参考訳) 深層ニューラルネットワーク(dnn)のロスランドスケープの基礎となる一般構造を解き放つことは、ディープラーニングの理論研究にとって重要である。 DNNロスランドスケープの埋め込み原理に触発されて、我々はこの研究において、NNのロスランドスケープが、より浅いNNのロスランドスケープのすべての重要なポイントを「含んでいる」ことを証明する。 具体的には、出力を保持しながら、より浅いネットワークの臨界点を対象ネットワークの臨界多様体に持ち上げることができる臨界昇降演算子を提案する。 引き上げによって、NNの局所的な最小限は、より深いNNの厳密なサドルポイントとなり、一階法で容易に脱出できる。 奥行きの埋め込み原理は、層線形化が起こる多くの臨界点、すなわち、特定の層の計算がトレーニング入力に対して効果的に線形であることを示す。 我々は, 階層線形化の抑制により, バッチ正規化は浮き上がらない臨界多様体を回避し, 損失の減衰を早めることを実証的に証明した。 また, 訓練データの増加により, 浮揚臨界多様体が減少し, トレーニングが加速されることを実証した。 全体として、埋め込み原理は埋め込み原理(幅)をうまく補完し、DNN損失ランドスケープの臨界点/多様体の階層構造を完全に特徴づける。

Unraveling the general structure underlying the loss landscapes of deep neural networks (DNNs) is important for the theoretical study of deep learning. Inspired by the embedding principle of DNN loss landscape, we prove in this work an embedding principle in depth that loss landscape of an NN "contains" all critical points of the loss landscapes for shallower NNs. Specifically, we propose a critical lifting operator that any critical point of a shallower network can be lifted to a critical manifold of the target network while preserving the outputs. Through lifting, local minimum of an NN can become a strict saddle point of a deeper NN, which can be easily escaped by first-order methods. The embedding principle in depth reveals a large family of critical points in which layer linearization happens, i.e., computation of certain layers is effectively linear for the training inputs. We empirically demonstrate that, through suppressing layer linearization, batch normalization helps avoid the lifted critical manifolds, resulting in a faster decay of loss. We also demonstrate that increasing training data reduces the lifted critical manifold thus could accelerate the training. Overall, the embedding principle in depth well complements the embedding principle (in width), resulting in a complete characterization of the hierarchical structure of critical points/manifolds of a DNN loss landscape.
翻訳日:2022-05-27 14:23:09 公開日:2022-05-26
# 連続学習におけるタスク順序付けの効果

The Effect of Task Ordering in Continual Learning ( http://arxiv.org/abs/2205.13323v1 )

ライセンス: Link先を確認
Samuel J. Bell and Neil D. Lawrence(参考訳) タスクオーダリングが連続学習性能に及ぼす影響について検討する。 我々は、合成および自然主義的なデータセットに関する広範な実験を行い、リオーダータスクが破滅的な忘れの量に大きな影響を及ぼすことを示す。 カリキュラム学習の分野と結びつくことで,タスクオーダリングの効果を利用して連続的な学習性能を改善できることを示し,これを実現するための簡単なアプローチを提案する。 対象タスクに対する勾配ステップのソースタスク曲率として距離を定義することにより,すべてのタスク間の距離を計算する。 統計的に厳密な手法と音響実験設計を用いることで、タスク順序付けが継続的な学習の重要な側面であり、性能改善のために修正可能であることを示す。

We investigate the effect of task ordering on continual learning performance. We conduct an extensive series of empirical experiments on synthetic and naturalistic datasets and show that reordering tasks significantly affects the amount of catastrophic forgetting. Connecting to the field of curriculum learning, we show that the effect of task ordering can be exploited to modify continual learning performance, and present a simple approach for doing so. Our method computes the distance between all pairs of tasks, where distance is defined as the source task curvature of a gradient step toward the target task. Using statistically rigorous methods and sound experimental design, we show that task ordering is an important aspect of continual learning that can be modified for improved performance.
翻訳日:2022-05-27 14:22:45 公開日:2022-05-26
# 雑音安定性を考慮した深部アクティブラーニング

Deep Active Learning with Noise Stability ( http://arxiv.org/abs/2205.13340v1 )

ライセンス: Link先を確認
Xingjian Li, Pengkun Yang, Tianyang Wang, Xueying Zhan, Min Xu, Dejing Dou, Chengzhong Xu(参考訳) アクティブラーニングにはラベルなしデータの不確実性推定が不可欠である。 バックボーンモデルとして使用されるディープニューラルネットワークでは、モデル推論の過度な信頼のため、データ選択プロセスは非常に難しい。 既存の方法は、この課題に対処するために、特別な学習スタイル(例えば、敵対者)や補助モデルを利用する。 これにより、複雑で非効率なパイプラインが生まれ、メソッドが非現実的になる。 本研究では,ノイズの安定性を生かしてデータの不確かさを単回学習するマルチ会議方式で推定する新しいアルゴリズムを提案する。 鍵となるアイデアは、モデルパラメータがノイズによってランダムに摂動した場合、元の観測結果から出力を計測することである。 ガウス雑音理論を用いて理論解析を行い,本手法が大規模かつ多様な勾配を持つ部分集合を好むことを示す。 その単純さにもかかわらず,本手法はコンピュータビジョン,自然言語処理,構造データ解析などのタスクにおいて,最先端のアクティブな学習ベースラインよりも優れている。

Uncertainty estimation for unlabeled data is crucial to active learning. With a deep neural network employed as the backbone model, the data selection process is highly challenging due to the potential over-confidence of the model inference. Existing methods resort to special learning fashions (e.g. adversarial) or auxiliary models to address this challenge. This tends to result in complex and inefficient pipelines, which would render the methods impractical. In this work, we propose a novel algorithm that leverages noise stability to estimate data uncertainty in a Single-Training Multi-Inference fashion. The key idea is to measure the output derivation from the original observation when the model parameters are randomly perturbed by noise. We provide theoretical analyses by leveraging the small Gaussian noise theory and demonstrate that our method favors a subset with large and diverse gradients. Despite its simplicity, our method outperforms the state-of-the-art active learning baselines in various tasks, including computer vision, natural language processing, and structural data analysis.
翻訳日:2022-05-27 14:22:33 公開日:2022-05-26
# 重度医療におけるアウト・オブ・ディストリビューション環境を探る:eICUデータベースを用いた事例研究

Looking for Out-of-Distribution Environments in Critical Care: A case study with the eICU Database ( http://arxiv.org/abs/2205.13398v1 )

ライセンス: Link先を確認
Dimitris Spathis, Stephanie L. Hyland(参考訳) 機械学習における新しい人口と領域への一般化は、近年関心が高まっているオープンな問題である。 特に、臨床モデルでは、訓練中に見られない状況(例えば、新しい病院や人口統計)でテストした場合、大幅なパフォーマンス低下を示す。 最近提案されたドメイン一般化モデルでは、環境にまたがる不変特性を学習することでこの問題を緩和することを約束しているが、従来のトレーニングよりも改善されるかどうかについては懐疑的である。 本研究では,批判ケアにおけるクロスホスピタル一般化の問題に起因して,OoD(Out of Distribution)環境の同定に原則的アプローチを採る。 我々は,OoD環境を同定するためのモデルベースおよびヒューリスティックなアプローチを提案し,異なるレベルの保持情報を持つモデルと体系的に比較する。 特に、OoDデータにアクセス可能なモデルが他のモデルより優れているという仮定に基づいて、私たちは、出発点のホスピタルアウトトレーニングや横断的な機能分割を含む、さまざまな実験的なセットアップでモデルをトレーニングします。 我々は,OoDデータへのアクセスが,データ調和とサンプリングのため,eICUデータベース内の潜在的OoD環境の定義に固有の制限を指摘し,性能向上に寄与しないことを見出した。 文献における他の人気のある臨床ベンチマークと類似した結果を示すために、批判的治療における堅牢なモデルを評価する新しいアプローチが必要である。

Generalizing to new populations and domains in machine learning is still an open problem which has seen increased interest recently. In particular, clinical models show a significant performance drop when tested in settings not seen during training, e.g., new hospitals or population demographics. Recently proposed models for domain generalisation promise to alleviate this problem by learning invariant characteristics across environments, however, there is still scepticism about whether they improve over traditional training. In this work, we take a principled approach to identifying Out of Distribution (OoD) environments, motivated by the problem of cross-hospital generalization in critical care. We propose model-based and heuristic approaches to identify OoD environments and systematically compare models with different levels of held-out information. In particular, based on the assumption that models with access to OoD data should outperform other models, we train models across a range of experimental setups that include leave-one-hospital-out training and cross-sectional feature splits. We find that access to OoD data does not translate to increased performance, pointing to inherent limitations in defining potential OoD environments in the eICU Database potentially due to data harmonisation and sampling. Echoing similar results with other popular clinical benchmarks in the literature, new approaches are required to evaluate robust models in critical care.
翻訳日:2022-05-27 14:22:17 公開日:2022-05-26
# 強化学習を伴う公正なフェデレーション学習フレームワーク

A Fair Federated Learning Framework With Reinforcement Learning ( http://arxiv.org/abs/2205.13415v1 )

ライセンス: Link先を確認
Yaqi Sun, Shijing Si, Jianzong Wang, Yuhan Dong, Zhitao Zhu, Jing Xiao(参考訳) フェデレートラーニング(FL)は、多くのクライアントが、トレーニングデータをローカルに保存しつつ、中央サーバの調整の下でモデルを協調的にトレーニングするパラダイムである。 しかし、異なるクライアント上の異種データ分散は主流のflアルゴリズムにとって依然として課題であり、低収束、全体的なパフォーマンス低下、クライアント間のパフォーマンスの不公平性を引き起こす可能性がある。 そこで本研究では,クライアントにアグリゲーション重み付けを割り当てるポリシーを自動的に学習するPG-FFLという強化学習フレームワークを提案する。 さらに, FLの公平性の尺度としてジニ係数を用いることを提案する。 さらに,強化学習のための報酬関数を構築するために,各コミュニケーションラウンドのクライアントのgini係数と検証精度を適用した。 我々のPG-FFLは既存の多くのFLアルゴリズムとも互換性がある。 フレームワークの有効性を検証するため、多様なデータセットに対して広範な実験を行う。 実験結果から,本フレームワークは全体の性能,公平性,収束速度において,ベースライン手法より優れていることが示された。

Federated learning (FL) is a paradigm where many clients collaboratively train a model under the coordination of a central server, while keeping the training data locally stored. However, heterogeneous data distributions over different clients remain a challenge to mainstream FL algorithms, which may cause slow convergence, overall performance degradation and unfairness of performance across clients. To address these problems, in this study we propose a reinforcement learning framework, called PG-FFL, which automatically learns a policy to assign aggregation weights to clients. Additionally, we propose to utilize Gini coefficient as the measure of fairness for FL. More importantly, we apply the Gini coefficient and validation accuracy of clients in each communication round to construct a reward function for the reinforcement learning. Our PG-FFL is also compatible to many existing FL algorithms. We conduct extensive experiments over diverse datasets to verify the effectiveness of our framework. The experimental results show that our framework can outperform baseline methods in terms of overall performance, fairness and convergence speed.
翻訳日:2022-05-27 14:21:51 公開日:2022-05-26
# (参考訳) マスク画像モデリングのためのグリーン階層視覚トランスフォーマ

Green Hierarchical Vision Transformer for Masked Image Modeling ( http://arxiv.org/abs/2205.13515v1 )

ライセンス: CC BY 4.0
Lang Huang, Shan You, Mingkai Zheng, Fei Wang, Chen Qian, Toshihiko Yamasaki(参考訳) 本稿では,階層型視覚変換器(ViT)を用いたマスク付き画像モデリング(MIM)の効率的な手法を提案する。 このアプローチは2つの重要なコンポーネントで構成されています。 まず、ウィンドウの注意のために、分割・分割戦略に従うグループウィンドウの注意スキームを設計する。 パッチ数の2次的な複雑さを軽減するため、グループ注意は、任意のサイズの各ローカルウィンドウ内の可視パッチを同じ大きさでグループ化し、マスキングされたセルフアテンションを各グループ内で実行するように、均一な分割を奨励する。 第2に,動的プログラミングアルゴリズムによるグループ化戦略をさらに改善し,グループ化パッチに対する注意の全体的な計算コストを最小化する。 その結果、MIMはグリーンで効率的な方法で階層型のViTを開発できるようになった。 例えば、階層型のViTを約2.7$\timesでトレーニングでき、GPUメモリ使用量を70%削減できます。 コードと事前訓練されたモデルはhttps://github.com/LayneH/GreenMIMで公開されている。

We present an efficient approach for Masked Image Modeling (MIM) with hierarchical Vision Transformers (ViTs), e.g., Swin Transformer, allowing the hierarchical ViTs to discard masked patches and operate only on the visible ones. Our approach consists of two key components. First, for the window attention, we design a Group Window Attention scheme following the Divide-and-Conquer strategy. To mitigate the quadratic complexity of the self-attention w.r.t. the number of patches, group attention encourages a uniform partition that visible patches within each local window of arbitrary size can be grouped with equal size, where masked self-attention is then performed within each group. Second, we further improve the grouping strategy via the Dynamic Programming algorithm to minimize the overall computation cost of the attention on the grouped patches. As a result, MIM now can work on hierarchical ViTs in a green and efficient way. For example, we can train the hierarchical ViTs about 2.7$\times$ faster and reduce the GPU memory usage by 70%, while still enjoying competitive performance on ImageNet classification and the superiority on downstream COCO object detection benchmarks. Code and pre-trained models have been made publicly available at https://github.com/LayneH/GreenMIM.
翻訳日:2022-05-27 14:20:10 公開日:2022-05-26
# 細粒度視覚認識のための大域共分散プールの固有値について

On the Eigenvalues of Global Covariance Pooling for Fine-grained Visual Recognition ( http://arxiv.org/abs/2205.13282v1 )

ライセンス: Link先を確認
Yue Song, Nicu Sebe, Wei Wang(参考訳) 微妙なクラス間変異を捉えるのが困難であるため、FGVC(Fen-Grained Visual Categorization)は難しい。 注目すべき研究ラインのひとつは、gcp(global covariance pooling)レイヤを使用して、二階統計による強力な表現を学習し、クラス間の違いを効果的にモデル化する。 前回の論文では、GCP共分散の小さな固有値のトラッピングにより、よりスムーズな勾配が得られ、大規模ベンチマークの性能が向上することを示した。 しかし、きめ細かいデータセットでは、小さな固有値の切り換えはモデルが収束しない。 この観察は、小さな固有値が単にノイズや重要でない情報に対応しているという一般的な仮定と矛盾する。 したがって、無視はパフォーマンスにほとんど影響を与えない。 この特異な振る舞いを診断するために, 識別クラス特有の特徴を抽出できるため, 一見重要でない小さな固有値が重要であることを示す2つの帰属法を提案する。 この観測から着想を得て,小さな固有値の重要性を拡大するネットワーク分岐を提案する。 追加のパラメータを導入することなく、このブランチは単に小さな固有値を増幅し、3つのきめ細かいベンチマークでGCPメソッドの最先端のパフォーマンスを達成する。 さらに、パフォーマンスは、より大きなデータセット上の他のFGVCアプローチと競合する。 コードは \href{https://github.com/KingJamesSong/DifferentiableSVD}{https://github.com/KingJamesSong/DifferentiableSVD} で公開されている。

The Fine-Grained Visual Categorization (FGVC) is challenging because the subtle inter-class variations are difficult to be captured. One notable research line uses the Global Covariance Pooling (GCP) layer to learn powerful representations with second-order statistics, which can effectively model inter-class differences. In our previous conference paper, we show that truncating small eigenvalues of the GCP covariance can attain smoother gradient and improve the performance on large-scale benchmarks. However, on fine-grained datasets, truncating the small eigenvalues would make the model fail to converge. This observation contradicts the common assumption that the small eigenvalues merely correspond to the noisy and unimportant information. Consequently, ignoring them should have little influence on the performance. To diagnose this peculiar behavior, we propose two attribution methods whose visualizations demonstrate that the seemingly unimportant small eigenvalues are crucial as they are in charge of extracting the discriminative class-specific features. Inspired by this observation, we propose a network branch dedicated to magnifying the importance of small eigenvalues. Without introducing any additional parameters, this branch simply amplifies the small eigenvalues and achieves state-of-the-art performances of GCP methods on three fine-grained benchmarks. Furthermore, the performance is also competitive against other FGVC approaches on larger datasets. Code is available at \href{https://github.com/KingJamesSong/DifferentiableSVD}{https://github.com/KingJamesSong/DifferentiableSVD}.
翻訳日:2022-05-27 13:58:15 公開日:2022-05-26
# A.I.と機械学習の進化 : プレミアA.I.カンファレンスにおける影響・影響・リーダーシップの測定・理解に向けて

On the Evolution of A.I. and Machine Learning: Towards Measuring and Understanding Impact, Influence, and Leadership at Premier A.I. Conferences ( http://arxiv.org/abs/2205.13131v1 )

ライセンス: Link先を確認
Rafael B. Audibert, Henrique Lemos, Pedro Avelar, Anderson R. Tavares, Lu\'is C. Lamb(参考訳) 人工知能は現在、人間の生活に大きな影響を与える汎用技術として認識されている。 本研究は,過去数十年における研究者の影響,影響,リーダーシップを分析し,aiと機械学習の進化を理解することを目的とする。 この研究は、1969年のIJCAI(International Joint Conference on Artificial Intelligence)以来、AIカンファレンスに掲載された論文のレンズを通して、この分野の進化に関わるダイナミクスを探求することで、AIの歴史と進化に新たな光を当てることも意図している。 ai開発と進化は、過去60年間に出版された記事の数を反映して、研究成果の増加につながった。 総合的な引用コラボレーションと論文作成データセットを構築し,それに対応する集中度尺度を計算して分析を行う。 これらの分析は、AIが研究の現在の状況にどう到達したかをよりよく理解することを可能にする。 このプロセスを通じて、これらのデータセットは、ACMチューリング賞受賞者の作業と、この分野が通過したいわゆる2つのAI冬と相関する。 また, 自己引用傾向と新たな著者の行動についても考察した。 最後に,本稿では,その組織から論文の帰属国を推察する新しい方法を提案する。 そこで本研究では,大規模技術施設のデータセットから収集・分析した情報から人工知能の歴史を深く分析し,aiの進化の理解と測定に寄与する新たな知見を提案する。

Artificial Intelligence is now recognized as a general-purpose technology with ample impact on human life. In this work, we aim to understand the evolution of AI and Machine learning over the years by analyzing researchers' impact, influence, and leadership over the last decades. This work also intends to shed new light on the history and evolution of AI by exploring the dynamics involved in the field's evolution through the lenses of the papers published on AI conferences since the first International Joint Conference on Artificial Intelligence (IJCAI) in 1969. AI development and evolution have led to increasing research output, reflected in the number of articles published over the last sixty years. We construct comprehensive citation-collaboration and paper-author datasets and compute corresponding centrality measures to carry out our analyses. These analyses allow a better understanding of how AI has reached its current state of affairs in research. Throughout the process, we correlate these datasets with the work of the ACM Turing Award winners and the so-called two AI winters the field has gone through. We also look at self-citation trends and new authors' behaviors. Finally, we present a novel way to infer the country of affiliation of a paper from its organization. Therefore, this work provides a deep analysis of Artificial Intelligence history from information gathered and analyzed from large technical venues datasets and suggests novel insights that can contribute to understanding and measuring AI's evolution.
翻訳日:2022-05-27 13:57:36 公開日:2022-05-26
# 連合学習のためのquick-fl: quick unbiased compression

QUICK-FL: Quick Unbiased Compression for Federated Learning ( http://arxiv.org/abs/2205.13341v1 )

ライセンス: Link先を確認
Ran Ben Basat, Shay Vargaftik, Amit Portnoy, Gil Einziger, Yaniv Ben-Itzhak, Michael Mitzenmacher(参考訳) 分散平均推定(DME)はコミュニケーション効率のよいフェデレーション学習における基礎的な構成要素である。 DMEでは、クライアントはパラメータサーバに可逆的に圧縮された勾配を通信し、平均を見積もってモデルを更新する。 art dme技術は非バイアス量子化法を応用し、推定誤差が大きくなり、バイアス量子化法が適用され、その結果、サーバは各勾配を個別にデコードし、集約時間を著しく遅くする。 本稿では,すべての世界のベストを達成できるDMEアルゴリズムQUIC-FLを提案する。 QUIC-FLはバイアスがなく、高速な集約時間を提供し、最も正確な(スローアグリゲーション)DME技術と競合する。 これを実現するために、我々は標準解法を用いて、最適に近い非バイアス量子化スキームを設計できる新しい方法で問題を定式化する。

Distributed Mean Estimation (DME) is a fundamental building block in communication efficient federated learning. In DME, clients communicate their lossily compressed gradients to the parameter server, which estimates the average and updates the model. State of the art DME techniques apply either unbiased quantization methods, resulting in large estimation errors, or biased quantization methods, where unbiasing the result requires that the server decodes each gradient individually, which markedly slows the aggregation time. In this paper, we propose QUIC-FL, a DME algorithm that achieves the best of all worlds. QUIC-FL is unbiased, offers fast aggregation time, and is competitive with the most accurate (slow aggregation) DME techniques. To achieve this, we formalize the problem in a novel way that allows us to use standard solvers to design near-optimal unbiased quantization schemes.
翻訳日:2022-05-27 13:57:03 公開日:2022-05-26
# 古典的ディープニューラルネットワークによる不毛高原の回避

Avoiding Barren Plateaus with Classical Deep Neural Networks ( http://arxiv.org/abs/2205.13418v1 )

ライセンス: Link先を確認
Lucas Friedrich and Jonas Maziero(参考訳) 変分量子アルゴリズム(VQA)は、ノイズ中間スケール量子デバイスの時代で最も有望なアルゴリズムの一つである。 VQAは、化学シミュレーション、最適化問題、量子ニューラルネットワークなど、様々なタスクに適用される。 このようなアルゴリズムはパラメータ化U($\pmb{\theta}$)を使用して構築され、コスト関数$C$を最小化するためにパラメータを更新する古典的なオプティマイザを持つ。 このタスクでは、一般に勾配降下法(またはその変種の一つ)が用いられる。 これは、コスト関数勾配を用いて回路パラメータを反復的に更新する手法である。 しかし、この手法はバレン高原(BP)と呼ばれる現象に苦しむことが文献で示されている。 この現象は、コスト関数ランドスケープの指数的に平坦化によって特徴づけられるため、最適化を行うために関数の回数は、量子ビットの数とパラメータ化深さが増加するにつれて指数的に増加する。 本稿では,VQAs入力パラメータにおける古典的ニューラルネットワークの使用がBP現象を緩和する方法について報告する。

Variational quantum algorithms (VQAs) are among the most promising algorithms in the era of Noisy Intermediate Scale Quantum Devices. The VQAs are applied to a variety of tasks, such as in chemistry simulations, optimization problems, and quantum neural networks. Such algorithms are constructed using a parameterization U($\pmb{\theta}$) with a classical optimizer that updates the parameters $\pmb{\theta}$ in order to minimize a cost function $C$. For this task, in general the gradient descent method, or one of its variants, is used. This is a method where the circuit parameters are updated iteratively using the cost function gradient. However, several works in the literature have shown that this method suffers from a phenomenon known as the Barren Plateaus (BP). This phenomenon is characterized by the exponentially flattening of the cost function landscape, so that the number of times the function must be evaluated to perform the optimization grows exponentially as the number of qubits and parameterization depth increase. In this article, we report on how the use of a classical neural networks in the VQAs input parameters can alleviate the BP phenomenon.
翻訳日:2022-05-27 13:56:47 公開日:2022-05-26
# 非可逆設定における線形回帰の学習混合について

On Learning Mixture of Linear Regressions in the Non-Realizable Setting ( http://arxiv.org/abs/2205.13166v1 )

ライセンス: Link先を確認
Avishek Ghosh, Arya Mazumdar, Soumyabrata Pal and Rajat Sen(参考訳) 線形回帰(mlr)の混合はよく研究されている話題であるが、先行研究は通常、予測誤差のモデルを分析しない。 実際、混合の文脈では {\em prediction} と {\em loss} はよく定義されていない。 本稿ではまず,MLRを用いてラベルの予測を行う代わりに,値のリスト(reference of value)を予測できることを示す。 リストのサイズはミックス中のコンポーネントの数に等しく、損失関数はすべてのコンポーネントモデルによる損失の中で最小限に定義される。 この定義により、経験的リスク最小化(ERM)の解が予測誤差の小さな確率を達成することを示す。 このアルゴリズムは計算困難であることが知られているmlrの実証的リスクを最小限に抑えるよう要求する。 MLRにおける以前のアルゴリズム的な研究は、データの確率的に混合線形(ノイズ)モデルによって生成されるパラメータの回復に焦点をあてている。 本稿では,データセットと初期点の正規性条件下で,実現可能なモデルが仮定されていない場合でも,人気の交互最小化 (am) アルゴリズムのバージョンがデータセットの最適な適合線を見つけることを示し,ermの解を提供する。 さらに,データポイント数で多項式時間で動作し,最適な適合線を適切に近似するアルゴリズムを提供する。 2つのアルゴリズムは実験的に比較される。

While mixture of linear regressions (MLR) is a well-studied topic, prior works usually do not analyze such models for prediction error. In fact, {\em prediction} and {\em loss} are not well-defined in the context of mixtures. In this paper, first we show that MLR can be used for prediction where instead of predicting a label, the model predicts a list of values (also known as {\em list-decoding}). The list size is equal to the number of components in the mixture, and the loss function is defined to be minimum among the losses resulted by all the component models. We show that with this definition, a solution of the empirical risk minimization (ERM) achieves small probability of prediction error. This begs for an algorithm to minimize the empirical risk for MLR, which is known to be computationally hard. Prior algorithmic works in MLR focus on the {\em realizable} setting, i.e., recovery of parameters when data is probabilistically generated by a mixed linear (noisy) model. In this paper we show that a version of the popular alternating minimization (AM) algorithm finds the best fit lines in a dataset even when a realizable model is not assumed, under some regularity conditions on the dataset and the initial points, and thereby provides a solution for the ERM. We further provide an algorithm that runs in polynomial time in the number of datapoints, and recovers a good approximation of the best fit lines. The two algorithms are experimentally compared.
翻訳日:2022-05-27 13:54:28 公開日:2022-05-26
# 隠れたスパイキングニューロンのメソスコピックモデリング

Mesoscopic modeling of hidden spiking neurons ( http://arxiv.org/abs/2205.13493v1 )

ライセンス: Link先を確認
Shuqi Wang, Valentin Schmutz, Guillaume Bellec, Wulfram Gerstner(参考訳) スパイキングニューラルネットワーク(SNN)は、ほとんどのニューロンが観測されていないことを考慮しながら、マルチニューロン記録の生成モデルとして使用できるか? 隠されたスパイクニューロンの大きなプールを持つ未観測ニューロンをモデル化すると、最大推定値に対処することが難しい過小制約の問題を生じる。 本研究では、粗粒度と平均場近似を用いて、非観測ニューロンの活性を低次元のメソスコピックな記述に還元するボトムアップ、ニューラングラウンドの潜在変数モデル(neuLVM)を導出する。 従来の潜伏変数モデルとは対照的に、neuLVMは再帰的なマルチポピュレーションSNNに明示的にマッピングすることができ、透過的な生物学的解釈を与える。 合成スパイク列車では, ニュールVMが大きなSNNの効率的なモデル反転を行うのに十分であることを示す。これは, 接続パラメータを復元し, 単心性潜伏集団活動を推定し, 進行中のメタスタブルダイナミクスを再現し, 光刺激を模倣する摂動を受けると一般化できることを意味する。

Can we use spiking neural networks (SNN) as generative models of multi-neuronal recordings, while taking into account that most neurons are unobserved? Modeling the unobserved neurons with large pools of hidden spiking neurons leads to severely underconstrained problems that are hard to tackle with maximum likelihood estimation. In this work, we use coarse-graining and mean-field approximations to derive a bottom-up, neuronally-grounded latent variable model (neuLVM), where the activity of the unobserved neurons is reduced to a low-dimensional mesoscopic description. In contrast to previous latent variable models, neuLVM can be explicitly mapped to a recurrent, multi-population SNN, giving it a transparent biological interpretation. We show, on synthetic spike trains, that a few observed neurons are sufficient for neuLVM to perform efficient model inversion of large SNNs, in the sense that it can recover connectivity parameters, infer single-trial latent population activity, reproduce ongoing metastable dynamics, and generalize when subjected to perturbations mimicking photo-stimulation.
翻訳日:2022-05-27 13:54:05 公開日:2022-05-26
# 過パラメータ学習のためのフレームワーク

A framework for overparameterized learning ( http://arxiv.org/abs/2205.13507v1 )

ライセンス: Link先を確認
D\'avid Terj\'ek, Diego Gonz\'alez-S\'anchez(参考訳) ディープニューラルネットワークの成功に関する説明は、理論的機械学習における中心的な問題である。 古典的統計学習によれば、そのようなモデルの過度にパラメータ化された性質は一般化の失敗を意味する。 優れた経験的性能は、一階最適化法の暗黙の正規化によるものであると主張する者も多い。 特に、Polyak-{\L}ojasiewicz条件は、初期化に近い大域的最適点を求める勾配降下をもたらす。 本研究では,多くの一般的な問題や,無限大のニューラルネットワークや無限のデータであってもカバーできるような,プロトタイプ学習問題からなるフレームワークを提案する。 次に、Polyak-{\L}ojasiewicz条件の観点から解析を行う。 f \circ f: g \to \mathbb{r}$ of functions $f: g \to h$ および $f: h \to \mathbb{r}$ with $g, h$ ヒルベルト空間である。 これらの結果に基づき,初期化に近い大域的最適度を求めるために,勾配降下のためのプロトタイプ問題の構成要素によって満足すべき特性を決定する。 次に,教師付き学習,変分オートエンコーダ,勾配ペナルティによるトレーニングをプロトタイプ問題に翻訳できることを実証する。 最後に,今後の研究の方向性について概説する。

An explanation for the success of deep neural networks is a central question in theoretical machine learning. According to classical statistical learning, the overparameterized nature of such models should imply a failure to generalize. Many argue that good empirical performance is due to the implicit regularization of first order optimization methods. In particular, the Polyak-{\L}ojasiewicz condition leads to gradient descent finding a global optimum that is close to initialization. In this work, we propose a framework consisting of a prototype learning problem, which is general enough to cover many popular problems and even the cases of infinitely wide neural networks and infinite data. We then perform an analysis from the perspective of the Polyak-{\L}ojasiewicz condition. We obtain theoretical results of independent interest, concerning gradient descent on a composition $(f \circ F): G \to \mathbb{R}$ of functions $F: G \to H$ and $f: H \to \mathbb{R}$ with $G, H$ being Hilbert spaces. Building on these results, we determine the properties that have to be satisfied by the components of the prototype problem for gradient descent to find a global optimum that is close to initialization. We then demonstrate that supervised learning, variational autoencoders and training with gradient penalty can be translated to the prototype problem. Finally, we lay out a number of directions for future research.
翻訳日:2022-05-27 13:53:41 公開日:2022-05-26
# DeepTechnome: ディープラーニングによるCT画像の評価における未知のバイアスの軽減

DeepTechnome: Mitigating Unknown Bias in Deep Learning Based Assessment of CT Images ( http://arxiv.org/abs/2205.13297v1 )

ライセンス: Link先を確認
Simon Langer (1), Oliver Taubmann (2), Felix Denzinger (1 and 2), Andreas Maier (1), Alexander M\"uhlberg (2) ((1) Pattern Recognition Lab, Friedrich-Alexander-Universit\"at Erlangen-N\"urnberg, Germany, (2) Siemens Healthcare GmbH, Forchheim, Germany)(参考訳) 生体情報を用いた病気の信頼性検出は, 医用画像における深層学習技術の適用性に不可欠である。 入力を事前に前処理/フィルタリングしたり、データセットの分布や正確な性質について特定の知識を仮定したりすることなく、未知のバイアスに対するトレーニング中にディープラーニングモデルをバイアスします。 制御領域をバイアスに関する情報を運ぶサロゲートとして使用し、分類器モデルを使用して特徴を抽出し、独自のモジュラーデコラレイヤーでバイアス付き中間機能を抑制する。 本手法は,再現カーネルのシミュレーションバイアスとノイズレベルを導入し,952肺CTスキャンのデータセット上で評価し,バイアス低減手法の評価に対逆テストセットを含めることを提案する。 強バイアスを示すデータから学習するために提案手法を適用した中程度のモデルアーキテクチャでは,非バイアスデータに対応するトレーニング時に観測される分類性能をほぼ完全に回復する。

Reliably detecting diseases using relevant biological information is crucial for real-world applicability of deep learning techniques in medical imaging. We debias deep learning models during training against unknown bias - without preprocessing/filtering the input beforehand or assuming specific knowledge about its distribution or precise nature in the dataset. We use control regions as surrogates that carry information regarding the bias, employ the classifier model to extract features, and suppress biased intermediate features with our custom, modular DecorreLayer. We evaluate our method on a dataset of 952 lung computed tomography scans by introducing simulated biases w.r.t. reconstruction kernel and noise level and propose including an adversarial test set in evaluations of bias reduction techniques. In a moderately sized model architecture, applying the proposed method to learn from data exhibiting a strong bias, it near-perfectly recovers the classification performance observed when training with corresponding unbiased data.
翻訳日:2022-05-27 13:53:20 公開日:2022-05-26
# BppAttack: 画像量子化とコントラスト逆学習によるディープニューラルネットワークに対する定常かつ効率的なトロイの木馬攻撃

BppAttack: Stealthy and Efficient Trojan Attacks against Deep Neural Networks via Image Quantization and Contrastive Adversarial Learning ( http://arxiv.org/abs/2205.13383v1 )

ライセンス: Link先を確認
Zhenting Wang, Juan Zhai, Shiqing Ma(参考訳) ディープニューラルネットワークはトロイの木馬攻撃に弱い。 既存の攻撃では目に見えるパターン(パッチや画像変換など)をトリガーとして使用しており、人間の検査に弱い。 本稿では,ステルス的で効率的なトロイア攻撃BppAttackを提案する。 人間の視覚系に関する既存の生物学文献に基づいて,画像の量子化とディザリングをトロイの木馬のトリガーとして用いることを提案する。 補助モデルを訓練することなく、ステルスで効率的な攻撃である。 画像の変更が小さいため、トレーニング中にそのようなトリガーを注入することは困難である。 この問題を軽減するために,敵対的攻撃を利用して負のサンプルペアを生成し,学習トリガが正確かつ正確であることを示す。 提案手法は,MNIST, CIFAR-10, GTSRB, CelebAを含む4つのベンチマークデータセットに対して高い攻撃成功率を実現する。 また、既存のトロイア防衛と人間の検査を効果的にバイパスする。 私たちのコードはhttps://github.com/RU-System-Software-and-Security/BppAttack.orgにある。

Deep neural networks are vulnerable to Trojan attacks. Existing attacks use visible patterns (e.g., a patch or image transformations) as triggers, which are vulnerable to human inspection. In this paper, we propose stealthy and efficient Trojan attacks, BppAttack. Based on existing biology literature on human visual systems, we propose to use image quantization and dithering as the Trojan trigger, making imperceptible changes. It is a stealthy and efficient attack without training auxiliary models. Due to the small changes made to images, it is hard to inject such triggers during training. To alleviate this problem, we propose a contrastive learning based approach that leverages adversarial attacks to generate negative sample pairs so that the learned trigger is precise and accurate. The proposed method achieves high attack success rates on four benchmark datasets, including MNIST, CIFAR-10, GTSRB, and CelebA. It also effectively bypasses existing Trojan defenses and human inspection. Our code can be found in https://github.com/RU-System-Software-and-Security/BppAttack.
翻訳日:2022-05-27 13:51:17 公開日:2022-05-26
# AutoTSG:インシデントトラブルシューティングのための学習と合成

AutoTSG: Learning and Synthesis for Incident Troubleshooting ( http://arxiv.org/abs/2205.13457v1 )

ライセンス: Link先を確認
Manish Shetty, Chetan Bansal, Sai Pramod Upadhyayula, Arjun Radhakrishna, Anurag Gupta(参考訳) インシデント管理は、大規模クラウドサービスの運用において重要な側面である。 インシデントの迅速かつ効率的な解決を支援するため、エンジニアリングチームは、オンコールエンジニア(OCE)が使用するトラブルシューティングガイド(TSG)という形で、頻繁なトラブルシューティング手順を文書化している。 しかし、tsgはサイロ化され、非構造化され、しばしば不完全であり、開発者は手動で必要な手順を理解し実行する必要がある。 その結果、オンコール疲労、生産性の低下、ヒューマンエラーなど多くの問題が発生する。 本研究は,1000件以上の事故にマッピングされた4K以上のTSGの大規模実験を行い,TSGが広く利用されていること,及び緩和努力の大幅な削減に役立つことを明らかにする。 次に,400以上のOCEによって提供されるTSGのフィードバックを分析し,TSG品質の著しいギャップを浮き彫りにする問題分類を提案する。 これらのギャップを軽減するため、我々はTSGの自動化を調査し、機械学習とプログラム合成を組み合わせた実行ワークフローにTSGを自動化するための新しいフレームワークであるAutoTSGを提案する。 TSG50におけるAutoTSGの評価は,TSG文の同定(精度0.89)と解析(精度0.94,リコール0.91)の有効性を示した。 最後に、10人のMicrosoftエンジニアを調査し、TSG自動化の重要性とAutoTSGの有用性を示す。

Incident management is a key aspect of operating large-scale cloud services. To aid with faster and efficient resolution of incidents, engineering teams document frequent troubleshooting steps in the form of Troubleshooting Guides (TSGs), to be used by on-call engineers (OCEs). However, TSGs are siloed, unstructured, and often incomplete, requiring developers to manually understand and execute necessary steps. This results in a plethora of issues such as on-call fatigue, reduced productivity, and human errors. In this work, we conduct a large-scale empirical study of over 4K+ TSGs mapped to 1000s of incidents and find that TSGs are widely used and help significantly reduce mitigation efforts. We then analyze feedback on TSGs provided by 400+ OCEs and propose a taxonomy of issues that highlights significant gaps in TSG quality. To alleviate these gaps, we investigate the automation of TSGs and propose AutoTSG -- a novel framework for automation of TSGs to executable workflows by combining machine learning and program synthesis. Our evaluation of AutoTSG on 50 TSGs shows the effectiveness in both identifying TSG statements (accuracy 0.89) and parsing them for execution (precision 0.94 and recall 0.91). Lastly, we survey ten Microsoft engineers and show the importance of TSG automation and the usefulness of AutoTSG.
翻訳日:2022-05-27 13:50:56 公開日:2022-05-26
# 高次元におけるランダムラベル付き線形分類器のガウス普遍性

Gaussian Universality of Linear Classifiers with Random Labels in High-Dimension ( http://arxiv.org/abs/2205.13303v1 )

ライセンス: Link先を確認
Federica Gerace, Florent Krzakala, Bruno Loureiro, Ludovic Stephan, Lenka Zdeborov\'a(参考訳) 多くの理論的な設定では古典的であるが、ガウス的i.d.入力の仮定は高次元学習の分析において強い制限と見なされることが多い。 本研究では,ランダムラベルを用いた一般化線形分類において,この一連の作業を再検討する。 私たちの主な貢献は、高次元における様々な生成モデルから得られるデータは、対応するデータ共分散を持つガウスデータと同じ最小トレーニング損失を持つという厳密な証明です。 特に,同質なガウス雲と多モード生成ニューラルネットワークの任意の混合によって生成されたデータについて述べる。 消失正規化の限界において、トレーニング損失がデータ共分散とは無関係であることをさらに示す。 最後に、この普遍性は実際のデータセットやランダムラベルで実際に観察されることを示す。

While classical in many theoretical settings, the assumption of Gaussian i.i.d. inputs is often perceived as a strong limitation in the analysis of high-dimensional learning. In this study, we redeem this line of work in the case of generalized linear classification with random labels. Our main contribution is a rigorous proof that data coming from a range of generative models in high-dimensions have the same minimum training loss as Gaussian data with corresponding data covariance. In particular, our theorem covers data created by an arbitrary mixture of homogeneous Gaussian clouds, as well as multi-modal generative neural networks. In the limit of vanishing regularization, we further demonstrate that the training loss is independent of the data covariance. Finally, we show that this universality property is observed in practice with real datasets and random labels.
翻訳日:2022-05-27 13:49:51 公開日:2022-05-26
# 高次元空間におけるサブスペースクラスタリング:相転移 \&統計的-計算的ギャップ

Subspace clustering in high-dimensions: Phase transitions \& Statistical-to-Computational gap ( http://arxiv.org/abs/2205.13527v1 )

ライセンス: Link先を確認
Luca Pesce, Bruno Loureiro, Florent Krzakala, Lenka Zdeborov\'a(参考訳) 部分空間クラスタリングを研究するための単純なモデルは、クラスタ平均がスパースベクトルである高次元の$k$-gaussian混合モデルである。 ここでは,非零成分の割合が$\rho$ である場合や,サンプル数と次元との比 $\alpha$ が固定されている場合,次元が分岐する高次元領域において,このモデルにおける統計的に最適な再構成誤差の正確な漸近的特性を示す。 我々は、真クラスタ平均との正の相関が統計的に不可能な情報理論しきい値を特定する。 さらに,その状態進化を通じて解析された近似メッセージパッシング(amp)アルゴリズムの性能について検討した。 特に、信号対雑音比$\lambda_{\text{alg}} \ge k / \sqrt{\alpha} $ を必要とするアルゴリズムと$\lambda_{\text{it}} \approx \sqrt{-k \rho \log{\rho}} / \sqrt{\alpha}$ における情報理論上のしきい値との間の統計的-計算間ギャップの存在を同定する。 最後に、AMPの性能をスパースPCAや対角しきい値設定などの他の疎度向上アルゴリズムと比較することにより、サブエクスポーシティ$\rho$の場合について論じる。

A simple model to study subspace clustering is the high-dimensional $k$-Gaussian mixture model where the cluster means are sparse vectors. Here we provide an exact asymptotic characterization of the statistically optimal reconstruction error in this model in the high-dimensional regime with extensive sparsity, i.e. when the fraction of non-zero components of the cluster means $\rho$, as well as the ratio $\alpha$ between the number of samples and the dimension are fixed, while the dimension diverges. We identify the information-theoretic threshold below which obtaining a positive correlation with the true cluster means is statistically impossible. Additionally, we investigate the performance of the approximate message passing (AMP) algorithm analyzed via its state evolution, which is conjectured to be optimal among polynomial algorithm for this task. We identify in particular the existence of a statistical-to-computational gap between the algorithm that require a signal-to-noise ratio $\lambda_{\text{alg}} \ge k / \sqrt{\alpha} $ to perform better than random, and the information theoretic threshold at $\lambda_{\text{it}} \approx \sqrt{-k \rho \log{\rho}} / \sqrt{\alpha}$. Finally, we discuss the case of sub-extensive sparsity $\rho$ by comparing the performance of the AMP with other sparsity-enhancing algorithms, such as sparse-PCA and diagonal thresholding.
翻訳日:2022-05-27 13:49:40 公開日:2022-05-26
# その他の役割! 役割インタラクションによる役割指向対話要約の強化

Other Roles Matter! Enhancing Role-Oriented Dialogue Summarization via Role Interactions ( http://arxiv.org/abs/2205.13190v1 )

ライセンス: Link先を確認
Haitao Lin, Junnan Zhu, Lu Xiang, Yu Zhou, Jiajun Zhang, Chengqing Zong(参考訳) ロール指向の対話要約は、商人や消費者など、対話における様々な役割の要約を生成することである。 既存の方法は各ロールの内容を個別に要約することでこのタスクを処理するため、他のロールからの情報を無視しやすい。 しかし、他の役割の内容は、他の役割によって言及される省略された情報など、要約の質に便益があると信じている。 そこで本研究では,役割指向対話要約のための新たな役割相互作用強化手法を提案する。 クロスアテンションとデコーダのセルフアテンションインタラクションを採用し、他のロールのクリティカル情報を対話的に取得する。 クロスアテンション相互作用は、他のロールの重要な対話発話を選択することを目的としており、デコーダの自己注意相互作用は、他のロールの要約から重要な情報を取得することを目的としている。 実験の結果,提案手法は2つの公的な役割指向対話要約データセットにおいて,強いベースラインを著しく上回ることがわかった。 広範な分析によって、他の役割のコンテンツは、より完全なセマンティクスと正しいトピック構造を持つ要約を生成するのに役立つことが示されている。

Role-oriented dialogue summarization is to generate summaries for different roles in the dialogue, e.g., merchants and consumers. Existing methods handle this task by summarizing each role's content separately and thus are prone to ignore the information from other roles. However, we believe that other roles' content could benefit the quality of summaries, such as the omitted information mentioned by other roles. Therefore, we propose a novel role interaction enhanced method for role-oriented dialogue summarization. It adopts cross attention and decoder self-attention interactions to interactively acquire other roles' critical information. The cross attention interaction aims to select other roles' critical dialogue utterances, while the decoder self-attention interaction aims to obtain key information from other roles' summaries. Experimental results have shown that our proposed method significantly outperforms strong baselines on two public role-oriented dialogue summarization datasets. Extensive analyses have demonstrated that other roles' content could help generate summaries with more complete semantics and correct topic structures.
翻訳日:2022-05-27 13:48:56 公開日:2022-05-26
# 部分ラベルを用いたマルチラベル画像認識のためのセマンティック・アウェア表現ブレンド

Semantic-Aware Representation Blending for Multi-Label Image Recognition with Partial Labels ( http://arxiv.org/abs/2205.13092v1 )

ライセンス: Link先を確認
Tao Pu, Tianshui Chen, Hefeng Wu, Yongyi Lu, Liang Lin(参考訳) 目覚ましい進歩にもかかわらず、現在のマルチラベル画像認識(MLR)アルゴリズムは、完全なラベルを持つ大規模なデータセットに大きく依存しているため、大規模なデータセットの収集は非常に時間がかかり、労力がかかる。 部分ラベル付きマルチラベル画像認識モデル(MLR-PL)を訓練することは、この問題に対処するための代替手段である。 しかし、現在のMLP-PLアルゴリズムは主に未知ラベルの擬似ラベルを生成するために訓練済みの画像分類や類似性モデルに依存している。 したがって、特定の量のデータアノテーションに依存しており、特に既知のラベル比率が低い場合、必然的にパフォーマンス低下に悩まされる。 このジレンマに対処するために、2つの重要なモジュールからなる統合意味認識表現ブレンディング(SARB)を提案し、異なる画像間で多粒度カテゴリ固有の意味表現をブレンドし、未知のラベルを補うために既知のラベルの情報を伝達する。 MS-COCO、Visual Genome、Pascal VOC 2007データセットに対する大規模な実験により、提案されたSARBは、既知のすべてのラベル比率設定において、常に最先端のアルゴリズムより優れていることが示された。 具体的には、3つのベンチマークデータセットの平均mAP改善率は1.9%、4.5%、1.0%である。

Despite achieving impressive progress, current multi-label image recognition (MLR) algorithms heavily depend on large-scale datasets with complete labels, making collecting large-scale datasets extremely time-consuming and labor-intensive. Training the multi-label image recognition models with partial labels (MLR-PL) is an alternative way to address this issue, in which merely some labels are known while others are unknown for each image (see Figure 1). However, current MLP-PL algorithms mainly rely on the pre-trained image classification or similarity models to generate pseudo labels for the unknown labels. Thus, they depend on a certain amount of data annotations and inevitably suffer from obvious performance drops, especially when the known label proportion is low. To address this dilemma, we propose a unified semantic-aware representation blending (SARB) that consists of two crucial modules to blend multi-granularity category-specific semantic representation across different images to transfer information of known labels to complement unknown labels. Extensive experiments on the MS-COCO, Visual Genome, and Pascal VOC 2007 datasets show that the proposed SARB consistently outperforms current state-of-the-art algorithms on all known label proportion settings. Concretely, it obtain the average mAP improvement of 1.9%, 4.5%, 1.0% on the three benchmark datasets compared with the second-best algorithm.
翻訳日:2022-05-27 13:47:23 公開日:2022-05-26
# PixelGame: ナッシュ均衡としての赤外線小ターゲットセグメンテーション

PixelGame: Infrared small target segmentation as a Nash equilibrium ( http://arxiv.org/abs/2205.13124v1 )

ライセンス: Link先を確認
Heng Zhou, Chunna Tian, Zhenxi Zhang, Chengyang Li, Yongqiang Xie, Zhongbo Li(参考訳) 赤外線小ターゲットセグメンテーション(ISTS)の鍵となる課題は、偽陰画素(FN)と偽正画素(FP)のバランスをとることである。 従来の手法では、FNとFPを重み付け和で1つの目的に組み合わせ、最適化プロセスは1つのアクターによって決定される。 同じ戦略でFNとFPを最小化することは、敵対的な決定につながる。 この問題に対処するため,ISTS の新たな視点から競争ゲームフレームワーク (pixelGame) を提案する。 ピクセルGameでは、FNとFPは、自身のユーティリティ機能を最小化することを目標とする異なるプレイヤーによって制御される。 FNs-playerとFPs-playerは異なる戦略で設計されている: 1つはFNを最小化し、もう1つはFPを最小化する。 ユーティリティ機能は、競争における2人の参加者の進化を駆動する。 我々はピクセルGameのナッシュ均衡を最適解と考えている。 さらに,tar-get 情報を強調するための最大情報変調 (MIM) を提案する。 MIMは、小さなターゲットを含む健全な領域を効果的に重視する。 2つの標準公開データセットに対する大規模な実験により,本手法の有効性が証明された。 本手法は他の最先端手法と比較して,F1測度(F1)とIoUの交叉率(IoU)の点で性能が向上する。

A key challenge of infrared small target segmentation (ISTS) is to balance false negative pixels (FNs) and false positive pixels (FPs). Traditional methods combine FNs and FPs into a single objective by weighted sum, and the optimization process is decided by one actor. Minimizing FNs and FPs with the same strategy leads to antagonistic decisions. To address this problem, we propose a competitive game framework (pixelGame) from a novel perspective for ISTS. In pixelGame, FNs and FPs are controlled by different player whose goal is to minimize their own utility function. FNs-player and FPs-player are designed with different strategies: One is to minimize FNs and the other is to minimize FPs. The utility function drives the evolution of the two participants in competition. We consider the Nash equilibrium of pixelGame as the optimal solution. In addition, we propose maximum information modulation (MIM) to highlight the tar-get information. MIM effectively focuses on the salient region including small targets. Extensive experiments on two standard public datasets prove the effectiveness of our method. Compared with other state-of-the-art methods, our method achieves better performance in terms of F1-measure (F1) and the intersection of union (IoU).
翻訳日:2022-05-27 13:46:55 公開日:2022-05-26
# アンペア画像キャプションのためのプロンプト学習

Prompt-based Learning for Unpaired Image Captioning ( http://arxiv.org/abs/2205.13125v1 )

ライセンス: Link先を確認
Peipei Zhu, Xiao Wang, Lin Zhu, Zhenglong Sun, Weishi Zheng, Yaowei Wang, Changwen Chen(参考訳) Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。 既存のスキームは通常、視覚概念と画像のアライメントを得るために強化学習の視覚概念報酬を採用する。 しかし、ドメイン間のアライメントは通常弱く、既存のスキーム全体のパフォーマンスを厳しく制約する。 近年、VL-PTM(Vision-Language Pre-Trained Models)が成功し、VL-PTMからの素早い学習が進展した。 本稿では、VL-PTMで学習した強力な一般化能力と豊富な視覚言語事前知識を最大限に活用し、UICモデルを訓練するためのプロンプトに基づく新しいスキームを提案する。 本研究では,この映像キャプションにクリップモデルを適用した。 具体的には、プリトレーニングされたモデルと、プロンプト抽出のためのフィードフォワード層を含むプロンプト生成モジュールへの入力として視覚画像を取り込む。 そして、入力画像と生成されたプロンプトを集約して、非対訳キャプション学習を行う。 さらにキャプション性能をさらに高めるため,クリップロジットを誘導する高品質擬似キャプションフィルタを設計し,予測キャプションと対応する画像との相関性を測定した。 これにより、教師付き学習方法で字幕モデルを改善することができる。 提案モデルの有効性を検証するため,COCOおよびFlickr30Kデータセットの大規模な実験を行った。 我々は,COCOデータセットの最先端性能を達成し,BLEU-4で最高のUICモデルを1.9%上回った。 我々は,提案するプロンプトベースのuicモデルがvl-ptmsに基づくキャプションの新たな研究ラインを刺激することを期待している。

Unpaired Image Captioning (UIC) has been developed to learn image descriptions from unaligned vision-language sample pairs. Existing schemes usually adopt the visual concept reward of reinforcement learning to obtain the alignment between visual concepts and images. However, the cross-domain alignment is usually weak that severely constrains the overall performance of these existing schemes. Recent successes of Vision-Language Pre-Trained Models (VL-PTMs) have triggered the development of prompt-based learning from VL-PTMs. We present in this paper a novel scheme based on prompt to train the UIC model, making best use of the powerful generalization ability and abundant vision-language prior knowledge learned under VL-PTMs. We adopt the CLIP model for this research in unpaired image captioning. Specifically, the visual images are taken as input to the prompt generation module, which contains the pre-trained model as well as one feed-forward layer for prompt extraction. Then, the input images and generated prompts are aggregated for unpaired adversarial captioning learning. To further enhance the potential performance of the captioning, we designed a high-quality pseudo caption filter guided by the CLIP logits to measure correlations between predicted captions and the corresponding images. This allows us to improve the captioning model in a supervised learning manner. Extensive experiments on the COCO and Flickr30K datasets have been carried out to validate the superiority of the proposed model. We have achieved the state-of-the-art performance on the COCO dataset, which outperforms the best UIC model by 1.9% on the BLEU-4 metric. We expect that the proposed prompt-based UIC model will inspire a new line of research for the VL-PTMs based captioning.
翻訳日:2022-05-27 13:46:34 公開日:2022-05-26
# SwinVRNN: 学習した分散摂動によるデータ駆動型アンサンブル予測モデル

SwinVRNN: A Data-Driven Ensemble Forecasting Model via Learned Distribution Perturbation ( http://arxiv.org/abs/2205.13158v1 )

ライセンス: Link先を確認
Yuan Hu, Lei Chen, Zhibin Wang, Hao Li(参考訳) 中距離天気予報のためのデータ駆動アプローチは、従来の数値気象予報(nwp)モデルと比較して、予測速度の速いアンサンブル予測に非常に有望であるが、その予測精度は最先端のecmwf統合予報システム(ifs)モデルとはほとんど一致しない。 以前のデータ駆動の試みは、初期条件摂動やモンテカルロ落下のような単純な摂動法を用いてアンサンブル予測を実現する。 しかし、主に不満足なアンサンブルのパフォーマンスに悩まされており、これは摂動の準最適方法によるものである。 本研究では,SwinRNN予測器と摂動モジュールを組み合わせた確率的天気予報モデルであるSwinVRNNを提案する。 SwinRNNは、将来の状態を決定論的に予測するSwin Transformerベースのリカレントニューラルネットワークとして設計されている。 さらに、予測の確率性をモデル化するために、変動オートエンコーダのパラダイムに従って摂動モジュールを設計し、データから時変確率潜在変数の多変ガウス分布を学習する。 学習分布からサンプリングした雑音を利用してモデル特徴を摂動させることにより,組立予測を容易に行うことができる。 また,アンサンブル予測法として,固定分布摂動,学習分布摂動,MCドロップアウト,マルチモデルアンサンブルの4つのカテゴリを比較した。 WeatherBench データセットの比較では,SwinVRNN モデルを用いて学習した分布摂動法により,2つの目標の協調最適化により,予測精度と適切なアンサンブル展開が達成された。 より注目すべきは、SwinVRNNが2mの温度と6時間の総降水量で、最大5日間のリードタイムで運用中のIFSを上回っていることだ。

Data-driven approaches for medium-range weather forecasting are recently shown extraordinarily promising for ensemble forecasting for their fast inference speed compared to traditional numerical weather prediction (NWP) models, but their forecast accuracy can hardly match the state-of-the-art operational ECMWF Integrated Forecasting System (IFS) model. Previous data-driven attempts achieve ensemble forecast using some simple perturbation methods, like initial condition perturbation and Monte Carlo dropout. However, they mostly suffer unsatisfactory ensemble performance, which is arguably attributed to the sub-optimal ways of applying perturbation. We propose a Swin Transformer-based Variational Recurrent Neural Network (SwinVRNN), which is a stochastic weather forecasting model combining a SwinRNN predictor with a perturbation module. SwinRNN is designed as a Swin Transformer-based recurrent neural network, which predicts future states deterministically. Furthermore, to model the stochasticity in prediction, we design a perturbation module following the Variational Auto-Encoder paradigm to learn multivariate Gaussian distributions of a time-variant stochastic latent variable from data. Ensemble forecasting can be easily achieved by perturbing the model features leveraging noise sampled from the learned distribution. We also compare four categories of perturbation methods for ensemble forecasting, i.e. fixed distribution perturbation, learned distribution perturbation, MC dropout, and multi model ensemble. Comparisons on WeatherBench dataset show the learned distribution perturbation method using our SwinVRNN model achieves superior forecast accuracy and reasonable ensemble spread due to joint optimization of the two targets. More notably, SwinVRNN surpasses operational IFS on surface variables of 2-m temperature and 6-hourly total precipitation at all lead times up to five days.
翻訳日:2022-05-27 13:46:06 公開日:2022-05-26
# hirl:階層的画像表現学習のための汎用フレームワーク

HIRL: A General Framework for Hierarchical Image Representation Learning ( http://arxiv.org/abs/2205.13159v1 )

ライセンス: Link先を確認
Minghao Xu, Yuanfan Guo, Xuanyu Zhu, Jiawen Li, Zhenbang Sun, Jian Tang, Yi Xu, Bingbing Ni(参考訳) 自己教師付き画像表現の学習は、様々な視覚理解タスクを促進するために広く研究されてきた。 既存の手法は通常、ペアワイズセマンティクスの類似性やイメージクラスタリングパターンのような単一のレベルのイメージセマンティクスを学習する。 しかし、これらの手法では、画像データセットに自然に存在する複数の意味情報のレベル、例えば、種の画像データベースにエンコードされた"persian cat to cat to mammal"の意味階層を捉えることがほとんどできない。 したがって、任意の画像自己教師付き学習(ssl)アプローチがそのような階層的意味論の学習の恩恵を受けるかどうかは不明である。 本稿では,階層型画像表現学習(HIRL)のための一般的なフレームワークを提案する。 このフレームワークは、各画像の複数の意味表現を学習することを目的としており、これらの表現は、細粒度から粗粒度まで画像をエンコードするように構成されている。 確率的因子化に基づいて、HIRLはオフザシェルフ画像SSLアプローチにより最もきめ細かいセマンティクスを学習し、新しいセマンティクスパス識別方式により複数の粗いセマンティクスを学習する。 6つのイメージSSL手法をベースラインとして採用し,HIRL下での動作について検討する。 厳密な公正比較により、下流タスクの6つの方法すべてにおいて性能向上が観察され、初めて階層的な画像意味論を学習する一般的な効果が検証される。 すべてのソースコードとモデルウェイトはhttps://github.com/hirl-team/HIRLで入手できる。

Learning self-supervised image representations has been broadly studied to boost various visual understanding tasks. Existing methods typically learn a single level of image semantics like pairwise semantic similarity or image clustering patterns. However, these methods can hardly capture multiple levels of semantic information that naturally exists in an image dataset, e.g., the semantic hierarchy of "Persian cat to cat to mammal" encoded in an image database for species. It is thus unknown whether an arbitrary image self-supervised learning (SSL) approach can benefit from learning such hierarchical semantics. To answer this question, we propose a general framework for Hierarchical Image Representation Learning (HIRL). This framework aims to learn multiple semantic representations for each image, and these representations are structured to encode image semantics from fine-grained to coarse-grained. Based on a probabilistic factorization, HIRL learns the most fine-grained semantics by an off-the-shelf image SSL approach and learns multiple coarse-grained semantics by a novel semantic path discrimination scheme. We adopt six representative image SSL methods as baselines and study how they perform under HIRL. By rigorous fair comparison, performance gain is observed on all the six methods for diverse downstream tasks, which, for the first time, verifies the general effectiveness of learning hierarchical image semantics. All source code and model weights are available at https://github.com/hirl-team/HIRL
翻訳日:2022-05-27 13:45:34 公開日:2022-05-26
# (参考訳) ニューラルネットワーク学習ダイナミクスによる選択的分類

Selective Classification Via Neural Network Training Dynamics ( http://arxiv.org/abs/2205.13532v1 )

ライセンス: CC BY 4.0
Stephan Rabanser, Anvith Thudi, Kimia Hamidieh, Adam Dziedzic, Nicolas Papernot(参考訳) 選択的分類とは、入力空間のカバレッジとモデルの精度のトレードオフを通じて、モデルが誤って予測する入力を拒否するタスクである。 現在の選択的分類法は、モデルアーキテクチャまたは損失関数のいずれかに制約を課している。 先行研究とは対照的に,モデルの(離散化された)トレーニングダイナミクスを研究すれば,最先端の選択的分類性能が得られることを示す。 本稿では,学習中に得られた中間モデルに対する最終予測ラベルの不一致を計測するメトリクスを,与えられたテスト入力に対して監視する一般的なフレームワークを提案する。 特に、トレーニング中に予測されたラベルが最終予測されたラベルと一致しないことをトラックする手法をインスタンス化する。 実験により,本手法は,典型的な選択分類ベンチマークにおいて,最先端の精度/カバレッジトレードオフを実現することを示す。 例えば、CIFAR-10/SVHNのカバレッジをそれぞれ10.1%/1.5%改善し、固定目標誤差は0.5%である。

Selective classification is the task of rejecting inputs a model would predict incorrectly on through a trade-off between input space coverage and model accuracy. Current methods for selective classification impose constraints on either the model architecture or the loss function; this inhibits their usage in practice. In contrast to prior work, we show that state-of-the-art selective classification performance can be attained solely from studying the (discretized) training dynamics of a model. We propose a general framework that, for a given test input, monitors metrics capturing the disagreement with the final predicted label over intermediate models obtained during training; we then reject data points exhibiting too much disagreement at late stages in training. In particular, we instantiate a method that tracks when the label predicted during training stops disagreeing with the final predicted label. Our experimental evaluation shows that our method achieves state-of-the-art accuracy/coverage trade-offs on typical selective classification benchmarks. For example, we improve coverage on CIFAR-10/SVHN by 10.1%/1.5% respectively at a fixed target error of 0.5%.
翻訳日:2022-05-27 13:43:54 公開日:2022-05-26
# VizInspect Pro - AOI(Automated Optical Inspection)ソリューション

VizInspect Pro -- Automated Optical Inspection (AOI) solution ( http://arxiv.org/abs/2205.13095v1 )

ライセンス: Link先を確認
Faraz Waseem, Sanjit Menon, Haotian Xu, Debashis Mondal(参考訳) 従来のビジョンベースの自動光学検査(AOI in paper)システムは、複数の製品ラインにまたがるスケールができないこと、ベンダープログラミングの専門知識の要求、バリエーションへの耐性の欠如、集約された洞察のためのクラウド接続の欠如など、ファクトリ設定におけるさまざまな課題を提示している。 これらのシステムの柔軟性の欠如は、特に工場自動化のためのディープラーニングベースのAOIシステムにユニークな機会を与える。 提案されたソリューションであるVizInspect Proは、Leo - エッジAIプラットフォーム上に構築された汎用コンピュータビジョンベースのAOIソリューションである。 従来のビジョンシステムの課題を克服する革新的な機能には、自己学習の能力と高速かつ正確性を組み合わせたディープラーニングベースの画像分析、mlや視覚専門知識なしで数分で検査プロファイルを設定する直感的なユーザインターフェース、偏差や予測不能な欠陥に耐性を持ちながら複雑な検査課題を解決する能力などがある。 このソリューションは、複数の外部の企業顧客が確認した価値提案で検証されている。 本稿では,このソリューションとプラットフォームが,モデル開発やデプロイメント,複数の推論と視覚化のスケーリングといった課題をどのように解決したかを示す。

Traditional vision based Automated Optical Inspection (referred to as AOI in paper) systems present multiple challenges in factory settings including inability to scale across multiple product lines, requirement of vendor programming expertise, little tolerance to variations and lack of cloud connectivity for aggregated insights. The lack of flexibility in these systems presents a unique opportunity for a deep learning based AOI system specifically for factory automation. The proposed solution, VizInspect pro is a generic computer vision based AOI solution built on top of Leo - An edge AI platform. Innovative features that overcome challenges of traditional vision systems include deep learning based image analysis which combines the power of self-learning with high speed and accuracy, an intuitive user interface to configure inspection profiles in minutes without ML or vision expertise and the ability to solve complex inspection challenges while being tolerant to deviations and unpredictable defects. This solution has been validated by multiple external enterprise customers with confirmed value propositions. In this paper we show you how this solution and platform solved problems around model development, deployment, scaling multiple inferences and visualizations.
翻訳日:2022-05-27 13:24:59 公開日:2022-05-26
# FCN-Pose:制約デバイスに対するロボットポス推定のためのPruned and Quantized CNN

FCN-Pose: A Pruned and Quantized CNN for Robot Pose Estimation for Constrained Devices ( http://arxiv.org/abs/2205.13272v1 )

ライセンス: Link先を確認
Marrone Silv\'erio Melo Dantas, Iago Richard Rodrigues, Assis Tiago Oliveira Filho, Gibson Barbosa, Daniel Bezerra, Djamel F. H. Sadok, Judith Kelner, Maria Marquezini, Ricardo Silva(参考訳) IoTデバイスは、プロセッサ、RAM、ディスクストレージなどのリソース制限に悩まされている。 これらの制限は、ディープラーニングのような要求の厳しいアプリケーションを扱う際に、より明確になる。 ポイントの1つは、所望の画像オブジェクトの臨界点を予測するアプリケーションであるロボットポーズ推定である。 処理とストレージの問題を軽減する方法のひとつは、ディープラーニングアプリケーションを圧縮することです。 本稿では, プルーニングと量子化の圧縮手法を適用してポーズ推定のための新しいCNNを提案し, 要求を低減し, 応答時間を改善する。 プルーニングプロセスは推論に必要なパラメータの総数を減らすが、量子化は浮動小数点の精度を低下させる。 我々はロボットアームのポーズ推定タスクを用いてアプローチを実行し、ハイエンドデバイスと制約されたデバイスで結果を比較した。 測度として、FLOPS(Floating-point Operations Per Second)の数、数学的計算の総数、パラメータの計算、推論時間、毎秒処理されるビデオフレームの数を考える。 また,各プルーンネットワークで予測された出力画像と対応する元の画像を比較し,質的評価を行う。 当初提案していたネットワークを70%まで削減し,パラメータの88.86%削減,FLOPSの94.45%削減,ディスクストレージの要求を70%削減した。 入力画像処理に関しては、デスクトップの場合、11.71 FPSから41.9 FPSに増加する。 制約されたデバイスを使用する場合、画像処理は2.86 FPSから10.04 FPSに増強される。 提案手法によって達成された画像フレームの処理速度は,より短い応答時間を実現する。

IoT devices suffer from resource limitations, such as processor, RAM, and disc storage. These limitations become more evident when handling demanding applications, such as deep learning, well-known for their heavy computational requirements. A case in point is robot pose estimation, an application that predicts the critical points of the desired image object. One way to mitigate processing and storage problems is compressing that deep learning application. This paper proposes a new CNN for the pose estimation while applying the compression techniques of pruning and quantization to reduce his demands and improve the response time. While the pruning process reduces the total number of parameters required for inference, quantization decreases the precision of the floating-point. We run the approach using a pose estimation task for a robotic arm and compare the results in a high-end device and a constrained device. As metrics, we consider the number of Floating-point Operations Per Second(FLOPS), the total of mathematical computations, the calculation of parameters, the inference time, and the number of video frames processed per second. In addition, we undertake a qualitative evaluation where we compare the output image predicted for each pruned network with the corresponding original one. We reduce the originally proposed network to a 70% pruning rate, implying an 88.86% reduction in parameters, 94.45% reduction in FLOPS, and for the disc storage, we reduced the requirement in 70% while increasing error by a mere $1\%$. With regard input image processing, this metric increases from 11.71 FPS to 41.9 FPS for the Desktop case. When using the constrained device, image processing augmented from 2.86 FPS to 10.04 FPS. The higher processing rate of image frames achieved by the proposed approach allows a much shorter response time.
翻訳日:2022-05-27 13:24:35 公開日:2022-05-26
# グラフ畳み込みネットワークを用いた細粒度攻撃言語検出のための依存文法の活用

Leveraging Dependency Grammar for Fine-Grained Offensive Language Detection using Graph Convolutional Networks ( http://arxiv.org/abs/2205.13164v1 )

ライセンス: Link先を確認
Divyam Goel, Raksha Sharma(参考訳) ここ数年、ソーシャルメディア上では、攻撃的なテキストの拡散が指数関数的に増加している。 この文章を高精度に識別することは社会の幸福に不可欠である。 既存のアプローチのほとんどは、無害な発言に対して高い毒性スコアを与える傾向がある(例えば、"i am a gay man")。 これらの偽陽性は、文中の特定の用語が悲観的な意味で使われたかもしれない訓練データ(例えば「ゲイ」)の過大な一般化から生じる。 このような単語のみに重きを置くことは、これらのシステムが保護するように設計されたクラスに対する差別につながる可能性がある。 本稿では,Twitterにおける攻撃的言語検出の問題に対処するとともに,攻撃のタイプとターゲットを検出する。 我々はSyLSTMと呼ばれる新しい手法を提案し、文の依存構文木という形で構文的特徴を統合し、単語埋め込みという形で意味的特徴をグラフ畳み込みネットワークを用いてディープラーニングアーキテクチャに組み込む。 その結果,提案手法は,パラメータの桁数を桁違いに減らして,最先端のBERTモデルよりも優れていた。

The last few years have witnessed an exponential rise in the propagation of offensive text on social media. Identification of this text with high precision is crucial for the well-being of society. Most of the existing approaches tend to give high toxicity scores to innocuous statements (e.g., "I am a gay man"). These false positives result from over-generalization on the training data where specific terms in the statement may have been used in a pejorative sense (e.g., "gay"). Emphasis on such words alone can lead to discrimination against the classes these systems are designed to protect. In this paper, we address the problem of offensive language detection on Twitter, while also detecting the type and the target of the offence. We propose a novel approach called SyLSTM, which integrates syntactic features in the form of the dependency parse tree of a sentence and semantic features in the form of word embeddings into a deep learning architecture using a Graph Convolutional Network. Results show that the proposed approach significantly outperforms the state-of-the-art BERT model with orders of magnitude fewer number of parameters.
翻訳日:2022-05-27 13:23:48 公開日:2022-05-26
# ページ間関係のセマンティック解析

Semantic Parsing of Interpage Relations ( http://arxiv.org/abs/2205.13530v1 )

ライセンス: Link先を確認
Mehmet Arif Demirta\c{s}, Berke Oral, Mehmet Yasin Akp{\i}nar, Onur Deniz(参考訳) 文書のページレベルの分析は、デジタル化の取り組みに注目され、分類とページストリームセグメンテーションの両方にマルチモーダルなアプローチが適用されている。 本研究では,多ページ文書のページ間の意味関係を捉えることに焦点を当てた。 そこで我々は,ページ間関係のセマンティック解析としてタスクを形式化し,依存関係解析の文献から着想を得た,ページ間依存関係抽出のためのエンドツーエンドアプローチを提案する。 さらに,ページから抽出したテキスト的・視覚的特徴を用いて,ページ依存のセグメンテーション,分類,解析に使用されるページ埋め込みを共同で最適化するマルチタスクトレーニング手法も設計する。 さらに,2つのモダリティの特徴を組み合わせることで,マルチモーダルなページ埋め込みを実現する。 我々の知る限りでは、マルチページ文書からリッチなセマンティックなページ間関係を抽出する最初の研究である。 実験の結果,提案手法は,意味解析の点数41ポイント,ページストリームセグメンテーションの点数33ポイント,ナイーブベースライン上のページ分類の点数45ポイントに向上した。

Page-level analysis of documents has been a topic of interest in digitization efforts, and multimodal approaches have been applied to both classification and page stream segmentation. In this work, we focus on capturing finer semantic relations between pages of a multi-page document. To this end, we formalize the task as semantic parsing of interpage relations and we propose an end-to-end approach for interpage dependency extraction, inspired by the dependency parsing literature. We further design a multi-task training approach to jointly optimize for page embeddings to be used in segmentation, classification, and parsing of the page dependencies using textual and visual features extracted from the pages. Moreover, we also combine the features from two modalities to obtain multimodal page embeddings. To the best of our knowledge, this is the first study to extract rich semantic interpage relations from multi-page documents. Our experimental results show that the proposed method increased LAS by 41 percentage points for semantic parsing, increased accuracy by 33 percentage points for page stream segmentation, and 45 percentage points for page classification over a naive baseline.
翻訳日:2022-05-27 13:23:30 公開日:2022-05-26
# 説明可能な自動プログラム修復のための因果推論の活用

Leveraging Causal Inference for Explainable Automatic Program Repair ( http://arxiv.org/abs/2205.13342v1 )

ライセンス: Link先を確認
Jianzong Wang, Shijing Si, Zhitao Zhu, Xiaoyang Qu, Zhenhou Hong, Jing Xiao(参考訳) ディープラーニングモデルは、プログラムの自動修復において大きな進歩を遂げている。 しかし、これらの手法のブラックボックスの性質は実用的応用を制限してきた。 本稿では,この課題に対処するために,因果推論を伴うシーケンス・ツー・シーケンスモデルに基づくプログラム修復のための解釈可能な手法を提案する。 我々のCPRは、因果関係の入出力トークンのグループからなる意思決定の過程で説明を生成することができる。 まず,データ拡張によって乱される入力をモデルに問い合わせることで,これらの関係を推測する。 次に、応答からトークン上のグラフを生成し、最も関連するコンポーネントを選択する分割問題を解く。 4つのプログラミング言語(Java、C、Python、JavaScript)の実験により、CPRは合理的な解釈のための因果グラフを生成でき、自動プログラム修復におけるバグ修正のパフォーマンスを向上できることが示された。

Deep learning models have made significant progress in automatic program repair. However, the black-box nature of these methods has restricted their practical applications. To address this challenge, this paper presents an interpretable approach for program repair based on sequence-to-sequence models with causal inference and our method is called CPR, short for causal program repair. Our CPR can generate explanations in the process of decision making, which consists of groups of causally related input-output tokens. Firstly, our method infers these relations by querying the model with inputs disturbed by data augmentation. Secondly, it generates a graph over tokens from the responses and solves a partitioning problem to select the most relevant components. The experiments on four programming languages (Java, C, Python, and JavaScript) show that CPR can generate causal graphs for reasonable interpretations and boost the performance of bug fixing in automatic program repair.
翻訳日:2022-05-27 13:21:32 公開日:2022-05-26
# 対称NMF問題に対するSymNMF-Net

SymNMF-Net for The Symmetric NMF Problem ( http://arxiv.org/abs/2205.13214v1 )

ライセンス: Link先を確認
Mingjie Li, Hao Kong, Zhouchen Lin(参考訳) 近年、対称非負行列分解(symnmf)は様々なクラスタリングタスクにおいて非常に優れていることが多くの研究で示されている。 symnmfの最先端アルゴリズムは合成データでうまく機能するが、望ましい特性を持つ満足な結果を得ることができず、クラスタリングのような実世界のタスクでは失敗する可能性がある。 本稿では,ニューラルネットワークの柔軟性と強力な表現能力を考慮して,従来の最適化アルゴリズムの欠点を克服するために,対称nmf問題に対して symnmf-net と呼ばれるニューラルネットワークを提案する。 SymNMF-Netの各ブロックは、SymNMFの伝統的な更新スキームにインスパイアされた反転層、線形層、ReLUを持つ、微分可能なアーキテクチャである。 各ブロックの推論は最適化の1回の反復に対応することを示す。 さらに、インバージョン層の制約を分析し、ネットワークの出力安定性をある程度確保する。 実世界のデータセットにおける実証的な結果は、我々のSymNMF-Netの優位性を示し、理論解析の十分性を確認する。

Recently, many works have demonstrated that Symmetric Non-negative Matrix Factorization~(SymNMF) enjoys a great superiority for various clustering tasks. Although the state-of-the-art algorithms for SymNMF perform well on synthetic data, they cannot consistently obtain satisfactory results with desirable properties and may fail on real-world tasks like clustering. Considering the flexibility and strong representation ability of the neural network, in this paper, we propose a neural network called SymNMF-Net for the Symmetric NMF problem to overcome the shortcomings of traditional optimization algorithms. Each block of SymNMF-Net is a differentiable architecture with an inversion layer, a linear layer and ReLU, which are inspired by a traditional update scheme for SymNMF. We show that the inference of each block corresponds to a single iteration of the optimization. Furthermore, we analyze the constraints of the inversion layer to ensure the output stability of the network to a certain extent. Empirical results on real-world datasets demonstrate the superiority of our SymNMF-Net and confirm the sufficiency of our theoretical analysis.
翻訳日:2022-05-27 13:20:15 公開日:2022-05-26
# friends to help: フェデレーション学習をクライアントのドロップアウトから救う

Friends to Help: Saving Federated Learning from Client Dropout ( http://arxiv.org/abs/2205.13222v1 )

ライセンス: Link先を確認
Heqiang Wang, Jie Xu(参考訳) Federated Learning(FL)は、データプライバシと通信効率にメリットがあるため、優れた分散機械学習フレームワークである。 多くの場合、クライアントの完全参加は制約のあるリソースのため実現不可能であるため、クライアントのサブセットを積極的に選択/サンプルし、全参加ケースに近い学習性能を達成するための部分参加flアルゴリズムが研究されている。 本稿では、FLアルゴリズムの決定ではなく、外部イベント、すなわちクライアントドロップアウトの結果である部分的参加が、はるかに理解されていない受動的部分的参加シナリオについて検討する。 私たちは、クライアントが代替(おそらく不正確な)ローカルモデルのアップデートを提出できるより大きなfl問題の特別なケースとして、クライアントのドロップアウトでflをキャストしました。 コンバージェンス解析に基づいて,クライアントの友人(つまりデータ分布が類似しているクライアント)をオンザフライで発見し,友人のローカル更新をドロップアウトクライアントの代用として利用する新しいアルゴリズムFL-FDMSを開発し,置換誤差を低減し,コンバージェンス性能を向上させる。 複雑性低減機構はFL-FDMSにも組み込まれ、理論上は健全で実用的にも有用である。 MNISTとCIFAR-10の実験により、FL-FDMSのFLにおけるクライアントドロップアウト処理における優れた性能が確認された。

Federated learning (FL) is an outstanding distributed machine learning framework due to its benefits on data privacy and communication efficiency. Since full client participation in many cases is infeasible due to constrained resources, partial participation FL algorithms have been investigated that proactively select/sample a subset of clients, aiming to achieve learning performance close to the full participation case. This paper studies a passive partial client participation scenario that is much less well understood, where partial participation is a result of external events, namely client dropout, rather than a decision of the FL algorithm. We cast FL with client dropout as a special case of a larger class of FL problems where clients can submit substitute (possibly inaccurate) local model updates. Based on our convergence analysis, we develop a new algorithm FL-FDMS that discovers friends of clients (i.e., clients whose data distributions are similar) on-the-fly and uses friends' local updates as substitutes for the dropout clients, thereby reducing the substitution error and improving the convergence performance. A complexity reduction mechanism is also incorporated into FL-FDMS, making it both theoretically sound and practically useful. Experiments on MNIST and CIFAR-10 confirmed the superior performance of FL-FDMS in handling client dropout in FL.
翻訳日:2022-05-27 13:19:54 公開日:2022-05-26
# k-hopメッセージパッシンググラフニューラルネットワークはいかに強力か

How Powerful are K-hop Message Passing Graph Neural Networks ( http://arxiv.org/abs/2205.13328v1 )

ライセンス: Link先を確認
Jiarui Feng, Yixin Chen, Fuhai Li, Anindya Sarkar, Muhan Zhang(参考訳) グラフニューラルネットワーク(gnns)の最も一般的な設計パラダイムは、1-hopメッセージパッシングである。 しかし、1-hopメッセージの表現力はweisfeiler-lehman (1-wl) テストによって制限される。 近年,k-hop近傍ノードからの情報を同時集約することで,k-hopメッセージパッシングに1-hopメッセージパッシングを拡張した。 しかし、k-hopメッセージパッシングの表現力を分析する作業はない。 本研究では,Kホップメッセージパッシングの表現力を理論的に特徴づける。 具体的には、まず2種類のk-hopメッセージパスのカーネルを形式的に区別する。 次に、k-hopメッセージパッシングの表現力の特徴として、1-hopメッセージパッシングよりも強力であることを示す。 表現力が高いにもかかわらず、Kホップメッセージパッシングが依然として単純な正規グラフを区別できないことを示す。 さらに表現力を高めるために,各ホップ内の周辺サブグラフ情報を活用することで,Kホップメッセージパッシングを改善するKP-GNNフレームワークを導入する。 KP-GNNは,従来の距離符号化法では区別できない距離正規グラフを含む,ほぼすべての正規グラフを識別できることを示す。 KP-GNNの表現力と有効性を検証する実験結果を得た。 KP-GNNは、すべてのベンチマークデータセット間で競合する結果を達成する。

The most popular design paradigm for Graph Neural Networks (GNNs) is 1-hop message passing -- aggregating features from 1-hop neighbors repeatedly. However, the expressive power of 1-hop message passing is bounded by the Weisfeiler-Lehman (1-WL) test. Recently, researchers extended 1-hop message passing to K-hop message passing by aggregating information from K-hop neighbors of nodes simultaneously. However, there is no work on analyzing the expressive power of K-hop message passing. In this work, we theoretically characterize the expressive power of K-hop message passing. Specifically, we first formally differentiate two kinds of kernels of K-hop message passing which are often misused in previous works. We then characterize the expressive power of K-hop message passing by showing that it is more powerful than 1-hop message passing. Despite the higher expressive power, we show that K-hop message passing still cannot distinguish some simple regular graphs. To further enhance its expressive power, we introduce a KP-GNN framework, which improves K-hop message passing by leveraging the peripheral subgraph information in each hop. We prove that KP-GNN can distinguish almost all regular graphs including some distance regular graphs which could not be distinguished by previous distance encoding methods. Experimental results verify the expressive power and effectiveness of KP-GNN. KP-GNN achieves competitive results across all benchmark datasets.
翻訳日:2022-05-27 13:18:14 公開日:2022-05-26
# DOMiNOでポリシーを発見する: 最適に近い多様性の最適化

Discovering Policies with DOMiNO: Diversity Optimization Maintaining Near Optimality ( http://arxiv.org/abs/2205.13521v1 )

ライセンス: Link先を確認
Tom Zahavy, Yannick Schroecker, Feryal Behbahani, Kate Baumli, Sebastian Flennerhag, Shaobo Hou and Satinder Singh(参考訳) 同じ問題に対する異なる解決策を見つけることは、創造性と新しい状況への適応に関連するインテリジェンスの重要な側面である。 強化学習では、様々なポリシーが探索、転送、階層化、堅牢性に有用である。 近似最適性を維持した多様性最適化手法であるdominoを提案する。 我々は,この問題を制約付きマルコフ決定プロセスとして定式化し,その目的は,集合内の政策の国家占有率間の距離で測定し,外因的な報酬に関してほぼ最適に維持することにある。 提案手法は,DeepMind Control Suiteの様々な移動パターンなど,様々な領域において多様かつ有意義な振る舞いを検出できることを示す。 我々のアプローチを広範囲に分析し、他の多目的ベースラインと比較し、解釈可能なハイパーパラメータを介して集合の品質と多様性の両方を制御できることを示し、発見された集合が摂動にロバストであることを示す。

Finding different solutions to the same problem is a key aspect of intelligence associated with creativity and adaptation to novel situations. In reinforcement learning, a set of diverse policies can be useful for exploration, transfer, hierarchy, and robustness. We propose DOMiNO, a method for Diversity Optimization Maintaining Near Optimality. We formalize the problem as a Constrained Markov Decision Process where the objective is to find diverse policies, measured by the distance between the state occupancies of the policies in the set, while remaining near-optimal with respect to the extrinsic reward. We demonstrate that the method can discover diverse and meaningful behaviors in various domains, such as different locomotion patterns in the DeepMind Control Suite. We perform extensive analysis of our approach, compare it with other multi-objective baselines, demonstrate that we can control both the quality and the diversity of the set via interpretable hyperparameters, and show that the discovered set is robust to perturbations.
翻訳日:2022-05-27 13:17:52 公開日:2022-05-26
# ミニマックス最適通信コストを用いた分散文脈線形バンディット

Distributed Contextual Linear Bandits with Minimax Optimal Communication Cost ( http://arxiv.org/abs/2205.13170v1 )

ライセンス: Link先を確認
Sanae Amani, Tor Lattimore, Andr\'as Gy\"orgy, Lin F. Yang(参考訳) そこで,n$エージェントが協調して作用し,d$-次元特徴を持つ線形バンディット最適化問題を解く,確率的文脈を持つ分布線形バンディットについて検討した。 本研究では,LinUCBアルゴリズムの分散バッチ除去版であるDisBE-LUCBを提案する。 我々は、DisBE-LUCBの通信コストが$\tilde{\mathcal{O}}(dN)$であり、その後悔は少なくとも$\tilde{\mathcal{O}}(\sqrt{dNT})$であることを示す。 ここでは,確率的文脈を用いた分散文脈線形帯域問題における通信コストに関する情報理論の下限を導出し,提案アルゴリズムが<emph{both regret and communication cost} の観点で最小値に近いことを証明した。 最後に,disbe-lucb の完全分散バージョンである decbe-lucb を提案する。これは中央サーバ無しで動作し,エージェントは注意深く設計されたコンセンサス手続きを通じて \emph{immediate neighbors} と情報を共有する。

We study distributed contextual linear bandits with stochastic contexts, where $N$ agents act cooperatively to solve a linear bandit-optimization problem with $d$-dimensional features. For this problem, we propose a distributed batch elimination version of the LinUCB algorithm, DisBE-LUCB, where the agents share information among each other through a central server. We prove that over $T$ rounds ($NT$ actions in total) the communication cost of DisBE-LUCB is only $\tilde{\mathcal{O}}(dN)$ and its regret is at most $\tilde{\mathcal{O}}(\sqrt{dNT})$, which is of the same order as that incurred by an optimal single-agent algorithm for $NT$ rounds. Remarkably, we derive an information-theoretic lower bound on the communication cost of the distributed contextual linear bandit problem with stochastic contexts, and prove that our proposed algorithm is nearly minimax optimal in terms of \emph{both regret and communication cost}. Finally, we propose DecBE-LUCB, a fully decentralized version of DisBE-LUCB, which operates without a central server, where agents share information with their \emph{immediate neighbors} through a carefully designed consensus procedure.
翻訳日:2022-05-27 13:17:36 公開日:2022-05-26
# sym-nco: 神経組合せ最適化における対称性の活用

Sym-NCO: Leveraging Symmetricity for Neural Combinatorial Optimization ( http://arxiv.org/abs/2205.13209v1 )

ライセンス: Link先を確認
Minsu Kim, Junyoung Park, Jinkyoo Park(参考訳) 深部強化学習(DRL-NCO)に基づく組合せ最適化法(DRL-NCO)は,従来のCOソルバに対して有意な効果を示した。 本稿では,既存のDRL-NCO法の性能向上を実現する新しいトレーニング手法であるSym-NCOを提案する。 Sym-NCOは、様々なCO問題や解の普遍対称性を利用する正規化器ベースのトレーニングスキームである。 回転や反射不変性のような対称性を導入することで、DRL-NCOの一般化能力を大幅に向上させることができる。 実験結果から,旅行セールスマン問題 (TSP), キャパシタン化車両ルーティング問題 (CVRP), 賞金収集TSP (PCTSP), オリエンテーリング問題 (OP) の4つのタスクにおけるDRL-NCO法の性能は,問題固有の手法を使わずに大幅に向上することを確認した。 注目すべきは、Sym-NCO は既存の DRL-NCO 法だけでなく、PCTSP の 240 倍の高速化で競合する局所探索 (ILS) 法よりも優れていたことである。

Deep reinforcement learning (DRL)-based combinatorial optimization (CO) methods (i.e., DRL-NCO) have shown significant merit over the conventional CO solvers as DRL-NCO is capable of learning CO solvers without supervised labels attained from the verified solver. This paper presents a novel training scheme, Sym-NCO, that achieves significant performance increments to existing DRL-NCO methods. Sym-NCO is a regularizer-based training scheme that leverages universal symmetricities in various CO problems and solutions. Imposing symmetricities such as rotational and reflectional invariance can greatly improve generalization capability of DRL-NCO as symmetricities are invariant features shared by certain CO tasks. Our experimental results verify that our Sym-NCO greatly improves the performance of DRL-NCO methods in four CO tasks, including traveling salesman problem (TSP), capacitated vehicle routing problem (CVRP), prize collecting TSP (PCTSP), and orienteering problem (OP), without employing problem-specific techniques. Remarkably, Sym-NCO outperformed not only the existing DRL-NCO methods but also a competitive conventional solver, the iterative local search (ILS), in PCTSP at 240 times faster speed.
翻訳日:2022-05-27 13:17:11 公開日:2022-05-26
# 暗黙的経路アライメントによる公平表現学習

Fair Representation Learning through Implicit Path Alignment ( http://arxiv.org/abs/2205.13316v1 )

ライセンス: Link先を確認
Changjian Shui, Qi Chen, Jiaqi Li, Boyu Wang, Christian Gagn\'e(参考訳) 我々は、データ表現の上に最適な予測器が異なる部分群に対して不変であることが保証される公平な表現学習の観点を考える。 具体的には、この直観を二値最適化として定式化し、そこで表現は外ループで学習され、不変最適群予測器は内ループで更新される。 さらに,提案するbiレベルの目的は,様々な実践シナリオにおいて望ましいが,フェアラーニングでは一般的には研究されなかった十分性ルールを満たすことである。 さらに,biレベル目標の内ループ内における微分の計算コストとメモリコストの増大を回避するため,内部最適化と暗黙的微分の解のみに依存する暗黙的経路アライメントアルゴリズムを提案する。 さらに,暗黙的アプローチの誤差ギャップを解析し,分類と回帰の両方において提案手法を実証的に検証する。 実験の結果,予測性能と公平性測定のトレードオフは一貫して良好であった。

We consider a fair representation learning perspective, where optimal predictors, on top of the data representation, are ensured to be invariant with respect to different sub-groups. Specifically, we formulate this intuition as a bi-level optimization, where the representation is learned in the outer-loop, and invariant optimal group predictors are updated in the inner-loop. Moreover, the proposed bi-level objective is demonstrated to fulfill the sufficiency rule, which is desirable in various practical scenarios but was not commonly studied in the fair learning. Besides, to avoid the high computational and memory cost of differentiating in the inner-loop of bi-level objective, we propose an implicit path alignment algorithm, which only relies on the solution of inner optimization and the implicit differentiation rather than the exact optimization path. We further analyze the error gap of the implicit approach and empirically validate the proposed method in both classification and regression settings. Experimental results show the consistently better trade-off in prediction performance and fairness measurement.
翻訳日:2022-05-27 13:14:28 公開日:2022-05-26
# 補償量子回帰ニューラルネットワーク

Censored Quantile Regression Neural Networks ( http://arxiv.org/abs/2205.13496v1 )

ライセンス: Link先を確認
Tim Pearce, Jong-Hyeon Jeong, Yichen Jia, Jun Zhu(参考訳) 本稿では,ニューラルネットワーク(NN)を用いた検閲データに対する定量的回帰について考察する。 これは、フレキシブル関数近似器を用いて、ターゲット変数の直接予測と不確実性の分布自由な特性化を可能にすることで、サバイバル解析ツールキットに追加する。 まず,線形モデルによく使われるアルゴリズムをnnsに適用する方法を示す。 しかし、結果の手順は非効率であり、各所望の量子化で個々のNNを逐次最適化する必要がある。 我々の主な貢献は、単一のNNによって出力される量子のグリッドを同時に最適化する新しいアルゴリズムである。 アルゴリズムに理論的洞察を与えるために,まず期待最大化の一形態として解釈でき,次に望ましい「自己補正」特性を示すことを示す。 実験的に、このアルゴリズムは12の実際のデータセットのうち10の方法よりも校正が良いクォンタイルを生成する。

This paper considers doing quantile regression on censored data using neural networks (NNs). This adds to the survival analysis toolkit by allowing direct prediction of the target variable, along with a distribution-free characterisation of uncertainty, using a flexible function approximator. We begin by showing how an algorithm popular in linear models can be applied to NNs. However, the resulting procedure is inefficient, requiring sequential optimisation of an individual NN at each desired quantile. Our major contribution is a novel algorithm that simultaneously optimises a grid of quantiles output by a single NN. To offer theoretical insight into our algorithm, we show firstly that it can be interpreted as a form of expectation-maximisation, and secondly that it exhibits a desirable `self-correcting' property. Experimentally, the algorithm produces quantiles that are better calibrated than existing methods on 10 out of 12 real datasets.
翻訳日:2022-05-27 13:14:12 公開日:2022-05-26
# 均一精度の高いReLUネットワークの訓練は困難である

Training ReLU networks to high uniform accuracy is intractable ( http://arxiv.org/abs/2205.13531v1 )

ライセンス: Link先を確認
Julius Berner, Philipp Grohs, Felix Voigtlaender(参考訳) 統計的学習理論は、与えられた対象クラス上で定式化された学習問題において、所定の精度に達するために必要なトレーニングサンプル数の境界を提供する。 この精度は典型的には一般化誤差、すなわち与えられた損失関数の期待値で測定される。 しかし、セキュリティクリティカルな状況や計算科学の問題など、いくつかのアプリケーションでは、この意味での精度は不十分である。 そのような場合、全ての入力値、すなわち、一様ノルムに関して、高い精度を保証したい。 本稿では,任意の学習アルゴリズムに必要なトレーニングサンプル数を正確に定量化し,所定のアーキテクチャのReLUニューラルネットワークを含む(あるいは構成する)ターゲットクラス上で定式化された学習問題に対して,所定の均一性を保証する。 非常に一般的な仮定の下では、このタスクのトレーニングサンプルの最小数は、ネットワークアーキテクチャの深さと入力次元の両方で指数関数的にスケールする。 結論として,ReLUニューラルネットワークのトレーニングを高精度に行うことは困難である。 セキュリティクリティカルな文脈では、ディープラーニングベースのシステムは、潜在的な敵に騙される傾向にあるという事実を指摘する。 数値的な結果から理論的知見を裏付ける。

Statistical learning theory provides bounds on the necessary number of training samples needed to reach a prescribed accuracy in a learning problem formulated over a given target class. This accuracy is typically measured in terms of a generalization error, that is, an expected value of a given loss function. However, for several applications -- for example in a security-critical context or for problems in the computational sciences -- accuracy in this sense is not sufficient. In such cases, one would like to have guarantees for high accuracy on every input value, that is, with respect to the uniform norm. In this paper we precisely quantify the number of training samples needed for any conceivable training algorithm to guarantee a given uniform accuracy on any learning problem formulated over target classes containing (or consisting of) ReLU neural networks of a prescribed architecture. We prove that, under very general assumptions, the minimal number of training samples for this task scales exponentially both in the depth and the input dimension of the network architecture. As a corollary we conclude that the training of ReLU neural networks to high uniform accuracy is intractable. In a security-critical context this points to the fact that deep learning based systems are prone to being fooled by a possible adversary. We corroborate our theoretical findings by numerical results.
翻訳日:2022-05-27 13:13:57 公開日:2022-05-26
# 適応配置のためのmatryoshka表現

Matryoshka Representations for Adaptive Deployment ( http://arxiv.org/abs/2205.13147v1 )

ライセンス: Link先を確認
Aditya Kusupati, Gantavya Bhatt, Aniket Rege, Matthew Wallingford, Aditya Sinha, Vivek Ramanujan, William Howard-Snyder, Kaifeng Chen, Sham Kakade, Prateek Jain, Ali Farhadi(参考訳) 学習された表現は現代のMLシステムにおいて中心的なコンポーネントであり、多くの下流タスクに役立ちます。 このような表現を訓練する場合、下流の各タスクに対する計算的および統計的制約が未知であることが多い。 この文脈では、固定容量表現は、手元にあるタスクにオーバーまたはアンダーアコメンテーションできる。 さまざまな計算リソースを使って、複数のダウンストリームタスクに適応可能な柔軟な表現を設計できますか? 私たちの主な貢献はmatryoshka representation learning(mrl)で、異なる粒度で情報をエンコードし、ダウンストリームタスクの計算制約に単一の埋め込みを可能にする。 MRLは、既存の表現学習パイプラインを最小限に修正し、推論とデプロイメントの間に追加のコストを課さない。 MRLは、独立に訓練された低次元表現と同じくらい正確でリッチな粗大な表現を学習する。 学習されたmatryoshka表現の柔軟性は下記のとおりである。 (a)同じ精度でImageNet-1K分類を行う場合、最大14倍の埋め込みサイズ。 (b)ImageNet-1Kと4Kの大規模検索のための実世界の14倍の高速化 (c) ロングテール・マイノショット分類の精度は2%まで向上したが、いずれも元の表現と同じくらい頑健であった。 最後に、MRLは、視覚(ViT、ResNet)、視覚+言語(ALIGN)、言語(BERT)といった様々なモードにわたるWebスケールデータセット(ImageNet、JFT)にシームレスに拡張可能であることを示す。 MRLコードと事前訓練されたモデルはhttps://github.com/RAIVNLab/MRLでオープンソース化されている。

Learned representations are a central component in modern ML systems, serving a multitude of downstream tasks. When training such representations, it is often the case that computational and statistical constraints for each downstream task are unknown. In this context rigid, fixed capacity representations can be either over or under-accommodating to the task at hand. This leads us to ask: can we design a flexible representation that can adapt to multiple downstream tasks with varying computational resources? Our main contribution is Matryoshka Representation Learning (MRL) which encodes information at different granularities and allows a single embedding to adapt to the computational constraints of downstream tasks. MRL minimally modifies existing representation learning pipelines and imposes no additional cost during inference and deployment. MRL learns coarse-to-fine representations that are at least as accurate and rich as independently trained low-dimensional representations. The flexibility within the learned Matryoshka Representations offer: (a) up to 14x smaller embedding size for ImageNet-1K classification at the same level of accuracy; (b) up to 14x real-world speed-ups for large-scale retrieval on ImageNet-1K and 4K; and (c) up to 2% accuracy improvements for long-tail few-shot classification, all while being as robust as the original representations. Finally, we show that MRL extends seamlessly to web-scale datasets (ImageNet, JFT) across various modalities -- vision (ViT, ResNet), vision + language (ALIGN) and language (BERT). MRL code and pretrained models are open-sourced at https://github.com/RAIVNLab/MRL.
翻訳日:2022-05-27 13:12:55 公開日:2022-05-26
# 統合勾配に基づく移動可能逆攻撃

Transferable Adversarial Attack based on Integrated Gradients ( http://arxiv.org/abs/2205.13152v1 )

ライセンス: Link先を確認
Yi Huang and Adams Wai-Kin Kong(参考訳) ディープニューラルネットワークの敵の例に対する脆弱性は、コミュニティから大きな注目を集めている。 標準的な目的関数の最適化、注意マップの活用、意思決定面の平滑化という3つのアプローチが、敵の例を作成するために一般的に用いられている。 本稿では,これら3つのアプローチを密接に統合することにより,統合勾配(taig)に基づくトランスファラブルアタックと呼ばれる新しい単純なアルゴリズムを提案する。 複数の計算項を使った従来の手法と異なり、TAIGは3つのアプローチを1つの項に統合する。 直線経路上の積分勾配とランダムな片方向線形経路を演算する2種類のTAIGについて検討した。 どちらのバージョンも強い転送性があり、以前のメソッドとシームレスに連携できる。 実験の結果,TAIGは最先端手法よりも優れていた。 コードはhttps://github.com/yihuang2016/TAIGで公開される。

The vulnerability of deep neural networks to adversarial examples has drawn tremendous attention from the community. Three approaches, optimizing standard objective functions, exploiting attention maps, and smoothing decision surfaces, are commonly used to craft adversarial examples. By tightly integrating the three approaches, we propose a new and simple algorithm named Transferable Attack based on Integrated Gradients (TAIG) in this paper, which can find highly transferable adversarial examples for black-box attacks. Unlike previous methods using multiple computational terms or combining with other methods, TAIG integrates the three approaches into one single term. Two versions of TAIG that compute their integrated gradients on a straight-line path and a random piecewise linear path are studied. Both versions offer strong transferability and can seamlessly work together with the previous methods. Experimental results demonstrate that TAIG outperforms the state-of-the-art methods. The code will available at https://github.com/yihuang2016/TAIG
翻訳日:2022-05-27 13:12:26 公開日:2022-05-26
# a model or 603 exemplars: メモリ効率のよいクラスインクリメンタル学習に向けて

A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental Learning ( http://arxiv.org/abs/2205.13218v1 )

ライセンス: Link先を確認
Da-Wei Zhou, Qi-Wei Wang, Han-Jia Ye, De-Chuan Zhan(参考訳) 現実世界のアプリケーションは、古いクラスを忘れずに新しいクラスに適応するための分類モデルを必要とします。 それに対応して、クラスインクリメンタルラーニング(CIL)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目指している。 典型的なcilメソッドは、過去のクラスからの代表例を保存して忘れないようにする傾向があるが、最近の研究では、履歴からモデルを保存することでパフォーマンスが大幅に向上する可能性がある。 しかし、記憶されているモデルはメモリ予算にカウントされず、暗黙的に不公平な比較をもたらす。 モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,特にメモリ予算が限られている場合,保存モデルは常に機能しないことがわかった。 その結果、異なるメモリスケールで異なるCIL手法を全体評価し、同時に測定の精度とメモリサイズを考慮する必要がある。 一方,メモリ効率向上のためのメモリバッファの構築について深く検討する。 ネットワーク内の異なる層の影響を解析した結果, 浅い層と深い層はCILの異なる特性を持つことがわかった。 そこで本研究では,メモリ効率向上のための MEMO というシンプルなベースラインを提案する。 MEMOは、共有一般化表現に基づいて特殊層を拡張し、様々な表現を適度なコストで効率的に抽出し、代表例を維持する。 ベンチマークデータセットに関する大規模な実験は、MEMOの競合性能を検証する。

Real-world applications require the classification model to adapt to new classes without forgetting old ones. Correspondingly, Class-Incremental Learning (CIL) aims to train a model with limited memory size to meet this requirement. Typical CIL methods tend to save representative exemplars from former classes to resist forgetting, while recent works find that storing models from history can substantially boost the performance. However, the stored models are not counted into the memory budget, which implicitly results in unfair comparisons. We find that when counting the model size into the total budget and comparing methods with aligned memory size, saving models do not consistently work, especially for the case with limited memory budgets. As a result, we need to holistically evaluate different CIL methods at different memory scales and simultaneously consider accuracy and memory size for measurement. On the other hand, we dive deeply into the construction of the memory buffer for memory efficiency. By analyzing the effect of different layers in the network, we find that shallow and deep layers have different characteristics in CIL. Motivated by this, we propose a simple yet effective baseline, denoted as MEMO for Memory-efficient Expandable MOdel. MEMO extends specialized layers based on the shared generalized representations, efficiently extracting diverse representations with modest cost and maintaining representative exemplars. Extensive experiments on benchmark datasets validate MEMO's competitive performance.
翻訳日:2022-05-27 13:12:11 公開日:2022-05-26
# 半監督対象検出のための分類器を用いたペナライズ提案

Penalizing Proposals using Classifiers for Semi-Supervised Object Detection ( http://arxiv.org/abs/2205.13219v1 )

ライセンス: Link先を確認
Somnath Hazra, Pallab Dasgupta(参考訳) オブジェクト検出のためのゴールド標準のアノテートデータを取得するのは、しばしばコストがかかる。 半教師付きオブジェクト検出アルゴリズムは、少量のゴールドスタンダードラベルと銀標準ラベルを生成するために使用される大きなアンラベリングデータセットでこの問題を解決する。 しかし、銀の標準ラベルでのトレーニングは、機械生成アノテーションであるため、良い結果を出さない。 本研究では,弱アノテータが生成する大銀標準アノテート集合を訓練するための修正損失関数を設計する。 アノテーションに関連付けられた信頼度指標を損失関数に追加用語として含み、アノテーションの品質を示す。 我々は、様々なテストセットにおけるアプローチの有効性をテストし、その結果と現在のオブジェクト検出に対するいくつかのアプローチを比較するために多くのバリエーションを使用する。 信頼度指標を用いないベースラインと比較すると,提案する信頼度指標を用いて,25\%のラベル付きデータで4\%の利得,50\%のラベル付きデータで10\%の利得を達成した。

Obtaining gold standard annotated data for object detection is often costly, involving human-level effort. Semi-supervised object detection algorithms solve the problem with a small amount of gold-standard labels and a large unlabelled dataset used to generate silver-standard labels. But training on the silver standard labels does not produce good results, because they are machine-generated annotations. In this work, we design a modified loss function to train on large silver standard annotated sets generated by a weak annotator. We include a confidence metric associated with the annotation as an additional term in the loss function, signifying the quality of the annotation. We test the effectiveness of our approach on various test sets and use numerous variations to compare the results with some of the current approaches to object detection. In comparison with the baseline where no confidence metric is used, we achieved a 4\% gain in mAP with 25\% labeled data and 10\% gain in mAP with 50\% labeled data by using the proposed confidence metric.
翻訳日:2022-05-27 13:11:46 公開日:2022-05-26
# (参考訳) 仮面画像モデリングの暗黒秘密の発見

Revealing the Dark Secrets of Masked Image Modeling ( http://arxiv.org/abs/2205.13543v1 )

ライセンス: CC BY 4.0
Zhenda Xie, Zigang Geng, Jingcheng Hu, Zheng Zhang, Han Hu, Yue Cao(参考訳) 事前トレーニングとしてのマスク画像モデリング(mim)は、多くのビジョンダウンストリームタスクに有効であることが示されているが、mimの動作方法と場所はまだ不明である。 本稿では,MIMと長大な教師付き事前学習モデル(可視化と実験)を比較し,それらの重要な表現的差異を明らかにする。 可視化から、MIMはトレーニングされたモデルのすべての層に局所性帰納バイアスをもたらすが、教師付きモデルはより低い層に局所的に集中する傾向にある。 MIMは、非常に大きな受容野を持つ視覚変換器を最適化するのに役立ちます。 mimを使用すると、モデルはすべての層で注意の面で大きな多様性を維持することができる。 しかし、監督されたモデルでは、注意の多様性は最後の3層からほぼ消え、多様性の低下は微調整のパフォーマンスに悪影響を及ぼす。 実験の結果,MIMモデルは教師付きモデルよりも,弱いセマンティクスやきめ細かな分類を伴う幾何学的および運動的タスクにおいて,はるかに優れた性能を発揮することがわかった。 ベルとホイッスルがなければ、標準MIMのSwinV2-Lはポーズ推定(COCOテストデブでは78.9 AP、CrowdPoseでは78.0 AP)、深さ推定(NYUv2では0.287 RMSE、KITTIでは1.966 RMSE)、ビデオオブジェクト追跡(LaSOTでは70.7 SUC)で最先端のパフォーマンスを達成することができた。 教師付き事前学習によってカテゴリが十分にカバーされている意味理解データセットの場合、MIMモデルは高い競争力を持つ転送性能を達成することができる。 MIMをより深く理解することで、私たちの研究がこの方向に新しい、しっかりとした研究を刺激できることを願っています。

Masked image modeling (MIM) as pre-training is shown to be effective for numerous vision downstream tasks, but how and where MIM works remain unclear. In this paper, we compare MIM with the long-dominant supervised pre-trained models from two perspectives, the visualizations and the experiments, to uncover their key representational differences. From the visualizations, we find that MIM brings locality inductive bias to all layers of the trained models, but supervised models tend to focus locally at lower layers but more globally at higher layers. That may be the reason why MIM helps Vision Transformers that have a very large receptive field to optimize. Using MIM, the model can maintain a large diversity on attention heads in all layers. But for supervised models, the diversity on attention heads almost disappears from the last three layers and less diversity harms the fine-tuning performance. From the experiments, we find that MIM models can perform significantly better on geometric and motion tasks with weak semantics or fine-grained classification tasks, than their supervised counterparts. Without bells and whistles, a standard MIM pre-trained SwinV2-L could achieve state-of-the-art performance on pose estimation (78.9 AP on COCO test-dev and 78.0 AP on CrowdPose), depth estimation (0.287 RMSE on NYUv2 and 1.966 RMSE on KITTI), and video object tracking (70.7 SUC on LaSOT). For the semantic understanding datasets where the categories are sufficiently covered by the supervised pre-training, MIM models can still achieve highly competitive transfer performance. With a deeper understanding of MIM, we hope that our work can inspire new and solid research in this direction.
翻訳日:2022-05-27 13:10:39 公開日:2022-05-26
# CLIP Rewardによるきめ細かい画像キャプション

Fine-grained Image Captioning with CLIP Reward ( http://arxiv.org/abs/2205.13115v1 )

ライセンス: Link先を確認
Jaemin Cho, Seunghyun Yoon, Ajinkya Kale, Franck Dernoncourt, Trung Bui, Mohit Bansal(参考訳) 現代の画像キャプションモデルは通常、テキストの類似性を訓練する。 しかしながら、公開データセットの参照キャプションは、最も有意義な共通オブジェクトをしばしば記述するので、テキスト類似性目標で訓練されたモデルは、他のものと区別する画像の特定の詳細な側面を無視しがちである。 より記述的で特徴的なキャプション生成に向けて,web から巨大な画像テキストペアをトレーニングしたマルチモーダルエンコーダ clip を用いて,マルチモーダル類似度を計算し,報酬関数として利用する。 また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。 これにより、報酬計算中に参照キャプションの必要性が完全に排除される。 記述的キャプションを包括的に評価するために,詳細な基準を持つキャプション評価のための新しいデータセットである finecapeval を紹介する。 テキスト・ツー・イメージ検索とFineCapEvalの実験では,提案したCLIP誘導モデルの方がCIDEr最適化モデルよりも顕著なキャプションを生成する。 また,CLIPテキストエンコーダの教師なし文法の微調整は,CLIP報酬の劣化問題を緩和することを示した。 最後に,アノテータが,様々な基準に従って,サイダーやmleの目標に対して,クリップ報酬を強く好む人間分析を示す。 コードとデータ:https://github.com/j-min/CLIP-Caption-Reward

Modern image captioning models are usually trained with text similarity objectives. However, since reference captions in public datasets often describe the most salient common objects, models trained with text similarity objectives tend to ignore specific and detailed aspects of an image that distinguish it from others. Toward more descriptive and distinctive caption generation, we propose using CLIP, a multimodal encoder trained on huge image-text pairs from web, to calculate multimodal similarity and use it as a reward function. We also propose a simple finetuning strategy of the CLIP text encoder to improve grammar that does not require extra text annotation. This completely eliminates the need for reference captions during the reward computation. To comprehensively evaluate descriptive captions, we introduce FineCapEval, a new dataset for caption evaluation with fine-grained criteria: overall, background, object, relations. In our experiments on text-to-image retrieval and FineCapEval, the proposed CLIP-guided model generates more distinctive captions than the CIDEr-optimized model. We also show that our unsupervised grammar finetuning of the CLIP text encoder alleviates the degeneration problem of the naive CLIP reward. Lastly, we show human analysis where the annotators strongly prefer the CLIP reward to the CIDEr and MLE objectives according to various criteria. Code and Data: https://github.com/j-min/CLIP-Caption-Reward
翻訳日:2022-05-27 12:41:39 公開日:2022-05-26
# 不均一テキスト分類のためのFederated Split BERT

Federated Split BERT for Heterogeneous Text Classification ( http://arxiv.org/abs/2205.13299v1 )

ライセンス: Link先を確認
Zhengyang Li, Shijing Si, Jianzong Wang and Jing Xiao(参考訳) トレーニング済みのBERTモデルは、多くの自然言語処理(NLP)タスクにおいて、優れたパフォーマンスを実現している。 しかし、現実の多くの状況では、テキストデータはたいてい多くのクライアントで分散化され、プライバシー保護と規制のために中央サーバーにアップロードできない。 フェデレーション学習(fl)は、複数のクライアントが協力して、ローカルデータプライバシを維持しながらグローバルモデルをトレーニングできるようにする。 統合学習環境におけるBERTの研究はいくつかあるが、クライアント上の異種データ(例えば非IID)による性能損失の問題は未解明のままである。 この問題を解決するために,異種データを処理し,BERTエンコーダ層をローカル部分とグローバル部分に分割することで通信コストを削減できるFedSplitBERTというフレームワークを提案する。 ローカル部分パラメータはローカルクライアントによってトレーニングされるが、グローバル部分パラメータは複数のクライアントの集約勾配によってトレーニングされる。 BERTの規模が大きいため,性能損失を最小限に抑えて通信コストをさらに削減するための量子化法を検討する。 私たちのフレームワークは、FedAvg、FedProx、FedAdamなど、既存のフェデレーション学習アルゴリズムと互換性があります。 提案手法の有効性を検証した結果,FedSplitBERTを量子化することで通信コストを111.9\times$に削減できることがわかった。

Pre-trained BERT models have achieved impressive performance in many natural language processing (NLP) tasks. However, in many real-world situations, textual data are usually decentralized over many clients and unable to be uploaded to a central server due to privacy protection and regulations. Federated learning (FL) enables multiple clients collaboratively to train a global model while keeping the local data privacy. A few researches have investigated BERT in federated learning setting, but the problem of performance loss caused by heterogeneous (e.g., non-IID) data over clients remain under-explored. To address this issue, we propose a framework, FedSplitBERT, which handles heterogeneous data and decreases the communication cost by splitting the BERT encoder layers into local part and global part. The local part parameters are trained by the local client only while the global part parameters are trained by aggregating gradients of multiple clients. Due to the sheer size of BERT, we explore a quantization method to further reduce the communication cost with minimal performance loss. Our framework is ready-to-use and compatible to many existing federated learning algorithms, including FedAvg, FedProx and FedAdam. Our experiments verify the effectiveness of the proposed framework, which outperforms baseline methods by a significant margin, while FedSplitBERT with quantization can reduce the communication cost by $11.9\times$.
翻訳日:2022-05-27 12:41:12 公開日:2022-05-26
# 相互情報を用いた短文トピックモデリングのためのフェデレーション非負行列因子化

Federated Non-negative Matrix Factorization for Short Texts Topic Modeling with Mutual Information ( http://arxiv.org/abs/2205.13300v1 )

ライセンス: Link先を確認
Shijing Si, Jianzong Wang, Ruiyi Zhang, Qinliang Su and Jing Xiao(参考訳) 非負行列分解(NMF)に基づくトピックモデリングは、自然言語処理(NLP)において、短い文書の隠れたトピックを明らかにするために広く用いられている。 通常、高品質なトピックモデルのトレーニングには大量のテキストデータが必要です。 多くの現実世界のシナリオでは、顧客のテキストデータはプライベートでセンシティブで、データセンターへのアップロードを控えるべきである。 本稿では、複数のクライアントがローカルに格納されたデータを用いて高品質なnmfベースのトピックモデルを協調的にトレーニングできるフェデレートnmf(federated nmf)フレームワークを提案する。 しかし、標準フェデレーション学習は、クライアント間のデータ分散が異質である場合、下流タスク(例えばテキスト分類)におけるトピックモデルのパフォーマンスを著しく損なう。 この問題を緩和するために、ローカルテキストのカウント特徴とトピック重みベクトル間の相互情報(MI)を同時に最大化し、性能劣化を軽減するFedNMF+MIを提案する。 実験の結果,FedNMF+MI法はFedLDA法とFedNMF法に比較して,コヒーレンススコアと分類F1スコアに有意差が認められた。

Non-negative matrix factorization (NMF) based topic modeling is widely used in natural language processing (NLP) to uncover hidden topics of short text documents. Usually, training a high-quality topic model requires large amount of textual data. In many real-world scenarios, customer textual data should be private and sensitive, precluding uploading to data centers. This paper proposes a Federated NMF (FedNMF) framework, which allows multiple clients to collaboratively train a high-quality NMF based topic model with locally stored data. However, standard federated learning will significantly undermine the performance of topic models in downstream tasks (e.g., text classification) when the data distribution over clients is heterogeneous. To alleviate this issue, we further propose FedNMF+MI, which simultaneously maximizes the mutual information (MI) between the count features of local texts and their topic weight vectors to mitigate the performance degradation. Experimental results show that our FedNMF+MI methods outperform Federated Latent Dirichlet Allocation (FedLDA) and the FedNMF without MI methods for short texts by a significant margin on both coherence score and classification F1 score.
翻訳日:2022-05-27 12:40:48 公開日:2022-05-26
# 変圧器は期待するほど強力ではないかもしれない

Your Transformer May Not be as Powerful as You Expect ( http://arxiv.org/abs/2205.13401v1 )

ライセンス: Link先を確認
Shengjie Luo, Shanda Li, Shuxin Zheng, Tie-Yan Liu, Liwei Wang, Di He(参考訳) 任意のトークン間の相対距離を符号化する相対位置符号化(rpe)は、オリジナルのトランスフォーマーの最も成功した改良の1つである。 我々の知る限り、RPEベースのトランスフォーマーの理論的理解は、ほとんど探索されていない。 本研究では,連続列列列関数の近似が可能かどうかに関して,RPEを用いた変換器のパワーを数学的に解析する。 RPEベースの変換器は普遍関数近似器である。 しかし, ニューラルネットワークの深さや幅がどんなに深くても, RPE ベースの変換器では近似できない連続配列列列関数が存在することを示す。 一つの重要な理由は、ほとんどのrpが常に右確率行列を生成するソフトマックスの注意に置かれているからである。 これにより、ネットワークがRPEの位置情報を取得できなくなり、容量が制限される。 この問題を克服し、モデルをより強力にするために、まずRPEベースの変換器が普遍関数近似を達成するための十分な条件を示す。 理論的なガイダンスにより、我々はUniversal RPE-based (URPE) Attentionと呼ばれる新しい注意モジュールを開発し、その条件を満たす。 したがって、URPEベースの変換器は普遍関数近似器となる。 典型的なアーキテクチャやタスクをカバーする広範な実験によって、このモデルがパラメータ効率が高く、幅広いアプリケーションにおいて強力なベースラインに対して優れたパフォーマンスを達成できることが示されました。

Relative Positional Encoding (RPE), which encodes the relative distance between any pair of tokens, is one of the most successful modifications to the original Transformer. As far as we know, theoretical understanding of the RPE-based Transformers is largely unexplored. In this work, we mathematically analyze the power of RPE-based Transformers regarding whether the model is capable of approximating any continuous sequence-to-sequence functions. One may naturally assume the answer is in the affirmative -- RPE-based Transformers are universal function approximators. However, we present a negative result by showing there exist continuous sequence-to-sequence functions that RPE-based Transformers cannot approximate no matter how deep and wide the neural network is. One key reason lies in that most RPEs are placed in the softmax attention that always generates a right stochastic matrix. This restricts the network from capturing positional information in the RPEs and limits its capacity. To overcome the problem and make the model more powerful, we first present sufficient conditions for RPE-based Transformers to achieve universal function approximation. With the theoretical guidance, we develop a novel attention module, called Universal RPE-based (URPE) Attention, which satisfies the conditions. Therefore, the corresponding URPE-based Transformers become universal function approximators. Extensive experiments covering typical architectures and tasks demonstrate that our model is parameter-efficient and can achieve superior performance to strong baselines in a wide range of applications.
翻訳日:2022-05-27 12:40:20 公開日:2022-05-26
# 変圧器を用いたユニバーサルハイパーパラメータオプティマイザの学習に向けて

Towards Learning Universal Hyperparameter Optimizers with Transformers ( http://arxiv.org/abs/2205.13320v1 )

ライセンス: Link先を確認
Yutian Chen, Xingyou Song, Chansoo Lee, Zi Wang, Qiuyi Zhang, David Dohan, Kazuya Kawakami, Greg Kochanski, Arnaud Doucet, Marc'aurelio Ranzato, Sagi Perel, Nando de Freitas(参考訳) 事前実験から得られたメタラーニングハイパーパラメータ最適化(hpo)アルゴリズムは、同様の分布から目的関数よりも最適化効率を改善するための有望なアプローチである。 しかし、既存の方法は、同じハイパーパラメータのセットを共有する実験から学ぶことに限定されている。 本稿では,テキストベースのトランスフォーマーhpoフレームワークであるopformerについて紹介する。このフレームワークは,野放しの膨大なチューニングデータに基づいてトレーニングされた場合に,協調学習方針と機能予測を行うための普遍的なエンドツーエンドインターフェースを提供する。 我々の広範な実験により、オプタフォーマは少なくとも7種類のhpoアルゴリズムを模倣できることが示され、これは関数の不確かさの推定によってさらに改善することができる。 ガウス過程と比較すると、オプタフォーマーはハイパーパラメータ応答関数のロバストな事前分布も学習し、より正確でより校正された予測を提供できる。 この研究は、一般的なHPOオプティマイザとしてTransformerベースのモデルをトレーニングするための将来の拡張への道を開く。

Meta-learning hyperparameter optimization (HPO) algorithms from prior experiments is a promising approach to improve optimization efficiency over objective functions from a similar distribution. However, existing methods are restricted to learning from experiments sharing the same set of hyperparameters. In this paper, we introduce the OptFormer, the first text-based Transformer HPO framework that provides a universal end-to-end interface for jointly learning policy and function prediction when trained on vast tuning data from the wild. Our extensive experiments demonstrate that the OptFormer can imitate at least 7 different HPO algorithms, which can be further improved via its function uncertainty estimates. Compared to a Gaussian Process, the OptFormer also learns a robust prior distribution for hyperparameter response functions, and can thereby provide more accurate and better calibrated predictions. This work paves the path to future extensions for training a Transformer-based model as a general HPO optimizer.
翻訳日:2022-05-27 12:39:55 公開日:2022-05-26
# 可変型スパースリニアバンド

Variance-Aware Sparse Linear Bandits ( http://arxiv.org/abs/2205.13450v1 )

ライセンス: Link先を確認
Yan Dai, Ruosong Wang and Simon S. Du(参考訳) スパース線形バンドに対する最悪のミニマックスの後悔は、$\widetilde{\theta}\left(\sqrt{dt}\right)$である。 一方、ノイズがなく、アクションセットが単位球面である良心的な設定では、$$d$と$T$とは(ほぼ)独立な$\widetilde{\mathcal O}(1)の後悔を達成するために、ディビジョン・アンド・コンカーを使うことができる。 本稿では、疎線形包帯に対する最初の分散対応後悔保証を示す: $\widetilde{\mathcal O}\left(\sqrt{d\sum_{t=1}^T \sigma_t^2} + 1\right)$, where $\sigma_t^2$ is the variance of the noise at the $t-th time step。 この境界は、最悪ケースの定数分散レジーム(\sigma_t = \Omega(1)$)と良性決定論的レジーム(\sigma_t = 0$)の後悔境界を自然に補間する。 そこで本研究では,分散認識線形バンディットアルゴリズムを,分散認識線形バンディットを‘ブラックボックス’方式で分散認識アルゴリズムに変換する汎用フレームワークを開発した。 具体的には、2つの最近のアルゴリズムをブラックボックスとして、要求される境界が実際に保持されていることを示す。

It is well-known that the worst-case minimax regret for sparse linear bandits is $\widetilde{\Theta}\left(\sqrt{dT}\right)$ where $d$ is the ambient dimension and $T$ is the number of time steps (ignoring the dependency on sparsity). On the other hand, in the benign setting where there is no noise and the action set is the unit sphere, one can use divide-and-conquer to achieve an $\widetilde{\mathcal O}(1)$ regret, which is (nearly) independent of $d$ and $T$. In this paper, we present the first variance-aware regret guarantee for sparse linear bandits: $\widetilde{\mathcal O}\left(\sqrt{d\sum_{t=1}^T \sigma_t^2} + 1\right)$, where $\sigma_t^2$ is the variance of the noise at the $t$-th time step. This bound naturally interpolates the regret bounds for the worst-case constant-variance regime ($\sigma_t = \Omega(1)$) and the benign deterministic regimes ($\sigma_t = 0$). To achieve this variance-aware regret guarantee, we develop a general framework that converts any variance-aware linear bandit algorithm to a variance-aware algorithm for sparse linear bandits in a ``black-box'' manner. Specifically, we take two recent algorithms as black boxes to illustrate that the claimed bounds indeed hold, where the first algorithm can handle unknown-variance cases and the second one is more efficient.
翻訳日:2022-05-27 12:39:37 公開日:2022-05-26
# 帯域フィードバックによる逆マルコフ決定過程の追従型リード

Follow-the-Perturbed-Leader for Adversarial Markov Decision Processes with Bandit Feedback ( http://arxiv.org/abs/2205.13451v1 )

ライセンス: Link先を確認
Yan Dai, Haipeng Luo and Liyu Chen(参考訳) 我々は、時間とともに損失関数が変化し、逆選択され、学習者は訪問した状態-行動ペア(すなわちバンディットフィードバック)の損失のみを観察する敵マルコフ決定プロセス(amdps)に対する後悔の最小化を検討する。 Online-Mirror-Descent (OMD) 法によるこの問題の研究が急増しているが、オフライン計画問題の解決のみを必要とするため、計算効率が良く実装が容易なFollow-the-Perturbed-Leader (FTPL) 手法についてはほとんど知られていない。 これに触発された我々は、標準のエピソード有限ホライゾン設定から始めて、AMDPを学習するためのFTPLについてより詳しく検討する。 分析の難しさはいくつか見出され,最終的にFTPLがほぼ最適の後悔境界を達成できることを示すための回避策が提案されている。 さらに重要なのは、2つの重要な応用が見つかることだ: まず、FTPLの分析は、順序-最適の後悔を伴う遅延帯域フィードバックに対して容易に一般化可能であること、OMD法は余計な困難を示す(Jin et al., 2022)。 第2に、FTPLを用いて、帯域幅フィードバックと確率遷移を伴う無限水平環境におけるAMDP間の通信を学習するための最初のノンレグレットアルゴリズムを開発する。 我々のアルゴリズムはオフラインの計画オラクルへのアクセスを効率的に仮定する一方、より簡単な情報設定であっても、既存のアルゴリズム(Chandrasekaran, Tewari, 2021)は計算的に非効率である。

We consider regret minimization for Adversarial Markov Decision Processes (AMDPs), where the loss functions are changing over time and adversarially chosen, and the learner only observes the losses for the visited state-action pairs (i.e., bandit feedback). While there has been a surge of studies on this problem using Online-Mirror-Descent (OMD) methods, very little is known about the Follow-the-Perturbed-Leader (FTPL) methods, which are usually computationally more efficient and also easier to implement since it only requires solving an offline planning problem. Motivated by this, we take a closer look at FTPL for learning AMDPs, starting from the standard episodic finite-horizon setting. We find some unique and intriguing difficulties in the analysis and propose a workaround to eventually show that FTPL is also able to achieve near-optimal regret bounds in this case. More importantly, we then find two significant applications: First, the analysis of FTPL turns out to be readily generalizable to delayed bandit feedback with order-optimal regret, while OMD methods exhibit extra difficulties (Jin et al., 2022). Second, using FTPL, we also develop the first no-regret algorithm for learning communicating AMDPs in the infinite-horizon setting with bandit feedback and stochastic transitions. Our algorithm is efficient assuming access to an offline planning oracle, while even for the easier full-information setting, the only existing algorithm (Chandrasekaran and Tewari, 2021) is computationally inefficient.
翻訳日:2022-05-27 12:39:00 公開日:2022-05-26
# 限定アノテーションによるセグメンテーションの学習:MRIにおける回帰と対照的な損失を伴う自己教師付き事前訓練

Learning to segment with limited annotations: Self-supervised pretraining with regression and contrastive loss in MRI ( http://arxiv.org/abs/2205.13109v1 )

ライセンス: Link先を確認
Lavanya Umapathy, Zhiyang Fu, Rohit Philip, Diego Martin, Maria Altbach, Ali Bilgin(参考訳) ディープラーニング(DL)モデルの教師ありトレーニングのための大規模なデータセットのための手動アノテーションの取得は難しい。 ラベル付きデータセットとラベル付きデータセットの比較により、dlモデルを初期化するために自己教師付き事前トレーニングを使用するモチベーションが向上した。 本稿では,DLモデルを駆動する2つの事前学習手法について考察する。 a)画像内の空間的依存関係を利用した回帰損失 b)画像のペア間の意味的類似性を利用する対比的損失。 磁気共鳴(MR)画像を用いた2つの下流セグメンテーションアプリケーションにおいて,プレトレーニング手法の効果を評価する。 a)腹部T2強調MRI画像における肝セグメンテーション b) 前立腺のt2強調mr画像における前立腺セグメンテーション 我々は,ラベル付きデータセットが少ない場合に,自己スーパービジョンを用いて事前訓練したDLモデルを同等の性能で微調整できることを示した。 また, 比較損失に基づく事前学習によるDLモデルの初期化は, 回帰損失よりも優れていた。

Obtaining manual annotations for large datasets for supervised training of deep learning (DL) models is challenging. The availability of large unlabeled datasets compared to labeled ones motivate the use of self-supervised pretraining to initialize DL models for subsequent segmentation tasks. In this work, we consider two pre-training approaches for driving a DL model to learn different representations using: a) regression loss that exploits spatial dependencies within an image and b) contrastive loss that exploits semantic similarity between pairs of images. The effect of pretraining techniques is evaluated in two downstream segmentation applications using Magnetic Resonance (MR) images: a) liver segmentation in abdominal T2-weighted MR images and b) prostate segmentation in T2-weighted MR images of the prostate. We observed that DL models pretrained using self-supervision can be finetuned for comparable performance with fewer labeled datasets. Additionally, we also observed that initializing the DL model using contrastive loss based pretraining performed better than the regression loss.
翻訳日:2022-05-27 12:38:29 公開日:2022-05-26
# 地質コアX線マイクロトモグラフィーによるポーシティと透過性予測のためのAI

AI for Porosity and Permeability Prediction from Geologic Core X-Ray Micro-Tomography ( http://arxiv.org/abs/2205.13189v1 )

ライセンス: Link先を確認
Zangir Iklassov, Dmitrii Medvedev, Otabek Nazarov(参考訳) 地質コア(Geological core)は、掘削過程で地下深くから抽出された岩石サンプルである。 石油貯留層の性能評価に用いられる。 伝統的に、コアの物理的研究は手動の時間消費実験によって行われる。 ディープラーニングの開発により、科学者は手作業による実験なしに物理的性質を識別するための機械学習ベースの手法の開発に積極的に取り組み始めた。 過去のいくつかの著作では、岩石の気孔性や透水性を機械学習で測定していたが、どちらの方法も不正確か計算コストが高かった。 我々は,超小型cnnトランスフォーマーモデルによる自己教師付き事前学習を用いて,岩石の物性を時間効率良く高精度に予測することを提案する。 この手法は,非常に小さなデータセットでも過剰に適合しないことを示す。

Geologic cores are rock samples that are extracted from deep under the ground during the well drilling process. They are used for petroleum reservoirs' performance characterization. Traditionally, physical studies of cores are carried out by the means of manual time-consuming experiments. With the development of deep learning, scientists actively started working on developing machine-learning-based approaches to identify physical properties without any manual experiments. Several previous works used machine learning to determine the porosity and permeability of the rocks, but either method was inaccurate or computationally expensive. We are proposing to use self-supervised pretraining of the very small CNN-transformer-based model to predict the physical properties of the rocks with high accuracy in a time-efficient manner. We show that this technique prevents overfitting even for extremely small datasets.
翻訳日:2022-05-27 12:37:42 公開日:2022-05-26
# 学習画像圧縮に対するサービス拒否攻撃

Denial-of-Service Attacks on Learned Image Compression ( http://arxiv.org/abs/2205.13253v1 )

ライセンス: Link先を確認
Kang Liu, Di Wu, Yiru Wang, Dan Feng, Benjamin Tan, Siddharth Garg(参考訳) 深層学習技術は画像圧縮において有望な結果を示しており、競合ビットレートと圧縮潜水器による画像再構成の品質がある。 しかし、画像圧縮はピーク信号対雑音比(PSNR)が高く、ピクセル当たりのビット数が少なくなった(bpp)が、コーナーケース画像に対するロバスト性は検討されていない。 本研究では,入力画像の知覚不能な摂動が圧縮潜時のビットレートを著しく上昇させる画像圧縮システムのロバスト性について初めて検討する。 最先端の学習画像圧縮の堅牢性を特徴付けるため、白と黒のボックス攻撃をマウントする。 様々なビットレート特性を持つ画像圧縮モデルを用いた結果,白色箱攻撃は56.326x,黒箱1.947xbppに変化した。 そこで本研究では,psnr/bpp比と,既存の学習画像圧縮機を超える敵攻撃に対するロバスト性とのトレードオフが期待できる,注意モジュールと基本的な因子化エントロピーモデルを組み合わせた新しいモデルを提案する。

Deep learning techniques have shown promising results in image compression, with competitive bitrate and image reconstruction quality from compressed latent. However, while image compression has progressed towards higher peak signal-to-noise ratio (PSNR) and fewer bits per pixel (bpp), their robustness to corner-case images has never received deliberation. In this work, we, for the first time, investigate the robustness of image compression systems where imperceptible perturbation of input images can precipitate a significant increase in the bitrate of their compressed latent. To characterize the robustness of state-of-the-art learned image compression, we mount white and black-box attacks. Our results on several image compression models with various bitrate qualities show that they are surprisingly fragile, where the white-box attack achieves up to 56.326x and black-box 1.947x bpp change. To improve robustness, we propose a novel model which incorporates attention modules and a basic factorized entropy model, resulting in a promising trade-off between the PSNR/bpp ratio and robustness to adversarial attacks that surpasses existing learned image compressors.
翻訳日:2022-05-27 12:37:30 公開日:2022-05-26
# 生涯学習のための連続的評価:安定性ギャップの同定

Continual evaluation for lifelong learning: Identifying the stability gap ( http://arxiv.org/abs/2205.13452v1 )

ライセンス: Link先を確認
Matthias De Lange, Gido van de Ven, Tinne Tuytelaars(参考訳) データ生成分布に時間的依存を導入することは、ニューラルネットワークの勾配に基づくトレーニングでは困難であることが証明されている。 継続的学習は、時間の経過とともに知識の継続的な蓄積を可能にするために、欲望の最適化を克服することを目的としている。 データストリームは通常、タスクと呼ばれるローカルな定常分布に分割され、トレーニングタスクから保持されたデータに対するタスクベースの評価が可能になる。 連続学習における現代評価プロトコルとメトリクスはタスクベースであり、タスク遷移のみにおいて安定性と可塑性の間のトレードオフを定量化する。 しかし、経験的な証拠から、タスクトランジション間の関係は重要であり、タスクベースの評価では未確認のままであることが示唆される。 そこで本研究では,着想評価の確立と,学習者の生涯における最悪のパフォーマンスを識別する新たな指標セットを定義するための連続評価フレームワークを提案する。 新しいタスクを学習すると、過去のタスクでパフォーマンスが大幅に低下するが、一時的な低下が発生します。 さらなる概念的および経験的分析は、リプレイに基づくだけでなく、正規化に基づく連続学習手法も安定性のギャップを生じやすいことを示唆している。

Introducing a time dependency on the data generating distribution has proven to be difficult for gradient-based training of neural networks, as the greedy updates result in catastrophic forgetting of previous timesteps. Continual learning aims to overcome the greedy optimization to enable continuous accumulation of knowledge over time. The data stream is typically divided into locally stationary distributions, called tasks, allowing task-based evaluation on held-out data from the training tasks. Contemporary evaluation protocols and metrics in continual learning are task-based and quantify the trade-off between stability and plasticity only at task transitions. However, our empirical evidence suggests that between task transitions significant, temporary forgetting can occur, remaining unidentified in task-based evaluation. Therefore, we propose a framework for continual evaluation that establishes per-iteration evaluation and define a new set of metrics that enables identifying the worst-case performance of the learner over its lifetime. Performing continual evaluation, we empirically identify that replay suffers from a stability gap: upon learning a new task, there is a substantial but transient decrease in performance on past tasks. Further conceptual and empirical analysis suggests not only replay-based, but also regularization-based continual learning methods are prone to the stability gap.
翻訳日:2022-05-27 12:37:08 公開日:2022-05-26
# SemAffiNet: ポイントクラウドセグメンテーションのためのセマンティックアフィン変換

SemAffiNet: Semantic-Affine Transformation for Point Cloud Segmentation ( http://arxiv.org/abs/2205.13490v1 )

ライセンス: Link先を確認
Ziyi Wang, Yongming Rao, Xumin Yu, Jie Zhou, Jiwen Lu(参考訳) 従来のポイントクラウドセマンティックセグメンテーション手法では、通常はエンコーダ・デコーダアーキテクチャを用いており、中級の特徴を局所的に集約して幾何学的情報を抽出する。 しかし、これらのクラスに依存しない局所幾何学表現への過度な依存は、外観や空間的に隣接する異なるカテゴリの局所的な部分間の混乱を引き起こす可能性がある。 この問題に対処するため, セマンティックな情報によって中級特徴をさらに強化し, クラス固有のアフィンパラメータを持つ異なるカテゴリに属する中級点の特徴を変換する意味-アフィン変換を提案する。 この手法に基づき,各カテゴリの総合的な理解のために,局所的な構造知識を暗黙的かつ明示的に捉えるために,トランスフォーマーモジュールの注意機構を利用する点クラウドセマンティクスセグメンテーションのためのセマフィネットを提案する。 本研究では,scannetv2とnyuv2データセットを広範囲に実験し,様々な3dポイントクラウドおよび2dイメージセグメンテーションベースラインにおけるセマンティック・アフィン変換の評価を行った。 コードはhttps://github.com/wangzy22/SemAffiNetで入手できる。

Conventional point cloud semantic segmentation methods usually employ an encoder-decoder architecture, where mid-level features are locally aggregated to extract geometric information. However, the over-reliance on these class-agnostic local geometric representations may raise confusion between local parts from different categories that are similar in appearance or spatially adjacent. To address this issue, we argue that mid-level features can be further enhanced with semantic information, and propose semantic-affine transformation that transforms features of mid-level points belonging to different categories with class-specific affine parameters. Based on this technique, we propose SemAffiNet for point cloud semantic segmentation, which utilizes the attention mechanism in the Transformer module to implicitly and explicitly capture global structural knowledge within local parts for overall comprehension of each category. We conduct extensive experiments on the ScanNetV2 and NYUv2 datasets, and evaluate semantic-affine transformation on various 3D point cloud and 2D image segmentation baselines, where both qualitative and quantitative results demonstrate the superiority and generalization ability of our proposed approach. Code is available at https://github.com/wangzy22/SemAffiNet.
翻訳日:2022-05-27 12:36:49 公開日:2022-05-26
# 非パラメトリック分類におけるミニマックス最適ロバストネス介入のアンダーサンプリング

Undersampling is a Minimax Optimal Robustness Intervention in Nonparametric Classification ( http://arxiv.org/abs/2205.13094v1 )

ライセンス: Link先を確認
Niladri S. Chatterji, Saminul Haque, Tatsunori Hashimoto(参考訳) 分散シフトに取り組むために、幅広いテクニックが提案されているが、$\textit{undersampled}$データセットのトレーニングの単純なベースラインは、しばしばいくつかの人気のあるベンチマークで最先端の精度に近い。 アルゴリズムのアンサンプは、過剰な多数派データを排除している。 この現象を理解するために、学習が少数群のサンプル不足によって根本的に制約されているかどうかを問う。 これは実際には、非パラメトリック二項分類の設定におけるものであることを証明している。 以上の結果から,列車とテスト分布の重複度が高い場合(実世界のデータセットではありそうにない)や,アルゴリズムが分布シフトに関する付加的な構造を利用する場合,アンダーサンプリングをアルゴリズムが上回らないことが示唆された。 特にラベルシフトの場合、常にミニマックス最適であるアンダーサンプリングアルゴリズムが存在することを示す。 群共変量シフトの場合、群分布間の重なりが小さい場合に最小最適となるアンダーサンプリングアルゴリズムが存在することを示す。 また,ラベルシフトデータセットに関する実験ケーススタディを実施し,ロバストなニューラルネットワーク分類器のテスト精度はマイノリティサンプル数によって制限されていることを確認した。

While a broad range of techniques have been proposed to tackle distribution shift, the simple baseline of training on an $\textit{undersampled}$ dataset often achieves close to state-of-the-art-accuracy across several popular benchmarks. This is rather surprising, since undersampling algorithms discard excess majority group data. To understand this phenomenon, we ask if learning is fundamentally constrained by a lack of minority group samples. We prove that this is indeed the case in the setting of nonparametric binary classification. Our results show that in the worst case, an algorithm cannot outperform undersampling unless there is a high degree of overlap between the train and test distributions (which is unlikely to be the case in real-world datasets), or if the algorithm leverages additional structure about the distribution shift. In particular, in the case of label shift we show that there is always an undersampling algorithm that is minimax optimal. While in the case of group-covariate shift we show that there is an undersampling algorithm that is minimax optimal when the overlap between the group distributions is small. We also perform an experimental case study on a label shift dataset and find that in line with our theory the test accuracy of robust neural network classifiers is constrained by the number of minority samples.
翻訳日:2022-05-27 12:36:23 公開日:2022-05-26
# 部分観測システムへの埋め込み:確率的サンプル効率による表現学習

Embed to Control Partially Observed Systems: Representation Learning with Provable Sample Efficiency ( http://arxiv.org/abs/2205.13476v1 )

ライセンス: Link先を確認
Lingxiao Wang, Qi Cai, Zhuoran Yang, Zhaoran Wang(参考訳) 部分観察マルコフ決定過程(pomdps)における強化学習は2つの課題に直面している。 (i)未来を予測するには、しばしば完全な歴史を要し、地平線と指数関数的にスケールするサンプルの複雑さを誘導する。 (II)観測空間と状態空間はしばしば連続であり、外生次元と指数関数的にスケールするサンプル複雑性を誘導する。 このような課題に対処するには、POMDPの構造を利用して観測と状態履歴の最小かつ十分な表現を学ぶ必要がある。 そこで本研究では,ポリシーを最適化しながら2段階の表現を学習するETC(Embed to Control)という強化学習アルゴリズムを提案する。 ~ i) 各ステップにおいて、ETCは遷移カーネルを分解する低次元の特徴を持つ状態を表現することを学習する。 (ii)複数のステップにまたがって、ステップ単位の機能を組み立てる低次元埋め込みによって、すべての履歴を表現することを学ぶ。 統合し (i)および (ii) 様々な推定器(最大極大推定器と生成逆数ネットワークを含む)を許容する統一的な枠組みにおいて。 遷移核に低ランク構造を持つPOMDPのクラスに対して、ECCは、水平線と内在次元(すなわちランク)と多項式的にスケールする$O(1/\epsilon^2)$サンプル複雑性を得る。 ここで$\epsilon$は最適性ギャップです。 我々の知る限り、ETCは、無限観測空間と状態空間を持つPOMDPにおける表現学習とポリシー最適化を橋渡しする最初のサンプル効率アルゴリズムである。

Reinforcement learning in partially observed Markov decision processes (POMDPs) faces two challenges. (i) It often takes the full history to predict the future, which induces a sample complexity that scales exponentially with the horizon. (ii) The observation and state spaces are often continuous, which induces a sample complexity that scales exponentially with the extrinsic dimension. Addressing such challenges requires learning a minimal but sufficient representation of the observation and state histories by exploiting the structure of the POMDP. To this end, we propose a reinforcement learning algorithm named Embed to Control (ETC), which learns the representation at two levels while optimizing the policy.~(i) For each step, ETC learns to represent the state with a low-dimensional feature, which factorizes the transition kernel. (ii) Across multiple steps, ETC learns to represent the full history with a low-dimensional embedding, which assembles the per-step feature. We integrate (i) and (ii) in a unified framework that allows a variety of estimators (including maximum likelihood estimators and generative adversarial networks). For a class of POMDPs with a low-rank structure in the transition kernel, ETC attains an $O(1/\epsilon^2)$ sample complexity that scales polynomially with the horizon and the intrinsic dimension (that is, the rank). Here $\epsilon$ is the optimality gap. To our best knowledge, ETC is the first sample-efficient algorithm that bridges representation learning and policy optimization in POMDPs with infinite observation and state spaces.
翻訳日:2022-05-27 12:35:59 公開日:2022-05-26
# 単語グラフとPOV変換を用いた教師なし抽象対話要約

Unsupervised Abstractive Dialogue Summarization with Word Graphs and POV Conversion ( http://arxiv.org/abs/2205.13108v1 )

ライセンス: Link先を確認
Seongmin Park, Jihwa Lee(参考訳) 我々は,多文圧縮グラフを用いて,教師なし抽象対話要約の最先端を推し進める。 単語グラフの確立した仮定から始め,単純かつ信頼性の高いパスリカリングとトピックセグメンテーションスキームを提案する。 本手法のロバスト性は,会議,インタビュー,映画脚本,日々の会話など,複数のドメインにまたがるデータセット上で実証される。 また、深層学習でヒューリスティックなシステムを強化するための道のりも特定する。 我々はコードをオープンソース化し、教師なし対話要約の研究のための強力な再現可能なベースラインを提供する。

We advance the state-of-the-art in unsupervised abstractive dialogue summarization by utilizing multi-sentence compression graphs. Starting from well-founded assumptions about word graphs, we present simple but reliable path-reranking and topic segmentation schemes. Robustness of our method is demonstrated on datasets across multiple domains, including meetings, interviews, movie scripts, and day-to-day conversations. We also identify possible avenues to augment our heuristic-based system with deep learning. We open-source our code, to provide a strong, reproducible baseline for future research into unsupervised dialogue summarization.
翻訳日:2022-05-27 12:35:31 公開日:2022-05-26
# (参考訳) 医用画像分割のための構造非バイアスadversarialモデル

Structure Unbiased Adversarial Model for Medical Image Segmentation ( http://arxiv.org/abs/2205.12857v2 )

ライセンス: CC BY 4.0
Tianyang Zhang, Shaoming Zheng, Jun Cheng, Xi Jia, Joseph Bartlett, Huazhu Fu, Zhaowen Qiu, Jiang Liu and Jinming Duan(参考訳) 画像認識において生成モデルが広く提案されており、実画像と分布が類似するより多くの画像を生成する。 しばしば差別化ネットワークを導入し、元の実データと生成されたデータを識別する。 しかし、そのような判別器はデータの分布をよく考慮し、構造による本質的なギャップに十分な注意を払わなかった。 本稿では,典型的な強度分布ギャップに加えて,構造ギャップを低減するため,新しい画像から画像への変換問題を再構成する。 さらに,医用画像セグメント化のための逆構造変形を学習可能なSUAM(Structure Unbiased Adversarial Model for Medical Image Segmentation)を提案する。 それは、構造抽出器、注意二相登録、および構造 \&インテンシティ分布レンダリングモジュールから構成されている。 構造抽出器は、入力画像の支配的構造を抽出することを目的とする。 逆変形場による構造ギャップを低減し, 予測マスクを元の形状に反動させるため, 注意二相登録を提案する。 構造レンダリングモジュールは、変形した構造を対象の強度分布で画像にレンダリングする。 光コヒーレンス断層撮影(oct)、磁気共鳴イメージング(mri)、コンピュータ断層撮影(ct)の両データに適用した。 実験の結果,提案手法は強度分布と構造分布の両方を伝達できることがわかった。

Generative models have been widely proposed in image recognition to generate more images where the distribution is similar to that of the real images. It often introduces a discriminator network to discriminate original real data and generated data. However, such discriminator often considers the distribution of the data and did not pay enough attention to the intrinsic gap due to structure. In this paper, we reformulate a new image to image translation problem to reduce structural gap, in addition to the typical intensity distribution gap. We further propose a simple yet important Structure Unbiased Adversarial Model for Medical Image Segmentation (SUAM) with learnable inverse structural deformation for medical image segmentation. It consists of a structure extractor, an attention diffeomorphic registration and a structure \& intensity distribution rendering module. The structure extractor aims to extract the dominant structure of the input image. The attention diffeomorphic registration is proposed to reduce the structure gap with an inverse deformation field to warp the prediction masks back to their original form. The structure rendering module is to render the deformed structure to an image with targeted intensity distribution. We apply the proposed SUAM on both optical coherence tomography (OCT), magnetic resonance imaging (MRI) and computerized tomography (CT) data. Experimental results show that the proposed method has the capability to transfer both intensity and structure distributions.
翻訳日:2022-05-27 11:11:04 公開日:2022-05-26
# qampari:複数段落からの回答が多い質問に対するオープンドメイン質問応答ベンチマーク

QAMPARI: : An Open-domain Question Answering Benchmark for Questions with Many Answers from Multiple Paragraphs ( http://arxiv.org/abs/2205.12665v2 )

ライセンス: Link先を確認
Samuel Joseph Amouyal, Ohad Rubin, Ori Yoran, Tomer Wolfson, Jonathan Herzig, Jonathan Berant(参考訳) オープンドメイン質問応答(ODQA)の既存のベンチマークは、通常、1段落から回答を抽出できる質問に焦点を当てる。 対照的に、「ブルックリン・ネッツによってどの選手がドラフトされたか」のような多くの自然な質問は回答のリストを持っている。 このような質問に答えるには、大きなコーパスで、多くの節から検索し、読み取る必要がある。 本稿では,質問応答がエンティティのリストであるODQAベンチマークであるQAMPARIを紹介する。 私たちはQAMPARIを作りました。 (a)ウィキペディアの知識グラフと表から複数の回答で質問を生成する。 b) ウィキペディアの段落において,回答と証拠とを自動でペアリングし, (c) 質問を手動で言い換えて各回答を検証する。 我々は、検索・読解系からODQAモデルを訓練し、QAMPARIは経路検索と解答生成の両方の観点から困難であり、最高26.6のF1スコアに達する。 この結果から,単問,複数問,多問など幅広い質問タイプを扱うODQAモデルの開発の必要性が示唆された。

Existing benchmarks for open-domain question answering (ODQA) typically focus on questions whose answers can be extracted from a single paragraph. By contrast, many natural questions, such as "What players were drafted by the Brooklyn Nets?" have a list of answers. Answering such questions requires retrieving and reading from many passages, in a large corpus. We introduce QAMPARI, an ODQA benchmark, where question answers are lists of entities, spread across many paragraphs. We created QAMPARI by (a) generating questions with multiple answers from Wikipedia's knowledge graph and tables, (b) automatically pairing answers with supporting evidence in Wikipedia paragraphs, and (c) manually paraphrasing questions and validating each answer. We train ODQA models from the retrieve-and-read family and find that QAMPARI is challenging in terms of both passage retrieval and answer generation, reaching an F1 score of 26.6 at best. Our results highlight the need for developing ODQA models that handle a broad range of question types, including single and multi-answer questions.
翻訳日:2022-05-27 11:09:31 公開日:2022-05-26
# 画像認識のための学習可能なビジュアルワード

Learnable Visual Words for Interpretable Image Recognition ( http://arxiv.org/abs/2205.10724v2 )

ライセンス: Link先を確認
Wenxiao Xiao, Zhengming Ding, Hongfu Liu(参考訳) 深いモデルの予測を解釈するために、注意に基づく視覚的な手がかりは、 \textit{why} 深いモデルがそのような予測を行うのに広く使われている。 さらに、現在の研究コミュニティは、深層モデルの推論に興味を持つようになり、いくつかのプロトタイプベースの手法は、深部モデルの振る舞いのブラックボックスメカニズムを明らかにするために、対応する視覚的手がかりと解釈可能な表現を用いる。 しかしながら、これらの先駆的な試みは、カテゴリ固有のプロトタイプを学習し、それらの一般化能力を低下させるか、あるいは視覚ベースの解釈可能性の定量的評価を行なわずに、より実用的な使用法に制限を加えることなく、いくつかの図示的な例を示すのみである。 本稿では、視覚的単語の概念を再考し、意味的視覚的単語学習と二重忠実性保存という2つの新しいモジュールでモデル予測動作を解釈する学習可能な視覚的単語(LVW)を提案する。 意味的な視覚的単語学習は、カテゴリ固有の制約を緩和し、異なるカテゴリ間で共有される一般的な視覚的単語を可能にする。 視覚的単語をベースモデルにアライメントするために,視覚的単語を用いるだけでなく,学習した視覚的単語が同じ概念的領域に集中して予測を行うための注意誘導的セマンティックアライメントも備えている。 6つの視覚的ベンチマーク実験により,提案したLVWの精度およびモデル解釈における有効性を示した。 さらに,学習した視覚的単語を詳細に分析し,未知のカテゴリに対する手法の一般化可能性について検討する。

To interpret deep models' predictions, attention-based visual cues are widely used in addressing \textit{why} deep models make such predictions. Beyond that, the current research community becomes more interested in reasoning \textit{how} deep models make predictions, where some prototype-based methods employ interpretable representations with their corresponding visual cues to reveal the black-box mechanism of deep model behaviors. However, these pioneering attempts only either learn the category-specific prototypes and deteriorate their generalizing capacities, or demonstrate several illustrative examples without a quantitative evaluation of visual-based interpretability with further limitations on their practical usages. In this paper, we revisit the concept of visual words and propose the Learnable Visual Words (LVW) to interpret the model prediction behaviors with two novel modules: semantic visual words learning and dual fidelity preservation. The semantic visual words learning relaxes the category-specific constraint, enabling the general visual words shared across different categories. Beyond employing the visual words for prediction to align visual words with the base model, our dual fidelity preservation also includes the attention guided semantic alignment that encourages the learned visual words to focus on the same conceptual regions for prediction. Experiments on six visual benchmarks demonstrate the superior effectiveness of our proposed LVW in both accuracy and model interpretation over the state-of-the-art methods. Moreover, we elaborate on various in-depth analyses to further explore the learned visual words and the generalizability of our method for unseen categories.
翻訳日:2022-05-27 11:09:13 公開日:2022-05-26
# スーパービジョントランス

Super Vision Transformer ( http://arxiv.org/abs/2205.11397v2 )

ライセンス: Link先を確認
Mingbao Lin, Mengzhao Chen, Yuxin Zhang, Ke Li, Yunhang Shen, Chunhua Shen, Rongrong Ji(参考訳) トークン数において2次的に増加する視覚変換器(ViT)の計算コストを削減しようとする。 本稿では,一度に1つのViTモデルのみを訓練する新しい訓練パラダイムを提案するが,様々な計算コストで画像認識性能を向上させることができる。 ここで、訓練されたvitモデルはsuper vision transformer(supervit)と呼ばれ、複数のサイズの入ってくるパッチを解決し、複数の保持率(トークンの保持率)を持つ情報トークンを保存し、利用可能なハードウェアリソースが時折変化することを考慮し、推論のための優れたハードウェア効率を達成する能力を備えている。 ImageNetの実験結果から, 我々のSuperViTは, 性能の向上とともに, ViTモデルの計算コストを大幅に削減できることが示された。 例えば、DeiT-Sの2倍FLOPを減少させ、Top-1の精度を0.2%、1.5倍の精度で0.7%向上させる。 また、我々のSuperViTは、効率的な視覚変換器に関する既存の研究を著しく上回っている。 例えば、同じ量のFLOPを消費する場合、SuperViTはDeiT-Sをバックボーンとして使用する場合、最新の最先端(SoTA)EViTを1.1%上回る。 この作業のプロジェクトはhttps://github.com/lmbxmu/supervit.comで公開されている。

We attempt to reduce the computational costs in vision transformers (ViTs), which increase quadratically in the token number. We present a novel training paradigm that trains only one ViT model at a time, but is capable of providing improved image recognition performance with various computational costs. Here, the trained ViT model, termed super vision transformer (SuperViT), is empowered with the versatile ability to solve incoming patches of multiple sizes as well as preserve informative tokens with multiple keeping rates (the ratio of keeping tokens) to achieve good hardware efficiency for inference, given that the available hardware resources often change from time to time. Experimental results on ImageNet demonstrate that our SuperViT can considerably reduce the computational costs of ViT models with even performance increase. For example, we reduce 2x FLOPs of DeiT-S while increasing the Top-1 accuracy by 0.2% and 0.7% for 1.5x reduction. Also, our SuperViT significantly outperforms existing studies on efficient vision transformers. For example, when consuming the same amount of FLOPs, our SuperViT surpasses the recent state-of-the-art (SoTA) EViT by 1.1% when using DeiT-S as their backbones. The project of this work is made publicly available at https://github.com/lmbxmu/SuperViT.
翻訳日:2022-05-27 11:08:43 公開日:2022-05-26
# mocovit: 移動畳み込み視覚変換器

MoCoViT: Mobile Convolutional Vision Transformer ( http://arxiv.org/abs/2205.12635v2 )

ライセンス: Link先を確認
Hailong Ma, Xin Xia, Xing Wang, Xuefeng Xiao, Jiashi Li, Min Zheng(参考訳) 近年、トランスフォーマーネットワークは様々なビジョンタスクで印象的な成果を上げている。 しかし、そのほとんどは計算コストが高く、現実のモバイルアプリケーションには適していない。 本研究では,モバイル畳み込みネットワークにトランスフォーマーを導入することで,両アーキテクチャの利点を生かすことにより,性能と効率を向上させるmobile convolutional vision transformer (mocovit)を提案する。 ビジョントランスフォーマーに関する最近の研究とは異なり、MoCoViTのモバイルトランスフォーマーブロックはモバイルデバイス向けに慎重に設計されており、Mobile Self-Attention (MoSA) モジュールとMobile Feed Forward Network (MoFFN) という2つの主要な修正によって非常に軽量化されている。 MoSAは分岐共有方式によるアテンションマップの計算を単純化し、MoFFNはトランスフォーマーにおけるMLPの移動版として機能し、さらに大きなマージンによる計算を削減した。 包括的な実験により,提案するmocovitファミリーが,様々な視覚タスクにおいて最先端のポータブルcnnおよびトランスフォーマリンアーキテクチャよりも優れていることを確認した。 imagenet分類では、147mのフロップで74.5%のtop-1精度を達成し、少ない計算でmobilenetv3を1.2%上回った。 COCOオブジェクト検出タスクでは、MoCoViTはRetinaNetフレームワークでGhostNetの2.1 APを上回っている。

Recently, Transformer networks have achieved impressive results on a variety of vision tasks. However, most of them are computationally expensive and not suitable for real-world mobile applications. In this work, we present Mobile Convolutional Vision Transformer (MoCoViT), which improves in performance and efficiency by introducing transformer into mobile convolutional networks to leverage the benefits of both architectures. Different from recent works on vision transformer, the mobile transformer block in MoCoViT is carefully designed for mobile devices and is very lightweight, accomplished through two primary modifications: the Mobile Self-Attention (MoSA) module and the Mobile Feed Forward Network (MoFFN). MoSA simplifies the calculation of the attention map through Branch Sharing scheme while MoFFN serves as a mobile version of MLP in the transformer, further reducing the computation by a large margin. Comprehensive experiments verify that our proposed MoCoViT family outperform state-of-the-art portable CNNs and transformer neural architectures on various vision tasks. On ImageNet classification, it achieves 74.5% top-1 accuracy at 147M FLOPs, gaining 1.2% over MobileNetV3 with less computations. And on the COCO object detection task, MoCoViT outperforms GhostNet by 2.1 AP in RetinaNet framework.
翻訳日:2022-05-27 11:08:19 公開日:2022-05-26
# カテゴリー出力を持つシミュレーターベースモデルに対するJensen-Shannon発散による非パラメトリック測度自由推論

Nonparametric likelihood-free inference with Jensen-Shannon divergence for simulator-based models with categorical output ( http://arxiv.org/abs/2205.10890v2 )

ライセンス: Link先を確認
Jukka Corander and Ulpu Remes and Ida Holopainen and Timo Koski(参考訳) シミュレータに基づく統計モデルの確率論的推論は、機械学習と統計コミュニティの両方において、最近注目を集めている。 これらの研究分野の主な焦点は、様々な種類のモンテカルロサンプリングアルゴリズムまたはディープニューラルネットワークに基づくサロゲートモデルによって、モデルパラメータの後方分布を近似することである。 確率の暗黙の漸近近似が正確で計算効率のよい戦略を活用できるビッグデータのアプリケーションにとって特に適しているにもかかわらず、シミュレータベースのモデルの頻繁な推論は、これまであまり注目されていない。 ここでは、Jensen-Shannon発散の漸近特性を用いたモデルパラメータに対する推定、仮説テスト、信頼区間の構築を可能にする理論的結果のセットを導出する。 このような漸近近似は、より計算集約的なアプローチへの迅速な代替となり、シミュレータベースのモデルの多様な応用に魅力的である。 61

Likelihood-free inference for simulator-based statistical models has recently attracted a surge of interest, both in the machine learning and statistics communities. The primary focus of these research fields has been to approximate the posterior distribution of model parameters, either by various types of Monte Carlo sampling algorithms or deep neural network -based surrogate models. Frequentist inference for simulator-based models has been given much less attention to date, despite that it would be particularly amenable to applications with big data where implicit asymptotic approximation of the likelihood is expected to be accurate and can leverage computationally efficient strategies. Here we derive a set of theoretical results to enable estimation, hypothesis testing and construction of confidence intervals for model parameters using asymptotic properties of the Jensen--Shannon divergence. Such asymptotic approximation offers a rapid alternative to more computation-intensive approaches and can be attractive for diverse applications of simulator-based models. 61
翻訳日:2022-05-27 11:07:52 公開日:2022-05-26
# 不均一クライアントのためのフェデレーション自己教師型学習

Federated Self-supervised Learning for Heterogeneous Clients ( http://arxiv.org/abs/2205.12493v2 )

ライセンス: Link先を確認
Disha Makhija, Nhat Ho, Joydeep Ghosh(参考訳) 連合学習は,プライバシと計算上のメリットから,重要な学習パラダイムとなっている。 1) システムの不均一性 - 各クライアントに存在する計算リソースおよび/またはデータリソースの変動性、(2) 特定のフェデレートされた設定におけるラベル付きデータの欠如。 最近のいくつかの開発は、これらの課題を独立して克服しようと試みている。 本研究では,異種クライアント上でのフェデレーションによる自己教師型学習を可能にする,統一的かつ体系的な枠組みである「ヘテロ・SSFL」を提案する。 提案したフレームワークは、アーキテクチャ上の制約やラベル付きデータの存在を伴わずに、すべてのクライアントで協調的な表現学習を可能にする。 Hetero-SSFLのキーとなるアイデアは、各クライアントが独自の自己教師付きモデルをトレーニングし、共通データセット上の低次元表現を整列させることで、クライアント間の共同学習を可能にすることである。 トレーニング手順全体は、ローカルトレーニングとアライメントプロシージャの両方がラベル付きデータの存在を必要としないため、セルフおよびピア監視と見なすことができる。 従来の自己教師型学習と同様に、得られたクライアントモデルはタスク独立であり、様々なエンドタスクに使用できる。 我々は,不均一な環境での非凸目的に対する提案フレームワークの収束保証を提供するとともに,提案手法がアートメソッドの状態を著しく上回っていることを実証的に示す。

Federated Learning has become an important learning paradigm due to its privacy and computational benefits. As the field advances, two key challenges that still remain to be addressed are: (1) system heterogeneity - variability in the compute and/or data resources present on each client, and (2) lack of labeled data in certain federated settings. Several recent developments have tried to overcome these challenges independently. In this work, we propose a unified and systematic framework, \emph{Heterogeneous Self-supervised Federated Learning} (Hetero-SSFL) for enabling self-supervised learning with federation on heterogeneous clients. The proposed framework allows collaborative representation learning across all the clients without imposing architectural constraints or requiring presence of labeled data. The key idea in Hetero-SSFL is to let each client train its unique self-supervised model and enable the joint learning across clients by aligning the lower dimensional representations on a common dataset. The entire training procedure could be viewed as self and peer-supervised as both the local training and the alignment procedures do not require presence of any labeled data. As in conventional self-supervised learning, the obtained client models are task independent and can be used for varied end-tasks. We provide a convergence guarantee of the proposed framework for non-convex objectives in heterogeneous settings and also empirically demonstrate that our proposed approach outperforms the state of the art methods by a significant margin.
翻訳日:2022-05-27 11:07:35 公開日:2022-05-26
# (参考訳) 時間依存を伴う共形予測間隔

Conformal Prediction Intervals with Temporal Dependence ( http://arxiv.org/abs/2205.12940v2 )

ライセンス: CC BY 4.0
Zhen Lin, Shubhendu Trivedi, Jimeng Sun(参考訳) 横断的な予測は医療など多くの領域で一般的であり、電子健康記録を用いた予測タスクでは、異なる患者が横断する。 本稿では,時間列回帰における有効予測区間(PI)を横断的に構築する作業に着目する。 予測間隔は、(事前に指定された)高い確率で真の応答をカバーする場合に有効であると考えられる。 我々はまず、このような設定で妥当性の2つの概念を区別する:断面と縦断である。 縦断妥当性は時系列データの横断的妥当性に関係し, 縦断妥当性は時間次元に関係している。 両次元に沿ったカバレッジ保証は理想的には望ましいが,分布のない縦断的妥当性は理論的に不可能であることを示す。 この制限にもかかわらず, 縦断範囲を改善しつつ, 厳密な横断的妥当性を維持できる手法であるcptd (conformal prediction with temporal dependence) を提案する。 cptdはポストホックで軽量であり、キャリブレーションセットが利用可能である限り、任意の予測モデルと併用することができる。 時系列回帰の診断符号などの複雑なデータをモデル化し,提案手法の有効性を検証するための実験的な検証を行うことにより,ニューラルネットワークに注目する。 CPTDは、縦方向のカバレッジを改善し、しばしばより効率的な(より狭い)PIを提供することで、さまざまなデータセットのベースラインを上回ります。

Cross-sectional prediction is common in many domains such as healthcare, including forecasting tasks using electronic health records, where different patients form a cross-section. We focus on the task of constructing valid prediction intervals (PIs) in time-series regression with a cross-section. A prediction interval is considered valid if it covers the true response with (a pre-specified) high probability. We first distinguish between two notions of validity in such a setting: cross-sectional and longitudinal. Cross-sectional validity is concerned with validity across the cross-section of the time series data, while longitudinal validity accounts for the temporal dimension. Coverage guarantees along both these dimensions are ideally desirable; however, we show that distribution-free longitudinal validity is theoretically impossible. Despite this limitation, we propose Conformal Prediction with Temporal Dependence (CPTD), a procedure which is able to maintain strict cross-sectional validity while improving longitudinal coverage. CPTD is post-hoc and light-weight, and can easily be used in conjunction with any prediction model as long as a calibration set is available. We focus on neural networks due to their ability to model complicated data such as diagnosis codes for time-series regression, and perform extensive experimental validation to verify the efficacy of our approach. We find that CPTD outperforms baselines on a variety of datasets by improving longitudinal coverage and often providing more efficient (narrower) PIs.
翻訳日:2022-05-27 11:04:56 公開日:2022-05-26
# 残差高速フーリエ変換とwasserstein距離によるヒト画像合成の改善

Improving Human Image Synthesis with Residual Fast Fourier Transformation and Wasserstein Distance ( http://arxiv.org/abs/2205.12022v2 )

ライセンス: Link先を確認
Jianhan Wu, Shijing Si, Jianzong Wang, Jing Xiao(参考訳) メタバースの急速な発展に伴い、仮想人間が出現し、ポーズ転送などの人間の画像合成や編集技術が最近普及している。 既存の技術のほとんどはGANに依存しており、大きな変種やオクルージョンでも優れた人間の画像を生成することができる。 第一に、合成画像のレンダリング効果は現実的ではなく、例えば、ある領域のレンダリングが貧弱であるなどである。 2つ目は、GANのトレーニングが不安定で、モデル崩壊のような収束が遅いことである。 上記の2つの問題に基づいて,その解決方法をいくつか提案する。 レンダリング効果を改善するために、従来のResidual Blockを置き換えるためにResidual Fast Fourier Transform Blockを使用します。 次に、ganトレーニングの速度と安定性を向上させるために、スペクトル正規化とwasserstein距離を用いる。 実験により,提案手法は上記の問題の解決に有効であることが示され,LPIPSとPSNRの最先端スコアが得られた。

With the rapid development of the Metaverse, virtual humans have emerged, and human image synthesis and editing techniques, such as pose transfer, have recently become popular. Most of the existing techniques rely on GANs, which can generate good human images even with large variants and occlusions. But from our best knowledge, the existing state-of-the-art method still has the following problems: the first is that the rendering effect of the synthetic image is not realistic, such as poor rendering of some regions. And the second is that the training of GAN is unstable and slow to converge, such as model collapse. Based on the above two problems, we propose several methods to solve them. To improve the rendering effect, we use the Residual Fast Fourier Transform Block to replace the traditional Residual Block. Then, spectral normalization and Wasserstein distance are used to improve the speed and stability of GAN training. Experiments demonstrate that the methods we offer are effective at solving the problems listed above, and we get state-of-the-art scores in LPIPS and PSNR.
翻訳日:2022-05-27 10:37:55 公開日:2022-05-26
# インセプショントランスフォーマ

Inception Transformer ( http://arxiv.org/abs/2205.12956v2 )

ライセンス: Link先を確認
Chenyang Si, Weihao Yu, Pan Zhou, Yichen Zhou, Xinchao Wang, Shuicheng Yan(参考訳) 近年の研究では、Transformerは長距離依存の構築能力は高いが、ローカル情報を主に伝達する高周波数の取得には無力であることが示されている。 そこで本稿では,高頻度情報と低周波数情報の両方を用いた総合的特徴を効果的に学習する,新しい汎用インセプショントランスフォーマ(iformer)を提案する。 具体的には,インセプションミキサーの設計を行い,畳み込みと最大プールの利点を明示し,高周波情報をトランスフォーマーにキャプチャする。 最近のハイブリッドフレームワークと異なり、インセプションミキサーはチャネル分割機構を通じて高い周波数範囲に分散した識別情報をモデル化する柔軟性を持ちながら、並列畳み込み/最大プールパスと自己保持パスを高周波数および低周波数ミキサーとして採用する。 また,低周波大域情報をモデル化する上で,低周波の詳細を捉える上でボトム層が果たす役割が大きいことを考慮し,低周波ミキサーに供給される寸法を徐々に減少させ,低周波ミキサーに増加させる周波数ランプ構造を導入することで,高周波成分と低周波成分を異なる層間で効果的にトレードオフさせることができる。 我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。 例えば、私たちのiFormer-SはImageNet-1Kで83.4%の精度で、DeiT-Sよりも3.6%高く、1/4のパラメータと1/3のFLOPしか持たないSwin-B(83.3%)よりも若干良い。 コードとモデルはhttps://github.com/sail-sg/iformerでリリースされる。

Recent studies show that Transformer has strong capability of building long-range dependencies, yet is incompetent in capturing high frequencies that predominantly convey local information. To tackle this issue, we present a novel and general-purpose Inception Transformer, or iFormer for short, that effectively learns comprehensive features with both high- and low-frequency information in visual data. Specifically, we design an Inception mixer to explicitly graft the advantages of convolution and max-pooling for capturing the high-frequency information to Transformers. Different from recent hybrid frameworks, the Inception mixer brings greater efficiency through a channel splitting mechanism to adopt parallel convolution/max-pooling path and self-attention path as high- and low-frequency mixers, while having the flexibility to model discriminative information scattered within a wide frequency range. Considering that bottom layers play more roles in capturing high-frequency details while top layers more in modeling low-frequency global information, we further introduce a frequency ramp structure, i.e. gradually decreasing the dimensions fed to the high-frequency mixer and increasing those to the low-frequency mixer, which can effectively trade-off high- and low-frequency components across different layers. We benchmark the iFormer on a series of vision tasks, and showcase that it achieves impressive performance on image classification, COCO detection and ADE20K segmentation. For example, our iFormer-S hits the top-1 accuracy of 83.4% on ImageNet-1K, much higher than DeiT-S by 3.6%, and even slightly better than much bigger model Swin-B (83.3%) with only 1/4 parameters and 1/3 FLOPs. Code and models will be released at https://github.com/sail-sg/iFormer.
翻訳日:2022-05-27 10:37:38 公開日:2022-05-26
# UniInst: エンドツーエンドインスタンスセグメンテーションのためのユニークな表現

UniInst: Unique Representation for End-to-End Instance Segmentation ( http://arxiv.org/abs/2205.12646v2 )

ライセンス: Link先を確認
Yimin Ou, Rui Yang, Lufan Ma, Yong Liu, Jiangpeng Yan, Shang Xu, Chengjie Wang, Xiu Li(参考訳) 既存のインスタンスセグメンテーション法は印象的な性能を達成しているが、それでも共通のジレンマに悩まされている: 冗長表現(例えば、複数のボックス、グリッド、アンカーポイント)は1つのインスタンスに対して推論され、複数の重複予測をもたらす。 したがって、主流の手法は通常、最適な予測結果を選択するために手動設計の非最大抑圧(NMS)後処理ステップに依存しており、エンドツーエンドのトレーニングを妨げている。 この問題に対処するために、各インスタンスに対して1つのユニークな表現しか得られない、ボックスフリーかつnmsフリーのエンドツーエンドインスタンスセグメンテーションフレームワーク、uniinstを提案する。 具体的には,各インスタンスに1つのユニークな表現を,予測と基底真理の一致した品質に応じて動的に割り当てる,インスタンス対応の1対1の代入スキーム(OYOR)を設計する。 そして、新しい予測再ランキング戦略をフレームワークにエレガントに統合し、分類スコアとマスク品質のずれに対処することにより、学習した表現をより判別することができる。 これらの技術により、最初のFCNベースのエンドツーエンドインスタンスセグメンテーションフレームワークであるUniInstは、ResNet-50-FPNを使用した39.0マスクAPと、ResNet-101-FPNを使用した40.2マスクAPと、COCOテスト-devのメインストリームメソッドに対する競合的なパフォーマンスを実現する。 さらに,提案手法は閉塞シーンに対して頑健であり,OCHumanベンチマークにおいて顕著なマスクAPにより共通のベースラインを上回っている。 私たちのコードは出版時に利用可能になります。

Existing instance segmentation methods have achieved impressive performance but still suffer from a common dilemma: redundant representations (e.g., multiple boxes, grids, and anchor points) are inferred for one instance, which leads to multiple duplicated predictions. Thus, mainstream methods usually rely on a hand-designed non-maximum suppression (NMS) post-processing step to select the optimal prediction result, which hinders end-to-end training. To address this issue, we propose a box-free and NMS-free end-to-end instance segmentation framework, termed UniInst, that yields only one unique representation for each instance. Specifically, we design an instance-aware one-to-one assignment scheme, namely Only Yield One Representation (OYOR), which dynamically assigns one unique representation to each instance according to the matching quality between predictions and ground truths. Then, a novel prediction re-ranking strategy is elegantly integrated into the framework to address the misalignment between the classification score and the mask quality, enabling the learned representation to be more discriminative. With these techniques, our UniInst, the first FCN-based end-to-end instance segmentation framework, achieves competitive performance, e.g., 39.0 mask AP using ResNet-50-FPN and 40.2 mask AP using ResNet-101-FPN, against mainstream methods on COCO test-dev. Moreover, the proposed instance-aware method is robust to occlusion scenes, outperforming common baselines by remarkable mask AP on the heavily-occluded OCHuman benchmark. Our codes will be available upon publication.
翻訳日:2022-05-27 10:36:59 公開日:2022-05-26
# coldguess: コールドスタートケースに取り組むための汎用的かつ効果的な関係グラフ畳み込みネットワーク

ColdGuess: A General and Effective Relational Graph Convolutional Network to Tackle Cold Start Cases ( http://arxiv.org/abs/2205.12318v2 )

ライセンス: Link先を確認
Bo He, Xiang Song, Vincent Gao, Christos Faloutsos(参考訳) オンライン小売サイトにおける低品質なリスティングと悪質なアクタの行動は、eコマースビジネスを脅かしている。 新しいリスティングが作成されると、どのようにして高品質であると判断するか? メソッドは効率的で、高速で、スケーラブルか? 従来のアプローチでは,(1)新規セラーやリストが販売履歴に不足するコールドスタート問題に対処することができない,という3つの制限/課題がある。 2) 大規模に数億のリスティングを評価できないこと、あるいはスケーラビリティのためにパフォーマンスを損なうこと。 (3)巨大なeコマースビジネス規模を持つ大規模グラフから空間的な課題がある。 このような制限や混乱を克服するため,我々は,不均一な販売者製品グラフ上に構築されたインダクティブグラフベースのリスク予測器であるColdGuessを提案した。 coldguessは統合ノードによる大規模グラフに取り組み、均質なインフルエンス1を使ってコールドスタート問題に対処する。 実データの評価は、coldguessが未知の機能の数が増えるにつれて安定したパフォーマンスを持つことを示している。 新規販売者が新製品を販売する際に、冷間始動ケースにおいて、ライトgbm2を最大34pcpのROC−AUCで上回る。 結果のシステムであるColdGuessは、リスクの高い売り手行動に効果的で適応可能で、すでに生産中である

Low-quality listings and bad actor behavior in online retail websites threatens e-commerce business as these result in sub-optimal buying experience and erode customer trust. When a new listing is created, how to tell it has good-quality? Is the method effective, fast, and scalable? Previous approaches often have three limitations/challenges: (1) unable to handle cold start problems where new sellers/listings lack sufficient selling histories. (2) inability of scoring hundreds of millions of listings at scale, or compromise performance for scalability. (3) has space challenges from large-scale graph with giant e-commerce business size. To overcome these limitations/challenges, we proposed ColdGuess, an inductive graph-based risk predictor built upon a heterogeneous seller product graph, which effectively identifies risky seller/product/listings at scale. ColdGuess tackles the large-scale graph by consolidated nodes, and addresses the cold start problems using homogeneous influence1. The evaluation on real data demonstrates that ColdGuess has stable performance as the number of unknown features increases. It outperforms the lightgbm2 by up to 34 pcp ROC-AUC in a cold start case when a new seller sells a new product . The resulting system, ColdGuess, is effective, adaptable to changing risky seller behavior, and is already in production
翻訳日:2022-05-27 10:36:25 公開日:2022-05-26
# 拡張誘起一貫性規則化による分類

Augmentation-induced Consistency Regularization for Classification ( http://arxiv.org/abs/2205.12461v2 )

ライセンス: Link先を確認
Jianhan Wu, Shijing Si, Jianzong Wang, Jing Xiao(参考訳) ディープニューラルネットワークは多くの教師付き学習タスクで人気になっているが、トレーニングデータセットが制限された場合、過度に適合する。 これを軽減するために、多くの研究者がデータ拡張(data augmentation)を使用しており、これは多種多様なデータセットを増やすために広く使われ、効果的な方法である。 しかし、データ拡張によって引き起こされるランダム性は、トレーニングと推論の矛盾を必然的に生み出すため、改善は不十分である。 本稿では,データ拡張によって生成された異なるサブモデルの出力分布を相互に一貫性を持たせるために,cr-augと呼ばれるデータ拡張に基づく一貫性規則化フレームワークを提案する。 具体的には、CR-Augは、各サンプルの2つの拡張バージョンの出力分布の相違を評価し、一貫性損失を最小限に抑えるために停止段階演算を利用する。 画像および音声の分類タスクにCR-Augを実装し,その有効性を検証し,分類器の一般化能力を向上させる。 私たちのCR-Augフレームワークは使いやすく、多くの最先端のネットワークアーキテクチャに容易に適用できます。 実験の結果,CR-Augはベースライン法よりも有意に優れていた。

Deep neural networks have become popular in many supervised learning tasks, but they may suffer from overfitting when the training dataset is limited. To mitigate this, many researchers use data augmentation, which is a widely used and effective method for increasing the variety of datasets. However, the randomness introduced by data augmentation causes inevitable inconsistency between training and inference, which leads to poor improvement. In this paper, we propose a consistency regularization framework based on data augmentation, called CR-Aug, which forces the output distributions of different sub models generated by data augmentation to be consistent with each other. Specifically, CR-Aug evaluates the discrepancy between the output distributions of two augmented versions of each sample, and it utilizes a stop-gradient operation to minimize the consistency loss. We implement CR-Aug to image and audio classification tasks and conduct extensive experiments to verify its effectiveness in improving the generalization ability of classifiers. Our CR-Aug framework is ready-to-use, it can be easily adapted to many state-of-the-art network architectures. Our empirical results show that CR-Aug outperforms baseline methods by a significant margin.
翻訳日:2022-05-27 10:36:00 公開日:2022-05-26
# 因果介入による自然言語攻撃に対する認証ロバスト性

Certified Robustness Against Natural Language Attacks by Causal Intervention ( http://arxiv.org/abs/2205.12331v2 )

ライセンス: Link先を確認
Haiteng Zhao, Chang Ma*, Xinshuai Dong, Anh Tuan Luu, Zhi-Hong Deng, Hanwang Zhang(参考訳) ディープラーニングモデルは多くの分野で大きな成功を収めてきたが、敵の例には弱い。 本稿では,敵対的脆弱性を検討するための因果的視点に従い,自然言語攻撃に対する堅牢性に向けた新たな枠組みであるセマンティック・スムーシング(CISS)による因果的介入を提案する。 単に観測データを調整するのではなく、CISSは潜伏意味空間を滑らかにすることで因果効果p(y|do(x))を学び、より深いアーキテクチャにスケールし、特定の攻撃用にカスタマイズされたノイズの退屈な構築を避ける。 CISSは単語置換攻撃に対して確実に堅牢であり、未知の攻撃アルゴリズムによって摂動が強化されたとしても経験的に堅牢である。 例えば、YELPでは、CISSは単語置換に対する認証された堅牢性の観点から6.7%超え、構文攻撃が統合されると79.4%の実証的堅牢性を達成する。

Deep learning models have achieved great success in many fields, yet they are vulnerable to adversarial examples. This paper follows a causal perspective to look into the adversarial vulnerability and proposes Causal Intervention by Semantic Smoothing (CISS), a novel framework towards robustness against natural language attacks. Instead of merely fitting observational data, CISS learns causal effects p(y|do(x)) by smoothing in the latent semantic space to make robust predictions, which scales to deep architectures and avoids tedious construction of noise customized for specific attacks. CISS is provably robust against word substitution attacks, as well as empirically robust even when perturbations are strengthened by unknown attack algorithms. For example, on YELP, CISS surpasses the runner-up by 6.7% in terms of certified robustness against word substitutions, and achieves 79.4% empirical robustness when syntactic attacks are integrated.
翻訳日:2022-05-27 10:35:39 公開日:2022-05-26
# 連帯学習におけるバックドア攻撃に対する防御に向けて

Towards a Defense against Backdoor Attacks in Continual Federated Learning ( http://arxiv.org/abs/2205.11736v2 )

ライセンス: Link先を確認
Shuaiqi Wang, Jonathan Hayase, Giulia Fanti, Sewoong Oh(参考訳) バックドアアタックは、長期にわたる信頼できないクライアント(すなわち継続的学習)からトレーニングデータが引き出される、連邦学習(FL)パイプラインにおいて大きな関心事である。 FLのディフェンダーは生のトレーニングデータにアクセスできないため、このような攻撃を防ぐのは難しい。 さらに、バックドアリークと呼ばれる現象では、継続的に訓練されたモデルは、バックドア防御機構の累積誤差により、最終的にバックドアに悩まされる。 連合型連続学習環境におけるバックドア攻撃を防御する新しい枠組みを提案する。 私たちのフレームワークは、バックボーンモデルとシャドーモデルという2つのモデルを並行してトレーニングします。 バックボーンは防御機構なしでトレーニングされ、メインタスクで優れたパフォーマンスを得る。 シャドウモデルは、データ分散が変化しても攻撃成功率を制御するために、ロバストな共分散推定に基づくフィルタの最近のアイデアと早期ストラップを組み合わせる。 この設計に理論的動機を与え、我々のフレームワークがバックドア攻撃に対する既存の防御を大幅に改善できることを実験的に示します。

Backdoor attacks are a major concern in federated learning (FL) pipelines where training data is sourced from untrusted clients over long periods of time (i.e., continual learning). Preventing such attacks is difficult because defenders in FL do not have access to raw training data. Moreover, in a phenomenon we call backdoor leakage, models trained continuously eventually suffer from backdoors due to cumulative errors in backdoor defense mechanisms. We propose a novel framework for defending against backdoor attacks in the federated continual learning setting. Our framework trains two models in parallel: a backbone model and a shadow model. The backbone is trained without any defense mechanism to obtain good performance on the main task. The shadow model combines recent ideas from robust covariance estimation-based filters with early-stopping to control the attack success rate even as the data distribution changes. We provide theoretical motivation for this design and show experimentally that our framework significantly improves upon existing defenses against backdoor attacks.
翻訳日:2022-05-27 10:35:20 公開日:2022-05-26