このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220625となっている論文です。

PDF登録状況(公開日: 20220625)

TitleAuthorsAbstract論文公表日・翻訳日
# 潜在トピック、感情、感情属性を備えたcovid-19 twitterデータセット

COVID-19 Twitter Dataset with Latent Topics, Sentiments and Emotions Attributes ( http://arxiv.org/abs/2007.06954v8 )

ライセンス: Link先を確認
Raj Kumar Gupta, Ajay Vishwanath, Yinping Yang(参考訳) 本稿は、Twitterプラットフォーム上でのCOVID-19パンデミックに対する人々の言論と対応に関する大規模なグローバルデータセットについて述べる。 2020年1月28日から2022年6月1日まで、私たちは2億2200万以上のユニークユーザーから、"corona"、"wuhan"、"nCov"、"covid"の4つのキーワードを使用して、2900万以上のTwitter投稿を収集し、処理しました。 確率的トピックモデリングと機械学習に基づく感情認識アルゴリズムを活用して,各ツイートに17の属性をラベル付けした。 a) ツイートの関連性を示す10のバイナリ属性(1)又は(0)が検出された上位10のトピックに関するもの b) 原子価又は感情の強さの程度を示す5つの定量的感情属性(0:極端に否定的から1:極端に肯定的)及び恐怖、怒り、悲しみ、幸福の強さの程度(0:全くないから1:極端に激しい) c) 感情(非常に否定的、否定的、中性的、混合的、肯定的、非常に肯定的)と支配的感情(恐怖、怒り、悲しみ、幸福、特定の感情を伴わない。)を示す2つのカテゴリーの属性は、主に表現されている。 技術的妥当性を議論し,これらの属性の記述統計,時間分布,地理的表現について報告する。 この論文は、コミュニケーション、心理学、公衆衛生、経済学、疫学におけるデータセットの使用に関する議論から締めくくっている。

This paper describes a large global dataset on people's discourse and responses to the COVID-19 pandemic over the Twitter platform. From 28 January 2020 to 1 June 2022, we collected and processed over 252 million Twitter posts from more than 29 million unique users using four keywords: "corona", "wuhan", "nCov" and "covid". Leveraging probabilistic topic modelling and pre-trained machine learning-based emotion recognition algorithms, we labelled each tweet with seventeen attributes, including a) ten binary attributes indicating the tweet's relevance (1) or irrelevance (0) to the top ten detected topics, b) five quantitative emotion attributes indicating the degree of intensity of the valence or sentiment (from 0: extremely negative to 1: extremely positive) and the degree of intensity of fear, anger, sadness and happiness emotions (from 0: not at all to 1: extremely intense), and c) two categorical attributes indicating the sentiment (very negative, negative, neutral or mixed, positive, very positive) and the dominant emotion (fear, anger, sadness, happiness, no specific emotion) the tweet is mainly expressing. We discuss the technical validity and report the descriptive statistics of these attributes, their temporal distribution, and geographic representation. The paper concludes with a discussion of the dataset's usage in communication, psychology, public health, economics, and epidemiology.
翻訳日:2022-11-10 15:08:29 公開日:2022-06-25
# ランダムウォークフィードバックによるマルチアームバンディットの基本限界に向けて

Towards Fundamental Limits of Multi-armed Bandits with Random Walk Feedback ( http://arxiv.org/abs/2011.01445v7 )

ライセンス: Link先を確認
Tianyu Wang, Lin F. Yang, Zizhuo Wang(参考訳) 本稿では,未知で変化する可能性のあるグラフ内のノードをアームとするマルチアームドバンディット(mab)問題とエージェントについて検討する。 (i)腕を引いてランダムにグラフの上を歩く。 (ii)ランダムウォークの軌跡を観察し、 (三)散歩の長さに匹敵する報酬を受ける。 我々は,確率的および対角的設定の両方を研究することにより,この問題の包括的理解を提供する。 情報理論的な意味では、この問題は通常のmabよりも容易ではないが、ランダムウォークの軌跡から追加情報が得られる。 この問題に対するバンディットアルゴリズムの挙動も研究されている。

In this paper, we consider a new Multi-Armed Bandit (MAB) problem where arms are nodes in an unknown and possibly changing graph, and the agent (i) initiates random walks over the graph by pulling arms, (ii) observes the random walk trajectories, and (iii) receives rewards equal to the lengths of the walks. We provide a comprehensive understanding of this problem by studying both the stochastic and the adversarial setting. We show that this problem is not easier than a standard MAB in an information theoretical sense, although additional information is available through random walk trajectories. Behaviors of bandit algorithms on this problem are also studied.
翻訳日:2022-09-30 05:27:05 公開日:2022-06-25
# (参考訳) 侵入検知システムにおける深部教師なし学習アルゴリズムのロバスト性評価

Robustness Evaluation of Deep Unsupervised Learning Algorithms for Intrusion Detection Systems ( http://arxiv.org/abs/2207.03576v1 )

ライセンス: CC BY 4.0
D'Jeff Kanda Nkashama, Arian Soltani, Jean-Charles Verdier, Marc Frappier, Pierre-Marting Tardif, Froduald Kabanza(参考訳) 近年,コンピュータビジョン,自然言語処理,サイバーセキュリティなど,さまざまな分野でディープラーニングの進歩が観察されている。 機械学習(ml)は、異常検出に基づく侵入検知システムによる安全なコンピュータネットワーク構築のための潜在的なツールとしての能力を実証した。 MLアプローチは、データから直接学習するため、サイバーセキュリティに対するヒューリスティックアプローチよりも広く採用されている。 データはMLシステムの開発に不可欠であり、アタッカーの潜在的なターゲットとなる。 データ中毒や汚染は、データを通してMLモデルを騙すのに最も一般的なテクニックの1つである。 本稿では,最近の6つの深層学習アルゴリズムによる汚染データへの侵入検出のロバスト性を評価する。 本研究では,新しいモデル,特に侵入検知システムの開発において,データ汚染に敏感な最先端アルゴリズムが,データの摂動に対する自己防衛の重要性を明らかにした。

Recently, advances in deep learning have been observed in various fields, including computer vision, natural language processing, and cybersecurity. Machine learning (ML) has demonstrated its ability as a potential tool for anomaly detection-based intrusion detection systems to build secure computer networks. Increasingly, ML approaches are widely adopted than heuristic approaches for cybersecurity because they learn directly from data. Data is critical for the development of ML systems, and becomes potential targets for attackers. Basically, data poisoning or contamination is one of the most common techniques used to fool ML models through data. This paper evaluates the robustness of six recent deep learning algorithms for intrusion detection on contaminated data. Our experiments suggest that the state-of-the-art algorithms used in this study are sensitive to data contamination and reveal the importance of self-defense against data perturbation when developing novel models, especially for intrusion detection systems.
翻訳日:2022-07-17 20:18:55 公開日:2022-06-25
# (参考訳) サンプリング効果の補正アルゴリズムとその応用

Correction Algorithm of Sampling Effect and Its Application ( http://arxiv.org/abs/2207.00004v1 )

ライセンス: CC BY 4.0
Yunqi Sun, Jianfeng Zhou(参考訳) 撮像取得装置のサンプリング効果は、入力信号の変調処理であると考えられており、信号取得プロセスに追加の誤差が生じる。 本稿では,サンプリング効果を高精度に解いた変調過程の補正アルゴリズムを提案する。 このアルゴリズムは,完全連続ガウス画像と選択されたデジタル画像を用いて検討し,ガウス画像の106倍,シャノン補間の15倍,シャノン補間の101倍の105倍の精度向上を示す。 ガウス像の精度限界は切断誤差によるが、デジタル画像の精度限界は有限分解によるものであり、シャノン補間時間を増加させることで改善できる。

The sampling effect of the imaging acquisition device is long considered to be a modulation process of the input signal, introducing additional error into the signal acquisition process. This paper proposes a correction algorithm for the modulation process that solves the sampling effect with high accuracy. We examine the algorithm with perfect continuous Gaussian images and selected digitized images, which indicate an accuracy increase of 106 for Gaussian images, 102 at 15 times of Shannon interpolation for digitized images, and 105 at 101 times of Shannon interpolation for digitized images. The accuracy limit of the Gaussian image comes from the truncation error, while the accuracy limit of the digitized images comes from their finite resolution, which can be improved by increasing the time of Shannon interpolation.
翻訳日:2022-07-10 14:17:41 公開日:2022-06-25
# (参考訳) cactus機構:大規模コンポジション体制における最適微分プライバシー機構

Cactus Mechanisms: Optimal Differential Privacy Mechanisms in the Large-Composition Regime ( http://arxiv.org/abs/2207.00420v1 )

ライセンス: CC BY 4.0
Wael Alghamdi, Shahab Asoodeh, Flavio P. Calmon, Oliver Kosut, Lalitha Sankar, Fei Wei(参考訳) ほとんどの差分プライバシメカニズムは、機密データに何度も適用される(すなわち、構成される)。 本稿では,多数の構成の限界における最適微分プライバシー機構の設計について検討する。 多数の法則の結果として、この体制では、最高のプライバシメカニズムは、2つの異なる入力が与えられたメカニズムの条件出力分布間のクルバック・リーバーのばらつきを最小限にするものである。 ノイズのコスト制約を考慮したこの分岐を最小化するための最適化問題を定式化する。 まず、加法機構が最適であることを示す。 最適化問題は無限次元であるため、直接解くことはできない。しかしながら、その形状から「カクタス機構」と呼ばれる近似光学的加法機構を導出するために問題を定量化する。 我々は、量子化アプローチが最適なメカニズムに任意に近づくことができることを示す。 驚くべきことに、二次コストの場合、ガウスのメカニズムは、このカクタスのメカニズムと比較して厳密には最適である。 最後に,有限個の組成に対してカクタス機構がガウス機構を上回ることを示す数値的な結果を与える。

Most differential privacy mechanisms are applied (i.e., composed) numerous times on sensitive data. We study the design of optimal differential privacy mechanisms in the limit of a large number of compositions. As a consequence of the law of large numbers, in this regime the best privacy mechanism is the one that minimizes the Kullback-Leibler divergence between the conditional output distributions of the mechanism given two different inputs. We formulate an optimization problem to minimize this divergence subject to a cost constraint on the noise. We first prove that additive mechanisms are optimal. Since the optimization problem is infinite dimensional, it cannot be solved directly; nevertheless, we quantize the problem to derive near-optimal additive mechanisms that we call "cactus mechanisms" due to their shape. We show that our quantization approach can be arbitrarily close to an optimal mechanism. Surprisingly, for quadratic cost, the Gaussian mechanism is strictly sub-optimal compared to this cactus mechanism. Finally, we provide numerical results which indicate that cactus mechanism outperforms the Gaussian mechanism for a finite number of compositions.
翻訳日:2022-07-10 14:09:38 公開日:2022-06-25
# (参考訳) 公共政策による人間と人工知能の連携

Aligning Artificial Intelligence with Humans through Public Policy ( http://arxiv.org/abs/2207.01497v1 )

ライセンス: CC BY 4.0
John Nay, James Daily(参考訳) 人工知能(AI)が私たちの生活に浸透することを考えると、AIの目的と人間の目標と価値を体系的に整合させることが重要です。 人間とAIのアライメント問題は、AIモデルが世界のすべての関連州で受けられるすべての行動に対して受け取るべき報酬を明確に指定する非現実性に起因している。 可能な解決策のひとつは、aiモデルの能力を活用して、さまざまなコンテキストにおける人間の価値を記述する豊富なデータソースから暗黙的にその報酬を学習することだ。 民主的な政策立案プロセスは、特定の規則、柔軟な基準、解釈可能なガイドライン、そして世界の多くの州で取られる潜在的な行動に対する市民の選好を合成する一般化可能な前例を開発することによって、そのようなデータのみを生産する。 したがって、AIシステムに適合するように公開ポリシーを計算的に符号化することは、より広範なAIアライメントパズルに対する社会技術的アプローチの重要な部分であるべきである。 このEssayは、下流のタスクに活用できるポリシーデータの構造を学ぶAIの研究の概要を示す。 aiが政策を理解する能力の実証として、提案法が公に取引された企業と関連性を予測し、その企業への影響を予測できるaiシステムのケーススタディを提供する。 これはAIとポリシーの"理解"フェーズを表していると私たちは信じていますが、AIを整合させるために人的価値の重要な源としてポリシーを活用するには、"理解"ポリシーが必要です。 アライメント問題の解決は、AIが個人(またはAIをデプロイするグループ)と社会的の両方にとって有益であることを保証するために不可欠である。 これらのシステムに民主的な政策を統合することで、常に進化する社会に反応する方法で、彼らの行動と人間の目標を一致させることができる。

Given that Artificial Intelligence (AI) increasingly permeates our lives, it is critical that we systematically align AI objectives with the goals and values of humans. The human-AI alignment problem stems from the impracticality of explicitly specifying the rewards that AI models should receive for all the actions they could take in all relevant states of the world. One possible solution, then, is to leverage the capabilities of AI models to learn those rewards implicitly from a rich source of data describing human values in a wide range of contexts. The democratic policy-making process produces just such data by developing specific rules, flexible standards, interpretable guidelines, and generalizable precedents that synthesize citizens' preferences over potential actions taken in many states of the world. Therefore, computationally encoding public policies to make them legible to AI systems should be an important part of a socio-technical approach to the broader human-AI alignment puzzle. This Essay outlines research on AI that learn structures in policy data that can be leveraged for downstream tasks. As a demonstration of the ability of AI to comprehend policy, we provide a case study of an AI system that predicts the relevance of proposed legislation to any given publicly traded company and its likely effect on that company. We believe this represents the "comprehension" phase of AI and policy, but leveraging policy as a key source of human values to align AI requires "understanding" policy. Solving the alignment problem is crucial to ensuring that AI is beneficial both individually (to the person or group deploying the AI) and socially. As AI systems are given increasing responsibility in high-stakes contexts, integrating democratically-determined policy into those systems could align their behavior with human goals in a way that is responsive to a constantly evolving society.
翻訳日:2022-07-10 14:08:34 公開日:2022-06-25
# (参考訳) 画像検索のための逆semantic-index

Inverted Semantic-Index for Image Retrieval ( http://arxiv.org/abs/2206.12623v1 )

ライセンス: CC BY 4.0
Ying Wang(参考訳) 本稿では,大規模画像検索のための逆インデックスの構築について述べる。 j. sivic が提案した逆インデックスは、データベースのほんの一部で距離計算を減らすことで大きな加速をもたらす。 最先端の逆インデックスは、簡潔で正確な候補リストを生成する、より細かいパーティションを構築することを目的としている。 しかし、これらのフレームワークのパーティショニングは一般的に、イメージの意味情報を無視する教師なしクラスタリング手法によって達成される。 本稿では,コードブック構築中に,クラスタリング手法を画像分類に置き換える。 次に,逆セマンティクスインデックスでは分割数が変更できないという問題を解決するため,マージ・分割法を提案する。 次に、PQ圧縮による精度損失を軽減するために、セマンティックインデックスと製品量子化(PQ)を組み合わせる。 最後に,大規模画像検索ベンチマークによる評価を行った。 実験の結果,高品質候補リスト生成による検索精度の向上が期待できることがわかった。

This paper addresses the construction of inverted index for large-scale image retrieval. The inverted index proposed by J. Sivic brings a significant acceleration by reducing distance computations with only a small fraction of the database. The state-of-the-art inverted indices aim to build finer partitions that produce a concise and accurate candidate list. However, partitioning in these frameworks is generally achieved by unsupervised clustering methods which ignore the semantic information of images. In this paper, we replace the clustering method with image classification, during the construction of codebook. We then propose a merging and splitting method to solve the problem that the number of partitions is unchangeable in the inverted semantic-index. Next, we combine our semantic-index with the product quantization (PQ) so as to alleviate the accuracy loss caused by PQ compression. Finally, we evaluate our model on large-scale image retrieval benchmarks. Experiment results demonstrate that our model can significantly improve the retrieval accuracy by generating high-quality candidate lists.
翻訳日:2022-07-03 23:23:25 公開日:2022-06-25
# (参考訳) スパイクニューラルネットワークにおける神経修飾シナプス可塑性によるオンライン学習

Learning to learn online with neuromodulated synaptic plasticity in spiking neural networks ( http://arxiv.org/abs/2206.12520v1 )

ライセンス: CC BY 4.0
Samuel Schmidgall, Joe Hays(参考訳) 機械学習に対する神経科学の理解を活用するためには、まず脳に似た学習モデルを訓練するための強力なツールが必要である。 脳における学習のダイナミクスを理解するための大きな進歩はあったが、神経科学から派生した学習モデルは、勾配降下のような深層学習の方法と同じ性能をまだ示していない。 勾配勾配を用いた機械学習の成功に触発されて,神経科学からのシナプス可塑性のモデルがスパイキングニューラルネットワーク(SNN)で学習し,勾配勾配から学習し,困難なオンライン学習問題に対処できることを実証した。 このフレームワークは、神経科学に触発されたオンライン学習アルゴリズムを開発するための新しい道を開く。

We propose that in order to harness our understanding of neuroscience toward machine learning, we must first have powerful tools for training brain-like models of learning. Although substantial progress has been made toward understanding the dynamics of learning in the brain, neuroscience-derived models of learning have yet to demonstrate the same performance capabilities as methods in deep learning such as gradient descent. Inspired by the successes of machine learning using gradient descent, we demonstrate that models of neuromodulated synaptic plasticity from neuroscience can be trained in Spiking Neural Networks (SNNs) with a framework of learning to learn through gradient descent to address challenging online learning problems. This framework opens a new path toward developing neuroscience inspired online learning algorithms.
翻訳日:2022-07-03 09:19:28 公開日:2022-06-25
# (参考訳) スマートグリッドにおけるサイバー攻撃局在のための無限インパルス応答グラフニューラルネットワーク

Infinite Impulse Response Graph Neural Networks for Cyberattack Localization in Smart Grids ( http://arxiv.org/abs/2206.12527v1 )

ライセンス: CC BY 4.0
Osman Boyaci, M. Rasoul Narimani, Katherine Davis, and Erchin Serpedin(参考訳) Infinite Impulse Response (IIR) Graph Neural Networks (GNN)を用いて、スマートグリッドデータ固有のグラフネットワーク構造を効率的にモデル化し、サイバー攻撃のローカライゼーション問題に対処する。 まず, 有限インパルス応答 (FIR) と IIR グラフフィルタ (GF) の実験的周波数応答を数値解析し, 理想的なスペクトル応答を近似する。 IIR GF は、同じフィルタ順序に対して、所望のスペクトル応答に対してより良い近似を提供し、また、その有理型フィルタ応答により、低次GF に対して同じ近似レベルを示すことを示す。 第2に,バスレベルにおけるサイバー攻撃の存在を効率的に予測するIIR GNNモデルを提案する。 最後に、サンプルワイド(SW)レベルとバスワイド(BW)レベルの両方で様々なサイバー攻撃によるモデルの評価を行い、既存のアーキテクチャと比較した。 提案手法は, SWおよびBWの局所化において, 最先端のFIR GNNモデルよりも9.2%, 14%高い性能を示した。

This study employs Infinite Impulse Response (IIR) Graph Neural Networks (GNN) to efficiently model the inherent graph network structure of the smart grid data to address the cyberattack localization problem. First, we numerically analyze the empirical frequency response of the Finite Impulse Response (FIR) and IIR graph filters (GFs) to approximate an ideal spectral response. We show that, for the same filter order, IIR GFs provide a better approximation to the desired spectral response and they also present the same level of approximation to a lower order GF due to their rational type filter response. Second, we propose an IIR GNN model to efficiently predict the presence of cyberattacks at the bus level. Finally, we evaluate the model under various cyberattacks at both sample-wise (SW) and bus-wise (BW) level, and compare the results with the existing architectures. It is experimentally verified that the proposed model outperforms the state-of-the-art FIR GNN model by 9.2% and 14% in terms of SW and BW localization, respectively.
翻訳日:2022-07-03 08:54:50 公開日:2022-06-25
# (参考訳) 共起データによる因果効果のランク付けの学習

Learning the Ranking of Causal Effects with Confounded Data ( http://arxiv.org/abs/2206.12532v1 )

ライセンス: CC BY 4.0
Carlos Fern\'andez-Lor\'ia and Jorge Lor\'ia(参考訳) 意思決定者はしばしば、介入や治療が最も効果的である個人を特定し、誰が治療するかを決定する。 このような場合、意思決定者は、それぞれの因果効果に応じて治療の潜在的受給者をランク付けするのが理想である。 しかし、因果効果を推定できる歴史的データは整理され、その結果、正確な効果を推定することは不可能である。 本稿では,その効果自体を正確に推定できない場合でも,個々の効果のランキングを一貫して推定できる階層保存前提(rpa)という,歴史データに関する新たな,より限定的な仮定を提案する。 以上より, 因果効果が大きい個人に対して, 共起バイアスが大きい場合, 因果効果ランキングの推定に共起が有効であること, rpaが満たした時点では, 共起の有害影響を, より大きなトレーニングデータで補正することができること, が重要である。 次に、オンライン広告や顧客維持といった一般的なビジネスアプリケーションなど、さまざまなシナリオでRPAが適合できることを分析的に示す。 我々はこの発見をオンライン広告の文脈で実証的な例で支持する。 この例は、実際に構築されたモデルの意思決定を評価する方法も示しています。 主な特徴は、因果推定のために伝統的に「良い」データと見なされるもの(すなわち、未確立のデータ)は、適切な因果決定を行うのに必要ではないため、処置の割り当て方法が共起の存在下でのクレジットよりもうまく機能する可能性があることである。

Decision makers often want to identify the individuals for whom some intervention or treatment will be most effective in order to decide who to treat. In such cases, decision makers would ideally like to rank potential recipients of the treatment according to their individual causal effects. However, the historical data available to estimate the causal effects could be confounded, and as a result, accurately estimating the effects could be impossible. We propose a new and less restrictive assumption about historical data, called the ranking preservation assumption (RPA), under which the ranking of the individual effects can be consistently estimated even if the effects themselves cannot be accurately estimated. Importantly, we find that confounding can be helpful for the estimation of the causal-effect ranking when the confounding bias is larger for individuals with larger causal effects, and that even when this is not the case, any detrimental impact of confounding can be corrected with larger training data when the RPA is met. We then analytically show that the RPA can be met in a variety of scenarios, including common business applications such as online advertising and customer retention. We support this finding with an empirical example in the context of online advertising. The example also shows how to evaluate the decision making of a confounded model in practice. The main takeaway is that what might traditionally be considered "good" data for causal estimation (i.e., unconfounded data) may not be necessary to make good causal decisions, so treatment assignment methods may work better than we give them credit for in the presence of confounding.
翻訳日:2022-07-03 08:42:48 公開日:2022-06-25
# (参考訳) 浅層から深層へ:ビジュアル質問応答のためのグラフ上の合成推論

From Shallow to Deep: Compositional Reasoning over Graphs for Visual Question Answering ( http://arxiv.org/abs/2206.12533v1 )

ライセンス: CC BY 4.0
Zihao Zhu(参考訳) 一般的な視覚的質問応答(VQA)システムを実現するためには,画像や外部知識に対する構成的推論を必要とする深い疑問に答えることが不可欠である。 一方、推論プロセスは明確かつ説明可能で、モデルの動作メカニズムを理解する必要があります。 人間には耐え難いが、機械には挑戦する。 本稿では,階層型グラフニューラルモジュールネットワーク(hgnmn)を提案する。 具体的には,視覚的,意味的,常識的な視点から多層グラフで画像をエンコードする。 私たちのモデルは、グラフ上で特定の機能を実行する、よく設計された複数の神経モジュールで構成されています。 既存のモジュールネットワークと比較して、あるグラフからより多くのグラフへの視覚的推論を拡張する。 モジュールの重みとグラフの注意に応じて推論プロセスを明示的に追跡することができる。 実験の結果,本モデルはCRICデータセット上での最先端性能だけでなく,明示的で説明可能な推論手順も得られることがわかった。

In order to achieve a general visual question answering (VQA) system, it is essential to learn to answer deeper questions that require compositional reasoning on the image and external knowledge. Meanwhile, the reasoning process should be explicit and explainable to understand the working mechanism of the model. It is effortless for human but challenging for machines. In this paper, we propose a Hierarchical Graph Neural Module Network (HGNMN) that reasons over multi-layer graphs with neural modules to address the above issues. Specifically, we first encode the image by multi-layer graphs from the visual, semantic and commonsense views since the clues that support the answer may exist in different modalities. Our model consists of several well-designed neural modules that perform specific functions over graphs, which can be used to conduct multi-step reasoning within and between different graphs. Compared to existing modular networks, we extend visual reasoning from one graph to more graphs. We can explicitly trace the reasoning process according to module weights and graph attentions. Experiments show that our model not only achieves state-of-the-art performance on the CRIC dataset but also obtains explicit and explainable reasoning procedures.
翻訳日:2022-07-03 08:26:29 公開日:2022-06-25
# (参考訳) 個別イベントシミュレーションと機械学習の統合によるケア管理における健康紹介処理の改善

Integrating Machine Learning with Discrete Event Simulation for Improving Health Referral Processing in a Care Management Setting ( http://arxiv.org/abs/2206.12551v1 )

ライセンス: CC BY 4.0
Mohammed Mahyoub(参考訳) 退院後ケア管理は、病院、特に高齢者および慢性疾患患者を退院させた後、患者の健康を改善するために患者の紹介を調整する。 医療管理設定では、医療紹介は管理ケア機関(MCO)の専門部門によって処理され、病院、保険会社、退院後のケア提供者など、他の多くの機関と相互作用する。 本稿では,健康参照処理を改善するための機械学習による離散イベントシミュレーションフレームワークを提案する。 LOSと参照型を予測するために,ランダムフォレストに基づく予測モデルを開発した。 2つのシミュレーションモデルを構築し、それぞれ予測機能を組み込んだ後、参照処理システムとインテリジェントシステムのas-is構成を表現する。 参照処理システムに予測モジュールを組み込んで参照を計画・優先順位付けすることにより,平均参照生成遅延時間を削減することで全体的な性能が向上した。 本研究は、健康状態の改善と関連するコストの削減における、ポストディスチャージケアマネジメントの役割を強調する。 また,複雑な医療システムのプロセス改善に統合システム工学手法を用いる方法について述べる。

Post-discharge care management coordinates patients' referrals to improve their health after being discharged from hospitals, especially elderly and chronically ill patients. In a care management setting, health referrals are processed by a specialized unit in the managed care organization (MCO), which interacts with many other entities including inpatient hospitals, insurance companies, and post-discharge care providers. In this paper, a machine-learning-guided discrete event simulation framework to improve health referrals processing is proposed. Random-forest-based prediction models are developed to predict the LOS and referral type. Two simulation models are constructed to represent the as-is configuration of the referral processing system and the intelligent system after incorporating the prediction functionality, respectively. By incorporating a prediction module for the referral processing system to plan and prioritize referrals, the overall performance was enhanced in terms of reducing the average referral creation delay time. This research will emphasize the role of post-discharge care management in improving health quality and reducing associated costs. Also, the paper demonstrates how to use integrated systems engineering methods for process improvement of complex healthcare systems.
翻訳日:2022-07-03 08:16:53 公開日:2022-06-25
# (参考訳) concreteGraph:概念関連性評価の特性を活用したデータ拡張手法

ConcreteGraph: A Data Augmentation Method Leveraging the Properties of Concept Relatedness Estimation ( http://arxiv.org/abs/2206.12556v1 )

ライセンス: CC BY 4.0
Yueen Ma, Zixing Song, Chirui Chang, Yue Yu, Irwin King(参考訳) 概念関連性推定(CRE)タスクは、2つの概念が関連しているかどうかを決定することである。 セマンティックテキスト類似性(STS)タスクの既存のメソッドは、このタスクに容易に適応できるが、CREタスクには、データ不足問題に対処するためにデータセットを拡張するために使用できるいくつかのユニークな特性がある。 本稿では,CRE特性を生かしたConcact Graph (Concept relatedness Estimation Graph) というグラフを構築した。 concretegraphの新たなコンセプトペアのサンプルには、シンプルで効果的な品質閾値に基づいて、新しいコンセプトペアを低品質でフィルタリングする新たなステップを加えます。 3つのトランスフォーマーモデルに具体的データ拡張を適用し,その有効性を示す。 品質閾値付けのための詳細なアブレーション研究は、たとえ限られた量の高品質のデータであっても、大量の未保持データよりも有益であることを示している。 本稿では,WORDデータセットに最初に取り組み,提案したコントラストグラフを用いてトランスフォーマーの精度を2%以上向上させることができる。 concreteGraphの助けを借りた3つのトランスフォーマーは、CNSEとCNSSデータセット上で、現在の最先端メソッドであるConcept Interaction Graph(CIG)より優れている。

The concept relatedness estimation (CRE) task is to determine whether two given concepts are related. Although existing methods for the semantic textual similarity (STS) task can be easily adapted to this task, the CRE task has some unique properties that can be leveraged to augment the datasets for addressing its data scarcity problem. In this paper, we construct a graph named ConcreteGraph (Concept relatedness estimation Graph) to take advantage of the CRE properties. For the sampled new concept pairs from the ConcreteGraph, we add an additional step of filtering out the new concept pairs with low quality based on simple yet effective quality thresholding. We apply the ConcreteGraph data augmentation on three Transformer-based models to show its efficacy. Detailed ablation study for quality thresholding further shows that even a limited amount of high-quality data is more beneficial than a large quantity of unthresholded data. This paper is the first one to work on the WORD dataset and the proposed ConcreteGraph can boost the accuracy of the Transformers by more than 2%. All three Transformers, with the help of ConcreteGraph, can outperform the current state-of-theart method, Concept Interaction Graph (CIG), on the CNSE and CNSS datasets.
翻訳日:2022-07-03 07:58:07 公開日:2022-06-25
# (参考訳) BVP推定のための軽量高速パルスシミュレーションネットワークLFPS-Net

LFPS-Net: a lightweight fast pulse simulation network for BVP estimation ( http://arxiv.org/abs/2206.12558v1 )

ライセンス: CC0 1.0
Jialiang Zhuang, Yun Zhang, Yuheng Chen, Xiujuan Zheng(参考訳) リモートフォトプレチモグラフィに基づく心拍数の推定は、健康モニタリングや疲労検出など、いくつかの特定のシナリオにおいて重要な役割を果たす。 既存の確立された方法は、30秒の顔ビデオの最終結果として、複数の重なり合うビデオクリップの予測HRの平均を取ることにコミットする。 数百の層と数千のチャネルを持つこれらの手法は非常に正確で堅牢であるが、膨大な計算予算と30秒の待ち時間が必要であり、スケールするアルゴリズムの適用を大幅に制限する。 このような状況下で,我々は,スマートフォンなどの一般的なモバイルプラットフォームに焦点をあて,非常に限られた計算・時間予算内で最高の精度を追求する軽量高速パルスシミュレーションネットワーク(LFPS-Net)を提案する。 ノイズ成分の抑制とパルスの安定化を短時間で行うため,時間周波数領域解析の理論を利用して複雑な信号から多モード情報を分離する多周波変調信号融合機構を設計する。 これは、パラメータを追加することなく、ネットワークが効果的なフィーチャーをより簡単に学習するのに役立つ。 さらに,データセットの不均衡分布に起因する問題を解決するため,オーバーサンプリングトレーニング戦略を設計する。 提案手法は,30秒の顔画像に対して,最も有効な論文と比較して,心拍数や心拍変動を推定するための評価指標の最もよい結果を得る。 提案手法は短い時間(約15秒)のfacailビデオを用いて非常に競争的な結果を得ることができる。

Heart rate estimation based on remote photoplethysmography plays an important role in several specific scenarios, such as health monitoring and fatigue detection. Existing well-established methods are committed to taking the average of the predicted HRs of multiple overlapping video clips as the final results for the 30-second facial video. Although these methods with hundreds of layers and thousands of channels are highly accurate and robust, they require enormous computational budget and a 30-second wait time, which greatly limits the application of the algorithms to scale. Under these cicumstacnces, We propose a lightweight fast pulse simulation network (LFPS-Net), pursuing the best accuracy within a very limited computational and time budget, focusing on common mobile platforms, such as smart phones. In order to suppress the noise component and get stable pulse in a short time, we design a multi-frequency modal signal fusion mechanism, which exploits the theory of time-frequency domain analysis to separate multi-modal information from complex signals. It helps proceeding network learn the effective fetures more easily without adding any parameter. In addition, we design a oversampling training strategy to solve the problem caused by the unbalanced distribution of dataset. For the 30-second facial videos, our proposed method achieves the best results on most of the evaluation metrics for estimating heart rate or heart rate variability compared to the best available papers. The proposed method can still obtain very competitive results by using a short-time (~15-second) facail video.
翻訳日:2022-07-03 07:42:16 公開日:2022-06-25
# (参考訳) 年齢・感情・国予測のための自己スーパービジョンと学習可能なステップ

Self-supervision and Learnable STRFs for Age, Emotion, and Country Prediction ( http://arxiv.org/abs/2206.12568v1 )

ライセンス: CC BY 4.0
Roshan Sharma, Tyler Vuong, Mark Lindsey, Hira Dhamyal, Rita Singh and Bhiksha Raj(参考訳) 本研究では,2022 ICML Expressive Vocalizations Challenge ExVo-MultiTask トラックにおける音声バースト音声の年齢,起源国,感情の同時推定に対するマルチタスク手法を提案する。 選択法は、スペクトル-時間変調と自己教師付き特徴の組み合わせ、次にマルチタスクパラダイムで組織化されたエンコーダ-デコーダネットワークを用いた。 独立したタスク固有モデルとジョイントモデルによるタスク間の相補性を評価し,異なる特徴集合の相対的強みについて検討する。 また,様々な特徴集合の相補性を活用するための簡易スコア融合機構も導入する。 スペクトル時間受容場に対するスコア融合とHuBERTモデルとの併用によるロバストデータ前処理は,ExVo-MultiTaskテストスコア0.412を達成できた。

This work presents a multitask approach to the simultaneous estimation of age, country of origin, and emotion given vocal burst audio for the 2022 ICML Expressive Vocalizations Challenge ExVo-MultiTask track. The method of choice utilized a combination of spectro-temporal modulation and self-supervised features, followed by an encoder-decoder network organized in a multitask paradigm. We evaluate the complementarity between the tasks posed by examining independent task-specific and joint models, and explore the relative strengths of different feature sets. We also introduce a simple score fusion mechanism to leverage the complementarity of different feature sets for this task. We find that robust data preprocessing in conjunction with score fusion over spectro-temporal receptive field and HuBERT models achieved our best ExVo-MultiTask test score of 0.412.
翻訳日:2022-07-03 07:27:52 公開日:2022-06-25
# (参考訳) 新たな非凸関数最小対数対数対数ペナルティ関数に基づくテンソルリカバリ

Tensor Recovery Based on A Novel Non-convex Function Minimax Logarithmic Concave Penalty Function ( http://arxiv.org/abs/2206.13506v1 )

ライセンス: CC BY 4.0
Hongbing Zhang, Xinyi Liu, Chang Liu, Hongtao Fan, Yajing Li, Xinyun Zhu(参考訳) 非凸緩和法はテンソルリカバリ問題で広く用いられており、凸緩和法と比較して、より良いリカバリ結果が得られる。 本稿では,新たな非凸関数,Minimax Logarithmic Concave Penalty (MLCP) 関数を提案し,その内在的特性を解析し,その中のひとつとして,対数関数がMLCP関数の上界であることが興味深い。 提案した関数はテンソルケースに一般化され、テンソルMLCPと重み付きテンソル$L\gamma$-normが得られる。 テンソル回復問題に直接それを適用するとき、その明示的な解は得られないと考える。 したがって、そのような問題を解決するための対応する同値定理、すなわちテンソル等価MLCP定理と等価テンソル$L\gamma$-norm定理が与えられる。 さらに, 古典的テンソル回復問題に対するemlcpに基づく2つのモデル, 低ランクテンソル補完 (lrtc) とテンソルロバスト主成分分析 (trpca) を提案し, それらを個別に解くための近位交互線形化最小化 (palm) アルゴリズムを設計した。 さらに、Kurdyka-{\L}ojasiwicz特性に基づき、提案アルゴリズムの解列は有限長であり、世界的に臨界点に収束することが証明された。 最後に,提案手法が良好な結果を得たことを示す広範な実験を行い,理論特性の解析と整合する最小化問題の対数関数よりもmlcp関数の方が優れていることを確認した。

Non-convex relaxation methods have been widely used in tensor recovery problems, and compared with convex relaxation methods, can achieve better recovery results. In this paper, a new non-convex function, Minimax Logarithmic Concave Penalty (MLCP) function, is proposed, and some of its intrinsic properties are analyzed, among which it is interesting to find that the Logarithmic function is an upper bound of the MLCP function. The proposed function is generalized to tensor cases, yielding tensor MLCP and weighted tensor $L\gamma$-norm. Consider that its explicit solution cannot be obtained when applying it directly to the tensor recovery problem. Therefore, the corresponding equivalence theorems to solve such problem are given, namely, tensor equivalent MLCP theorem and equivalent weighted tensor $L\gamma$-norm theorem. In addition, we propose two EMLCP-based models for classic tensor recovery problems, namely low-rank tensor completion (LRTC) and tensor robust principal component analysis (TRPCA), and design proximal alternate linearization minimization (PALM) algorithms to solve them individually. Furthermore, based on the Kurdyka-{\L}ojasiwicz property, it is proved that the solution sequence of the proposed algorithm has finite length and converges to the critical point globally. Finally, Extensive experiments show that proposed algorithm achieve good results, and it is confirmed that the MLCP function is indeed better than the Logarithmic function in the minimization problem, which is consistent with the analysis of theoretical properties.
翻訳日:2022-07-03 07:19:52 公開日:2022-06-25
# (参考訳) 事前学習した言語モデルを多言語asrモデルに蒸留する

Distilling a Pretrained Language Model to a Multilingual ASR Model ( http://arxiv.org/abs/2206.12638v1 )

ライセンス: CC BY 4.0
Kwanghee Choi, Hyung-Min Park(参考訳) 多言語音声データはしばしば長い尾の言語分布に悩まされ、性能が低下する。 しかし、多言語テキストデータを得るのがずっと簡単であり、より有用な汎用言語モデルとなる。 そこで我々は,教師テキストモデルに組み込まれた豊富な知識を,生徒の発話モデルに蒸留する動機付けを行っている。 本稿では,2つのモードの潜在表現を一致させる音声モデル(Distilling a Language model to a Speech model, Distill-L2S)を提案する。 微妙な違いは縮小機構、近距離補間、学習可能な線形投影層によって処理される。 本稿では,多言語自動音声認識(ASR)タスクに適用することで,蒸留法の有効性を示す。 各言語に対して大規模多言語ASRモデル(XLSR-wav2vec 2.0)を微調整しながらトランスフォーマーに基づく言語間言語モデル(InfoXLM)を蒸留する。 我々は,100時間未満の音声データを持つCommonVoiceデータセットの低リソース言語20言語に対して,本手法の優位性を示す。

Multilingual speech data often suffer from long-tailed language distribution, resulting in performance degradation. However, multilingual text data is much easier to obtain, yielding a more useful general language model. Hence, we are motivated to distill the rich knowledge embedded inside a well-trained teacher text model to the student speech model. We propose a novel method called the Distilling a Language model to a Speech model (Distill-L2S), which aligns the latent representations of two different modalities. The subtle differences are handled by the shrinking mechanism, nearest-neighbor interpolation, and a learnable linear projection layer. We demonstrate the effectiveness of our distillation method by applying it to the multilingual automatic speech recognition (ASR) task. We distill the transformer-based cross-lingual language model (InfoXLM) while fine-tuning the large-scale multilingual ASR model (XLSR-wav2vec 2.0) for each language. We show the superiority of our method on 20 low-resource languages of the CommonVoice dataset with less than 100 hours of speech data.
翻訳日:2022-07-03 06:28:52 公開日:2022-06-25
# (参考訳) 定性的データの半自動評価のためのR-自然言語処理による感性分析

Sentiment Analysis with R: Natural Language Processing for Semi-Automated Assessments of Qualitative Data ( http://arxiv.org/abs/2206.12649v1 )

ライセンス: CC BY 4.0
Dennis Klinkhammer(参考訳) 感性分析は自然言語処理と計算言語学の分野におけるサブ分野であり、テキスト文書の自動または半自動解析に使用できる。 これらの分析の目的の1つは、ソーシャルメディアプラットフォームや政治文書やスピーチ、フィクションやノンフィクションのテキストのコメントに含まれるように表現された態度を肯定的あるいは否定的に認識することである。 ソーシャルメディアプラットフォームにおけるコメントの分析は、ソーシャルメディア・ネットワークデータの半自動スクリーニングに関する以前のチュートリアルの延長である。 ソーシャルメディアのコメントに関する縦断的な見解と、フィクションやノンフィクションのテキストに関する断続的な視点、例えば全書や図書館は、広範な文書に繋がる可能性がある。 これらの分析は, 信頼度の高い感情分析を用いて, 簡易化と高速化が可能である。 そこで本チュートリアルでは,Rを用いて感情分析を行う基本機能を紹介し,その基礎となるフォーマットによらず,段階的に文書を解析する方法を説明する。 必須条件とステップはすべて詳細に説明されており、関連するコードはgithubで公開されている。 2つの政治演説の比較は、考えられるユースケースを示している。

Sentiment analysis is a sub-discipline in the field of natural language processing and computational linguistics and can be used for automated or semi-automated analyses of text documents. One of the aims of these analyses is to recognize an expressed attitude as positive or negative as it can be contained in comments on social media platforms or political documents and speeches as well as fictional and nonfictional texts. Regarding analyses of comments on social media platforms, this is an extension of the previous tutorial on semi-automated screenings of social media network data. A longitudinal perspective regarding social media comments as well as cross-sectional perspectives regarding fictional and nonfictional texts, e.g. entire books and libraries, can lead to extensive text documents. Their analyses can be simplified and accelerated by using sentiment analysis with acceptable inter-rater reliability. Therefore, this tutorial introduces the basic functions for performing a sentiment analysis with R and explains how text documents can be analysed step by step - regardless of their underlying formatting. All prerequisites and steps are described in detail and associated codes are available on GitHub. A comparison of two political speeches illustrates a possible use case.
翻訳日:2022-07-03 06:16:59 公開日:2022-06-25
# (参考訳) 機械学習に基づく生物学的老化推定技術:調査

Machine Learning-based Biological Ageing Estimation Technologies: A Survey ( http://arxiv.org/abs/2206.12650v1 )

ライセンス: CC BY 4.0
Zhaonian Zhang, Richard Jiang, Danny Crookes and Paul Chazot(参考訳) 近年,生物年齢(ba)を推定する手法が開発されている。 特に機械学習(ML)の開発では,BA予測のタイプがますます多くなり,精度が大幅に向上している。 BA推定モデルは、健康な高齢化をモニタリングする上で重要な役割を担い、一般市民の健康状態を検出し、不健康な人々に警告を与える新しいツールを提供する可能性がある。 MLを用いた3つの年齢予測手法について概説する。 これらは血液バイオマーカー、顔画像、神経画像の特徴に基づいている。 今のところ、血液バイオマーカーを用いたモデルは最もシンプルで、最も直接的で、最も正確な方法です。 顔画像法は, 人種, 環境などの様々な側面に影響され, 予測精度はあまり良くなく, 医療分野に大きな貢献が得られない。 まとめると、私たちは、私たちや他の潜在的な一般の人々のためのビッグデータの時代における道のりを追跡し、今日利用可能な膨大な量のデータを活用する方法を示しています。

In recent years, there are various methods of estimating Biological Age (BA) have been developed. Especially with the development of machine learning (ML), there are more and more types of BA predictions, and the accuracy has been greatly improved. The models for the estimation of BA play an important role in monitoring healthy aging, and could provide new tools to detect health status in the general population and give warnings to sub-healthy people. We will mainly review three age prediction methods by using ML. They are based on blood biomarkers, facial images, and structural neuroimaging features. For now, the model using blood biomarkers is the simplest, most direct, and most accurate method. The face image method is affected by various aspects such as race, environment, etc., the prediction accuracy is not very good, which cannot make a great contribution to the medical field. In summary, we are here to track the way forward in the era of big data for us and other potential general populations and show ways to leverage the vast amounts of data available today.
翻訳日:2022-07-03 06:04:27 公開日:2022-06-25
# (参考訳) 実験動物の社会行動分析に関する概観:方法論から応用まで

Review on Social Behavior Analysis of Laboratory Animals: From Methodologies to Applications ( http://arxiv.org/abs/2206.12651v1 )

ライセンス: CC BY 4.0
Ziping Jiang, Paul L. Chazot and Richard Jiang(参考訳) 遺伝学と生理学の橋渡しとして、動物行動分析は生物学と生態学研究において最も重要なトピックの1つである。 しかし、動物の行動の同定、追跡、記録は職業知識を必要とする労働集約的な作品である。 データアノテートに費やす費用を軽減するために、研究者は自動ラベルアルゴリズムのためのコンピュータビジョン技術に目を向ける。 本研究では,従来の視覚的手法,統計的手法,深層学習手法を網羅した行動検出アルゴリズムについて検討する。 本研究の目的は,効率的な動物行動検出手法のスクラッチを生物学者に提供し,関連する研究の徹底的な調査を行うことである。 それとは別に、これらのアルゴリズムの強みと弱みについても議論し、既にこの分野に精通している人たちにいくつかの洞察を与えます。

As the bridge between genetic and physiological aspects, animal behaviour analysis is one of the most significant topics in biology and ecological research. However, identifying, tracking and recording animal behaviour are labour intensive works that require professional knowledge. To mitigate the spend for annotating data, researchers turn to computer vision techniques for automatic label algorithms, since most of the data are recorded visually. In this work, we explore a variety of behaviour detection algorithms, covering traditional vision methods, statistical methods and deep learning methods. The objective of this work is to provide a thorough investigation of related work, furnishing biologists with a scratch of efficient animal behaviour detection methods. Apart from that, we also discuss the strengths and weaknesses of those algorithms to provide some insights for those who already delve into this field.
翻訳日:2022-07-03 05:52:26 公開日:2022-06-25
# (参考訳) 離散音声表現からのパーソナライズされた非音声ボカライゼーション

Synthesizing Personalized Non-speech Vocalization from Discrete Speech Representations ( http://arxiv.org/abs/2206.12662v1 )

ライセンス: CC BY 4.0
Chin-Cheng Hsu(参考訳) 非音声発声モデル(NSV)をテキスト音声タスクとして定式化し,その実現可能性を確認した。 具体的には,NSVにおけるHUBERT音声単位の音声表現性を評価し,学習データが話者数発であっても,話者の音色を制御できることを確認した。 さらに,記録条件の不均一性がNSVモデリングの大きな障害であることを確認した。 最後に,今後の研究の方法に対する5つの改善点について論じる。 合成NSVのオーディオサンプルは、デモページで公開されている。

We formulated non-speech vocalization (NSV) modeling as a text-to-speech task and verified its viability. Specifically, we evaluated the phonetic expressivity of HUBERT speech units on NSVs and verified our model's ability to control over speaker timbre even though the training data is speaker few-shot. In addition, we substantiated that the heterogeneity in recording conditions is the major obstacle for NSV modeling. Finally, we discussed five improvements over our method for future research. Audio samples of synthesized NSVs are available on our demo page: https://resemble-ai.github.io/reLaugh.
翻訳日:2022-07-03 05:39:50 公開日:2022-06-25
# (参考訳) セマンティックアンサー類似度尺度の評価

Evaluation of Semantic Answer Similarity Metrics ( http://arxiv.org/abs/2206.12664v1 )

ライセンス: CC BY 4.0
Farida Mustafazade, Peter Ebbinghaus(参考訳) 既存の汎用機械翻訳や自然言語生成評価指標にはいくつかの問題があり、質問応答(QA)システムはその文脈では無関心である。 頑健なQAシステムを構築するためには,質問に対するモデル予測が地味なアノテーションに類似しているかどうかを検証するために,同等に堅牢な評価システムを構築する必要がある。 純弦重なりではなく意味論に基づく類似性を比較する能力は、モデルを公平に比較し、現実のアプリケーションにおいてより現実的な受容基準を示すことが重要である。 本論文は,トランスフォーマーに基づくモデルメトリクスを用いて,意味的回答の類似性を評価し,語彙重複のない場合の人間の判断との相関性を高めるための知識論文である。 そこで本稿では,アメリカとアメリカのパブリックな人物の名前対からなる新しいデータセットをトレーニングした,意味応答類似性のためのクロスエンコーダ拡張バイエンコーダとBERTScoreモデルを提案する。 私たちは、トレーニングに使用できる類似性とともに、共参照名文字列ペアの最初のデータセットを提供しています。 第4回機械学習と応用に関する国際会議(CMLA 2022年6月25日~26日,2022年,コペンハーゲン,デンマークのボリュームエディタ : David C. Wyld, Dhinaharan Nagamalai (Eds) ISBN : 978-1-925953-69-5

There are several issues with the existing general machine translation or natural language generation evaluation metrics, and question-answering (QA) systems are indifferent in that context. To build robust QA systems, we need the ability to have equivalently robust evaluation systems to verify whether model predictions to questions are similar to ground-truth annotations. The ability to compare similarity based on semantics as opposed to pure string overlap is important to compare models fairly and to indicate more realistic acceptance criteria in real-life applications. We build upon the first to our knowledge paper that uses transformer-based model metrics to assess semantic answer similarity and achieve higher correlations to human judgement in the case of no lexical overlap. We propose cross-encoder augmented bi-encoder and BERTScore models for semantic answer similarity, trained on a new dataset consisting of name pairs of US-American public figures. As far as we are concerned, we provide the first dataset of co-referent name string pairs along with their similarities, which can be used for training. Machine Learning & Applications 4th International Conference on Machine Learning & Applications (CMLA 2022) June 25~26, 2022, Copenhagen, Denmark Volume Editors : David C. Wyld, Dhinaharan Nagamalai (Eds) ISBN : 978-1-925953-69-5
翻訳日:2022-07-03 05:33:08 公開日:2022-06-25
# (参考訳) エージェント:Flocking Systemの適応型グループエントラッピング手法

AGENT: An Adaptive Grouping Entrapping Method of Flocking Systems ( http://arxiv.org/abs/2206.14614v1 )

ライセンス: CC BY 4.0
Chen Wang, Minqiang Gu, Wenxi Kuang, Dongliang Wang, Weicheng Luo, Zhaohui Shi, Zhun Fan(参考訳) 本研究は,エージェントの適応的グループ化を,自動意思決定,円滑な群集化,分散エントラッピングを通じて複数ターゲットに展開する分散アルゴリズムを提案する。 エージェントは環境情報に基づいて、どのターゲットを囲むべきかを自分で決定する。 改良された人工電位場法により, 環境に適応するための形成を円滑かつ自然に変化させることができる。 提案手法は,Swarmエージェントの協調が,Swarmレベルに侵入する複数のターゲットの現象を発生させることを保証する。 提案手法の性能をシミュレーション実験と設計指標を用いて検証し,シミュレーションと物理実験の分析を行った。

This study proposes a distributed algorithm that makes agents' adaptive grouping entrap multiple targets via automatic decision making, smooth flocking, and well-distributed entrapping. Agents make their own decisions about which targets to surround based on environmental information. An improved artificial potential field method is proposed to enable agents to smoothly and naturally change the formation to adapt to the environment. The proposed strategies guarantee that the coordination of swarm agents develops the phenomenon of multiple targets entrapping at the swarm level. We validate the performance of the proposed method using simulation experiments and design indicators for the analysis of these simulation and physical experiments.
翻訳日:2022-07-03 05:17:35 公開日:2022-06-25
# (参考訳) UltraMNISTの分類: 非常に大きな画像のためのCNNのトレーニングベンチマーク

UltraMNIST Classification: A Benchmark to Train CNNs for Very Large Images ( http://arxiv.org/abs/2206.12681v1 )

ライセンス: CC BY-SA 4.0
Deepak K. Gupta, Udbhav Bamba, Abhishek Thakur, Akash Gupta, Suraj Sharan, Ertugrul Demir and Dilip K. Prasad(参考訳) 現在の文献で利用可能な畳み込みニューラルネットワーク(CNN)アプローチは、主に低解像度の画像を扱うように設計されている。 非常に大きなイメージに適用すると、gpuメモリに関する課題、セマンティック対応に必要なより小さな受容フィールド、マルチスケール機能の導入の必要性が発生する。 しかし、入力画像の解像度は、重要な情報が著しく失われるため、小さくすることができる。 概説した課題に基づき、非常に大きな画像のためのCNNモデルをトレーニングする新たな研究問題を導入し、このタスクの単純かつ代表的なベンチマークデータセットであるUltraMNISTデータセットを提示する。 UltraMNISTは、現実世界の問題の課題をうまく再現するために、さらなる複雑さを付加した人気のあるMNIST桁を用いて設計されている。 この問題には,「UltraMNIST分類」と「Budget-aware UltraMNIST分類」の2種類がある。 標準のUltraMNIST分類ベンチマークは、最高のGPUリソースを効果的に活用する新しいCNNトレーニング手法の開発を容易にすることを目的としている。 予算対応型は、制約付きGPUメモリの下で機能するメソッドの開発を促進することを意図している。 競争力のあるソリューションを開発するために、標準ベンチマークのベースラインモデルと予算対応モデルを提案する。 本研究では, 既訓練バックボーンを含むベースラインモデルの性能と性能に及ぼす分解能の低減効果について検討した。 最後に,提案したベンチマークデータセットとベースラインを併用して,大規模画像の処理に適した新しい世代のCNN手法を,効率的かつリソースライトで実現したいと考えている。

Convolutional neural network (CNN) approaches available in the current literature are designed to work primarily with low-resolution images. When applied on very large images, challenges related to GPU memory, smaller receptive field than needed for semantic correspondence and the need to incorporate multi-scale features arise. The resolution of input images can be reduced, however, with significant loss of critical information. Based on the outlined issues, we introduce a novel research problem of training CNN models for very large images, and present 'UltraMNIST dataset', a simple yet representative benchmark dataset for this task. UltraMNIST has been designed using the popular MNIST digits with additional levels of complexity added to replicate well the challenges of real-world problems. We present two variants of the problem: 'UltraMNIST classification' and 'Budget-aware UltraMNIST classification'. The standard UltraMNIST classification benchmark is intended to facilitate the development of novel CNN training methods that make the effective use of the best available GPU resources. The budget-aware variant is intended to promote development of methods that work under constrained GPU memory. For the development of competitive solutions, we present several baseline models for the standard benchmark and its budget-aware variant. We study the effect of reducing resolution on the performance and present results for baseline models involving pretrained backbones from among the popular state-of-the-art models. Finally, with the presented benchmark dataset and the baselines, we hope to pave the ground for a new generation of CNN methods suitable for handling large images in an efficient and resource-light manner.
翻訳日:2022-07-03 05:04:35 公開日:2022-06-25
# (参考訳) Minority Report: インサイトビジュアライゼーションのためのグラフネットワークOracle

Minority Report: A Graph Network Oracle for In Situ Visualization ( http://arxiv.org/abs/2206.12683v1 )

ライセンス: CC BY 4.0
Krishna Kumar, Paul Navr\'atil, Andrew Solis, Joseph Vantassel(参考訳) In situの可視化技術は、監視の欠如によって妨げられ、重要なシミュレーション現象は、サンプリング率の低さや、重要なタイミングで詳細が不十分なために見逃される可能性がある。 人間をループに保持することは現実的ではなく、統計的なトリガーを定義することは難しい。 本稿では,機械学習に基づくシミュレーションをオラクルとして活用し,大規模シミュレーションの重要領域を同定する可能性を示す。 これらの重要な領域はin situ分析の推進に使われ、従来のin situフレームワークと同等のI/O予算を持つデータ忠実度と分析の解決を提供する。 我々は,粒状流の物質点シミュレーションのために,TACC GalaxyとCB-Geo MPMを統合した分散非同期その場可視化を開発した。 我々は,粒状フローのダイナミクスを予測するためのオラクルとして,粒状フロー問題を訓練したpytorchベースの3dグラフネットワークシミュレータ(gns)を採用している。 重要な関心領域は、MPMのin situレンダリングのために手動でGNSにタグ付けされる。

In situ visualization techniques are hampered by a lack of foresight: crucial simulation phenomena can be missed due to a poor sampling rate or insufficient detail at critical timesteps. Keeping a human in the loop is impractical, and defining statistical triggers can be difficult. This paper demonstrates the potential for using a machine-learning-based simulation surrogate as an oracle to identify expected critical regions of a large-scale simulation. These critical regions are used to drive the in situ analysis, providing greater data fidelity and analysis resolution with an equivalent I/O budget to a traditional in situ framework. We develop a distributed asynchronous in situ visualization by integrating TACC Galaxy with CB-Geo MPM for material point simulation of granular flows. We employ a PyTorch-based 3D Graph Network Simulator (GNS) trained on granular flow problems as an oracle to predict the dynamics of granular flows. Critical regions of interests are manually tagged in GNS for in situ rendering in MPM.
翻訳日:2022-07-03 04:49:18 公開日:2022-06-25
# (参考訳) 非局所発振による深層畳み込みニューラルネットワークの敵対的攻撃に対する防御

Defense against adversarial attacks on deep convolutional neural networks through nonlocal denoising ( http://arxiv.org/abs/2206.12685v1 )

ライセンス: CC BY 4.0
Sandhya Aneja and Nagender Aneja and Pg Emeroylariffion Abas and Abdul Ghani Naim(参考訳) ネットワークアーキテクチャのパフォーマンスが大幅に向上したにもかかわらず、敵攻撃の感受性は、ディープラーニングを安全クリティカルなアプリケーションで実装することを困難にしている。 本稿では,この問題に対するデータ中心アプローチを提案する。 異なる輝度値を持つ非局所分調法は、修正国立標準技術データベース(mnist)とカナダ高等研究院(cifar-10)のデータセットから逆の例を生成するために使用されている。 摂動下では、mnistデータセットでは最大9.3%、cifar-10データセットでは13%の絶対精度向上が得られた。 輝度値の高い変換画像を用いたトレーニングは、分類器のロバスト性を高める。 我々は,移動学習が逆機械学習に不利であることを示した。 以上の結果から, 単純な対向例はレジリエンスを向上し, 深層学習を多様なアプリケーションに適用しやすくする可能性が示唆された。

Despite substantial advances in network architecture performance, the susceptibility of adversarial attacks makes deep learning challenging to implement in safety-critical applications. This paper proposes a data-centric approach to addressing this problem. A nonlocal denoising method with different luminance values has been used to generate adversarial examples from the Modified National Institute of Standards and Technology database (MNIST) and Canadian Institute for Advanced Research (CIFAR-10) data sets. Under perturbation, the method provided absolute accuracy improvements of up to 9.3% in the MNIST data set and 13% in the CIFAR-10 data set. Training using transformed images with higher luminance values increases the robustness of the classifier. We have shown that transfer learning is disadvantageous for adversarial machine learning. The results indicate that simple adversarial examples can improve resilience and make deep learning easier to apply in various applications.
翻訳日:2022-07-03 04:40:22 公開日:2022-06-25
# (参考訳) 構造不確かさ下におけるデータ駆動不均一処理効果評価の改善

Improving Data-driven Heterogeneous Treatment Effect Estimation Under Structure Uncertainty ( http://arxiv.org/abs/2206.12689v1 )

ライセンス: CC BY 4.0
Christopher Tran, Elena Zheleva(参考訳) ヘテロジニアス処理効果(HTE)推定(英:heregeneous treatment effect, HTE)は、意思決定や政策実施において重要な要素である。 医療や電子商取引など多くの分野における大量のデータの蓄積は、観測データや実験データから不均一な影響を推定するデータ駆動アルゴリズムの開発への関心を高めている。 しかし、これらの手法は観測された特徴について強い仮定をし、基礎となる因果モデル構造を無視し、偏りのあるHTE推定につながる。 同時に、実世界のデータの因果構造を説明することは、典型的にはデータに因果構造を生じさせるメカニズムが不明であるため、しばしば自明である。 この問題に対処するために,HTE推定における各特徴値を考慮した特徴選択手法を開発し,データから因果構造の関連部分を学習する。 本手法は任意の因果構造の下で既存のデータ駆動型HTE推定法を改善することを示す。 合成,半合成,実世界のデータセットを用いた結果,特徴選択アルゴリズムがHTE推定誤差の低減につながることが示された。

Estimating how a treatment affects units individually, known as heterogeneous treatment effect (HTE) estimation, is an essential part of decision-making and policy implementation. The accumulation of large amounts of data in many domains, such as healthcare and e-commerce, has led to increased interest in developing data-driven algorithms for estimating heterogeneous effects from observational and experimental data. However, these methods often make strong assumptions about the observed features and ignore the underlying causal model structure, which can lead to biased HTE estimation. At the same time, accounting for the causal structure of real-world data is rarely trivial since the causal mechanisms that gave rise to the data are typically unknown. To address this problem, we develop a feature selection method that considers each feature's value for HTE estimation and learns the relevant parts of the causal structure from data. We provide strong empirical evidence that our method improves existing data-driven HTE estimation methods under arbitrary underlying causal structures. Our results on synthetic, semi-synthetic, and real-world datasets show that our feature selection algorithm leads to lower HTE estimation error.
翻訳日:2022-07-03 04:25:56 公開日:2022-06-25
# (参考訳) TEVR:トークンエントロピー可変化による音声認識の改善

TEVR: Improving Speech Recognition by Token Entropy Variance Reduction ( http://arxiv.org/abs/2206.12693v1 )

ライセンス: CC BY 4.0
Hajo Nils Krabbenh\"oft, Erhardt Barth(参考訳) 本稿では,言語モデルに対するトークンエントロピーの変動を最小限に抑えるために設計された音声認識モデルTEVRを提案する。 このことは、もし言語モデルが確実に正確にトークンを予測できるなら、音響モデルはそれを認識するのに正確である必要はないという事実を生かしている。 9億のパラメータを持つドイツのasrモデルをトレーニングし、commonvoice germanでは、tevrが非常に競争力のある3.64%の単語誤り率を示している。 完全に訓練された音声認識パイプラインをコミュニティにリリースすることで、将来プライバシー保護のオフラインバーチャルアシスタントが実現することを期待しています。

This paper presents TEVR, a speech recognition model designed to minimize the variation in token entropy w.r.t. to the language model. This takes advantage of the fact that if the language model will reliably and accurately predict a token anyway, then the acoustic model doesn't need to be accurate in recognizing it. We train German ASR models with 900 million parameters and show that on CommonVoice German, TEVR scores a very competitive 3.64% word error rate, which outperforms the best reported results by a relative 16.89% reduction in word error rate. We hope that releasing our fully trained speech recognition pipeline to the community will lead to privacy-preserving offline virtual assistants in the future.
翻訳日:2022-07-03 04:05:26 公開日:2022-06-25
# (参考訳) アクション表現による大規模アクション空間を持つカードゲームへの展開

Towards Modern Card Games with Large-Scale Action Spaces Through Action Representation ( http://arxiv.org/abs/2206.12700v1 )

ライセンス: CC BY 4.0
Zhiyuan Yao, Tianyu Shi, Site Li, Yiting Xie, Yuanyuan Qin, Xiongjie Xie, Huan Lu and Yan Zhang(参考訳) Axie Infinityは、巨大なアクション空間を持つ複雑なカードゲームである。 これにより、汎用強化学習(RL)アルゴリズムを用いてこの問題を解決するのが難しくなる。 アクション表現とゲーム戦略を学習するためのハイブリッドRLフレームワークを提案する。 大規模実行可能アクションセットにおけるすべてのアクションを評価するのを避けるため、本手法では、アクション表現を用いて決定される固定サイズのセットにおけるアクションを評価する。 本手法の性能を他の2つのベースライン法と比較し,そのサンプル効率とトレーニングモデルの勝利率について検討した。 実験の結果,本手法は3つの手法の総合的勝利率と最良サンプル効率が得られた。

Axie infinity is a complicated card game with a huge-scale action space. This makes it difficult to solve this challenge using generic Reinforcement Learning (RL) algorithms. We propose a hybrid RL framework to learn action representations and game strategies. To avoid evaluating every action in the large feasible action set, our method evaluates actions in a fixed-size set which is determined using action representations. We compare the performance of our method with the other two baseline methods in terms of their sample efficiency and the winning rates of the trained models. We empirically show that our method achieves an overall best winning rate and the best sample efficiency among the three methods.
翻訳日:2022-07-03 03:51:40 公開日:2022-06-25
# (参考訳) Bandwagon効果:ただのバイアスではない

The Bandwagon Effect: Not Just Another Bias ( http://arxiv.org/abs/2206.12701v1 )

ライセンス: CC BY 4.0
Norman Knyazev and Harrie Oosterhuis(参考訳) ユーザインタラクションデータに基づくリコメンデータシステムの最適化は、主に選択バイアスを扱う問題であり、既存の作業の多くは、異なるユーザからのインタラクションが独立していると仮定している。 しかし、実際のユーザフィードバックは、例えば、平均評価や、アイテムごとのビュー数や販売数など、他のユーザの以前のインタラクションの影響を受けやすいことが示されている。 この現象はバンドワゴン効果として知られている。 従来の文献とは対照的に、バンドワゴン効果は統計的バイアスの問題と見なすべきではない。 実際、この効果は個々の相互作用とサンプルの両方が偏りがないことを証明している。 それにもかかわらず、これは推定子を矛盾させる可能性を示し、帰属推定における収束に関する別個の問題を導入する。 本理論解析は,バンドワゴン効果が一貫性問題を引き起こす条件を調査し,これらの問題を緩和するためのいくつかのアプローチを検討する。 この研究は、バンドワゴン効果が、推奨される選択バイアスと根本的に異なる不調査のオープン問題を引き起こすことを示すことを目的としている。

Optimizing recommender systems based on user interaction data is mainly seen as a problem of dealing with selection bias, where most existing work assumes that interactions from different users are independent. However, it has been shown that in reality user feedback is often influenced by earlier interactions of other users, e.g. via average ratings, number of views or sales per item, etc. This phenomenon is known as the bandwagon effect. In contrast with previous literature, we argue that the bandwagon effect should not be seen as a problem of statistical bias. In fact, we prove that this effect leaves both individual interactions and their sample mean unbiased. Nevertheless, we show that it can make estimators inconsistent, introducing a distinct set of problems for convergence in relevance estimation. Our theoretical analysis investigates the conditions under which the bandwagon effect poses a consistency problem and explores several approaches for mitigating these issues. This work aims to show that the bandwagon effect poses an underinvestigated open problem that is fundamentally distinct from the well-studied selection bias in recommendation.
翻訳日:2022-07-03 03:43:46 公開日:2022-06-25
# (参考訳) 解剖学的ガイドによる胸部X線異常局在の検討

Anatomy-Guided Weakly-Supervised Abnormality Localization in Chest X-rays ( http://arxiv.org/abs/2206.12704v1 )

ライセンス: CC BY-SA 4.0
Ke Yu, Shantanu Ghosh, Zhexiong Liu, Christopher Deible, Kayhan Batmanghelich(参考訳) 医療画像に異常アノテーションの大規模なデータセットを作成することは、労働集約的でコストのかかる作業である。 放射線学レポートのような手軽に利用できるデータから弱い監視を活用すれば、異常検出のための大規模データの欠如を補うことができる。 しかし、現在の手法のほとんどは画像レベルの病理観察のみを使用しており、報告で言及されている解剖学的記述を利用できない。 さらに,NLP(Natural Language Processing, 自然言語処理)による弱いラベルは, ラベルの空間性や言語的あいまいさによりノイズが多い。 弱いアノテーションの問題に対処するため,解剖誘導胸部X線ネットワーク(AGXNet)を提案する。 本フレームワークは2つのネットワークのカスケードから構成される。1つは解剖学的異常を同定し,もう1つは病理学的観察を行う。 本フレームワークの重要コンポーネントは,解剖ネットワークが生成する解剖学的領域に着目し,下流の観測ネットワークを支援する,解剖誘導型注意モジュールである。 言及の欠如が必ずしも否定的なラベルを意味するとは限らないという事実を説明するために、ポジティブなアンラベル(PU)学習を使用します。 MIMIC-CXRデータセットの定量的および定性的結果は,AGXNetの疾患および解剖学的異常局在に対する効果を示す。 NIH Chest X-rayデータセットの実験では、学習された特徴表現は転送可能であり、疾患分類と競争性疾患の局所化の結果における最先端のパフォーマンスを達成することができる。 私たちのコードはhttps://github.com/batmanlab/AGXNetで利用可能です。

Creating a large-scale dataset of abnormality annotation on medical images is a labor-intensive and costly task. Leveraging weak supervision from readily available data such as radiology reports can compensate lack of large-scale data for anomaly detection methods. However, most of the current methods only use image-level pathological observations, failing to utilize the relevant anatomy mentions in reports. Furthermore, Natural Language Processing (NLP)-mined weak labels are noisy due to label sparsity and linguistic ambiguity. We propose an Anatomy-Guided chest X-ray Network (AGXNet) to address these issues of weak annotation. Our framework consists of a cascade of two networks, one responsible for identifying anatomical abnormalities and the second responsible for pathological observations. The critical component in our framework is an anatomy-guided attention module that aids the downstream observation network in focusing on the relevant anatomical regions generated by the anatomy network. We use Positive Unlabeled (PU) learning to account for the fact that lack of mention does not necessarily mean a negative label. Our quantitative and qualitative results on the MIMIC-CXR dataset demonstrate the effectiveness of AGXNet in disease and anatomical abnormality localization. Experiments on the NIH Chest X-ray dataset show that the learned feature representations are transferable and can achieve the state-of-the-art performances in disease classification and competitive disease localization results. Our code is available at https://github.com/batmanlab/AGXNet
翻訳日:2022-07-03 03:21:02 公開日:2022-06-25
# (参考訳) Protoformer: Transformerのプロトタイプを埋め込む

Protoformer: Embedding Prototypes for Transformers ( http://arxiv.org/abs/2206.12710v1 )

ライセンス: CC BY 4.0
Ashkan Farhangi, Ning Sui, Nan Hua, Haiyan Bai, Arthur Huang, Zhishan Guo(参考訳) トランスフォーマーはテキスト分類に広く応用されている。 残念ながら、現実世界のデータには、最先端のトランスフォーマーに問題を引き起こす異常やノイズのあるラベルが含まれている。 本稿では,テキスト分類に問題のあるサンプルを活用できるトランスフォーマーのための新しい自己学習フレームワークprotoformerを提案する。 Protoformerはサンプルを埋め込むための選択機構を備えており、異常なプロトタイプや難しいクラスプロトタイプを効率的に抽出し利用することができる。 このような機能をさまざまなテキスト構造(例えばtwitter、imdb、arxiv)のデータセットで実証した。 フレームワークをいくつかのモデルにも適用しました。 その結果、protoformerは様々な経験的設定で現在のトランスフォーマーを改善できることがわかった。

Transformers have been widely applied in text classification. Unfortunately, real-world data contain anomalies and noisy labels that cause challenges for state-of-art Transformers. This paper proposes Protoformer, a novel self-learning framework for Transformers that can leverage problematic samples for text classification. Protoformer features a selection mechanism for embedding samples that allows us to efficiently extract and utilize anomalies prototypes and difficult class prototypes. We demonstrated such capabilities on datasets with diverse textual structures (e.g., Twitter, IMDB, ArXiv). We also applied the framework to several models. The results indicate that Protoformer can improve current Transformers in various empirical settings.
翻訳日:2022-07-03 03:08:01 公開日:2022-06-25
# (参考訳) 単一ソースに対するマルチモーダル核融合モデル

Defending Multimodal Fusion Models against Single-Source Adversaries ( http://arxiv.org/abs/2206.12714v1 )

ライセンス: CC BY 4.0
Karren Yang, Wan-Yi Lin, Manash Barman, Filipe Condessa, Zico Kolter(参考訳) 多くのビジョンタスクでハイパフォーマンスを実現するだけでなく、モダリティ間の冗長な情報が利用できるため、マルチモーダルモデルは単一ソースの障害に対して堅牢であることが期待されている。 本稿では,マルチモーダルニューラルネットワークの単一モードにおける最悪の摂動に対する堅牢性について検討する。 単一のモダリティに対する攻撃は、複数の乱れのないモダリティからの正しい情報を克服し、モデルが失敗する可能性がある。 この驚くべき脆弱性は、多様なマルチモーダルタスクにまたがって、ソリューションを必要とします。 そこで本研究では,すべての入力源から来る情報を比較し,他のモダリティと比較して摂動モダリティの不一致を検出し,非摂動モダリティからの情報のみを通すようにモデルを訓練する,敵対的ロバストな融合戦略を提案する。 本手法は, シングルソースロバストネスにおける最先端手法を著しく改善し, 動作認識における7.8~25.2%, オブジェクト検出における19.7~48.2%, 感情分析における1.6~6.7%のゲインを得た。

Beyond achieving high performance across many vision tasks, multimodal models are expected to be robust to single-source faults due to the availability of redundant information between modalities. In this paper, we investigate the robustness of multimodal neural networks against worst-case (i.e., adversarial) perturbations on a single modality. We first show that standard multimodal fusion models are vulnerable to single-source adversaries: an attack on any single modality can overcome the correct information from multiple unperturbed modalities and cause the model to fail. This surprising vulnerability holds across diverse multimodal tasks and necessitates a solution. Motivated by this finding, we propose an adversarially robust fusion strategy that trains the model to compare information coming from all the input sources, detect inconsistencies in the perturbed modality compared to the other modalities, and only allow information from the unperturbed modalities to pass through. Our approach significantly improves on state-of-the-art methods in single-source robustness, achieving gains of 7.8-25.2% on action recognition, 19.7-48.2% on object detection, and 1.6-6.7% on sentiment analysis, without degrading performance on unperturbed (i.e., clean) data.
翻訳日:2022-07-03 02:57:54 公開日:2022-06-25
# (参考訳) 分散マルチエージェント協調のための対戦モデルによる階層的強化学習

Hierarchical Reinforcement Learning with Opponent Modeling for Distributed Multi-agent Cooperation ( http://arxiv.org/abs/2206.12718v1 )

ライセンス: CC BY 4.0
Zhixuan Liang, Jiannong Cao, Shan Jiang, Divya Saxena, Huafeng Xu(参考訳) 多くの実世界のアプリケーションは、ネットワークパケットルーティングや自動運転車の協調といったマルチエージェント協調問題として定式化することができる。 深層強化学習(DRL)の出現はエージェントと環境の相互作用を通じて多エージェント協調に有望なアプローチを提供する。 しかし、従来のDRLソリューションはポリシー探索中に連続的なアクション空間を持つ複数のエージェントの高次元に悩まされる。 さらに、エージェントのポリシーのダイナミック性はトレーニングを非定常にする。 そこで本研究では,高水準意思決定と低レベル個別制御を用いた階層的強化学習手法を提案する。 特に、複数のエージェントの協調は、ハイレベルな離散アクション空間において効率的に学習することができる。 同時に、低レベルの個別制御を単エージェント強化学習に還元することができる。 階層的強化学習に加えて,学習プロセス中に他のエージェントのポリシーをモデル化する対戦型モデリングネットワークを提案する。 エンドツーエンドのDRLアプローチとは対照的に,本手法では,タスク全体を階層的な方法でサブタスクに分解することで,学習の複雑さを低減する。 提案手法の効率性を評価するため,協調車線変更シナリオにおいて実世界の事例スタディを行う。 シミュレーションと実世界の実験は、衝突速度と収束速度における我々のアプローチの優位性を示している。

Many real-world applications can be formulated as multi-agent cooperation problems, such as network packet routing and coordination of autonomous vehicles. The emergence of deep reinforcement learning (DRL) provides a promising approach for multi-agent cooperation through the interaction of the agents and environments. However, traditional DRL solutions suffer from the high dimensions of multiple agents with continuous action space during policy search. Besides, the dynamicity of agents' policies makes the training non-stationary. To tackle the issues, we propose a hierarchical reinforcement learning approach with high-level decision-making and low-level individual control for efficient policy search. In particular, the cooperation of multiple agents can be learned in high-level discrete action space efficiently. At the same time, the low-level individual control can be reduced to single-agent reinforcement learning. In addition to hierarchical reinforcement learning, we propose an opponent modeling network to model other agents' policies during the learning process. In contrast to end-to-end DRL approaches, our approach reduces the learning complexity by decomposing the overall task into sub-tasks in a hierarchical way. To evaluate the efficiency of our approach, we conduct a real-world case study in the cooperative lane change scenario. Both simulation and real-world experiments show the superiority of our approach in the collision rate and convergence speed.
翻訳日:2022-07-03 02:35:50 公開日:2022-06-25
# (参考訳) リサイクルバウンディングボックスによる自己監督型3次元物体検出

Self-Supervised 3D Monocular Object Detection by Recycling Bounding Boxes ( http://arxiv.org/abs/2206.12738v1 )

ライセンス: CC BY 4.0
Sugirtha T, Sridevi M, Khailash Santhakumar, Hao Liu, B Ravi Kiran, Thomas Gauthier, Senthil Yogamani(参考訳) 現代のオブジェクト検出アーキテクチャは、関連するプリテキストタスクによるパフォーマンス検出を改善するために、自己教師付き学習(SSL)の採用に向かっている。 モノクロ3dオブジェクト検出のためのプリテキストタスクはまだ文献で検討されていない。 本稿では, ランダムウィンドウをプレテキストタスクとしてラベル付けすることで, 自己教師付きバウンディングボックスリサイクルの適用について検討する。 3D検出器の分類器ヘッドは、基底真理対象の異なる割合のランダムウィンドウを分類するように訓練され、フォアグラウンドとバックグラウンドの不均衡を処理する。 RTM3D検出モデルをベースラインとして,データ拡張の適用の有無に関わらず,プリテキストタスクを評価する。 また,mAP 3Dでは2~3%,BEVでは0.9~1.5%の改善率を示した。 長い尾を持つクラス不均衡データセットにおける低周波クラスの検出精度の向上を強調した逆クラス周波数再重み付け(ICFW)mAPスコアを提案する。 KITTI検証データセットのクラス不均衡を考慮したICFWにおけるmAP 3DとBEVスコアの改善を示す。 プレテキストタスクでは、ICFWメトリックが4~5%増加しています。

Modern object detection architectures are moving towards employing self-supervised learning (SSL) to improve performance detection with related pretext tasks. Pretext tasks for monocular 3D object detection have not yet been explored yet in literature. The paper studies the application of established self-supervised bounding box recycling by labeling random windows as the pretext task. The classifier head of the 3D detector is trained to classify random windows containing different proportions of the ground truth objects, thus handling the foreground-background imbalance. We evaluate the pretext task using the RTM3D detection model as baseline, with and without the application of data augmentation. We demonstrate improvements of between 2-3 % in mAP 3D and 0.9-1.5 % BEV scores using SSL over the baseline scores. We propose the inverse class frequency re-weighted (ICFW) mAP score that highlights improvements in detection for low frequency classes in a class imbalanced dataset with long tails. We demonstrate improvements in ICFW both mAP 3D and BEV scores to take into account the class imbalance in the KITTI validation dataset. We see 4-5 % increase in ICFW metric with the pretext task.
翻訳日:2022-07-03 02:14:56 公開日:2022-06-25
# (参考訳) 自由意志に関する理論的コンピュータ科学の展望

A Theoretical Computer Science Perspective on Free Will ( http://arxiv.org/abs/2206.13942v1 )

ライセンス: CC BY 4.0
Lenore Blum and Manuel Blum(参考訳) 我々は、計算と複雑性の基本的な原理を理解することを目的とした数学の分野である理論計算機科学(TCS)の観点から、自由意志のパラドックス的概念を考察する。

We consider the paradoxical concept of free will from the perspective of Theoretical Computer Science (TCS), a branch of mathematics concerned with understanding the underlying principles of computation and complexity, including the implications and surprising consequences of resource limitations.
翻訳日:2022-07-03 02:07:57 公開日:2022-06-25
# 深層サンプル学習と局所グローバル構造整合性を考慮したエンベロープ不均衡アンサンブルモデル

Envelope imbalanced ensemble model with deep sample learning and local-global structure consistency ( http://arxiv.org/abs/2206.13507v1 )

ライセンス: Link先を確認
Fan Li, Xiaoheng Zhang, Yongming Li, Pin Wang(参考訳) クラス不均衡問題は重要かつ困難である。 アンサンブルアプローチは、その有効性のためにこの問題に取り組むために広く利用されている。 しかし,既存のアンサンブル法は常に原サンプルに適用されるが,原サンプルの構造情報は考慮されていない。 この制限は、不均衡な学習がより良くなるのを防ぐ。 さらに, サンプル間の構造情報には, 局所構造情報とグローバル構造情報が含まれることを示す。 以上の分析に基づいて,深部サンプル前エンベロープネットワーク(DSEN)と局所グローバル構造整合機構(LGSCM)を用いた不均衡アンサンブルアルゴリズムを提案し,このアルゴリズムにより,局所多様体およびグローバル構造情報を考慮した高品質な深部サンプルを保証し,不均衡学習に役立つ。 まず、深部サンプル封筒プレネットワーク(DSEN)は、サンプル間の構造情報をマイニングするために設計され、次いで、局所多様体構造メートル法(LMSM)と大域構造分布メートル法(GSDM)は、層間サンプルの分布整合性を高めるためにLGSCMを構築するために設計されている。 次に、DSENとLGSCMをまとめて、最後の深層試料封筒ネットワーク(DSEN-LG)を形成する。 その後, 基本分類器を深層試料層にそれぞれ適用し, 基本分類器の予測結果を, アンサンブル学習機構を用いて融合させる。 提案手法の有効性を示すために,4つの公開データセットと10以上の代表的な関連するアルゴリズムが検証のために選択される。 実験の結果,このアルゴリズムは他の不均衡アンサンブルアルゴリズムよりも著しく優れていることがわかった。

The class imbalance problem is important and challenging. Ensemble approaches are widely used to tackle this problem because of their effectiveness. However, existing ensemble methods are always applied into original samples, while not considering the structure information among original samples. The limitation will prevent the imbalanced learning from being better. Besides, research shows that the structure information among samples includes local and global structure information. Based on the analysis above, an imbalanced ensemble algorithm with the deep sample pre-envelope network (DSEN) and local-global structure consistency mechanism (LGSCM) is proposed here to solve the problem.This algorithm can guarantee high-quality deep envelope samples for considering the local manifold and global structures information, which is helpful for imbalance learning. First, the deep sample envelope pre-network (DSEN) is designed to mine structure information among samples.Then, the local manifold structure metric (LMSM) and global structure distribution metric (GSDM) are designed to construct LGSCM to enhance distribution consistency of interlayer samples. Next, the DSEN and LGSCM are put together to form the final deep sample envelope network (DSEN-LG). After that, base classifiers are applied on the layers of deep samples respectively.Finally, the predictive results from base classifiers are fused through bagging ensemble learning mechanism. To demonstrate the effectiveness of the proposed method, forty-four public datasets and more than ten representative relevant algorithms are chosen for verification. The experimental results show that the algorithm is significantly better than other imbalanced ensemble algorithms.
翻訳日:2022-06-29 13:31:26 公開日:2022-06-25
# ソリューションとフィットネスの進化(safe) : 多目的問題の研究

Solution and Fitness Evolution (SAFE): A Study of Multiobjective Problems ( http://arxiv.org/abs/2206.13509v1 )

ライセンス: Link先を確認
Moshe Sipper, Jason H. Moore, Ryan J. Urbanowicz(参考訳) 我々は最近、SAFE -- Solution And Fitness Evolution - 共進化的共進化的アルゴリズムで、2つの共進化する集団: 候補解の集団と候補目的関数の集団。 我々は,SAFEがロボット迷路領域内のソリューションの進化に成功していることを示した。 本稿では,各目的の異なる重み付けを対象関数が探索する多目的問題に対するsafeの適応と応用について検討する。 予備的ではあるが,SAFE,および共進化解と目的関数の概念は,適合度計算や親選択にパレートフロントを明示的に使用せずに,類似した最適多目的解の集合を同定することができることを示唆している。 これらの結果は,SAFEアルゴリズムの概念が複雑な問題を解くだけでなく,複数の目的を持つ問題に適応できるという仮説を支持している。

We have recently presented SAFE -- Solution And Fitness Evolution -- a commensalistic coevolutionary algorithm that maintains two coevolving populations: a population of candidate solutions and a population of candidate objective functions. We showed that SAFE was successful at evolving solutions within a robotic maze domain. Herein we present an investigation of SAFE's adaptation and application to multiobjective problems, wherein candidate objective functions explore different weightings of each objective. Though preliminary, the results suggest that SAFE, and the concept of coevolving solutions and objective functions, can identify a similar set of optimal multiobjective solutions without explicitly employing a Pareto front for fitness calculation and parent selection. These findings support our hypothesis that the SAFE algorithm concept can not only solve complex problems, but can adapt to the challenge of problems with multiple objectives.
翻訳日:2022-06-29 13:08:01 公開日:2022-06-25
# 時系列領域におけるデータ拡張技術:調査と分類

Data Augmentation techniques in time series domain: A survey and taxonomy ( http://arxiv.org/abs/2206.13508v1 )

ライセンス: Link先を確認
Edgar Talavera, Guillermo Iglesias, \'Angel Gonz\'alez-Prieto, Alberto Mozo and Sandra G\'omez-Canaval(参考訳) ディープラーニング生成モデルの最近の進歩により、時系列の分野での顕著なパフォーマンスを活用するのに、それほど時間がかからない。 時系列処理に使用されるディープニューラルネットワークは、トレーニングで使用されるデータセットの広さと一貫性に大きく依存する。 この種の特性は通常、現実世界では豊富ではなく、通常は制限され、保証されなければならないプライバシーの制約がある。 したがって、ノイズや置換を加えるか、新しい合成データを生成することにより、 \gls{da} 技術を用いてデータ数を増やすことができる。 この分野の現状を体系的にレビューし、全ての利用可能なアルゴリズムの概要を提供し、最も関連する研究の分類法を提案する。 プロセスの重要な部分として、パフォーマンスを評価するための異なるメトリクスと、各モデルに関する主要な問題を分析します。 この研究の最終的な目標は、この分野の将来の研究者を導くために、より良い結果を生み出す領域の進化と性能の概要を提供することである。

With the latest advances in deep learning generative models, it has not taken long to take advantage of their remarkable performance in the area of time series. Deep neural networks used to work with time series depend heavily on the breadth and consistency of the datasets used in training. These types of characteristic are not usually abundant in the real world, where they are usually limited and often with privacy constraints that must be guaranteed. Therefore, an effective way is to increase the number of data using \gls{da} techniques, either by adding noise or permutations and by generating new synthetic data. It is systematically review the current state-of-the-art in the area to provide an overview of all available algorithms and proposes a taxonomy of the most relevant researches. The efficiency of the different variants will be evaluated; as a vital part of the process, the different metrics to evaluate the performance and the main problems concerning each model will be analysed. The ultimate goal of this study is to provide a summary of the evolution and performance of areas that produce better results to guide future researchers in this field.
翻訳日:2022-06-29 12:34:25 公開日:2022-06-25
# リアルタイム入札のための機能最適化強化学習

Functional Optimization Reinforcement Learning for Real-Time Bidding ( http://arxiv.org/abs/2206.13939v1 )

ライセンス: Link先を確認
Yining Lu, Changjie Lu, Naina Bandyopadhyay, Manoj Kumar, Gaurav Gupta(参考訳) リアルタイム入札はプログラム広告の新しいパラダイムである。 広告主は、広告キャンペーンのパフォーマンスを改善するために、‘textbf{Demand-Side Platform}’を利用するインテリジェントな選択をしたい。 既存のアプローチは,確率的入札行動による入札最適化に対する満足度の高いソリューションの提供に苦慮している。 本稿では,機能最適化を用いたRTBのためのマルチエージェント強化学習アーキテクチャを提案する。 3つのラグランジュ乗算器に基づく機能最適化エージェントと1つのベースラインエージェント(機能最適化の属性なし) 第一に、偏りや偏りのない勝利確率、ラグランジュ乗算器、クリックスルー率を含む多くの属性が各エージェントに割り当てられている。 提案したRTB戦略の性能を評価するため,10件の連続模擬オークションキャンペーンの結果を実証した。 その結果、機能行動と報酬を持つエージェントは、偏りのある情報と偏りのない情報から、最も有意な平均勝利率と勝利余剰率を示した。 実験の結果,本手法はキャンペーンの有効性と収益性を大幅に向上させることがわかった。

Real-time bidding is the new paradigm of programmatic advertising. An advertiser wants to make the intelligent choice of utilizing a \textbf{Demand-Side Platform} to improve the performance of their ad campaigns. Existing approaches are struggling to provide a satisfactory solution for bidding optimization due to stochastic bidding behavior. In this paper, we proposed a multi-agent reinforcement learning architecture for RTB with functional optimization. We designed four agents bidding environment: three Lagrange-multiplier based functional optimization agents and one baseline agent (without any attribute of functional optimization) First, numerous attributes have been assigned to each agent, including biased or unbiased win probability, Lagrange multiplier, and click-through rate. In order to evaluate the proposed RTB strategy's performance, we demonstrate the results on ten sequential simulated auction campaigns. The results show that agents with functional actions and rewards had the most significant average winning rate and winning surplus, given biased and unbiased winning information respectively. The experimental evaluations show that our approach significantly improve the campaign's efficacy and profitability.
翻訳日:2022-06-29 12:31:59 公開日:2022-06-25
# (参考訳) マルチビジュアルモードフォール検出データセット

Multi Visual Modality Fall Detection Dataset ( http://arxiv.org/abs/2206.12740v1 )

ライセンス: CC BY 4.0
Stefan Denkovski, Shehroz S. Khan, Brandon Malamis, Sae Young Moon, Bing Ye, Alex Mihailidis(参考訳) 滝は、世界中の高齢者の傷害死の原因の1つである。 転倒の効果的な検出は、合併症や怪我のリスクを軽減できる。 転倒検出はウェアラブルデバイスや環境センサーを使って行うことができる。 ビデオカメラはパッシブな代替手段を提供するが、通常のrgbカメラは照明条件の変更とプライバシーの懸念によって影響を受ける。 機械学習の観点からは,転倒の希少性と変動性から,効果的な転倒検出システムの開発が困難である。 多くの既存の転倒検出データセットは、様々な照明、日常生活(ADL)の継続的な活動、カメラ配置など、重要な現実世界の考慮を欠いている。 これらの考慮が欠如しているため、実世界で効果的に動作可能な予測モデルの開発は困難である。 これらの制約に対処するために、赤外線、深度、RGB、サーマルカメラの4つの視覚的モダリティを含む新しい多モードデータセット(MUVIM)を導入する。 これらのモダリティは、難読な顔の特徴や低照度環境での性能向上などの利点を提供する。 転倒検出を,時空間畳み込み型オートエンコーダをadlでのみ訓練し,転倒が復元誤差を増大させるような異常検出問題として定式化した。 その結果,赤外線カメラが最も高い性能(AUC ROC=0.94),熱(AUC ROC=0.87),深度(AUC ROC=0.86),RGB(AUC ROC=0.83)が得られた。 この研究は、パフォーマンス、受動的性、プライバシのバランスを保ちながら、家庭における転倒検出におけるカメラモードの有用性を分析するユニークな機会を提供する。

Falls are one of the leading cause of injury-related deaths among the elderly worldwide. Effective detection of falls can reduce the risk of complications and injuries. Fall detection can be performed using wearable devices or ambient sensors; these methods may struggle with user compliance issues or false alarms. Video cameras provide a passive alternative; however, regular RGB cameras are impacted by changing lighting conditions and privacy concerns. From a machine learning perspective, developing an effective fall detection system is challenging because of the rarity and variability of falls. Many existing fall detection datasets lack important real-world considerations, such as varied lighting, continuous activities of daily living (ADLs), and camera placement. The lack of these considerations makes it difficult to develop predictive models that can operate effectively in the real world. To address these limitations, we introduce a novel multi-modality dataset (MUVIM) that contains four visual modalities: infra-red, depth, RGB and thermal cameras. These modalities offer benefits such as obfuscated facial features and improved performance in low-light conditions. We formulated fall detection as an anomaly detection problem, in which a customized spatio-temporal convolutional autoencoder was trained only on ADLs so that a fall would increase the reconstruction error. Our results showed that infra-red cameras provided the highest level of performance (AUC ROC=0.94), followed by thermal (AUC ROC=0.87), depth (AUC ROC=0.86) and RGB (AUC ROC=0.83). This research provides a unique opportunity to analyze the utility of camera modalities in detecting falls in a home setting while balancing performance, passiveness, and privacy.
翻訳日:2022-06-29 12:06:16 公開日:2022-06-25
# (参考訳) 動的グラフニューラルネットワークによる海洋変数のモデル化

Modeling Oceanic Variables with Dynamic Graph Neural Networks ( http://arxiv.org/abs/2206.12746v1 )

ライセンス: CC BY 4.0
Caio F. D. Netto, Marcel R. de Barros, Jefferson F. Coelho, Lucas P. de Freitas, Felipe M. Moreno, Marlon S. Mathias, Marcelo Dottori, F\'abio G. Cozman, Anna H. R. Costa, Edson S. Gomi, Eduardo A. Tannuri(参考訳) 研究者は通常、環境現象をマスターする重要なタスクである海洋力学を理解し予測するために数値的な手法を用いる。 このような手法は、トポロジマップが複雑で、基礎となるプロセスに関する知識が不完全である、あるいはアプリケーションが時間的クリティカルなシナリオには適さないかもしれない。 一方、海洋力学が観測された場合、最近の機械学習手法によって利用することができる。 本稿では,ブラジル南東部のサントス・サンテ・ビセンテ・ベルティオガ・エストゥーリン・システムにおいて,現在の速度や海面高度などの環境変数を予測するためのデータ駆動手法について述べる。 我々のモデルは,観測現場間で共有される時間的特徴と空間的関係の両方を学習するエンドツーエンドのフレームワークにおいて,最先端のシーケンスモデル (LSTM, Transformer) と関係モデル (Graph Neural Networks) を結合することによって,時間的・空間的帰納バイアスを生かしている。 我々は,サントス運用予測システム(sofs)との比較を行った。 実験の結果、柔軟性とほとんどドメイン知識に依存しないまま、私たちのモデルによってより良い結果が得られます。

Researchers typically resort to numerical methods to understand and predict ocean dynamics, a key task in mastering environmental phenomena. Such methods may not be suitable in scenarios where the topographic map is complex, knowledge about the underlying processes is incomplete, or the application is time critical. On the other hand, if ocean dynamics are observed, they can be exploited by recent machine learning methods. In this paper we describe a data-driven method to predict environmental variables such as current velocity and sea surface height in the region of Santos-Sao Vicente-Bertioga Estuarine System in the southeastern coast of Brazil. Our model exploits both temporal and spatial inductive biases by joining state-of-the-art sequence models (LSTM and Transformers) and relational models (Graph Neural Networks) in an end-to-end framework that learns both the temporal features and the spatial relationship shared among observation sites. We compare our results with the Santos Operational Forecasting System (SOFS). Experiments show that better results are attained by our model, while maintaining flexibility and little domain knowledge dependency.
翻訳日:2022-06-29 11:46:23 公開日:2022-06-25
# (参考訳) HyGNN:ハイパーグラフニューラルネットワークによる薬物と薬物の相互作用予測

HyGNN: Drug-Drug Interaction Prediction via Hypergraph Neural Network ( http://arxiv.org/abs/2206.12747v1 )

ライセンス: CC BY 4.0
Khaled Mohammed Saifuddin, Bri Bumgardnerr, Farhan Tanvir, Esra Akbas(参考訳) 薬物・薬物相互作用(DDI)は薬物の機能を妨げる可能性があり、最悪の場合、薬物反応(ADR)を引き起こす可能性がある。 すべてのDDIを予測することは難しくて重要な問題です。 既存の計算モデルは、異なるソースからの薬物中心の情報を統合し、それらを機械学習分類器の機能として利用してDDIを予測する。 しかし、これらのモデルは、特に全ての情報が入手できない新しい薬物に対して、失敗の確率が高い。 本稿では,ddi予測問題に対して,薬剤のスマイル列のみに基づいた新しいハイパーグラフニューラルネットワーク(hygnn)モデルを提案する。 薬剤の類似性を捉えるため,SMILES文字列から抽出した薬物の化学的サブ構造からハイパーグラフを作成する。 そこで我々は,新しい注目に基づくハイパーグラフエッジエンコーダによるHyGNNを開発し,薬物をハイパーエッジとして表現し,薬物対間の相互作用を予測するデコーダを開発した。 さらに,本モデルを評価するための広範囲な実験を行い,いくつかの最先端手法と比較した。 実験の結果,提案したHyGNNモデルはDDIを効果的に予測し,最大ROC-AUCとPR-AUCを97.9%,98.1%で比較した。

Drug-Drug Interactions (DDIs) may hamper the functionalities of drugs, and in the worst scenario, they may lead to adverse drug reactions (ADRs). Predicting all DDIs is a challenging and critical problem. Most existing computational models integrate drug-centric information from different sources and leverage them as features in machine learning classifiers to predict DDIs. However, these models have a high chance of failure, especially for the new drugs when all the information is not available. This paper proposes a novel Hypergraph Neural Network (HyGNN) model based on only the SMILES string of drugs, available for any drug, for the DDI prediction problem. To capture the drug similarities, we create a hypergraph from drugs' chemical substructures extracted from the SMILES strings. Then, we develop HyGNN consisting of a novel attention-based hypergraph edge encoder to get the representation of drugs as hyperedges and a decoder to predict the interactions between drug pairs. Furthermore, we conduct extensive experiments to evaluate our model and compare it with several state-of-the-art methods. Experimental results demonstrate that our proposed HyGNN model effectively predicts DDIs and impressively outperforms the baselines with a maximum ROC-AUC and PR-AUC of 97.9% and 98.1%, respectively.
翻訳日:2022-06-29 11:29:15 公開日:2022-06-25
# 階層型ベイズ学習を用いた逐次画像復元

Sequential image recovery using joint hierarchical Bayesian learning ( http://arxiv.org/abs/2206.12745v1 )

ライセンス: Link先を確認
Yao Xiao and Jan Glaubitz(参考訳) 間接的、ノイズ、あるいは不完全なデータに基づく時間的画像シーケンス(ビデオ)の復元は不可欠だが難しい作業である。 具体的には,各データセットに致命的な情報が欠落している場合について考察し,個々の画像の正確な復元を防止する。 最近の(変分法)手法では、連続画像の連立復元に基づく高分解能画像復元が実証されているが、パラメータチューニングやシーケンシャル画像の種類制限による堅牢性の問題が残っている。 本稿では,事前画像情報と画像間情報を組み合わせた逐次画像の同時復元のための階層ベイズ学習に基づく手法を提案する。 本手法は,他の画像から「ボーリング」することで,各画像の欠落情報を復元する。 その結果、個々の再構成のemph{all} により精度が向上した。 本手法は様々なデータ取得に利用でき,不確実性定量化が可能となる。 いくつかの予備的な結果は、シーケンシャルデブロアリングと磁気共鳴イメージングにその可能性を示している。

Recovering temporal image sequences (videos) based on indirect, noisy, or incomplete data is an essential yet challenging task. We specifically consider the case where each data set is missing vital information, which prevents the accurate recovery of the individual images. Although some recent (variational) methods have demonstrated high-resolution image recovery based on jointly recovering sequential images, there remain robustness issues due to parameter tuning and restrictions on the type of the sequential images. Here, we present a method based on hierarchical Bayesian learning for the joint recovery of sequential images that incorporates prior intra- and inter-image information. Our method restores the missing information in each image by "borrowing" it from the other images. As a result, \emph{all} of the individual reconstructions yield improved accuracy. Our method can be used for various data acquisitions and allows for uncertainty quantification. Some preliminary results indicate its potential use for sequential deblurring and magnetic resonance imaging.
翻訳日:2022-06-28 17:22:53 公開日:2022-06-25
# StyleGAN2 と MEL-Spectrogram を用いた声帯異方性バーストの生成

Generating Diverse Vocal Bursts with StyleGAN2 and MEL-Spectrograms ( http://arxiv.org/abs/2206.12563v1 )

ライセンス: Link先を確認
Marco Jiralerspong and Gauthier Gidel(参考訳) 本稿では,icml表現発声競争における生成的感情発声タスク(exvo生成)に対するアプローチについて述べる。 条件付きstylegan2アーキテクチャを事前処理されたオーディオサンプルのメルスペクトログラム上にトレーニングする。 モデルによって生成されたメルスペクトルは、オーディオ領域に戻される。 その結果,すべての感情の質的,定量的な観点で比較した結果,生成したサンプルのベースラインが大幅に向上した。 より正確には、最悪のパフォーマンスの感情(awe)であっても、ベースラインである4.81と比較してFADが1.76である(参考として、aweの列車/検証セット間のFADは0.776)。

We describe our approach for the generative emotional vocal burst task (ExVo Generate) of the ICML Expressive Vocalizations Competition. We train a conditional StyleGAN2 architecture on mel-spectrograms of preprocessed versions of the audio samples. The mel-spectrograms generated by the model are then inverted back to the audio domain. As a result, our generated samples substantially improve upon the baseline provided by the competition from a qualitative and quantitative perspective for all emotions. More precisely, even for our worst-performing emotion (awe), we obtain an FAD of 1.76 compared to the baseline of 4.81 (as a reference, the FAD between the train/validation sets for awe is 0.776).
翻訳日:2022-06-28 17:21:10 公開日:2022-06-25
# 流行拡大のマルチスケール双曲モデルのための漸近保存ニューラルネットワーク

Asymptotic-Preserving Neural Networks for multiscale hyperbolic models of epidemic spread ( http://arxiv.org/abs/2206.12625v1 )

ライセンス: Link先を確認
Giulia Bertaglia, Chuan Lu, Lorenzo Pareschi, Xueyu Zhu(参考訳) 微分モデルによる流行ダイナミクスを調査する際、この現象を理解し、予測シナリオをシミュレートするのに必要なパラメータは微妙なキャリブレーションフェーズを必要とするため、公式情報源が報告した観測データの不足と不確実性により、さらに困難になることが多い。 この文脈において、物理に変形したニューラルネットワーク(pinns)は、学習過程における物理現象を支配する微分モデルの知識を埋め込むことにより、データ駆動学習の逆および前方の問題に効果的に対処し、対応する流行問題を解くことができる。 しかし、多くの状況において、感染症の空間的伝播は、多スケールPDEによって管理される異なるスケールの個体の動きによって特徴づけられる。 これは、都市や近隣のゾーンにおけるダイナミックスに関連する地域や領域の不均一性を反映している。 複数のスケールが存在する場合、ピンの直接的適用は一般に、ニューラルネットワークの損失関数における微分モデルの多スケール性に起因する結果に悪影響を与える。 ニューラルネットワークが小さなスケールに対して均一に動作するようにするためには、学習過程における漸近保存(ap)特性を満たすことが望ましい。 そこで本研究では,スプレッド・スプレッドのマルチスケール双曲型輸送モデルにおけるapニューラルネットワーク(apnns)の新たなクラスについて検討し,損失関数の適切なap定式化により,システムの異なるスケールで均一に動作できることを示す。 異なる流行シナリオに対する一連の数値テストは提案手法の有効性を確認し、特にスパース系と部分的に観察されたシステムの存在下でのマルチスケール問題に対処する際のニューラルネットワークにおけるAP特性の重要性を強調した。

When investigating epidemic dynamics through differential models, the parameters needed to understand the phenomenon and to simulate forecast scenarios require a delicate calibration phase, often made even more challenging by the scarcity and uncertainty of the observed data reported by official sources. In this context, Physics-Informed Neural Networks (PINNs), by embedding the knowledge of the differential model that governs the physical phenomenon in the learning process, can effectively address the inverse and forward problem of data-driven learning and solving the corresponding epidemic problem. In many circumstances, however, the spatial propagation of an infectious disease is characterized by movements of individuals at different scales governed by multiscale PDEs. This reflects the heterogeneity of a region or territory in relation to the dynamics within cities and in neighboring zones. In presence of multiple scales, a direct application of PINNs generally leads to poor results due to the multiscale nature of the differential model in the loss function of the neural network. To allow the neural network to operate uniformly with respect to the small scales, it is desirable that the neural network satisfies an Asymptotic-Preservation (AP) property in the learning process. To this end, we consider a new class of AP Neural Networks (APNNs) for multiscale hyperbolic transport models of epidemic spread that, thanks to an appropriate AP formulation of the loss function, is capable to work uniformly at the different scales of the system. A series of numerical tests for different epidemic scenarios confirms the validity of the proposed approach, highlighting the importance of the AP property in the neural network when dealing with multiscale problems especially in presence of sparse and partially observed systems.
翻訳日:2022-06-28 17:20:57 公開日:2022-06-25
# ランダム・ターゲット・アダプティブ・アタックによるスマートグリッドのカスケード障害

Cascading Failures in Smart Grids under Random, Targeted and Adaptive Attacks ( http://arxiv.org/abs/2206.12735v1 )

ライセンス: Link先を確認
Sushmita Ruj and Arindam Pal(参考訳) スマートグリッドにおけるカスケード障害について検討し、攻撃者がノードの次数、間性、クラスタリング係数に比例した確率で選択的に妥協する。 これは、高い次数、中間性、またはクラスタリング係数を持つノードが高い確率で攻撃されることを意味する。 対象とする攻撃の種類によってネットワークの巨大コンポーネントのサイズを数学的に実験的に解析し,ランダム攻撃における結果と対応するサイズを比較した。 ネットワークはランダム攻撃に比べて標的攻撃に対してより高速に崩壊することを示す。 少数の高次ノードに対する標的攻撃はネットワークの一方または両方を分解する一方、両方のネットワークは同じノードに対してランダムに攻撃するための巨大なコンポーネントを含んでいる。 重要な観察は、攻撃者が次数やクラスタリング係数ではなく、相互性に基づいてノードを妥協した場合に有利であるということだ。 次にアダプティブアタックについて検討する。アタッカーがラウンドのノードを侵害する。 ここでは、すべてのノードをまとめるのではなく、その度合い、間隙係数、クラスタリング係数に基づいて、各ラウンドでいくつかのノードが妥協される。 この場合、初期ではなく、各ラウンドの開始前に、度合い、間性、またはクラスタリング係数が計算される。 我々は,同じノード数を一度に妥協するよりも,この適応的アプローチにおいて敵が有利であることを実験的に示す。

We study cascading failures in smart grids, where an attacker selectively compromises the nodes with probabilities proportional to their degrees, betweenness, or clustering coefficient. This implies that nodes with high degrees, betweenness, or clustering coefficients are attacked with higher probability. We mathematically and experimentally analyze the sizes of the giant components of the networks under different types of targeted attacks, and compare the results with the corresponding sizes under random attacks. We show that networks disintegrate faster for targeted attacks compared to random attacks. A targeted attack on a small fraction of high degree nodes disintegrates one or both of the networks, whereas both the networks contain giant components for random attack on the same fraction of nodes. An important observation is that an attacker has an advantage if it compromises nodes based on their betweenness, rather than based on degree or clustering coefficient. We next study adaptive attacks, where an attacker compromises nodes in rounds. Here, some nodes are compromised in each round based on their degree, betweenness or clustering coefficients, instead of compromising all nodes together. In this case, the degree, betweenness, or clustering coefficient is calculated before the start of each round, instead of at the beginning. We show experimentally that an adversary has an advantage in this adaptive approach, compared to compromising the same number of nodes all at once.
翻訳日:2022-06-28 17:19:46 公開日:2022-06-25
# Visual Auditor: モデルバイアスの検出と要約のためのインタラクティブな可視化

Visual Auditor: Interactive Visualization for Detection and Summarization of Model Biases ( http://arxiv.org/abs/2206.12540v1 )

ライセンス: Link先を確認
David Munechika, Zijie J. Wang, Jack Reidy, Josh Rubin, Krishna Gade, Krishnaram Kenthapadi, Duen Horng Chau(参考訳) 機械学習(ML)システムが普及するにつれて、これらのシステムをデプロイ前にバイアスとして監査する必要がある。 近年の研究では、データの解釈可能な部分集合(またはスライス)という形で、交叉バイアスを効果的に識別するアルゴリズムが開発されている。 しかしながら、これらの解とその洞察は、これらのアルゴリズムの結果を視覚的に理解し、相互作用するツールなしで制限されている。 モデルバイアスの監査と要約を行うインタラクティブな可視化ツールであるvisual auditorを提案する。 Visual Auditorは、交差バイアス(複数の特徴によって定義される人口を調べる際に存在するバイアス)の解釈可能な概要、問題のあるデータスライス間の関係の詳細、モデルにおける過度なパフォーマンスと過剰なパフォーマンスのデータスライスの比較を提供することで、モデルの検証を支援する。 私たちのオープンソースツールは計算ノートブックとWebブラウザの両方で直接動作し、モデル監査を現在のML開発ワークフローに容易に組み込むことができます。 fiddler aiのドメインエキスパートと共同で行った観察的ユーザスタディでは、このツールはml実践者がモデルのバイアスを識別し理解するのに役立ちます。

As machine learning (ML) systems become increasingly widespread, it is necessary to audit these systems for biases prior to their deployment. Recent research has developed algorithms for effectively identifying intersectional bias in the form of interpretable, underperforming subsets (or slices) of the data. However, these solutions and their insights are limited without a tool for visually understanding and interacting with the results of these algorithms. We propose Visual Auditor, an interactive visualization tool for auditing and summarizing model biases. Visual Auditor assists model validation by providing an interpretable overview of intersectional bias (bias that is present when examining populations defined by multiple features), details about relationships between problematic data slices, and a comparison between underperforming and overperforming data slices in a model. Our open-source tool runs directly in both computational notebooks and web browsers, making model auditing accessible and easily integrated into current ML development workflows. An observational user study in collaboration with domain experts at Fiddler AI highlights that our tool can help ML practitioners identify and understand model biases.
翻訳日:2022-06-28 16:37:49 公開日:2022-06-25
# BackdoorBench: バックドア学習の総合ベンチマーク

BackdoorBench: A Comprehensive Benchmark of Backdoor Learning ( http://arxiv.org/abs/2206.12654v1 )

ライセンス: Link先を確認
Baoyuan Wu, Hongrui Chen, Mingda Zhang, Zihao Zhu, Shaokui Wei, Danni Yuan, Chao Shen, Hongyuan Zha(参考訳) バックドア学習は、ディープニューラルネットワーク(DNN)の脆弱性を研究する上で、新しく重要なトピックである。 多くの先駆的なバックドア攻撃と防衛手法が、素早い武器競争の状況において、連続的または同時に提案されている。 しかし,新しい手法の評価は,迅速な開発や多様な設定,実装や再現性の難しさなどから,その主張や実際の性能を検証するには不十分であることが多い。 徹底的な評価と比較がなければ、現在の進捗を追跡し、文献の今後の開発ロードマップを設計することは困難である。 このジレンマを軽減するために、BackdoorBenchというバックドア学習の包括的なベンチマークを構築しました。 拡張可能なモジュールベースのコードベース(現在は8つの最先端(SOTA)攻撃と9つのSOTA防御アルゴリズムの実装を含む)と、完全なバックドア学習の標準化されたプロトコルで構成されている。 また,5つのモデルと4つのデータセットに基づいて,9つのディフェンスに対する8対の攻撃を総合的に評価し,合計8000対の評価を行った。 さらに,これらの8000評価の異なる視点から分析を行い,バックドア学習における防衛アルゴリズム,中毒率,モデル,データセットの攻撃効果について検討した。 BackdoorBench のコードと評価はすべて \url{https://backdoorbench.github.io} で公開されている。

Backdoor learning is an emerging and important topic of studying the vulnerability of deep neural networks (DNNs). Many pioneering backdoor attack and defense methods are being proposed successively or concurrently, in the status of a rapid arms race. However, we find that the evaluations of new methods are often unthorough to verify their claims and real performance, mainly due to the rapid development, diverse settings, as well as the difficulties of implementation and reproducibility. Without thorough evaluations and comparisons, it is difficult to track the current progress and design the future development roadmap of the literature. To alleviate this dilemma, we build a comprehensive benchmark of backdoor learning, called BackdoorBench. It consists of an extensible modular based codebase (currently including implementations of 8 state-of-the-art (SOTA) attack and 9 SOTA defense algorithms), as well as a standardized protocol of a complete backdoor learning. We also provide comprehensive evaluations of every pair of 8 attacks against 9 defenses, with 5 poisoning ratios, based on 5 models and 4 datasets, thus 8,000 pairs of evaluations in total. We further present analysis from different perspectives about these 8,000 evaluations, studying the effects of attack against defense algorithms, poisoning ratio, model and dataset in backdoor learning. All codes and evaluations of BackdoorBench are publicly available at \url{https://backdoorbench.github.io}.
翻訳日:2022-06-28 16:37:28 公開日:2022-06-25
# ビザンチン攻撃に対するマルチタスクネットワーク上のロバスト回復性拡散の設計と解析

Design and Analysis of Robust Resilient Diffusion over Multi-Task Networks Against Byzantine Attacks ( http://arxiv.org/abs/2206.12749v1 )

ライセンス: Link先を確認
Tao Yu, Rodrigo C. de Lamare and Yi Yu(参考訳) 本稿では,マルチタスクネットワーク上での分散拡散適応について,インパルス干渉とビザンチン攻撃の存在下で検討する。 我々は,German-McClure推定器が使用するコスト関数に基づいて,ロバストな弾性拡散最小値Geman-McClure-estimation (RDLMG)アルゴリズムを開発した。 さらに、各ノードが隣接ノードから受け取ったコスト貢献の極端値情報を破棄する平均サブシーケンス削減手法により、ビザンチン攻撃に対してネットワークの回復性が向上する。 この点において,提案するrdlmgアルゴリズムは,ノード間の協調により,すべての正規ノードが理想状態に収束することを保証する。 RDLMGアルゴリズムの統計解析も平均および平均2乗性能の観点から行う。 提案したRDLMGアルゴリズムをマルチターゲットローカライゼーションおよびマルチタスクスペクトルセンシングへの応用に応用した。

This paper studies distributed diffusion adaptation over clustered multi-task networks in the presence of impulsive interferences and Byzantine attacks. We develop a robust resilient diffusion least mean Geman-McClure-estimation (RDLMG) algorithm based on the cost function used by the Geman-McClure estimator, which can reduce the sensitivity to large outliers and make the algorithm robust under impulsive interferences. Moreover, the mean sub-sequence reduced method, in which each node discards the extreme value information of cost contributions received from its neighbors, can make the network resilient against Byzantine attacks. In this regard, the proposed RDLMG algorithm ensures that all normal nodes converge to their ideal states with cooperation among nodes. A statistical analysis of the RDLMG algorithm is also carried out in terms of mean and mean-square performances. Numerical results evaluate the proposed RDLMG algorithm in applications to multi-target localization and multi-task spectrum sensing.
翻訳日:2022-06-28 16:37:00 公開日:2022-06-25
# 対話型モーションから大規模物体の操作方法を予測するための学習

Learn to Predict How Humans Manipulate Large-sized Objects from Interactive Motions ( http://arxiv.org/abs/2206.12612v1 )

ライセンス: Link先を確認
Weilin Wan, Lei Yang, Lingjie Liu, Zhuoying Zhang, Ruixing Jia, Yi-King Choi, Jia Pan, Christian Theobalt, Taku Komura and Wenping Wang(参考訳) 対話中の人間の意図を理解することは、長く続くテーマであり、人間とロボットの相互作用、バーチャルリアリティ、監視に応用されている。 本研究では,人間と物体の相互作用を連続的に観察することで,物体と人間の将来の状態を予測することを目的とした。 大規模な日常オブジェクトとフルボディのヒューマンインタラクション専用のデータセットは存在しないため、トレーニングや評価目的で数千のインタラクションを含む大規模なデータセットを収集しました。 また,物体の固有物理的性質が物体運動予測に有用であることを観察し,そのような固有特性を符号化する対象動的ディスクリプタの集合を設計する。 本稿では,オブジェクト動的ディスクリプタを新たなモダリティとして扱い,予測タスクに動きデータと動的ディスクリプタを融合するグラフニューラルネットワークho-gcnを提案する。 動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。 また,予測結果が人間とロボットのコラボレーションに有用であることを示す。

Understanding human intentions during interactions has been a long-lasting theme, that has applications in human-robot interaction, virtual reality and surveillance. In this study, we focus on full-body human interactions with large-sized daily objects and aim to predict the future states of objects and humans given a sequential observation of human-object interaction. As there is no such dataset dedicated to full-body human interactions with large-sized daily objects, we collected a large-scale dataset containing thousands of interactions for training and evaluation purposes. We also observe that an object's intrinsic physical properties are useful for the object motion prediction, and thus design a set of object dynamic descriptors to encode such intrinsic properties. We treat the object dynamic descriptors as a new modality and propose a graph neural network, HO-GCN, to fuse motion data and dynamic descriptors for the prediction task. We show the proposed network that consumes dynamic descriptors can achieve state-of-the-art prediction results and help the network better generalize to unseen objects. We also demonstrate the predicted results are useful for human-robot collaborations.
翻訳日:2022-06-28 16:26:50 公開日:2022-06-25
# PLATON:重み重みの高信頼境界を持つ大規模変圧器モデル

PLATON: Pruning Large Transformer Models with Upper Confidence Bound of Weight Importance ( http://arxiv.org/abs/2206.12562v1 )

ライセンス: Link先を確認
Qingru Zhang, Simiao Zuo, Chen Liang, Alexander Bukharin, Pengcheng He, Weizhu Chen, Tuo Zhao(参考訳) トランスフォーマーベースの大規模モデルは、様々な自然言語処理やコンピュータビジョンタスクにおいて優れた性能を示した。 しかし、これらのモデルには膨大なパラメータが含まれており、実際のアプリケーションへのデプロイメントを制限する。 モデルサイズを減らすために、研究者は重み付けの重要性スコアに基づいてこれらのモデルを試す。 しかしながら、このようなスコアは通常、訓練中のミニバッチで推定されるため、ミニバッチサンプリングと複雑なトレーニングダイナミクスにより、大きな変動や確実性が伴う。 その結果、この不確実性によりトレーニングが不安定になり、一般化を損なうため、一般的に使用されるプルーニング法によっていくつかの重要な重量を刈り取ることができる。 この問題を解決するために,重要度推定の上限値(UCB)によって重要度スコアの不確かさを捉えるPLATONを提案する。 特に、重要度は低いが不確実性が高い重量では、PLATONはそれらを保持し、その能力を探る傾向がある。 我々は、自然言語理解、質問応答、画像分類に関するトランスフォーマーモデルを用いて広範な実験を行い、PLATONの有効性を検証する。 その結果, PLATONは各部位で顕著な改善を示した。 私たちのコードはhttps://github.com/QingruZhang/PLATON.comで公開されています。

Large Transformer-based models have exhibited superior performance in various natural language processing and computer vision tasks. However, these models contain enormous amounts of parameters, which restrict their deployment to real-world applications. To reduce the model size, researchers prune these models based on the weights' importance scores. However, such scores are usually estimated on mini-batches during training, which incurs large variability/uncertainty due to mini-batch sampling and complicated training dynamics. As a result, some crucial weights could be pruned by commonly used pruning methods because of such uncertainty, which makes training unstable and hurts generalization. To resolve this issue, we propose PLATON, which captures the uncertainty of importance scores by upper confidence bound (UCB) of importance estimation. In particular, for the weights with low importance scores but high uncertainty, PLATON tends to retain them and explores their capacity. We conduct extensive experiments with several Transformer-based models on natural language understanding, question answering and image classification to validate the effectiveness of PLATON. Results demonstrate that PLATON manifests notable improvement under different sparsity levels. Our code is publicly available at https://github.com/QingruZhang/PLATON.
翻訳日:2022-06-28 15:59:22 公開日:2022-06-25
# 可変サブセット上の多変量時系列予測

Multi-Variate Time Series Forecasting on Variable Subsets ( http://arxiv.org/abs/2206.12626v1 )

ライセンス: Link先を確認
Jatin Chauhan, Aravindan Raghuveer, Rishi Saket, Jay Nandy, Balaraman Ravindran(参考訳) 多変量時系列予測(MTSF)の領域における新しい推論タスクを定式化し、変数の小さなサブセットのみを推論時に利用できる可変サブセット予測(VSF)と呼ぶ。 長期データ損失(センサー障害など)や-> 列車/テスト間の低リソース領域シフトのため、推論中に変数が欠落している。 我々の知る限りでは、そのような失敗が存在する場合のMTSFモデルの堅牢性は文献では研究されていない。 広範な評価を通して,まずvsf設定において,art法の性能が著しく低下することを示す。 本稿では,既存の予測モデル上で適用可能な非パラメトリックラッパー手法を提案する。 4つのデータセットと5つの予測モデルにまたがる系統的な実験により,本手法は,元の変数の15%しか存在しない場合でも,モデルの95%近くの性能を回復できることを示した。

We formulate a new inference task in the domain of multivariate time series forecasting (MTSF), called Variable Subset Forecast (VSF), where only a small subset of the variables is available during inference. Variables are absent during inference because of long-term data loss (eg. sensor failures) or high -> low-resource domain shift between train / test. To the best of our knowledge, robustness of MTSF models in presence of such failures, has not been studied in the literature. Through extensive evaluation, we first show that the performance of state of the art methods degrade significantly in the VSF setting. We propose a non-parametric, wrapper technique that can be applied on top any existing forecast models. Through systematic experiments across 4 datasets and 5 forecast models, we show that our technique is able to recover close to 95\% performance of the models even when only 15\% of the original variables are present.
翻訳日:2022-06-28 15:59:01 公開日:2022-06-25
# モデル過度パラメータ化時の急激な相関の悪化を回避する方法について

On how to avoid exacerbating spurious correlations when models are overparameterized ( http://arxiv.org/abs/2206.12739v1 )

ライセンス: Link先を確認
Tina Behnia, Ke Wang, Christos Thrampoulidis(参考訳) 過パラメータ化モデルは、従来の不均衡緩和技術と組み合わせても、データ不均衡の存在下でうまく一般化できない。 本稿では,人口のごく一部(少数派)が,クラスラベルと突発的に相関する特徴を含む不均衡な分類データセットに焦点を当てた。 クロスエントロピー損失修正のパラメトリック族と代表的なガウス混合モデルに対し、異なるハイパーパラメータの役割に光を当てた最悪のグループ誤差に基づく非漸近一般化境界を導出する。 特に、適切に調整された場合、最近提案されたVS-lossは、スプリアス機能が強い場合でも、マイノリティに公平なモデルを学ぶ。 一方、重み付きCEやLAロスのような代替ヒューリスティックは劇的に失敗する可能性がある。 以前の作品と比較して、我々の境界はより一般的なモデルであり、非漸近的であり、極端な不均衡のシナリオでも適用できる。

Overparameterized models fail to generalize well in the presence of data imbalance even when combined with traditional techniques for mitigating imbalances. This paper focuses on imbalanced classification datasets, in which a small subset of the population -- a minority -- may contain features that correlate spuriously with the class label. For a parametric family of cross-entropy loss modifications and a representative Gaussian mixture model, we derive non-asymptotic generalization bounds on the worst-group error that shed light on the role of different hyper-parameters. Specifically, we prove that, when appropriately tuned, the recently proposed VS-loss learns a model that is fair towards minorities even when spurious features are strong. On the other hand, alternative heuristics, such as the weighted CE and the LA-loss, can fail dramatically. Compared to previous works, our bounds hold for more general models, they are non-asymptotic, and, they apply even at scenarios of extreme imbalance.
翻訳日:2022-06-28 15:58:43 公開日:2022-06-25
# 企業報告書公開後の株価変動予測:2021年中国CSI300株を事例として

Predicting Stock Price Movement after Disclosure of Corporate Annual Reports: A Case Study of 2021 China CSI 300 Stocks ( http://arxiv.org/abs/2206.12528v1 )

ライセンス: Link先を確認
Fengyu Han and Yue Wang(参考訳) 現在の株式市場では、コンピューター科学とテクノロジーが株式の分析にますます広く使われている。 この研究は、機械学習の株価予測作業とほぼ同様ではなく、同社の年次報告書の公表直後の2日目の株価の傾向を予測するものである。 決定木,ロジスティック回帰,ランダムフォレスト,ニューラルネットワーク,プロトタイプネットワークなど,さまざまなモデルを用いています。 実験には2組の金融指標(キーと拡張)を使用し、企業によって開示されたEastMoneyのウェブサイトからこれらの金融指標を取得し、最終的にこれらのモデルが傾向を予測するためにうまく振る舞っていないことに気付きました。 また、ROEが0.15以上、純現金比が0.9以上である株もフィルタする。 発表後2日目の株価変動の予測可能性については, 未発表の年次報告に基づく財務指標から, ランダム森林分類器による試験において, 最大精度は59.6%, 最大精度は0.56であり, 株価ろ過性能は改善していないと結論した。 そして、ランダムな森林は、いくつかの研究結果に適合するこれらのモデルの中で、一般的に最もよく機能する。

In the current stock market, computer science and technology are more and more widely used to analyse stocks. Not same as most related machine learning stock price prediction work, this work study the predicting the tendency of the stock price on the second day right after the disclosure of the companies' annual reports. We use a variety of different models, including decision tree, logistic regression, random forest, neural network, prototypical networks. We use two sets of financial indicators (key and expanded) to conduct experiments, these financial indicators are obtained from the EastMoney website disclosed by companies, and finally we find that these models are not well behaved to predict the tendency. In addition, we also filter stocks with ROE greater than 0.15 and net cash ratio greater than 0.9. We conclude that according to the financial indicators based on the just-released annual report of the company, the predictability of the stock price movement on the second day after disclosure is weak, with maximum accuracy about 59.6% and maximum precision about 0.56 on our test set by the random forest classifier, and the stock filtering does not improve the performance. And random forests perform best in general among all these models which conforms to some work's findings.
翻訳日:2022-06-28 15:52:58 公開日:2022-06-25
# データ効率強化学習のための価値一貫性表現学習

Value-Consistent Representation Learning for Data-Efficient Reinforcement Learning ( http://arxiv.org/abs/2206.12542v1 )

ライセンス: Link先を確認
Yang Yue, Bingyi Kang, Zhongwen Xu, Gao Huang, Shuicheng Yan(参考訳) ディープ強化学習(英語版) (RL) アルゴリズムは、相互作用データが乏しく、実際の応用が制限される場合、厳しい性能劣化を被る。 近年, 画像表現学習は, rlにおけるサンプル効率の向上に有効かつ有望であることが示されている。 これらの手法は通常、状態予測のための遷移モデルをトレーニングするために、対照的な学習とデータ拡張に依存します。 したがって、学習したモデルは環境とうまく一致せず、特に状態遷移が決定論的でない場合、一貫した値予測を生成することができる。 そこで本研究では,意思決定に直接関連する表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。 より具体的には、VCRは現在の状態と一連のアクションに基づいて将来の状態(「想像状態」とも呼ばれる)を予測するモデルを訓練する。 この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。 そして、距離を計算して最小化し、想像された状態に実際の状態と同じようなアクション値の予測を強制する。 離散的および連続的な作用空間に対する上記のアイデアの2つの実装をそれぞれ開発する。 atari 100k と deepmind control suite ベンチマークを用いて実験を行い,サンプル効率の向上効果を検証した。 検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。

Deep reinforcement learning (RL) algorithms suffer severe performance degradation when the interaction data is scarce, which limits their real-world application. Recently, visual representation learning has been shown to be effective and promising for boosting sample efficiency in RL. These methods usually rely on contrastive learning and data augmentation to train a transition model for state prediction, which is different from how the model is used in RL--performing value-based planning. Accordingly, the learned model may not be able to align well with the environment and generate consistent value predictions, especially when the state transition is not deterministic. To address this issue, we propose a novel method, called value-consistent representation learning (VCR), to learn representations that are directly related to decision-making. More specifically, VCR trains a model to predict the future state (also referred to as the ''imagined state'') based on the current one and a sequence of actions. Instead of aligning this imagined state with a real state returned by the environment, VCR applies a $Q$-value head on both states and obtains two distributions of action values. Then a distance is computed and minimized to force the imagined state to produce a similar action value prediction as that by the real state. We develop two implementations of the above idea for the discrete and continuous action spaces respectively. We conduct experiments on Atari 100K and DeepMind Control Suite benchmarks to validate their effectiveness for improving sample efficiency. It has been demonstrated that our methods achieve new state-of-the-art performance for search-free RL algorithms.
翻訳日:2022-06-28 15:32:29 公開日:2022-06-25
# 不均質グラフの幾何学的コントラスト学習

Geometry Contrastive Learning on Heterogeneous Graphs ( http://arxiv.org/abs/2206.12547v1 )

ライセンス: Link先を確認
Shichao Zhu, Chuan Zhou, Anfeng Cheng, Shirui Pan, Shuaiqiang Wang, Dawei Yin, Bin Wang(参考訳) ヘテロジニアスグラフ上の自己教師あり学習(特に対照学習)法は、監督データへの依存を効果的に取り除くことができる。 一方、既存の表現学習法は、異質なグラフをユークリッド空間または双曲空間の1つの幾何学空間に埋め込む。 このような単一の幾何学的視点は、通常、その豊富な意味論と複雑な構造のため、不均一グラフの全体像を観察するには不十分である。 そこで本研究では,非可観測時の異種グラフをよりよく表現するために,幾何学コントラスト学習(Geometry Contrastive Learning, GCL)と呼ばれる新たな自己教師付き学習手法を提案する。 GCLはユークリッドと双曲的な視点からヘテロジニアスグラフを同時に捉え、リッチセマンティクスと複雑な構造をモデリングする能力を強く融合させることを目指しており、下流のタスクにより多くの利益をもたらすことが期待されている。 gclは、局所的意味レベルと局所的グローバルな意味レベルでの表現を対比することによって、2つの幾何学的ビュー間の相互情報を最大化する。 4つのベンチマークデータセットに対する大規模な実験により、提案手法はノード分類、ノードクラスタリング、類似度探索を含む3つのタスクにおいて、教師なし手法と教師なし手法の両方を含む強力なベースラインよりも優れていることが示された。

Self-supervised learning (especially contrastive learning) methods on heterogeneous graphs can effectively get rid of the dependence on supervisory data. Meanwhile, most existing representation learning methods embed the heterogeneous graphs into a single geometric space, either Euclidean or hyperbolic. This kind of single geometric view is usually not enough to observe the complete picture of heterogeneous graphs due to their rich semantics and complex structures. Under these observations, this paper proposes a novel self-supervised learning method, termed as Geometry Contrastive Learning (GCL), to better represent the heterogeneous graphs when supervisory data is unavailable. GCL views a heterogeneous graph from Euclidean and hyperbolic perspective simultaneously, aiming to make a strong merger of the ability of modeling rich semantics and complex structures, which is expected to bring in more benefits for downstream tasks. GCL maximizes the mutual information between two geometric views by contrasting representations at both local-local and local-global semantic levels. Extensive experiments on four benchmarks data sets show that the proposed approach outperforms the strong baselines, including both unsupervised methods and supervised methods, on three tasks, including node classification, node clustering and similarity search.
翻訳日:2022-06-28 15:32:02 公開日:2022-06-25
# 神経機械翻訳における幻覚の原因の探索

Probing Causes of Hallucinations in Neural Machine Translations ( http://arxiv.org/abs/2206.12529v1 )

ライセンス: Link先を確認
Jianhao Yan, Fandong Meng, Jie Zhou(参考訳) 神経機械翻訳を悩ませる病態翻訳の一種である幻覚は、最近多くの注目を集めている。 簡単に言えば、幻覚翻訳は流麗な文であるが、ソース入力とはほとんど関係がない。 幻覚の発生は依然として未解決の問題である。 本稿では,モデルアーキテクチャの観点から幻覚の原因を調べるための探索手法を提案する。 様々なnmtデータセット上で実験を行うことで、幻覚はしばしば不足エンコーダ、特に埋め込み、脆弱なクロスアテンションを伴うが、興味深いことにクロスアテンションはエンコーダに起因するいくつかのエラーを緩和する。

Hallucination, one kind of pathological translations that bothers Neural Machine Translation, has recently drawn much attention. In simple terms, hallucinated translations are fluent sentences but barely related to source inputs. Arguably, it remains an open problem how hallucination occurs. In this paper, we propose to use probing methods to investigate the causes of hallucinations from the perspective of model architecture, aiming to avoid such problems in future architecture designs. By conducting experiments over various NMT datasets, we find that hallucination is often accompanied by the deficient encoder, especially embeddings, and vulnerable cross-attentions, while, interestingly, cross-attention mitigates some errors caused by the encoder.
翻訳日:2022-06-28 15:25:05 公開日:2022-06-25
# ソリューションとフィットネスの進化(safe) : 共進化するソリューションとその客観的機能

Solution and Fitness Evolution (SAFE): Coevolving Solutions and Their Objective Functions ( http://arxiv.org/abs/2206.12707v1 )

ライセンス: Link先を確認
Moshe Sipper, Jason H. Moore, Ryan J. Urbanowicz(参考訳) 我々は最近,アルゴリズム最適化,すなわち目的関数を目的関数と組み合わせることによって認識される根本的な問題を強調した。 前者はよく定義されているとしても、後者は明確ではないかもしれない、例えば、迷路をナビゲートして目標(客観的)を見つける戦略を学ぶとき、目的への距離の単純な関数ではないかもしれない。 我々は、適切な目的関数を発見できる手段を自動化することを提案した。 本稿では,2つの進化的集団(候補解の集団と対象関数の集団)を維持する,\textit{commensalistic}共進化アルゴリズムである \textbf{s}olution \textbf{a}nd \textbf{f}itness \textbf{e}volution (\textbf{safe})を提案する。 この概念の原理の証明として、safeはロボット迷路ドメイン内の解をうまく進化させるだけでなく、進化中の解の品質を測定するのに必要な目的関数も示す。

We recently highlighted a fundamental problem recognized to confound algorithmic optimization, namely, \textit{conflating} the objective with the objective function. Even when the former is well defined, the latter may not be obvious, e.g., in learning a strategy to navigate a maze to find a goal (objective), an effective objective function to \textit{evaluate} strategies may not be a simple function of the distance to the objective. We proposed to automate the means by which a good objective function may be discovered -- a proposal reified herein. We present \textbf{S}olution \textbf{A}nd \textbf{F}itness \textbf{E}volution (\textbf{SAFE}), a \textit{commensalistic} coevolutionary algorithm that maintains two coevolving populations: a population of candidate solutions and a population of candidate objective functions. As proof of principle of this concept, we show that SAFE successfully evolves not only solutions within a robotic maze domain, but also the objective functions needed to measure solution quality during evolution.
翻訳日:2022-06-28 15:23:31 公開日:2022-06-25
# SLIC:人間のアクションビデオのための反復クラスタリングによる自己指導型学習

SLIC: Self-Supervised Learning with Iterative Clustering for Human Action Videos ( http://arxiv.org/abs/2206.12534v1 )

ライセンス: Link先を確認
Salar Hosseini Khorasgani, Yuxuan Chen, Florian Shkurti(参考訳) 自己教師付き手法は、画像分類のためのエンドツーエンド教師付き学習とは大きくギャップを閉じている。 しかし、人間のアクションビデオの場合、出現と動きの両方が変化の重要な要因である場合、このギャップは重要なままである。 この理由の1つは、多くの自己教師付きコントラスト学習手法に必要なステップである類似ビデオクリップのペアのサンプリングが、現在、偽陽性を避けるために保守的に行われていることである。 典型的な仮定は、類似のクリップは1つのビデオ内で時間的にのみ発生し、運動類似性の不十分な例につながるというものである。 そこで本研究では,人間のアクションビデオに対するクラスタリングに基づく自己教師付きコントラスト学習手法slicを提案する。 我々の重要な貢献は、類似の動画インスタンスをグループ化するために反復的クラスタリングを用いることで、従来のビデオ内正のサンプリングを改善することである。 これにより、クラスタ割り当てから擬似ラベルを活用でき、より厳しい正と負のサンプルをサンプリングできる。 SLICは最先端のビデオ検索ベースラインをUCF101の上位1回リコールで+15.4%、HMDB51に直接転送すると+5.7%上回る。 アクション分類のためのエンドツーエンドの微調整では、UCF101では83.2%の精度(+0.8%)、HMDB51では54.5%(+1.6%)を達成した。 また、SLICはキネティクス400の自己監督事前訓練の後に、最先端のアクション分類と競合する。

Self-supervised methods have significantly closed the gap with end-to-end supervised learning for image classification. In the case of human action videos, however, where both appearance and motion are significant factors of variation, this gap remains significant. One of the key reasons for this is that sampling pairs of similar video clips, a required step for many self-supervised contrastive learning methods, is currently done conservatively to avoid false positives. A typical assumption is that similar clips only occur temporally close within a single video, leading to insufficient examples of motion similarity. To mitigate this, we propose SLIC, a clustering-based self-supervised contrastive learning method for human action videos. Our key contribution is that we improve upon the traditional intra-video positive sampling by using iterative clustering to group similar video instances. This enables our method to leverage pseudo-labels from the cluster assignments to sample harder positives and negatives. SLIC outperforms state-of-the-art video retrieval baselines by +15.4% on top-1 recall on UCF101 and by +5.7% when directly transferred to HMDB51. With end-to-end finetuning for action classification, SLIC achieves 83.2% top-1 accuracy (+0.8%) on UCF101 and 54.5% on HMDB51 (+1.6%). SLIC is also competitive with the state-of-the-art in action classification after self-supervised pretraining on Kinetics400.
翻訳日:2022-06-28 15:19:35 公開日:2022-06-25
# CV 3315:セマンティックセグメンテーションコンペティション

CV 3315 Is All You Need : Semantic Segmentation Competition ( http://arxiv.org/abs/2206.12571v1 )

ライセンス: Link先を確認
Akide Liu, Zihan Wang(参考訳) このコンペティションは、車両のカメラビューに基づく都市センスセグメンテーションに焦点を当てている。 クラス非バランスのUrban-Senseイメージデータセットは、既存のソリューションとさらなる研究に挑戦する。 エンコーダデコーダアーキテクチャやマルチスケールおよびピラミッドベースのアプローチのような、従来のニューラルネットワークに基づくセマンティックセマンティックセマンティクス手法は、現実のアプリケーションに適用可能な柔軟なソリューションとなる。 本コンペティションでは,主にトランスフォーマー方式,特にsegformerに関する文献をレビューし,性能と効率の最適なトレードオフを実現するための実験を行う。 例えば、SegFormer-B0は最小のFLOPS、15.6Gで74.6% mIoUを達成した。 個別のケース故障分析、個々のクラスパフォーマンス、トレーニング圧力、効率推定を含む複数の要因により、競争の最終候補モデルは50.6 GFLOPSと78.5% mIoUで、SegFormer-B2である。 コード実装はhttps://vmv.re/cv3315。

This competition focus on Urban-Sense Segmentation based on the vehicle camera view. Class highly unbalanced Urban-Sense images dataset challenge the existing solutions and further studies. Deep Conventional neural network-based semantic segmentation methods such as encoder-decoder architecture and multi-scale and pyramid-based approaches become flexible solutions applicable to real-world applications. In this competition, we mainly review the literature and conduct experiments on transformer-driven methods especially SegFormer, to achieve an optimal trade-off between performance and efficiency. For example, SegFormer-B0 achieved 74.6% mIoU with the smallest FLOPS, 15.6G, and the largest model, SegFormer- B5 archived 80.2% mIoU. According to multiple factors, including individual case failure analysis, individual class performance, training pressure and efficiency estimation, the final candidate model for the competition is SegFormer- B2 with 50.6 GFLOPS and 78.5% mIoU evaluated on the testing set. Checkout our code implementation at https://vmv.re/cv3315.
翻訳日:2022-06-28 15:19:07 公開日:2022-06-25
# RSTAM:モバイルおよびコンパクトプリンタを用いた顔認識における効果的なブラックボックスの偽造攻撃

RSTAM: An Effective Black-Box Impersonation Attack on Face Recognition using a Mobile and Compact Printer ( http://arxiv.org/abs/2206.12590v1 )

ライセンス: Link先を確認
Xiaoliang Liu, Furao Shen, Jian Zhao, Changhai Nie(参考訳) 近年、ディープニューラルネットワークの開発により、顔認識は大きな進歩を遂げているが、近年、ディープニューラルネットワークは敵の例に弱いことが判明している。 これは、ディープニューラルネットワークに基づく顔認識モデルやシステムは、敵の例に影響を受けやすいことを意味する。 しかし、既存の顔認識モデルや敵対的な例を持つシステムを攻撃する方法は、効果的にホワイトボックス攻撃を完了できるが、ブラックボックスの偽装攻撃、物理的攻撃、または便利な攻撃、特に商用の顔認識システムでは不可能である。 本稿では,モバイルおよびコンパクトプリンタで印刷された対向マスクを用いて,効果的なブラックボックス偽装攻撃を可能にする,RSTAMと呼ばれる顔認識モデルやシステムを攻撃する新しい手法を提案する。 まず, rstamは, 提案するランダム類似性変換戦略により, 逆マスクの移動性を高める。 さらに,より一般的な対向マスクを生成するために,事前学習した複数の顔モデルを組み込んだランダムなメタ最適化戦略を提案する。 最後に,CelebA-HQ,LFW,Makeup Transfer (MT),CASIA-FaceV5データセットについて実験を行った。 攻撃のパフォーマンスは、Face++、Baidu、Aliyun、Tencent、Microsoftといった最先端の商用顔認識システムでも評価されている。 大規模な実験により、RSTAMは顔認識モデルやシステムに対してブラックボックスの偽造攻撃を効果的に実行できることが示されている。

Face recognition has achieved considerable progress in recent years thanks to the development of deep neural networks, but it has recently been discovered that deep neural networks are vulnerable to adversarial examples. This means that face recognition models or systems based on deep neural networks are also susceptible to adversarial examples. However, the existing methods of attacking face recognition models or systems with adversarial examples can effectively complete white-box attacks but not black-box impersonation attacks, physical attacks, or convenient attacks, particularly on commercial face recognition systems. In this paper, we propose a new method to attack face recognition models or systems called RSTAM, which enables an effective black-box impersonation attack using an adversarial mask printed by a mobile and compact printer. First, RSTAM enhances the transferability of the adversarial masks through our proposed random similarity transformation strategy. Furthermore, we propose a random meta-optimization strategy for ensembling several pre-trained face models to generate more general adversarial masks. Finally, we conduct experiments on the CelebA-HQ, LFW, Makeup Transfer (MT), and CASIA-FaceV5 datasets. The performance of the attacks is also evaluated on state-of-the-art commercial face recognition systems: Face++, Baidu, Aliyun, Tencent, and Microsoft. Extensive experiments show that RSTAM can effectively perform black-box impersonation attacks on face recognition models or systems.
翻訳日:2022-06-28 15:18:45 公開日:2022-06-25
# 適応二部グラフ学習による非対称転送ハッシュ

Asymmetric Transfer Hashing with Adaptive Bipartite Graph Learning ( http://arxiv.org/abs/2206.12592v1 )

ライセンス: Link先を確認
Jianglin Lu, Jie Zhou, Yudong Chen, Witold Pedrycz, Zhihui Lai, Kwok-Wai Hung(参考訳) 効率的な検索速度と低ストレージ消費のおかげで、ハッシュ学習は視覚検索タスクで広く利用されている。 しかし、既存のハッシュ手法では、クエリと検索のサンプルは同じドメイン内の均質な特徴空間にあると仮定している。 その結果、異種クロスドメイン検索に直接適用することはできない。 本稿では,2つの重大なボトルネックに遭遇する一般化画像転送検索(gitr)問題を提案する。 1) 問合せ及び検索サンプルは,異なる領域から来れば,不可避の領域分布ギャップにつながる可能性がある。 2) 2つのドメインの特徴は不均一もしくは不一致であり、追加の「機能ギャップ」をもたらす。 GITR問題に対処するため、教師なし/半教師付き/教師付き実現のための非対称転送ハッシュ(ATH)フレームワークを提案する。 具体的には、ATHは2つの非対称ハッシュ関数の相違により領域分布ギャップを特徴づけ、クロスドメインデータ上に構築された新しい適応二部グラフの助けを借りて特徴ギャップを最小化する。 非対称ハッシュ関数と二部グラフを共同最適化することにより、知識伝達が達成できるだけでなく、特徴アライメントによる情報損失も回避できる。 一方、負転移を緩和するために、ドメイン親和性グラフを含む単一領域データの固有幾何学構造を保存する。 GITRサブタスクの異なる単一ドメインとクロスドメインのベンチマークによる大規模な実験は、最先端ハッシュ法と比較してATH法の優位性を示している。

Thanks to the efficient retrieval speed and low storage consumption, learning to hash has been widely used in visual retrieval tasks. However, existing hashing methods assume that the query and retrieval samples lie in homogeneous feature space within the same domain. As a result, they cannot be directly applied to heterogeneous cross-domain retrieval. In this paper, we propose a Generalized Image Transfer Retrieval (GITR) problem, which encounters two crucial bottlenecks: 1) the query and retrieval samples may come from different domains, leading to an inevitable {domain distribution gap}; 2) the features of the two domains may be heterogeneous or misaligned, bringing up an additional {feature gap}. To address the GITR problem, we propose an Asymmetric Transfer Hashing (ATH) framework with its unsupervised/semi-supervised/supervised realizations. Specifically, ATH characterizes the domain distribution gap by the discrepancy between two asymmetric hash functions, and minimizes the feature gap with the help of a novel adaptive bipartite graph constructed on cross-domain data. By jointly optimizing asymmetric hash functions and the bipartite graph, not only can knowledge transfer be achieved but information loss caused by feature alignment can also be avoided. Meanwhile, to alleviate negative transfer, the intrinsic geometrical structure of single-domain data is preserved by involving a domain affinity graph. Extensive experiments on both single-domain and cross-domain benchmarks under different GITR subtasks indicate the superiority of our ATH method in comparison with the state-of-the-art hashing methods.
翻訳日:2022-06-28 15:18:21 公開日:2022-06-25
# 単パス深層累積学習に基づく非イテレーティブ粗粒登録

Non-iterative Coarse-to-fine Registration based on Single-pass Deep Cumulative Learning ( http://arxiv.org/abs/2206.12596v1 )

ライセンス: Link先を確認
Mingyuan Meng, Lei Bi, Dagan Feng, and Jinman Kim(参考訳) 変形可能な画像登録は、固定画像と移動画像の間の非線形空間変換を見つけるための医療画像解析における重要なステップである。 畳み込みニューラルネットワーク(cnns)に基づく深層登録手法は,高速かつエンドツーエンドで画像登録を行うために広く用いられている。 しかし、これらの手法は通常、大きな変形を有する画像対の性能に制限がある。 近年、この制限を緩和するために反復的深層登録法が用いられており、そこでは変換を粗い方法で反復的に学習している。 しかし、反復的手法は必然的に登録ランタイムを延長し、各イテレーションで別々の画像特徴を学習する傾向があるため、後続のイテレーションでの登録を容易にするために機能の利用を妨げる。 本研究では,変形可能な画像登録のための非イテレーティブ粗細登録ネットワーク(nice-net)を提案する。 NICE-Netでは、次のように提案する。 (i)ネットワークの1つのパス(文)内で粗〜細変換を累積的に学習できるsdcl(single-pass deep cumulative learning)デコーダ (II)選択プロパゲート・フィーチャーラーニング(SFL)エンコーダは、粗大な登録プロセス全体の共通画像特徴を学習し、必要に応じてその特徴を選択的に伝播させることができる。 3次元脳磁気共鳴画像(MRI)の6つの公開データセットに対する大規模な実験により、提案したNICE-Netは、最先端の反復的深層登録法より優れ、非定常的手法と類似した実行時しか必要としないことがわかった。

Deformable image registration is a crucial step in medical image analysis for finding a non-linear spatial transformation between a pair of fixed and moving images. Deep registration methods based on Convolutional Neural Networks (CNNs) have been widely used as they can perform image registration in a fast and end-to-end manner. However, these methods usually have limited performance for image pairs with large deformations. Recently, iterative deep registration methods have been used to alleviate this limitation, where the transformations are iteratively learned in a coarse-to-fine manner. However, iterative methods inevitably prolong the registration runtime, and tend to learn separate image features for each iteration, which hinders the features from being leveraged to facilitate the registration at later iterations. In this study, we propose a Non-Iterative Coarse-to-finE registration Network (NICE-Net) for deformable image registration. In the NICE-Net, we propose: (i) a Single-pass Deep Cumulative Learning (SDCL) decoder that can cumulatively learn coarse-to-fine transformations within a single pass (iteration) of the network, and (ii) a Selectively-propagated Feature Learning (SFL) encoder that can learn common image features for the whole coarse-to-fine registration process and selectively propagate the features as needed. Extensive experiments on six public datasets of 3D brain Magnetic Resonance Imaging (MRI) show that our proposed NICE-Net can outperform state-of-the-art iterative deep registration methods while only requiring similar runtime to non-iterative methods.
翻訳日:2022-06-28 15:16:50 公開日:2022-06-25
# BokehMe: ニューラルレンダリングが古典的なレンダリングと出会うとき

BokehMe: When Neural Rendering Meets Classical Rendering ( http://arxiv.org/abs/2206.12614v1 )

ライセンス: Link先を確認
Juewen Peng, Zhiguo Cao, Xianrui Luo, Hao Lu, Ke Xian, Jianming Zhang(参考訳) 本稿では,古典的な物理動機を持つレンダラーとニューラルレンダラーを結合したハイブリッドボケレンダリングフレームワークBokehMeを提案する。 単一の画像と潜在的に不完全な不一致マップが与えられると、ボケメは、調整可能なボケサイズ、焦点平面、開口形状で高分解能なフォトリアリスティックボケ効果を生成する。 そこで本研究では,従来の散乱法から誤差を分析し,定式化して誤差マップを算出する。 この定式化に基づき,散乱に基づく手法により古典的レンダラを実装し,古典的レンダラから誤った領域を修正する2段階のニューラルネットワークレンダラを提案する。 ニューラルレンダラーは、任意のブラーサイズを効率的に扱うために動的マルチスケールスキームを使用し、不完全不均一入力を処理するように訓練されている。 提案手法は, 合成画像データと実画像データの両方において, 従来手法と好適に比較できることを示す。 さらに,本手法の利点を検証するため,ユーザ調査を行った。

We propose BokehMe, a hybrid bokeh rendering framework that marries a neural renderer with a classical physically motivated renderer. Given a single image and a potentially imperfect disparity map, BokehMe generates high-resolution photo-realistic bokeh effects with adjustable blur size, focal plane, and aperture shape. To this end, we analyze the errors from the classical scattering-based method and derive a formulation to calculate an error map. Based on this formulation, we implement the classical renderer by a scattering-based method and propose a two-stage neural renderer to fix the erroneous areas from the classical renderer. The neural renderer employs a dynamic multi-scale scheme to efficiently handle arbitrary blur sizes, and it is trained to handle imperfect disparity input. Experiments show that our method compares favorably against previous methods on both synthetic image data and real image data with predicted disparity. A user study is further conducted to validate the advantage of our method.
翻訳日:2022-06-28 15:16:21 公開日:2022-06-25
# SAT:ファッションの整合性予測のための自己適応型トレーニング

SAT: Self-adaptive training for fashion compatibility prediction ( http://arxiv.org/abs/2206.12622v1 )

ライセンス: Link先を確認
Ling Xiao and Toshihiko Yamasaki(参考訳) 本稿では,ファッション適合予測のための自己適応型トレーニング(SAT)モデルを提案する。 類似した色、テクスチャ、パターンの特徴を共有するが、美学や時間的シフトのために相容れないと考えられるものなど、いくつかのハードアイテムの学習に焦点を当てている。 具体的には,まず,難易度を定義する手法を設計し,難易度スコア(DS)を各装束に設定し,その項目を推薦する難易度に基づいて割り当てる。 次に,服のDSを考慮した自己適応型三重項損失(SATL)を提案する。 最後に,提案するSATLを組み合わせて,ファッションの整合性予測におけるハードアイテムの学習を実現するための,非常にシンプルな条件類似性ネットワークを提案する。 一般に公開されているPolyvore OutfitsとPolyvore Outfits-Dデータセットの実験は、SATのファッション互換性予測の有効性を実証している。 さらに,SATLを他の条件類似ネットワークに容易に拡張して性能を向上させることができる。

This paper presents a self-adaptive training (SAT) model for fashion compatibility prediction. It focuses on the learning of some hard items, such as those that share similar color, texture, and pattern features but are considered incompatible due to the aesthetics or temporal shifts. Specifically, we first design a method to define hard outfits and a difficulty score (DS) is defined and assigned to each outfit based on the difficulty in recommending an item for it. Then, we propose a self-adaptive triplet loss (SATL), where the DS of the outfit is considered. Finally, we propose a very simple conditional similarity network combining the proposed SATL to achieve the learning of hard items in the fashion compatibility prediction. Experiments on the publicly available Polyvore Outfits and Polyvore Outfits-D datasets demonstrate our SAT's effectiveness in fashion compatibility prediction. Besides, our SATL can be easily extended to other conditional similarity networks to improve their performance.
翻訳日:2022-06-28 15:16:02 公開日:2022-06-25
# SC-Transformer++: イベント境界検出のための構造化コンテキスト変換器

SC-Transformer++: Structured Context Transformer for Generic Event Boundary Detection ( http://arxiv.org/abs/2206.12634v1 )

ライセンス: Link先を確認
Dexiang Hong, Xiaoqi Ma, Xinyao Wang, Congcong Li, Yufei Wang, Longyin Wen(参考訳) 本報告では,CVPR 2022におけるジェネリックイベント境界検出(GEBD)チャレンジの提出に使用されるアルゴリズムについて述べる。 本稿では,GEBDのための既存の構造化コンテキスト変換器(SC-Transformer)法を改善する。 具体的には、トランスコーダの後にトランスフォーマデコーダモジュールを追加して高品質なフレーム特徴を抽出する。 最終分類は、元のバイナリ分類器と新しく導入されたマルチクラス分類器ブランチの結果を共同で行う。 動き情報を強化するために、新しいモダリティとして光の流れを導入する。 最後に、モデルアンサンブルを使用してパフォーマンスをさらに向上させる。 提案手法は, 86.49%のf1スコアを得た。 これは以前のSOTA法に比べて2.86%のF1スコアを改善する。

This report presents the algorithm used in the submission of Generic Event Boundary Detection (GEBD) Challenge at CVPR 2022. In this work, we improve the existing Structured Context Transformer (SC-Transformer) method for GEBD. Specifically, a transformer decoder module is added after transformer encoders to extract high quality frame features. The final classification is performed jointly on the results of the original binary classifier and a newly introduced multi-class classifier branch. To enrich motion information, optical flow is introduced as a new modality. Finally, model ensemble is used to further boost performance. The proposed method achieves 86.49% F1 score on Kinetics-GEBD test set. which improves 2.86% F1 score compared to the previous SOTA method.
翻訳日:2022-06-28 15:15:47 公開日:2022-06-25
# BIMS-PU:双方向およびマルチスケールポイントクラウドアップサンプリング

BIMS-PU: Bi-Directional and Multi-Scale Point Cloud Upsampling ( http://arxiv.org/abs/2206.12648v1 )

ライセンス: Link先を確認
Yechao Bai, Xiaogang Wang, Marcelo H. Ang Jr and Daniela Rus(参考訳) マルチスケール機能の学習と集約は、ポイントクラウドアップサンプリングタスクの詳細な幾何学的詳細をキャプチャするニューラルネットワークを強化する上で不可欠なものだ。 既存のほとんどのアプローチは、固定解像度の点雲からマルチスケールの特徴を抽出するので、詳細は限られている。 既存のアプローチは、アップサンプリングサブネットワークのカスケードから異なる解像度の特徴階層を集約するが、トレーニングは高価な計算に複雑である。 これらの問題に対処するために,機能ピラミッドアーキテクチャと双方向のアップアンドダウンサンプリングパスを統合するBIMS-PUという,新たなポイントクラウドアップサンプリングパイプラインを構築した。 具体的には, 対象のサンプリング係数を小さく分割して, up/downsampling 手順をいくつかのup/downsamplingサブステップに分割する。 マルチスケール機能は自然に並列に生成され、高速な特徴融合法を用いて集約される。 監視信号は、異なるスケールのアップサンプリングされたすべての点雲に同時に適用される。 さらに,モデルのトレーニングを容易にするために残留ブロックを定式化する。 異なるデータセットに対する大規模定量的および定性的実験により,本手法は最先端の手法よりも優れた結果が得られることが示された。 最後に,3次元データ品質の向上により,点雲のアップサンプリングによりロボットの知覚が向上することを示す。

The learning and aggregation of multi-scale features are essential in empowering neural networks to capture the fine-grained geometric details in the point cloud upsampling task. Most existing approaches extract multi-scale features from a point cloud of a fixed resolution, hence obtain only a limited level of details. Though an existing approach aggregates a feature hierarchy of different resolutions from a cascade of upsampling sub-network, the training is complex with expensive computation. To address these issues, we construct a new point cloud upsampling pipeline called BIMS-PU that integrates the feature pyramid architecture with a bi-directional up and downsampling path. Specifically, we decompose the up/downsampling procedure into several up/downsampling sub-steps by breaking the target sampling factor into smaller factors. The multi-scale features are naturally produced in a parallel manner and aggregated using a fast feature fusion method. Supervision signal is simultaneously applied to all upsampled point clouds of different scales. Moreover, we formulate a residual block to ease the training of our model. Extensive quantitative and qualitative experiments on different datasets show that our method achieves superior results to state-of-the-art approaches. Last but not least, we demonstrate that point cloud upsampling can improve robot perception by ameliorating the 3D data quality.
翻訳日:2022-06-28 15:15:37 公開日:2022-06-25
# 車載UDSプロトコルに基づく診断コミュニケーションと視覚システム

Diagnostic Communication and Visual System based on Vehicle UDS Protocol ( http://arxiv.org/abs/2206.12653v1 )

ライセンス: Link先を確認
Hong Zhang, Ding Li(参考訳) 統一診断サービス (UDS) は、自動車電子機器の電子制御ユニット(ECU)で使用される診断通信プロトコルであり、ISO 14229-1で規定されている。 ISO 14230-3 (KWP2000) とISO 15765-3 (Diagnostic Communication over Controller Area Network (DoCAN) から派生した。 この文脈で「統一」とは、国際的であり、企業固有の標準ではないことを意味する。 現在までに、この通信プロトコルは、Original Equipment Manufacturer (OEM) のTier 1サプライヤーによって作られたすべての新しいECUで使用され、AUTOSARなどの他の標準に組み込まれている。 現代の車両のECUは、電子燃料噴射(EFI)、エンジン制御、トランスミッション、アンチロックブレーキシステム、ドアロック、ブレーキ、ウィンドウ操作など、ほぼ全ての機能を制御している。

Unified Diagnostic Services (UDS) is a diagnostic communication protocol used in electronic control units (ECUs) within automotive electronics, which is specified in the ISO 14229-1. It is derived from ISO 14230-3 (KWP2000) and the now obsolete ISO 15765-3 (Diagnostic Communication over Controller Area Network (DoCAN). 'Unified' in this context means that it is an international and not a company-specific standard. By now this communication protocol is used in all new ECUs made by Tier 1 suppliers of Original Equipment Manufacturer (OEM), and is incorporated into other standards, such as AUTOSAR. The ECUs in modern vehicles control nearly all functions, including electronic fuel injection (EFI), engine control, the transmission, anti-lock braking system, door locks, braking, window operation, and more.
翻訳日:2022-06-28 15:15:15 公開日:2022-06-25
# RandStainNA: ブリジングステイン増強と正規化による組織スライドからのステイン非依存的特徴の学習

RandStainNA: Learning Stain-Agnostic Features from Histology Slides by Bridging Stain Augmentation and Normalization ( http://arxiv.org/abs/2206.12694v1 )

ライセンス: Link先を確認
Yiqing Shen, Yulin Luo, Dinggang Shen, Jing Ke(参考訳) デジタル病理学解析における深層学習に基づくアプローチの一般化能力の低下がしばしば起こる。 ステンドノーマイゼーション (sn) とステンド増補 (sa) という2つの異なる提案がスポットライトを浴びて一般化誤差を減少させ、前者はテンプレート画像を用いて異なる医療センターを横断するステンドシフトを緩和し、後者はより多くの染色変異のシミュレーションによりアクセス可能なステンドスタイルを豊かにする。 しかし、それらの応用はテンプレート画像の選択と非現実的なスタイルの構築によって制限される。 この問題に対処するために、我々はsnとsaを新しいランドステナスキームで統一し、可変染色スタイルを実用可能な範囲に制限し、ステンド非依存なディープラーニングモデルを訓練する。 RandStainNAは、HED、HSV、LABといった色空間の集合における染色正規化に適用できる。 さらに,さらなる性能向上を実現するために,ランダムな色空間選択方式を提案する。 組織サブタイプ分類と核セグメンテーションの2つの診断課題により,様々なネットワークバックボーンを用いた評価を行った。 SAとSNの性能上の優位性は、提案したRandStainNAが常に一般化能力を向上し、我々のモデルが予測できないステンレススタイルでより多くの臨床データセットに対処できることを意味している。 コードはhttps://github.com/yiqings/randstainnaで入手できる。

Stain variations often decrease the generalization ability of deep learning based approaches in digital histopathology analysis. Two separate proposals, namely stain normalization (SN) and stain augmentation (SA), have been spotlighted to reduce the generalization error, where the former alleviates the stain shift across different medical centers using template image and the latter enriches the accessible stain styles by the simulation of more stain variations. However, their applications are bounded by the selection of template images and the construction of unrealistic styles. To address the problems, we unify SN and SA with a novel RandStainNA scheme, which constrains variable stain styles in a practicable range to train a stain agnostic deep learning model. The RandStainNA is applicable to stain normalization in a collection of color spaces i.e. HED, HSV, LAB. Additionally, we propose a random color space selection scheme to gain extra performance improvement. We evaluate our method by two diagnostic tasks i.e. tissue subtype classification and nuclei segmentation, with various network backbones. The performance superiority over both SA and SN yields that the proposed RandStainNA can consistently improve the generalization ability, that our models can cope with more incoming clinical datasets with unpredicted stain styles. The codes is available at https://github.com/yiqings/RandStainNA.
翻訳日:2022-06-28 15:14:56 公開日:2022-06-25
# オーバーヘッド物体検出モデルに対する物理的逆パッチ攻撃の実証評価

Empirical Evaluation of Physical Adversarial Patch Attacks Against Overhead Object Detection Models ( http://arxiv.org/abs/2206.12725v1 )

ライセンス: Link先を確認
Gavin S. Hartnett, Li Ang Zhang, Caolionn O'Connell, Andrew J. Lohn, Jair Aguirre(参考訳) adversarial patchは、ニューラルネットワークベースのコンピュータビジョンモデルを騙すように設計されたイメージである。 これらの攻撃は当初デジタル化され研究されていたが、画像の生のピクセル値が乱れていたため、近年の研究では、これらの攻撃が物理的世界にうまく移行できることが示されている。 これはパッチをプリントアウトして、新たに撮影した画像やビデオのシーンに追加することで実現できる。 本研究では,より困難な条件下で,物理的世界における敵対的パッチ攻撃の有効性をさらに検証する。 航空機や衛星カメラで撮影した頭上画像に基づく物体検出モデルについて検討し,砂漠環境のシーンに挿入された物理的敵パッチをテストした。 我々の主な発見は、従来検討されていた状況よりも、これらの条件下で敵パッチ攻撃をうまく実施することがはるかに難しいことである。 これはAIの安全性に重要な意味を持ち、敵の例によって引き起こされる現実世界の脅威が過大評価される可能性がある。

Adversarial patches are images designed to fool otherwise well-performing neural network-based computer vision models. Although these attacks were initially conceived of and studied digitally, in that the raw pixel values of the image were perturbed, recent work has demonstrated that these attacks can successfully transfer to the physical world. This can be accomplished by printing out the patch and adding it into scenes of newly captured images or video footage. In this work we further test the efficacy of adversarial patch attacks in the physical world under more challenging conditions. We consider object detection models trained on overhead imagery acquired through aerial or satellite cameras, and we test physical adversarial patches inserted into scenes of a desert environment. Our main finding is that it is far more difficult to successfully implement the adversarial patch attacks under these conditions than in the previously considered conditions. This has important implications for AI safety as the real-world threat posed by adversarial examples may be overstated.
翻訳日:2022-06-28 15:14:30 公開日:2022-06-25
# emアルゴリズムによるリスクベースアクティブラーニングにおけるサンプリングバイアスの軽減

Mitigating sampling bias in risk-based active learning via an EM algorithm ( http://arxiv.org/abs/2206.12598v1 )

ライセンス: Link先を確認
Aidan J. Hughes, Lawrence A. Bull, Paul Gardner, Nikolaos Dervilis, Keith Worden(参考訳) リスクベースのアクティブラーニングは、オンライン意思決定支援のための統計分類器を開発するためのアプローチである。 このアプローチでは,データポイントに対する完全情報の期待値に応じて,データラベルクエリを導出する。 SHMアプリケーションの場合、メンテナンス決定プロセスに関して情報の価値を評価し、データラベルクエリは構造検査に対応してその状態を決定する。 これは、アクティブな学習プロセスが特徴空間の特定の領域をオーバーサンプリングまたはアンサンプする場合に起こり、その結果、基礎となる分布を代表していないトレーニングセットとなる。 このバイアスは最終的に意思決定のパフォーマンスを低下させ、結果として不要なコストが発生する。 本稿では,半教師付きガウス混合モデルを用いたアクティブラーニングへのリスクベースアプローチについて概説する。 半教師付きアプローチは、EMアルゴリズムを介して未ラベルデータの擬似ラベルを組み込むことでサンプリングバイアスに対処する。 この手法は、SHMで見つかった決定過程の数値的な例で示される。

Risk-based active learning is an approach to developing statistical classifiers for online decision-support. In this approach, data-label querying is guided according to the expected value of perfect information for incipient data points. For SHM applications, the value of information is evaluated with respect to a maintenance decision process, and the data-label querying corresponds to the inspection of a structure to determine its health state. Sampling bias is a known issue within active-learning paradigms; this occurs when an active learning process over- or undersamples specific regions of a feature-space, thereby resulting in a training set that is not representative of the underlying distribution. This bias ultimately degrades decision-making performance, and as a consequence, results in unnecessary costs incurred. The current paper outlines a risk-based approach to active learning that utilises a semi-supervised Gaussian mixture model. The semi-supervised approach counteracts sampling bias by incorporating pseudo-labels for unlabelled data via an EM algorithm. The approach is demonstrated on a numerical example representative of the decision processes found in SHM.
翻訳日:2022-06-28 14:23:48 公開日:2022-06-25
# 暗黙的SGDによる統計的推測 : 近位ロビンスモンロ対ポリアク・ルパート

Statistical inference with implicit SGD: proximal Robbins-Monro vs. Polyak-Ruppert ( http://arxiv.org/abs/2206.12663v1 )

ライセンス: Link先を確認
Yoonhyung Lee, Sungdong Lee, and Joong-Ho Won(参考訳) SGDの近位バージョンである暗黙の確率勾配降下(ISGD)は、SGDの安定性から文学への関心が高まっている。 本稿では,滑らかな凸関数(proxrm)に対するisgdの2つのモード,proxrm(proximal robbins-monro)とproxpr(proximal poylak-ruppert)の詳細な解析を行い,モデルパラメータの統計的推論に用いた。 具体的には、proxRMとproxPRの両方の非漸近点推定誤差境界とその制限分布を導出し、ISGDの単一実行のみを必要とする漸近共分散行列のオンライン推定器を提案する。 後者の推定器はモデルパラメータに対する有効な信頼区間を構築するために使用される。 本分析は,先行分析を制限した一般化線形モデル仮定から自由であり,実現可能な手順を採用している。 オンラインの共分散行列推定器は、isgd文献ではこの種の最初のものと思われる。

The implicit stochastic gradient descent (ISGD), a proximal version of SGD, is gaining interest in the literature due to its stability over (explicit) SGD. In this paper, we conduct an in-depth analysis of the two modes of ISGD for smooth convex functions, namely proximal Robbins-Monro (proxRM) and proximal Poylak-Ruppert (proxPR) procedures, for their use in statistical inference on model parameters. Specifically, we derive non-asymptotic point estimation error bounds of both proxRM and proxPR iterates and their limiting distributions, and propose on-line estimators of their asymptotic covariance matrices that require only a single run of ISGD. The latter estimators are used to construct valid confidence intervals for the model parameters. Our analysis is free of the generalized linear model assumption that has limited the preceding analyses, and employs feasible procedures. Our on-line covariance matrix estimators appear to be the first of this kind in the ISGD literature.
翻訳日:2022-06-28 14:23:32 公開日:2022-06-25
# 経験的ニューラルタンジェントカーネルの高速・高精度近似

A Fast, Well-Founded Approximation to the Empirical Neural Tangent Kernel ( http://arxiv.org/abs/2206.12543v1 )

ライセンス: Link先を確認
Mohamad Amin Mohamadi, Danica J. Sutherland(参考訳) 経験的ニューラル・タンジェント・カーネル(entk)は、与えられたネットワークの表現をよく理解する:それらは多くの場合、無限幅のntkよりも計算コストが低く、適用範囲が広い。 しかし、o出力ユニット(例えばoクラス分類器)を持つネットワークでは、n入力のentkはサイズが$no \times no$で、メモリは$o((no)^2)$、計算量は$o((no)^3)$である。 したがって、既存のほとんどのアプリケーションは、数桁の近似のうちの1つを使い、N$カーネル行列を出力し、計算の桁数を節減するが、正当化はできない。 このような近似が「ロジットの仮定」と呼ばれ、最終的な「読み出し」層を持つ任意のネットワークの初期化において真の eNTK に収束することを証明する。 実験では,この近似のクオリティを様々な設定で検証した。

Empirical neural tangent kernels (eNTKs) can provide a good understanding of a given network's representation: they are often far less expensive to compute and applicable more broadly than infinite width NTKs. For networks with O output units (e.g. an O-class classifier), however, the eNTK on N inputs is of size $NO \times NO$, taking $O((NO)^2)$ memory and up to $O((NO)^3)$ computation. Most existing applications have therefore used one of a handful of approximations yielding $N \times N$ kernel matrices, saving orders of magnitude of computation, but with limited to no justification. We prove that one such approximation, which we call "sum of logits", converges to the true eNTK at initialization for any network with a wide final "readout" layer. Our experiments demonstrate the quality of this approximation for various uses across a range of settings.
翻訳日:2022-06-28 14:06:25 公開日:2022-06-25
# ニューラルタンジェントカーネルによるルックアヘッドアクティブ学習戦略の実現

Making Look-Ahead Active Learning Strategies Feasible with Neural Tangent Kernels ( http://arxiv.org/abs/2206.12569v1 )

ライセンス: Link先を確認
Mohamad Amin Mohamadi, Wonho Bae, Danica J. Sutherland(参考訳) 本稿では,仮想ラベル付き候補データポイントの再学習に基づくアクティブラーニング獲得戦略を近似する新しい手法を提案する。 これは通常、ディープネットワークでは実現不可能であるが、神経接核を用いて再トレーニングの結果を近似し、この近似がアクティブな学習環境においても漸近的に機能することを証明する。 これにより、新たなデータポイントを追加してSGDでモデルを再トレーニングする必要がなく、ストリーミングシステムでモデルを更新するといった、逐次能動的学習も行えます。 さらに,新たなデータポイントを追加することで,モデルの予測がどのように変化するかをよりよく理解し,他のルックアヘッド戦略を大きなマージンで上回り,プールベースのアクティブラーニングにおいて,いくつかのベンチマークデータセットにおける最先端手法と比較して,同等あるいは優れたパフォーマンスを達成している。

We propose a new method for approximating active learning acquisition strategies that are based on retraining with hypothetically-labeled candidate data points. Although this is usually infeasible with deep networks, we use the neural tangent kernel to approximate the result of retraining, and prove that this approximation works asymptotically even in an active learning setup -- approximating "look-ahead" selection criteria with far less computation required. This also enables us to conduct sequential active learning, i.e. updating the model in a streaming regime, without needing to retrain the model with SGD after adding each new data point. Moreover, our querying strategy, which better understands how the model's predictions will change by adding new data points in comparison to the standard ("myopic") criteria, beats other look-ahead strategies by large margins, and achieves equal or better performance compared to state-of-the-art methods on several benchmark datasets in pool-based active learning.
翻訳日:2022-06-28 14:06:07 公開日:2022-06-25
# 分散sgdのトポロジー認識による一般化

Topology-aware Generalization of Decentralized SGD ( http://arxiv.org/abs/2206.12680v1 )

ライセンス: Link先を確認
Tongtian Zhu, Fengxiang He, Lan Zhang, Zhengyang Niu, Mingli Song, Dacheng Tao(参考訳) 本稿では,分散確率勾配勾配(D-SGD)のアルゴリズム的安定性と一般化性について検討する。 d-sgd によって学習されたコンセンサスモデルは、n$ がシステム全体のサンプルサイズ、$m$ がワーカー番号、$-\lambda$ が通信トポロジーの接続を測定するスペクトルギャップである非凸非スムース設定の期待値が $\mathcal{o}{(m/n+1/m+\lambda^2)} であることが証明される。 これらの結果は$\mathcal{o}{(1/n+{({(m^{-1}\lambda^2)}^{\frac{\alpha}{2}}+m^{-\alpha})}/{n^{1-\frac{\alpha}{2}}})} 平均の一般化境界を与える。 本理論は,d-sgdの一般化性がスペクトルギャップと正の相関を持つことを示すものであり,初期訓練段階におけるコンセンサス制御がより良い一般化を保証できる理由を説明できる。 CIFAR-10, CIFAR-100, Tiny-ImageNetにおけるVGG-11とResNet-18の実験は、我々の理論を正当化する。 我々の知る限り、これはバニラD-SGDの位相認識一般化に関する最初の研究である。 コードはhttps://github.com/Raiden-Zhu/Generalization-of-DSGDで入手できる。

This paper studies the algorithmic stability and generalizability of decentralized stochastic gradient descent (D-SGD). We prove that the consensus model learned by D-SGD is $\mathcal{O}{(m/N+1/m+\lambda^2)}$-stable in expectation in the non-convex non-smooth setting, where $N$ is the total sample size of the whole system, $m$ is the worker number, and $1-\lambda$ is the spectral gap that measures the connectivity of the communication topology. These results then deliver an $\mathcal{O}{(1/N+{({(m^{-1}\lambda^2)}^{\frac{\alpha}{2}}+ m^{-\alpha})}/{N^{1-\frac{\alpha}{2}}})}$ in-average generalization bound, which is non-vacuous even when $\lambda$ is closed to $1$, in contrast to vacuous as suggested by existing literature on the projected version of D-SGD. Our theory indicates that the generalizability of D-SGD has a positive correlation with the spectral gap, and can explain why consensus control in initial training phase can ensure better generalization. Experiments of VGG-11 and ResNet-18 on CIFAR-10, CIFAR-100 and Tiny-ImageNet justify our theory. To our best knowledge, this is the first work on the topology-aware generalization of vanilla D-SGD. Code is available at https://github.com/Raiden-Zhu/Generalization-of-DSGD.
翻訳日:2022-06-28 14:05:46 公開日:2022-06-25
# p-Meta: デバイス上でのDeep Model Adaptationを目指す

p-Meta: Towards On-device Deep Model Adaptation ( http://arxiv.org/abs/2206.12705v1 )

ライセンス: Link先を確認
Zhongnan Qu, Zimu Zhou, Yongxin Tong, Lothar Thiele(参考訳) IoTデバイスによって収集されるデータは、しばしばプライベートであり、ユーザ間で大きな多様性を持つ。 そのため、学習には、利用可能な代表データサンプルでモデルを事前トレーニングし、IoTデバイスに事前トレーニングされたモデルをデプロイし、ローカルデータでデバイスにデプロイされたモデルを適応する必要がある。 このようなディープラーニングへのオンデバイス適応は、データとメモリ効率を必要とする。 しかし、既存の勾配に基づくメタ学習スキームは、メモリ効率の適応をサポートしない。 そこで本研究では,非知覚タスクに対する高速一般化を確保しつつ,構造的部分的パラメータ更新を強制する新しいメタ学習手法であるp-metaを提案する。 少数ショット画像分類と強化学習タスクの評価により、p-metaは精度を向上させるだけでなく、ピーク時の動的メモリを平均で2.5倍削減することを示した。

Data collected by IoT devices are often private and have a large diversity across users. Therefore, learning requires pre-training a model with available representative data samples, deploying the pre-trained model on IoT devices, and adapting the deployed model on the device with local data. Such an on-device adaption for deep learning empowered applications demands data and memory efficiency. However, existing gradient-based meta learning schemes fail to support memory-efficient adaptation. To this end, we propose p-Meta, a new meta learning method that enforces structure-wise partial parameter updates while ensuring fast generalization to unseen tasks. Evaluations on few-shot image classification and reinforcement learning tasks show that p-Meta not only improves the accuracy but also substantially reduces the peak dynamic memory by a factor of 2.5 on average compared to state-of-the-art few-shot adaptation methods.
翻訳日:2022-06-28 14:03:08 公開日:2022-06-25
# 言語理解のための敵対的自己注意

Adversarial Self-Attention for Language Understanding ( http://arxiv.org/abs/2206.12608v1 )

ライセンス: Link先を確認
Hongqiu Wu and Hai Zhao(参考訳) 究極の言語システムは、多様なシナリオに適応する際の高い一般化と堅牢性を目指している。 残念なことに、最近のホワイトホープ事前訓練言語モデル(PrLM)は、高パフォーマンスを実現するために過度なパラメータをオーバーパラメータ化したTransformerアーキテクチャに積み上げることはほとんどない。 本稿では,トランスフォーマーの注意を逆向きに再構築し,汚染されたモデル構造からのモデルトレーニングを容易にするための,高速でシンプルなPrLM構築機構を提案する。 我々は,事前学習段階と微調整段階の両方において,幅広いタスクを包括的に評価する。 事前トレーニングでは、ASAはより長い期間の定期的なトレーニングに比べ、顕著なパフォーマンス向上を実現している。 微調整の場合、ASAを動力とするモデルは、一般化とロバスト性の両方を考慮すると、単純モデルよりずっと優れている。

An ultimate language system aims at the high generalization and robustness when adapting to diverse scenarios. Unfortunately, the recent white hope pre-trained language models (PrLMs) barely escape from stacking excessive parameters to the over-parameterized Transformer architecture to achieve higher performances. This paper thus proposes \textit{Adversarial Self-Attention} mechanism (ASA), which adversarially reconstructs the Transformer attentions and facilitates model training from contaminated model structures, coupled with a fast and simple implementation for better PrLM building. We conduct comprehensive evaluation across a wide range of tasks on both pre-training and fine-tuning stages. For pre-training, ASA unfolds remarkable performance gain compared to regular training for longer periods. For fine-tuning, ASA-empowered models consistently outweigh naive models by a large margin considering both generalization and robustness.
翻訳日:2022-06-28 13:24:50 公開日:2022-06-25
# 表現型音声合成のための自己教師付き文脈認識スタイル表現

Self-supervised Context-aware Style Representation for Expressive Speech Synthesis ( http://arxiv.org/abs/2206.12559v1 )

ライセンス: Link先を確認
Yihan Wu, Xi Wang, Shaofei Zhang, Lei He, Ruihua Song, Jian-Yun Nie(参考訳) 音声ブック合成のような表現型音声合成は、スタイル表現学習や予測には依然として困難である。 参照音声やテキストからのスタイルタグの予測には大量のラベル付きデータが必要であるため,正確な定義や注釈付けが困難である。 本稿では,豊富な平文からのスタイル表現を自己教師ありで学習するための新しい枠組みを提案する。 感情レキシコンを活用し、対比学習と深層クラスタリングを使用する。 さらに、マルチスタイルトランスフォーマーTSに条件付き埋め込みとしてスタイル表現を統合する。 同じデータセット上でトレーニングされたスタイルタグを予測して、マルチスタイルttsと比較し、音声ブック音声におけるin-domainおよびout-of-domainテストセットにおける主観的評価により、結果が向上する。 さらに、暗黙的な文脈認識スタイルの表現により、長い段落における合成音声の感情遷移がより自然に現れる。 オーディオサンプルはデモwebで公開されている。

Expressive speech synthesis, like audiobook synthesis, is still challenging for style representation learning and prediction. Deriving from reference audio or predicting style tags from text requires a huge amount of labeled data, which is costly to acquire and difficult to define and annotate accurately. In this paper, we propose a novel framework for learning style representation from abundant plain text in a self-supervised manner. It leverages an emotion lexicon and uses contrastive learning and deep clustering. We further integrate the style representation as a conditioned embedding in a multi-style Transformer TTS. Comparing with multi-style TTS by predicting style tags trained on the same dataset but with human annotations, our method achieves improved results according to subjective evaluations on both in-domain and out-of-domain test sets in audiobook speech. Moreover, with implicit context-aware style representation, the emotion transition of synthesized audio in a long paragraph appears more natural. The audio samples are available on the demo web.
翻訳日:2022-06-28 13:23:47 公開日:2022-06-25
# 確率的既知のログからのトレースリカバリ

Trace Recovery from Stochastically Known Logs ( http://arxiv.org/abs/2206.12672v1 )

ライセンス: Link先を確認
Eli Bogdanov, Izack Cohen, Avigdor Gal(参考訳) 本研究では,不確定なデータを生成するセンサや予測モデルの増加に伴って一般的になりつつある,確率的既知のログからトレースリカバリするアルゴリズムを提案する。 提案手法は, プロセスモデルと確率的既知のトレースとの適合度を計算し, この確率的トレースにおける最良アライメントを真のトレースとして復元する。 本稿では, 各種コストモデルがトレース回収精度に与える影響を解析し, 代替のトレース回収オプションを比較するために, 製品マルチグラフを利用する。 2つの公開データセットを用いて評価したアプローチの平均精度は印象的であり、平均回復精度は90~97%であり、不確実なアクティビティごとに最も可能性が高い値を選択する共通のヒューリスティックを著しく改善している。 統計的に既知のログから正確なトレースを復元するアルゴリズムの有効性は,不確定な状況下で信頼できる意思決定ツールを開発する上で有効であると考えられる。

In this work we propose an algorithm for trace recovery from stochastically known logs, a setting that is becoming more common with the increasing number of sensors and predictive models that generate uncertain data. The suggested approach calculates the conformance between a process model and a stochastically known trace and recovers the best alignment within this stochastic trace as the true trace. The paper offers an analysis of the impact of various cost models on trace recovery accuracy and makes use of a product multi-graph to compare alternative trace recovery options. The average accuracy of our approach, evaluated using two publicly available datasets, is impressive, with an average recovery accuracy score of 90-97%, significantly improving a common heuristic that chooses the most likely value for each uncertain activity. We believe that the effectiveness of the proposed algorithm in recovering correct traces from stochastically known logs may be a powerful aid for developing credible decision-making tools in uncertain settings.
翻訳日:2022-06-28 13:21:38 公開日:2022-06-25
# モンテカルロ批判最適化による強化学習の指導的探索

Guided Exploration in Reinforcement Learning via Monte Carlo Critic Optimization ( http://arxiv.org/abs/2206.12674v1 )

ライセンス: Link先を確認
Igor Kuznetsov(参考訳) 決定論的オフポリシーアルゴリズムのクラスは、挑戦的な連続制御問題を解決するために効果的に適用される。 しかし、現在のアプローチでは、与えられたタスクを手動で調整する必要性や、トレーニングプロセス中に探索校正が欠如しているなど、いくつかの弱点がある共通の探索手法としてランダムノイズを用いる。 これらの課題に対処するために,ディファレンシャル指向性コントローラを用いて,スケーラブルな探索行動補正を取り入れたガイド付き探索手法を提案する。 探索方向を提供するモンテカルロ批評家のアンサンブルがコントローラとして提示される。 提案手法は,探索を動的に変化させることにより従来の探査手法を改善する。 次に,提案する方向制御を,方針修正と批判修正の両方に活用する新しいアルゴリズムを提案する。 提案アルゴリズムは,DMControlスイートの様々な問題に対して,現代的な強化学習アルゴリズムより優れている。

The class of deep deterministic off-policy algorithms is effectively applied to solve challenging continuous control problems. However, current approaches use random noise as a common exploration method that has several weaknesses, such as a need for manual adjusting on a given task and the absence of exploratory calibration during the training process. We address these challenges by proposing a novel guided exploration method that uses a differential directional controller to incorporate scalable exploratory action correction. An ensemble of Monte Carlo Critics that provides exploratory direction is presented as a controller. The proposed method improves the traditional exploration scheme by changing exploration dynamically. We then present a novel algorithm exploiting the proposed directional controller for both policy and critic modification. The presented algorithm outperforms modern reinforcement learning algorithms across a variety of problems from DMControl suite.
翻訳日:2022-06-28 13:21:22 公開日:2022-06-25
# 構造的応答をもつ反復学習者に対するベイズ最適化:予算を考慮した計画手法

Bayesian Optimization Over Iterative Learners with Structured Responses: A Budget-aware Planning Approach ( http://arxiv.org/abs/2206.12708v1 )

ライセンス: Link先を確認
Syrine Belakaria, Rishit Sheth, Janardhan Rao Doppa, Nicolo Fusi(参考訳) ディープニューラルネットワーク(DNN)とデータセットの増大は、モデル選択とトレーニングを同時に行うための効率的なソリューションの必要性を動機付けている。 DNNを含む反復学習者のハイパーパラメータ最適化(HPO)のための多くの手法は、その表面の最適性を探索しながら応答面をクエリして学習することでこの問題を解決しようとする。 しかし、これらの手法の多くは、筋電図クエリを作成し、応答構造に関する事前の知識を考慮せず、また/またはバイアス付きコスト認識探索を行う。 本稿では,HPOの問題を解決するため,BAPI(Budget-Aware Planning for Iterative Learners)と呼ばれる新しい手法を提案する。 BAPIは、予算を考慮し、目的関数とコスト関数に関する事前の知識を活用して、より良い構成を選択し、評価(トレーニング)中により情報的な決定を下す、効率的な非神秘的ベイズ最適化ソリューションである。 反復学習者のための多様なHPOベンチマークの実験では、ほとんどの場合、BAPIは最先端のベースラインよりも優れた性能を示している。

The rising growth of deep neural networks (DNNs) and datasets in size motivates the need for efficient solutions for simultaneous model selection and training. Many methods for hyperparameter optimization (HPO) of iterative learners including DNNs attempt to solve this problem by querying and learning a response surface while searching for the optimum of that surface. However, many of these methods make myopic queries, do not consider prior knowledge about the response structure, and/or perform biased cost-aware search, all of which exacerbate identifying the best-performing model when a total cost budget is specified. This paper proposes a novel approach referred to as Budget-Aware Planning for Iterative Learners (BAPI) to solve HPO problems under a constrained cost budget. BAPI is an efficient non-myopic Bayesian optimization solution that accounts for the budget and leverages the prior knowledge about the objective function and cost function to select better configurations and to take more informed decisions during the evaluation (training). Experiments on diverse HPO benchmarks for iterative learners show that BAPI performs better than state-of-the-art baselines in most of the cases.
翻訳日:2022-06-28 13:21:10 公開日:2022-06-25
# 微分可能レンダラを用いた3次元形状プログラムの推論

Learning to Infer 3D Shape Programs with Differentiable Renderer ( http://arxiv.org/abs/2206.12675v1 )

ライセンス: Link先を確認
Yichao Liang(参考訳) テーブルや椅子などの日常的なアーティファクトが与えられれば、人間はテーブルの対称性や脚の繰り返しなど、その内部の高水準な規則性を認識しつつ、ジオメトリーの低レベルな先行(例えば表面が滑らかで縁が鋭い)を持っている。 この種の知識は人間の知覚的理解と推論の重要な部分を構成する。 このような知識における推論の表現と方法、およびその獲得は、人工知能(ai)と認知科学において依然として開かれた問題である。 従来提案されていた「emph{3D shape program」の表現と,それに伴うニューラルジェネレータとエグゼキュータを併用して構築された,形状プログラム(特に外挿において)の解釈に忠実で制御可能な解析的かつ微分可能なエグゼキュータを提案する。 これらは、基底真理プログラムが利用できない場合のジェネレータの学習を促進するものであり、新しいシェイププログラムコンポーネントがヒューマンデザイナによって登録される場合や、ライブラリ学習の文脈において、アルゴリズム自体によって特に有用である。 適応にそれを使う予備的な実験は、提案されたモジュールの利点を示しており、上記の知識の種類で推論し、その知識自体を学ぶマシンの構築において、同様の方法が研究されていることを奨励している。

Given everyday artifacts, such as tables and chairs, humans recognize high-level regularities within them, such as the symmetries of a table, the repetition of its legs, while possessing low-level priors of their geometries, e.g., surfaces are smooth and edges are sharp. This kind of knowledge constitutes an important part of human perceptual understanding and reasoning. Representations of and how to reason in such knowledge, and the acquisition thereof, are still open questions in artificial intelligence (AI) and cognitive science. Building on the previous proposal of the \emph{3D shape programs} representation alone with the accompanying neural generator and executor from \citet{tian2019learning}, we propose an analytical yet differentiable executor that is more faithful and controllable in interpreting shape programs (particularly in extrapolation) and more sample efficient (requires no training). These facilitate the generator's learning when ground truth programs are not available, and should be especially useful when new shape-program components are enrolled either by human designers or -- in the context of library learning -- algorithms themselves. Preliminary experiments on using it for adaptation illustrate the aforesaid advantages of the proposed module, encouraging similar methods being explored in building machines that learn to reason with the kind of knowledge described above, and even learn this knowledge itself.
翻訳日:2022-06-28 12:53:04 公開日:2022-06-25
# 進化的記号回帰による二項・多項分類

Binary and Multinomial Classification through Evolutionary Symbolic Regression ( http://arxiv.org/abs/2206.12706v1 )

ライセンス: Link先を確認
Moshe Sipper(参考訳) 本稿では,二項および多項データセットに対する3つの進化的シンボリック回帰に基づく分類アルゴリズム,GPLearnClf,CartesianClf,ClaSyCoを提案する。 162以上のデータセットをテストし、最先端の3つの機械学習アルゴリズム(xgboost、lightgbm、ディープニューラルネットワーク)と比較すると、我々のアルゴリズムは競争力があると思います。 さらに,最先端のハイパーパラメータオプティマイザを用いて,データセットの最適な方法を自動的に見つける方法を示す。

We present three evolutionary symbolic regression-based classification algorithms for binary and multinomial datasets: GPLearnClf, CartesianClf, and ClaSyCo. Tested over 162 datasets and compared to three state-of-the-art machine learning algorithms -- XGBoost, LightGBM, and a deep neural network -- we find our algorithms to be competitive. Further, we demonstrate how to find the best method for one's dataset automatically, through the use of a state-of-the-art hyperparameter optimizer.
翻訳日:2022-06-28 12:49:19 公開日:2022-06-25
# 複数の特定単語による文構成

Construct a Sentence with Multiple Specified Words ( http://arxiv.org/abs/2206.12565v1 )

ライセンス: Link先を確認
Yuanliang Meng(参考訳) 本稿では,難解なnlpタスクであった任意の単語集合から文を構築できるように,bartモデルを微調整するタスクを示す。 訓練タスクは4つの単語からなる文を作成するが、訓練されたモデルは、より少ない単語が提供されたときに文を生成することができる。 出力文は一般に高品質である。 このモデルは実世界のアプリケーションを持つことができ、このタスクは任意の言語モデルの評価メカニズムとしても使用できる。

This paper demonstrates a task to finetune a BART model so it can construct a sentence from an arbitrary set of words, which used to be a difficult NLP task. The training task is making sentences with four words, but the trained model can generate sentences when fewer or more words are provided. The output sentences have high quality in general. The model can have some real-world applications, and this task can be used as an evaluation mechanism for any language model as well.
翻訳日:2022-06-28 12:49:09 公開日:2022-06-25
# 深部アニメーション映像補間の強化

Enhanced Deep Animation Video Interpolation ( http://arxiv.org/abs/2206.12657v1 )

ライセンス: Link先を確認
Wang Shen, Cheng Ming, Wenbo Bao, Guangtao Zhai, Li Chen, Zhiyong Gao(参考訳) 既存の学習に基づくフレーム補間アルゴリズムは、高速自然ビデオから連続したフレームを抽出してモデルを訓練する。 自然ビデオと比較すると、漫画ビデオは通常低フレームレートである。 さらに、連続したマンガフレーム間の動きは通常非線形であり、補間アルゴリズムの線形運動仮定を破る。 したがって、漫画ビデオから直接トレーニングセットを作成するのに不適当である。 自然映像からアニメーション映像へのフレーム補間アルゴリズムの適応性を向上させるために,深層映像補間のためのトレーニングデータを自動生成する簡易かつ効果的な手法であるautofiを提案する。 autofiは合成データをレンダリングするために階層アーキテクチャを採用し、リニアモーションの仮定を保証する。 実験の結果, AutoFI はDAIN と ANIN の両方のトレーニングにおいて良好に機能することがわかった。 しかし、ほとんどのフレーム補間アルゴリズムは、高速動作や大きなオクルージョンのようなエラーが発生しやすい領域で失敗する。 また,AutoFIの他に,SktFIというプラグイン・アンド・プレイによる後処理モジュールも提案する。 AutoFIとSktFIでは、補間されたアニメーションフレームは知覚品質が高い。

Existing learning-based frame interpolation algorithms extract consecutive frames from high-speed natural videos to train the model. Compared to natural videos, cartoon videos are usually in a low frame rate. Besides, the motion between consecutive cartoon frames is typically nonlinear, which breaks the linear motion assumption of interpolation algorithms. Thus, it is unsuitable for generating a training set directly from cartoon videos. For better adapting frame interpolation algorithms from nature video to animation video, we present AutoFI, a simple and effective method to automatically render training data for deep animation video interpolation. AutoFI takes a layered architecture to render synthetic data, which ensures the assumption of linear motion. Experimental results show that AutoFI performs favorably in training both DAIN and ANIN. However, most frame interpolation algorithms will still fail in error-prone areas, such as fast motion or large occlusion. Besides AutoFI, we also propose a plug-and-play sketch-based post-processing module, named SktFI, to refine the final results using user-provided sketches manually. With AutoFI and SktFI, the interpolated animation frames show high perceptual quality.
翻訳日:2022-06-28 12:48:40 公開日:2022-06-25
# 知識埋め込みとしての言語モデル

Language Models as Knowledge Embeddings ( http://arxiv.org/abs/2206.12617v1 )

ライセンス: Link先を確認
Xintao Wang, Qianyu He, Jiaqing Liang and Yanghua Xiao(参考訳) 知識埋め込み(KE)は、実体と関係を連続ベクトル空間に埋め込むことによって知識グラフ(KG)を表す。 既存の手法は主に構造ベースまたは記述ベースである。 構造に基づく手法は、KGの固有の構造を保存する表現を学ぶ。 限られた構造情報を持つ実世界のkgsでは、豊富なロングテールの実体を表現できない。 記述ベース手法は、テキスト情報と言語モデルを活用する。 この方向の以前のアプローチは、構造ベースのアプローチをほとんど上回らず、高価な負のサンプリングや制限的な記述要求といった問題に苦しめられている。 本稿では,知識埋め込みを導出するために言語モデルを採用するlmkeを提案する。 比較学習フレームワークを用いて記述ベースのke学習を定式化し,学習と評価の効率を向上させる。 実験結果から, LMKEは, リンク予測と三重分類のKEベンチマークにおいて, 特にロングテールエンティティに対して, 最先端の性能を達成することが示された。

Knowledge embeddings (KE) represent a knowledge graph (KG) by embedding entities and relations into continuous vector spaces. Existing methods are mainly structure-based or description-based. Structure-based methods learn representations that preserve the inherent structure of KGs. They cannot well represent abundant long-tail entities in real-world KGs with limited structural information. Description-based methods leverage textual information and language models. Prior approaches in this direction barely outperform structure-based ones, and suffer from problems like expensive negative sampling and restrictive description demand. In this paper, we propose LMKE, which adopts Language Models to derive Knowledge Embeddings, aiming at both enriching representations of long-tail entities and solving problems of prior description-based methods. We formulate description-based KE learning with a contrastive learning framework to improve efficiency in training and evaluation. Experimental results show that LMKE achieves state-of-the-art performance on KE benchmarks of link prediction and triple classification, especially for long-tail entities.
翻訳日:2022-06-28 12:22:31 公開日:2022-06-25
# 機械学習攻撃におけるコピー検出パターンの認証--教師付きアプローチ

Authentication of Copy Detection Patterns under Machine Learning Attacks: A Supervised Approach ( http://arxiv.org/abs/2206.11793v2 )

ライセンス: Link先を確認
Brian Pulfer, Roman Chaban, Yury Belousov, Joakim Tutt, Olga Taran, Taras Holotyak, Slava Voloshynovskiy(参考訳) コピー検出パターン(CDP)は、メーカーが偽造から製品を守るための魅力的な技術である。 CDPの保護機構の背後にある主な前提は、産業用プリンタ上で最小のシンボルサイズ(1x1)で印刷されたこれらのコードは、データ処理の不平等のために十分な精度でコピーまたは複製できないことである。 しかし、以前の研究では機械学習(ML)ベースの攻撃が高品質なフェイクを発生させ、従来の特徴ベースの認証システムに基づく認証の精度を低下させることを示した。 ディープ・ラーニング(DL)は認証システムの一部として利用できるが、これまでの研究では1x1のシンボルサイズを持つMLベースのCDP攻撃に対するDLベースの認証システムの性能は研究されていない。 本研究では,教師付き学習(SL)の設定を前提とした,そのような性能について検討する。

Copy detection patterns (CDP) are an attractive technology that allows manufacturers to defend their products against counterfeiting. The main assumption behind the protection mechanism of CDP is that these codes printed with the smallest symbol size (1x1) on an industrial printer cannot be copied or cloned with sufficient accuracy due to data processing inequality. However, previous works have shown that Machine Learning (ML) based attacks can produce high-quality fakes, resulting in decreased accuracy of authentication based on traditional feature-based authentication systems. While Deep Learning (DL) can be used as a part of the authentication system, to the best of our knowledge, none of the previous works has studied the performance of a DL-based authentication system against ML-based attacks on CDP with 1x1 symbol size. In this work, we study such a performance assuming a supervised learning (SL) setting.
翻訳日:2022-06-28 10:47:24 公開日:2022-06-25