このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220218となっている論文です。

PDF登録状況(公開日: 20220218)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) ニーズと人工知能 [全文訳有]

Needs and Artificial Intelligence ( http://arxiv.org/abs/2203.03715v1 )

ライセンス: CC BY 4.0
Soheil Human and Ryan Watkins(参考訳) 人類の歴史を通じて、ホモ・サピエンスはそのニーズをよりよく満たすために技術を使ってきた。 ニーズと技術の関係は極めて基本的であり、米国国家研究評議会は技術の特徴を「人間のニーズを満たすために世界を変える」という目標として定義した。 人工知能(AI)は、現在最も有望な新興技術の1つである。 他の技術と同様に、AIは“人間のニーズを満たす”ことが期待される。 本稿では、ニーズとAIの関係を考察し、ニーズを意識したAIシステムの実現を求める。 私たちは、持続可能な、人間中心、説明可能な、法的な、倫理的な(HALE)AIシステムのための現実的なアプローチを開発するための、AIによるニーズの再考は、非常に有用な手段である、と論じています。 我々は、(人間)ニーズが十分に考慮され、満たされている未来のAIベースの社会技術システムを作成する上で、最も重要なギャップ、障壁、イネーブラー、ドライバについて議論する。 最後に、慎重に考慮すべき潜在的な脅威とHALEの考察の概要を説明し、共同、即時、学際的な取り組みと協力を求める。

Throughout their history, homo sapiens have used technologies to better satisfy their needs. The relation between needs and technology is so fundamental that the US National Research Council defined the distinguishing characteristic of technology as its goal "to make modifications in the world to meet human needs". Artificial intelligence (AI) is one of the most promising emerging technologies of our time. Similar to other technologies, AI is expected "to meet [human] needs". In this article, we reflect on the relationship between needs and AI, and call for the realisation of needs-aware AI systems. We argue that re-thinking needs for, through, and by AI can be a very useful means towards the development of realistic approaches for Sustainable, Human-centric, Accountable, Lawful, and Ethical (HALE) AI systems. We discuss some of the most critical gaps, barriers, enablers, and drivers of co-creating future AI-based socio-technical systems in which [human] needs are well considered and met. Finally, we provide an overview of potential threats and HALE considerations that should be carefully taken into account, and call for joint, immediate, and interdisciplinary efforts and collaborations.
翻訳日:2022-03-13 16:56:35 公開日:2022-02-18
# (参考訳) 睡眠段階分類のための深層学習:修正整形線形単位活性化関数と修正直交重み初期化 [全文訳有]

Deep Learning for Sleep Stages Classification: Modified Rectified Linear Unit Activation Function and Modified Orthogonal Weight Initialisation ( http://arxiv.org/abs/2203.04371v1 )

ライセンス: CC BY 4.0
Akriti Bhusal, Abeer Alsadoon, P.W.C. Prasad, Nada Alsalami, Tarik A. Rashid(参考訳) 背景と目的:睡眠の各段階は人の健康に影響を与え、どの段階でも睡眠不足は睡眠障害、無呼吸、不眠などにつながる可能性がある。 睡眠関連疾患は畳み込みニューラルネットワーク分類器を用いて診断できる。 しかし, この分類器は, 複雑度が高く, 分類精度が低いため, 睡眠ステージ分類システムでは実現されていない。 本研究の目的は,畳み込みニューラルネットワーク分類器の精度を高め,学習時間を短縮することである。 方法: 本システムでは, 修正直交畳み込みニューラルネットワークとadam最適化手法を用いて, 睡眠ステージの分類精度の向上とs状体活性化機能に起因する勾配飽和問題を軽減した。 提案システムでは,sgmoid アクティベーション関数をアクティベーション関数に代えて,relu ( leaky rectified linear unit) を用いる。 結果:essc(enhanced sleep stage classification system)と呼ばれるシステムでは6つの異なるデータベースを用いて異なる睡眠ステージのトレーニングとテストを行った。 これらのデータベースには、University College Dublin database (UCD)、Beth Israel Deaconess Medical Center MIT database (MIT-BIH)、Sleep European Data Format (EDF)、Sleep EDF Extended、Montreal Archive of Sleep Studies (MASS)、Sleep Heart Health Study (SHHS)がある。 その結果, 勾配飽和問題はもはや存在しないことがわかった。 修正されたアダムオプティマイザはノイズを減らすのに役立ち、結果として収束時間が短縮される。 結論: ESSCの収束速度は, 技術ソリューションの状態と比較して, 分類精度の向上とともに向上する。

Background and Aim: Each stage of sleep can affect human health, and not getting enough sleep at any stage may lead to sleep disorder like parasomnia, apnea, insomnia, etc. Sleep-related diseases could be diagnosed using Convolutional Neural Network Classifier. However, this classifier has not been successfully implemented into sleep stage classification systems due to high complexity and low accuracy of classification. The aim of this research is to increase the accuracy and reduce the learning time of Convolutional Neural Network Classifier. Methodology: The proposed system used a modified Orthogonal Convolutional Neural Network and a modified Adam optimisation technique to improve the sleep stage classification accuracy and reduce the gradient saturation problem that occurs due to sigmoid activation function. The proposed system uses Leaky Rectified Linear Unit (ReLU) instead of sigmoid activation function as an activation function. Results: The proposed system called Enhanced Sleep Stage Classification system (ESSC) used six different databases for training and testing the proposed model on the different sleep stages. These databases are University College Dublin database (UCD), Beth Israel Deaconess Medical Center MIT database (MIT-BIH), Sleep European Data Format (EDF), Sleep EDF Extended, Montreal Archive of Sleep Studies (MASS), and Sleep Heart Health Study (SHHS). Our results show that the gradient saturation problem does not exist anymore. The modified Adam optimiser helps to reduce the noise which in turn result in faster convergence time. Conclusion: The convergence speed of ESSC is increased along with better classification accuracy compared to the state of art solution.
翻訳日:2022-03-13 16:32:17 公開日:2022-02-18
# (参考訳) リモートセンシングデータからのエネルギーシステム情報の自動抽出:レビューと分析

Automated Extraction of Energy Systems Information from Remotely Sensed Data: A Review and Analysis ( http://arxiv.org/abs/2202.12939v1 )

ライセンス: CC BY-SA 4.0
Simiao Ren, Wei Hu, Kyle Bradbury, Dylan Harrison-Atlas, Laura Malaguzzi Valeri, Brian Murray, and Jordan M. Malof(参考訳) 高品質なエネルギーシステム情報は、エネルギーシステムの研究、モデリング、意思決定において重要なインプットである。 不幸なことに、エネルギーシステムに関する正確な情報は、多くの場合、限られた可用性、不完全、またはかなりの費用または非開示契約によってのみアクセス可能である。 近年、リモートセンシングされたデータ(衛星画像、航空写真など)がエネルギーシステム情報の豊富な情報源として浮上している。 しかし、これらのデータの使用は、手動分析を前提として、その膨大なボリュームと複雑さにしばしば挑戦される。 近年の機械学習のブレークスルーにより、リモートセンシングされたデータから有用な情報を自動かつ迅速に抽出することができ、重要なエネルギーシステム変数の大規模取得が容易になった。 本稿では,この新たな話題に関する文献を体系的にレビューし,過去20年間に発行された論文の詳細な調査とレビューを行う。 まず、既存の文献を10大分野に分類し、エネルギー価値連鎖を網羅する。 各研究分野において、エネルギー研究者に関係する主要な特徴、例えば、この手法のアクセシビリティと信頼性に関する重要な課題を精査し、批判的に議論する。 そして、文献全体の限界とトレンドを特定するために研究結果を合成し、イノベーションの機会について論じる。

High quality energy systems information is a crucial input to energy systems research, modeling, and decision-making. Unfortunately, precise information about energy systems is often of limited availability, incomplete, or only accessible for a substantial fee or through a non-disclosure agreement. Recently, remotely sensed data (e.g., satellite imagery, aerial photography) have emerged as a potentially rich source of energy systems information. However, the use of these data is frequently challenged by its sheer volume and complexity, precluding manual analysis. Recent breakthroughs in machine learning have enabled automated and rapid extraction of useful information from remotely sensed data, facilitating large-scale acquisition of critical energy system variables. Here we present a systematic review of the literature on this emerging topic, providing an in-depth survey and review of papers published within the past two decades. We first taxonomize the existing literature into ten major areas, spanning the energy value chain. Within each research area, we distill and critically discuss major features that are relevant to energy researchers, including, for example, key challenges regarding the accessibility and reliability of the methods. We then synthesize our findings to identify limitations and trends in the literature as a whole, and discuss opportunities for innovation.
翻訳日:2022-03-06 14:17:30 公開日:2022-02-18
# (参考訳) BLPnet: 自動ナンバープレート認識のための新しいDNNモデルとベンガルOCRエンジン

BLPnet: A new DNN model and Bengali OCR engine for Automatic License Plate Recognition ( http://arxiv.org/abs/2202.12250v1 )

ライセンス: CC BY 4.0
Md. Saif Hassan Onim, Hussain Nyeem, Koushik Roy, Mahmudul Hasan, Abtahi Ishmam, Md. Akiful Hoque Akif, Tareque Bashar Ovi(参考訳) 自動ナンバープレート認識(ALPR)システムの開発は、イングランドのナンバープレートに対して大きな注目を集めている。 しかし、世界第6位の人口であるにもかかわらず、ベンガル語圏の国々や、道路安全対策の不適切な交通管理に対応するalpr制度の州では、大きな進展は見られない。 本稿では,ベンガルライセンスプレートネットワーク(blpnet)と呼ばれる新しいエンド・ツー・エンドのdnnモデルを用いたベンガル文字の自動ライセンスプレート認識システム(alpr)について報告する。 モデル内の車両ナンバープレート(VLP)より前の車両領域を検出するためのケースドアーキテクチャを提案し,VLPの検出精度を高めるために,偽陽性を排除した。 さらに、リアルタイムアプリケーションにおいてより高速で互換性の高い計算コストを削減するために、トレーニング可能なパラメータの低いセットが検討されている。 計算ニューラルネットワーク(CNN)ベースの新しいベンガルOCRエンジンとワードマッピングプロセスにより、モデルは文字回転不変であり、車両の完全なナンバーを抽出し、検出し、出力することができる。 リアルタイムビデオ映像に17フレーム/秒(fps)を供給したモデルは、平均二乗誤差(mse)0.0152、平均ライセンスプレート文字認識精度95%の車両を検出することができる。 他のモデルと比較すると、blpnetoverでは、著名なヨーロベースのalprモデルと、ナンバープレート検出精度と時間要件のtesseractモデルでそれぞれ5%と20%の改善が記録された。

The development of the Automatic License Plate Recognition (ALPR) system has received much attention for the English license plate. However, despite being the sixth largest population around the world, no significant progress can be tracked in the Bengali language countries or states for the ALPR system addressing their more alarming traffic management with inadequate road-safety measures. This paper reports a computationally efficient and reasonably accurate Automatic License Plate Recognition (ALPR) system for Bengali characters with a new end-to-end DNN model that we call Bengali License Plate Network(BLPnet). The cascaded architecture for detecting vehicle regions prior to vehicle license plate (VLP) in the model is proposed to eliminate false positives resulting in higher detection accuracy of VLP. Besides, a lower set of trainable parameters is considered for reducing the computational cost making the system faster and more compatible for a real-time application. With a Computational Neural Network (CNN)based new Bengali OCR engine and word-mapping process, the model is characters rotation invariant, and can readily extract, detect and output the complete license plate number of a vehicle. The model feeding with17 frames per second (fps) on real-time video footage can detect a vehicle with the Mean Squared Error (MSE) of 0.0152, and the mean license plate character recognition accuracy of 95%. While compared to the other models, an improvement of 5% and 20% were recorded for the BLPnetover the prominent YOLO-based ALPR model and the Tesseract model for the number-plate detection accuracy and time requirement, respectively.
翻訳日:2022-02-27 17:47:47 公開日:2022-02-18
# 共変量を持つ新しいLDA定式化

A new LDA formulation with covariates ( http://arxiv.org/abs/2202.11527v1 )

ライセンス: Link先を確認
Gilson Shimizu, Rafael Izbicki and Denis Valle(参考訳) Latent Dirichlet Allocation (LDA)モデルは、混合メンバーシップクラスタを作成する一般的な方法である。 もともとはテキスト分析のために開発されたが、LDAは他の幅広い用途に使われてきた。 共変量を含むLDAモデルの新たな定式化を提案する。 このモデルでは、LDA内に負の二項回帰が組み込まれ、各サンプリング単位における回帰係数の直進的解釈とクラスタ固有の要素の量の解析が可能となる(構造トピックモデルのように、各クラスタの比率をモデル化することに焦点を当てた分析の代わりに)。 モデルパラメータを推定するためにgibbsサンプリングアルゴリズム内のスライスサンプリングを用いる。 我々は,アルゴリズムが真のパラメータ値の取得に成功し,共変量による情報を用いて存在量行列の予測を行う能力を示すため,シミュレーションに頼っている。 このモデルは、コロナウイルスのテキストマイニング、食料品の買い物かごの分析、バロコロラド島(パナマ)の樹木種の生態の3つの分野の実際のデータセットを用いて説明されている。 このモデルは、離散データ内の混合メンバクラスタの識別を可能にし、共変量とこれらのクラスタの存在量の関係を推論する。

The Latent Dirichlet Allocation (LDA) model is a popular method for creating mixed-membership clusters. Despite having been originally developed for text analysis, LDA has been used for a wide range of other applications. We propose a new formulation for the LDA model which incorporates covariates. In this model, a negative binomial regression is embedded within LDA, enabling straight-forward interpretation of the regression coefficients and the analysis of the quantity of cluster-specific elements in each sampling units (instead of the analysis being focused on modeling the proportion of each cluster, as in Structural Topic Models). We use slice sampling within a Gibbs sampling algorithm to estimate model parameters. We rely on simulations to show how our algorithm is able to successfully retrieve the true parameter values and the ability to make predictions for the abundance matrix using the information given by the covariates. The model is illustrated using real data sets from three different areas: text-mining of Coronavirus articles, analysis of grocery shopping baskets, and ecology of tree species on Barro Colorado Island (Panama). This model allows the identification of mixed-membership clusters in discrete data and provides inference on the relationship between covariates and the abundance of these clusters.
翻訳日:2022-02-27 17:44:55 公開日:2022-02-18
# (参考訳) 顔認識における信頼回復: 顔認識におけるバックドア攻撃の軽減と潜在的なプライバシー侵害防止 [全文訳有]

Resurrecting Trust in Facial Recognition: Mitigating Backdoor Attacks in Face Recognition to Prevent Potential Privacy Breaches ( http://arxiv.org/abs/2202.10320v1 )

ライセンス: CC BY 4.0
Reena Zelenkova, Jack Swallow, M.A.P. Chamikara, Dongxi Liu, Mohan Baruwal Chhetri, Seyit Camtepe, Marthie Grobler, Mahathir Almashor(参考訳) 顔画像のような生体データは、しばしば機密情報(医療、財務、個人政府の記録など)に関連付けられている。 したがって、そのような情報を格納するシステムにおけるデータ侵害は、壊滅的な結果をもたらす可能性がある。 ディープラーニングは顔認識(FR)に広く利用されているが、悪意のある者によって実行されるバックドア攻撃には弱い。 バックドア攻撃は、認識中に特定のクラスをターゲットクラスとして誤分類させる。 この脆弱性により、敵は生体認証によって保護される高度に機密性の高いデータにアクセスしたり、悪意のある相手をより高いシステム権限を持つ個人として仮装することができる。 このような侵害は深刻なプライバシーの脅威となる。 従来の手法では、ノイズ付加機構を顔認識モデルに統合し、この問題を軽減し、バックドア攻撃に対する分類の堅牢性を向上させる。 しかし、これはモデル精度に大きな影響を与える可能性がある。 本稿では,顔認証深層学習モデルに対するバックドア攻撃を,移動学習と選択的画像摂動によって防止することを目的とした,新しい一般化可能なアプローチ(BA-BAM: Biometric Authentication - Backdoor Attack Mitigation)を提案する。 実証的な証拠は、BA-BAMは非常に堅牢で、最大精度は2.4%低下し、攻撃成功率は最大20%低下していることを示している。 既存のアプローチと比較すると、BA-BAMは顔認識のためのより実用的なバックドア緩和アプローチを提供する。

Biometric data, such as face images, are often associated with sensitive information (e.g medical, financial, personal government records). Hence, a data breach in a system storing such information can have devastating consequences. Deep learning is widely utilized for face recognition (FR); however, such models are vulnerable to backdoor attacks executed by malicious parties. Backdoor attacks cause a model to misclassify a particular class as a target class during recognition. This vulnerability can allow adversaries to gain access to highly sensitive data protected by biometric authentication measures or allow the malicious party to masquerade as an individual with higher system permissions. Such breaches pose a serious privacy threat. Previous methods integrate noise addition mechanisms into face recognition models to mitigate this issue and improve the robustness of classification against backdoor attacks. However, this can drastically affect model accuracy. We propose a novel and generalizable approach (named BA-BAM: Biometric Authentication - Backdoor Attack Mitigation), that aims to prevent backdoor attacks on face authentication deep learning models through transfer learning and selective image perturbation. The empirical evidence shows that BA-BAM is highly robust and incurs a maximal accuracy drop of 2.4%, while reducing the attack success rate to a maximum of 20%. Comparisons with existing approaches show that BA-BAM provides a more practical backdoor mitigation approach for face recognition.
翻訳日:2022-02-26 21:58:48 公開日:2022-02-18
# (参考訳) ニューラルネットワークの学習表現の説明、評価、強化 [全文訳有]

Explaining, Evaluating and Enhancing Neural Networks' Learned Representations ( http://arxiv.org/abs/2202.09374v1 )

ライセンス: CC BY 4.0
Marco Bertolini, Djork-Arn\'e Clevert, Floriane Montanari(参考訳) 深層学習における解釈可能性の努力は、(1)特定の下流課題の入力特徴に関する説明を抽出し、(2)モデルに制約を課すこと、しばしば予測性能を犠牲にすることに焦点を当てている。 しかし、(教師なし)表現学習と転送学習の新しい進歩は、特定の下流タスクなしでトレーニングされるネットワークのための説明フレームワークの必要性を高めている。 これらの課題に対処するために、より効率的で効率的な表現への障害ではなく、いかに説明可能性が助けになるかを示す。 具体的には,ニューラルネットワークの任意の2つの(畳み込み)層間の帰属写像を一般化する自然凝集法を提案する。 また,このような帰属関係を用いて,潜在組込みのインフォメーション性および不連続性を評価するための2つの新しいスコアを定式化する。 広範な実験により,提案するスコアは所望の特性と相関することが示された。 また, モデルパラメータからの共通給与戦略の独立性に関する既知の結果を確認し, 拡張する。 最後に,表現学習タスクのトレーニング中に提案するスコアを制約として採用することで,モデルのダウンストリームパフォーマンスが向上することを示す。

Most efforts in interpretability in deep learning have focused on (1) extracting explanations of a specific downstream task in relation to the input features and (2) imposing constraints on the model, often at the expense of predictive performance. New advances in (unsupervised) representation learning and transfer learning, however, raise the need for an explanatory framework for networks that are trained without a specific downstream task. We address these challenges by showing how explainability can be an aid, rather than an obstacle, towards better and more efficient representations. Specifically, we propose a natural aggregation method generalizing attribution maps between any two (convolutional) layers of a neural network. Additionally, we employ such attributions to define two novel scores for evaluating the informativeness and the disentanglement of latent embeddings. Extensive experiments show that the proposed scores do correlate with the desired properties. We also confirm and extend previously known results concerning the independence of some common saliency strategies from the model parameters. Finally, we show that adopting our proposed scores as constraints during the training of a representation learning task improves the downstream performance of the model.
翻訳日:2022-02-26 21:38:30 公開日:2022-02-18
# (参考訳) 自動ファクト検証システムにおける合成偽情報攻撃 [全文訳有]

Synthetic Disinformation Attacks on Automated Fact Verification Systems ( http://arxiv.org/abs/2202.09381v1 )

ライセンス: CC BY 4.0
Yibing Du, Antoine Bosselut, Christopher D. Manning(参考訳) 自動事実チェックは、オンライン誤報の拡散を緩和するために必要な技術である。 このようなソリューションのための現在のフレームワークの1つは、関連するテキストソースから証拠を支持または否定することでクレームを検証することを提案する。 しかし、ファクトチェックの現実的なユースケースは、同じ誤報によって影響を受ける可能性のある証拠ソースに対するクレームを検証する必要がある。 さらに、コヒーレントで製造されたコンテンツを生成できる現代のNLPツールの開発により、悪意あるアクターがファクトチェッカーの敵対的偽情報を体系的に生成できるようになる。 本研究は,ファクトチェックシステムで利用可能なエビデンスリポジトリに文書を作成し,それを付加するadversarialadditionと,既存のエビデンスソースドキュメントを自動的に変更するadversarialmodificat ionという,2つのシミュレートされた設定で,ファクトチェックの自動生成ファクトチェックの感度について検討する。 3つのベンチマークで複数のモデルにまたがる研究は、これらのシステムがこれらの攻撃に対して著しいパフォーマンス低下を被っていることを示している。 最後に, 自動ファクトチェッカーに直面する課題の文脈において, 偽情報の発生源として, 現代のNLGシステムの脅威が高まっていることを論じる。

Automated fact-checking is a needed technology to curtail the spread of online misinformation. One current framework for such solutions proposes to verify claims by retrieving supporting or refuting evidence from related textual sources. However, the realistic use cases for fact-checkers will require verifying claims against evidence sources that could be affected by the same misinformation. Furthermore, the development of modern NLP tools that can produce coherent, fabricated content would allow malicious actors to systematically generate adversarial disinformation for fact-checkers. In this work, we explore the sensitivity of automated fact-checkers to synthetic adversarial evidence in two simulated settings: AdversarialAddition, where we fabricate documents and add them to the evidence repository available to the fact-checking system, and AdversarialModificat ion, where existing evidence source documents in the repository are automatically altered. Our study across multiple models on three benchmarks demonstrates that these systems suffer significant performance drops against these attacks. Finally, we discuss the growing threat of modern NLG systems as generators of disinformation in the context of the challenges they pose to automated fact-checkers.
翻訳日:2022-02-26 20:44:06 公開日:2022-02-18
# (参考訳) 均質マルコフゲームのための通信効率の良いアクター臨界法 [全文訳有]

Communication-Effici ent Actor-Critic Methods for Homogeneous Markov Games ( http://arxiv.org/abs/2202.09422v1 )

ライセンス: CC BY 4.0
Dingyang Chen, Yile Li, Qi Zhang(参考訳) 協調型マルチエージェント強化学習(marl)の最近の成功は、集中型トレーニングと方針共有に依存している。 集中トレーニングは、非定常MARLの問題を排除するが、大きな通信コストを発生させ、政策共有は特定のタスクにおける効率的な学習において経験的に重要なものであり、理論上の正当化を欠いている。 本稿では,政策共有が必然的に最適でないようなある種の均質性を示すマルコフゲームのサブクラスを,エージェントが正式に特徴づける。 これにより、コンセンサスに基づく最初の分散型アクター批判手法を開発し、コンセンサスを確保しつつ、アクターと批評家の両方にコンセンサス更新を適用することができる。 また,集中学習に匹敵する政策を採りながら,訓練中の通信コストを削減するために,分散型アクター批判法に基づく実用的なアルゴリズムを開発した。

Recent success in cooperative multi-agent reinforcement learning (MARL) relies on centralized training and policy sharing. Centralized training eliminates the issue of non-stationarity MARL yet induces large communication costs, and policy sharing is empirically crucial to efficient learning in certain tasks yet lacks theoretical justification. In this paper, we formally characterize a subclass of cooperative Markov games where agents exhibit a certain form of homogeneity such that policy sharing provably incurs no suboptimality. This enables us to develop the first consensus-based decentralized actor-critic method where the consensus update is applied to both the actors and the critics while ensuring convergence. We also develop practical algorithms based on our decentralized actor-critic method to reduce the communication cost during training, while still yielding policies comparable with centralized training.
翻訳日:2022-02-26 20:25:56 公開日:2022-02-18
# (参考訳) Twitter 談話における COVID-19 ワクチンを標的とした誤情報の導入・拒絶の特定 [全文訳有]

Identifying the Adoption or Rejection of Misinformation Targeting COVID-19 Vaccines in Twitter Discourse ( http://arxiv.org/abs/2202.09445v1 )

ライセンス: CC BY 4.0
Maxwell Weinzierl, Sanda Harabagiu(参考訳) 何十億もの新型コロナウイルスワクチンが投与されているが、多くの人はいまだにためらっている。 ソーシャルメディアで宣伝する新型コロナウイルスワクチンに関する誤報は、ワクチン接種への執着を促していると考えられている。 しかし、誤情報への露出は必ずしも誤情報の導入を示すものではない。 本稿では,誤情報に対する態度を,態度の整合性とその特性に頼って識別する新しい枠組みについて述べる。 誤情報に対する態度の整合性、誤情報の導入または拒絶とマイクロブログの内容との相互作用は、知識グラフに誤情報に対する姿勢を整理する新しいニューラルネットワークアーキテクチャにおいて利用される。 この新しいニューラル・フレームワークは、新型コロナウイルスのワクチンに関する誤った情報に対するスタンスを最先端の結果で特定できる。 実験は、CoVaxLiesと呼ばれる新型コロナウイルスワクチンに対する誤情報の新しいデータセットで実施されている。 CoVaxLiesは、新型コロナウイルスワクチンに関する誤報の分類を提供するので、どの誤報が主に採用され、ほとんど拒否されているかを示すことができます。

Although billions of COVID-19 vaccines have been administered, too many people remain hesitant. Misinformation about the COVID-19 vaccines, propagating on social media, is believed to drive hesitancy towards vaccination. However, exposure to misinformation does not necessarily indicate misinformation adoption. In this paper we describe a novel framework for identifying the stance towards misinformation, relying on attitude consistency and its properties. The interactions between attitude consistency, adoption or rejection of misinformation and the content of microblogs are exploited in a novel neural architecture, where the stance towards misinformation is organized in a knowledge graph. This new neural framework is enabling the identification of stance towards misinformation about COVID-19 vaccines with state-of-the-art results. The experiments are performed on a new dataset of misinformation towards COVID-19 vaccines, called CoVaxLies, collected from recent Twitter discourse. Because CoVaxLies provides a taxonomy of the misinformation about COVID-19 vaccines, we are able to show which type of misinformation is mostly adopted and which is mostly rejected.
翻訳日:2022-02-26 19:43:31 公開日:2022-02-18
# (参考訳) vaccinelies:covid-19 ワクチンとhpvワクチンに関する誤った情報を認識するための自然言語リソース [全文訳有]

VaccineLies: A Natural Language Resource for Learning to Recognize Misinformation about the COVID-19 and HPV Vaccines ( http://arxiv.org/abs/2202.09449v1 )

ライセンス: CC BY 4.0
Maxwell Weinzierl, Sanda Harabagiu(参考訳) 新型コロナウイルス(COVID-19)ワクチンは数十億種が投与されている。 ソーシャルメディアで拡散する新型コロナウイルスワクチンやその他のワクチンに関する誤報は、ワクチン接種への執着を促していると考えられている。 Twitter上で偽情報ターゲティングワクチンを自動的に認識する機能は、データリソースの可用性に依存する。 本稿では、新型コロナウイルスワクチンとヒトパピローマウイルス(HPV)ワクチンの2つのワクチンに関する誤情報を広めるツイートの集合であるVacineLiesを紹介する。 誤報の対象はワクチン特異的な分類で組織され、誤報のテーマと懸念を明らかにする。 誤報分類のオンソロジー的コミットメントは、VaccineLiesでカバーされている2つのワクチンについて、誤報のテーマと懸念がどの話題を支配しているかの理解を提供する。 VaccineLiesのトレーニング、テスト、開発に関する組織は、Twitter上の誤情報を検出し、それに対する姿勢を特定するための、新しい教師付きメソッドの開発を招待している。 さらに、ワクチンは、追加のワクチンをターゲットとした誤った情報に焦点を当てたデータセットの開発の足場となり得る。

Billions of COVID-19 vaccines have been administered, but many remain hesitant. Misinformation about the COVID-19 vaccines and other vaccines, propagating on social media, is believed to drive hesitancy towards vaccination. The ability to automatically recognize misinformation targeting vaccines on Twitter depends on the availability of data resources. In this paper we present VaccineLies, a large collection of tweets propagating misinformation about two vaccines: the COVID-19 vaccines and the Human Papillomavirus (HPV) vaccines. Misinformation targets are organized in vaccine-specific taxonomies, which reveal the misinformation themes and concerns. The ontological commitments of the Misinformation taxonomies provide an understanding of which misinformation themes and concerns dominate the discourse about the two vaccines covered in VaccineLies. The organization into training, testing and development sets of VaccineLies invites the development of novel supervised methods for detecting misinformation on Twitter and identifying the stance towards it. Furthermore, VaccineLies can be a stepping stone for the development of datasets focusing on misinformation targeting additional vaccines.
翻訳日:2022-02-26 19:25:58 公開日:2022-02-18
# (参考訳) 現代の拡張現実: 応用、トレンド、今後の方向性 [全文訳有]

Modern Augmented Reality: Applications, Trends, and Future Directions ( http://arxiv.org/abs/2202.09450v1 )

ライセンス: CC BY 4.0
Shervin Minaee, Xiaodan Liang, Shuicheng Yan(参考訳) 拡張現実(AR、Augmented Reality)は、コンピュータビジョンとコンピュータグラフィックスの交差点において、ゲームやエンターテイメント、教育、医療など、様々な分野に応用されている、比較的古い領域の1つである。 約50年前からあるが、近年は様々なコンピュータビジョンやarアプリケーションのためのディープラーニングモデルが成功し、新しい世代のar技術を開発できるようになったため、研究コミュニティから多くの関心が寄せられている。 この研究は、アプリケーションレベルと技術的観点から、モダンな拡張現実の概要を提供しようとしている。 まず、主要なARアプリケーションの概要を説明し、それを10以上のカテゴリに分類する。 次に、ARシステム用に開発された約100の有望な機械学習ベースのワークの概要を示す。例えば、ARショッピング(服、化粧)のためのディープラーニングワーク、ARベースのイメージフィルタ(Snapchatのレンズなど)、ARアニメーションなどだ。 最後に、ARドメインにおける現在の課題と、この分野における今後の方向性について論じる。

Augmented reality (AR) is one of the relatively old, yet trending areas in the intersection of computer vision and computer graphics with numerous applications in several areas, from gaming and entertainment, to education and healthcare. Although it has been around for nearly fifty years, it has seen a lot of interest by the research community in the recent years, mainly because of the huge success of deep learning models for various computer vision and AR applications, which made creating new generations of AR technologies possible. This work tries to provide an overview of modern augmented reality, from both application-level and technical perspective. We first give an overview of main AR applications, grouped into more than ten categories. We then give an overview of around 100 recent promising machine learning based works developed for AR systems, such as deep learning works for AR shopping (clothing, makeup), AR based image filters (such as Snapchat's lenses), AR animations, and more. In the end we discuss about some of the current challenges in AR domain, and the future directions in this area.
翻訳日:2022-02-26 19:10:28 公開日:2022-02-18
# (参考訳) FreEMからD'AlemBERTへ : 大規模コーパスと近代フランス語の言語モデル [全文訳有]

From FreEM to D'AlemBERT: a Large Corpus and a Language Model for Early Modern French ( http://arxiv.org/abs/2202.09452v1 )

ライセンス: CC BY 4.0
Simon Gabay, Pedro Ortiz Suarez, Alexandre Bartz, Alix Chagu\'e, Rachel Bawden, Philippe Gambette, Beno\^it Sagot(参考訳) 歴史的言語状態のための言語モデルは、古いテキストソースの最適なデジタル化と分析を可能にするためにますます重要になっている。 これらの歴史的状態はコーパスの処理が複雑であり、コーパスが不足しているため、データに適合する自然言語処理(NLP)ツールの訓練には特別な努力が必要である。 本稿では,近世フランス語のNLPツールの開発(歴史フランス語の16$^\text{th}$から18$^\text{th}$ centuryまで)について述べる。 我々は、初期フランス語の$\text{FreEM}_{\text{max}}$と、$\text{FreEM}_{\text{max}}$でトレーニングされたRoBERTaベースの言語モデルであるD'AlemBERTを提示する。 我々はD'AlemBERTの有効性を、音声のタグ付けタスクで微調整することで評価し、テストセットにおける以前の作業よりも優れていた。 重要なことは、よりリソースの少ない時間における性能が、よりリソースの少ない時間で向上したように見えるため、言語モデルの伝達学習能力を示す証拠が見つかる。 D'AlemBERTと$\text{FreEM}_{\text{max}}$ corpusのオープンソースサブパートをリリースします。

Language models for historical states of language are becoming increasingly important to allow the optimal digitisation and analysis of old textual sources. Because these historical states are at the same time more complex to process and more scarce in the corpora available, specific efforts are necessary to train natural language processing (NLP) tools adapted to the data. In this paper, we present our efforts to develop NLP tools for Early Modern French (historical French from the 16$^\text{th}$ to the 18$^\text{th}$ centuries). We present the $\text{FreEM}_{\text{max}}$ corpus of Early Modern French and D'AlemBERT, a RoBERTa-based language model trained on $\text{FreEM}_{\text{max}}$. We evaluate the usefulness of D'AlemBERT by fine-tuning it on a part-of-speech tagging task, outperforming previous work on the test set. Importantly, we find evidence for the transfer learning capacity of the language model, since its performance on lesser-resourced time periods appears to have been boosted by the more resourced ones. We release D'AlemBERT and the open-sourced subpart of the $\text{FreEM}_{\text{max}}$ corpus.
翻訳日:2022-02-26 18:26:34 公開日:2022-02-18
# (参考訳) ヘシタンシー・フレーミングからワクチン・ヘシタンシー・プロファイルへ:スタンス、オントロジ・コミットメント、モラル・ファンデーションの旅 [全文訳有]

From Hesitancy Framings to Vaccine Hesitancy Profiles: A Journey of Stance, Ontological Commitments and Moral Foundations ( http://arxiv.org/abs/2202.09456v1 )

ライセンス: CC BY 4.0
Maxwell Weinzierl, Sanda Harabagiu(参考訳) 新型コロナウイルス(COVID-19)ワクチンが何十億回も投与されているが、多くの人はいまだにためらっている。 Twitterは、相当なリーチと毎日の露出で、人々がワクチンのヘシタシーの枠組みを調べ、ワクチンヘシタシーのプロフィールを明らかにするのに最適なリソースだ。 本稿では、新型コロナウイルスワクチンを議論するオリジナルツイート9,133,471件のコレクションにおいて、ワクチン中毒のフレームを識別することから、当社の処理過程を公開し、その存在論的コミットメントを確立し、ツイート作成者のCoVaxFrameに対する姿勢の自動認識を示唆するモラル財団に注釈を付ける。 805,336のTwitterユーザーが、9,133,471ツイートまたは17,346,664リツイートで一部のCoVaxFrameに対してスタンスを持っていたことを発見したとき、これらのユーザの9つの異なるVaccine Hesitancy Profileを導き、これらのプロファイルを、ツイートで誘発されたフレームのオントロジ的なコミットメントと、そのフレームに対するスタンスの価値に基づいて解釈することができた。

While billions of COVID-19 vaccines have been administered, too many people remain hesitant. Twitter, with its substantial reach and daily exposure, is an excellent resource for examining how people frame their vaccine hesitancy and to uncover vaccine hesitancy profiles. In this paper we expose our processing journey from identifying Vaccine Hesitancy Framings in a collection of 9,133,471 original tweets discussing the COVID-19 vaccines, establishing their ontological commitments, annotating the Moral Foundations they imply to the automatic recognition of the stance of the tweet authors toward any of the CoVaxFrames that we have identified. When we found that 805,336 Twitter users had a stance towards some CoVaxFrames in either the 9,133,471 original tweets or their 17,346,664 retweets, we were able to derive nine different Vaccine Hesitancy Profiles of these users and to interpret these profiles based on the ontological commitments of the frames they evoked in their tweets and on value of their stance towards the evoked frames.
翻訳日:2022-02-26 18:10:08 公開日:2022-02-18
# (参考訳) 攻撃、防御、ツール:ロバストなAI/MLシステムを実現するフレームワーク [全文訳有]

Attacks, Defenses, And Tools: A Framework To Facilitate Robust AI/ML Systems ( http://arxiv.org/abs/2202.09465v1 )

ライセンス: CC BY 4.0
Mohamad Fazelnia, Igor Khokhlov, Mehdi Mirakhorli(参考訳) ソフトウェアシステムはますます人工知能(AI)と機械学習(ML)コンポーネントに依存している。 さまざまなアプリケーションドメインにおけるAI技術の普及は、悪意あるアクターや敵を惹きつけている。 したがって、AI対応ソフトウェアシステムの開発者は、これらのシステムが影響を受けやすい様々な新しいサイバー攻撃と脆弱性を考慮する必要がある。 本稿では、ai対応システムに関連する攻撃と弱点を特徴付ける枠組みと、緩和技術と防御戦略を提供する。 このフレームワークは、AI対応ソフトウェアの開発、攻撃面の理解、MLに関連する様々な新興攻撃に耐性のある製品の開発において、ソフトウェア設計者を支援することを目的としている。 開発されたフレームワークは幅広い攻撃範囲、緩和技術、防御および攻撃ツールをカバーしている。 本稿では,フレームワークアーキテクチャとその主要コンポーネントについて紹介し,その特性を説明し,研究の長期的目標について論じる。

Software systems are increasingly relying on Artificial Intelligence (AI) and Machine Learning (ML) components. The emerging popularity of AI techniques in various application domains attracts malicious actors and adversaries. Therefore, the developers of AI-enabled software systems need to take into account various novel cyber-attacks and vulnerabilities that these systems may be susceptible to. This paper presents a framework to characterize attacks and weaknesses associated with AI-enabled systems and provide mitigation techniques and defense strategies. This framework aims to support software designers in taking proactive measures in developing AI-enabled software, understanding the attack surface of such systems, and developing products that are resilient to various emerging attacks associated with ML. The developed framework covers a broad spectrum of attacks, mitigation techniques, and defensive and offensive tools. In this paper, we demonstrate the framework architecture and its major components, describe their attributes, and discuss the long-term goals of this research.
翻訳日:2022-02-26 17:51:12 公開日:2022-02-18
# ブロックチェーン型フェデレート学習における共同資源配分のためのインセンティブ機構設計

Incentive Mechanism Design for Joint Resource Allocation in Blockchain-based Federated Learning ( http://arxiv.org/abs/2202.10938v1 )

ライセンス: Link先を確認
Zhilin Wang, Qin Hu, Ruinian Li, Minghui Xu, and Zehui Xiong(参考訳) ブロックチェーンベースのフェデレーション学習(bcfl)は最近、分散化や生データのプライバシ保護といったメリットから、大きな注目を集めている。 しかし、BCFLにおけるクライアント向けのリソースの割り当てに焦点を当てた研究はほとんど行われていない。 flクライアントとブロックチェーンマイナが同じデバイスであるbcflフレームワークでは、トレーニングされたモデルアップデートをブロックチェーンネットワークにブロードキャストし、マイニングを実行して新たなブロックを生成する。 各クライアントには限られた量のコンピューティングリソースがあるため、コンピュータリソースをトレーニングとマイニングに割り当てる問題は慎重に対処する必要がある。 本稿では,各クライアントにトレーニングとマイニングの適切な報酬を割り当てるインセンティブ機構を設計し,この2段階のStackelbergゲームを用いて,各サブタスクに割り当てるコンピューティングパワーの量を決定する。 モデルオーナ(mo)とクライアントのユーティリティ(bcflタスクパブリッシャ)を分析した後、ゲームモデルを2つの最適化問題に変換し、moとクライアントの両方の最適な戦略を導出するために順次解決する。 さらに,各クライアントのローカルトレーニング関連情報が他者によって知られていないことを考慮し,不完全な情報シナリオに対する解析解を用いてゲームモデルを拡張する。 広範な実験結果から,提案手法の有効性が示された。

Blockchain-based federated learning (BCFL) has recently gained tremendous attention because of its advantages such as decentralization and privacy protection of raw data. However, there has been few research focusing on the allocation of resources for clients in BCFL. In the BCFL framework where the FL clients and the blockchain miners are the same devices, clients broadcast the trained model updates to the blockchain network and then perform mining to generate new blocks. Since each client has a limited amount of computing resources, the problem of allocating computing resources into training and mining needs to be carefully addressed. In this paper, we design an incentive mechanism to assign each client appropriate rewards for training and mining, and then the client will determine the amount of computing power to allocate for each subtask based on these rewards using the two-stage Stackelberg game. After analyzing the utilities of the model owner (MO) (i.e., the BCFL task publisher) and clients, we transform the game model into two optimization problems, which are sequentially solved to derive the optimal strategies for both the MO and clients. Further, considering the fact that local training related information of each client may not be known by others, we extend the game model with analytical solutions to the incomplete information scenario. Extensive experimental results demonstrate the validity of our proposed schemes.
翻訳日:2022-02-23 16:53:42 公開日:2022-02-18
# アドバイザによるシングルレグ収益管理

Single-Leg Revenue Management with Advice ( http://arxiv.org/abs/2202.10939v1 )

ライセンス: Link先を確認
Santiago Balseiro, Christian Kroer, Rachitesh Kumar(参考訳) シングルレグ収益管理は、航空会社やホテル業界で特に影響を受けてきた収入管理の基本的な問題である:例えば、フライトシートや、運賃で区分けされた順次購入する顧客のストリームなど、リソースを割り当てるための最適なオンラインポリシーは何か。 予測が利用可能で、予測の不正確さに対して堅牢ではないアルゴリズムや、最悪のパフォーマンス保証を備えたオンラインアルゴリズムの設計に重点を置いていた。 本研究では,将来についてのアドバイスや予測を最適にオンラインアルゴリズムに組み込もうとするアルゴリズム・ウィズ・アドバイザ・フレームワークのレンズを通して,シングルレグの収益管理問題を考察する。 特に、すべてのアドバイスに対する一貫性(アドバイスが正確であればパフォーマンス)と競争性(アドバイスが不正確であればパフォーマンス)のトレードオフを捉えたParetoフロンティアを特徴づけます。 さらに,このParetoフロンティアの性能を常に達成するオンラインアルゴリズムを提供する。 また、単一レグ収益管理において最も広く展開されている技術である保護レベルポリシーのクラスについても検討し、一貫性と競争性を最適にトレードオフする保護レベルにアドバイスを組み込むアルゴリズムを提供する。 さらに,これらのアルゴリズムの合成データに対する性能を実験的に評価した。 保護レベルポリシーのアルゴリズムは,理論上はパレートフロンティアにあることが保証されていなくても,ほとんどのケースにおいて極めてよく機能することがわかった。

Single-leg revenue management is a foundational problem of revenue management that has been particularly impactful in the airline and hotel industry: Given $n$ units of a resource, e.g. flight seats, and a stream of sequentially-arrivin g customers segmented by fares, what is the optimal online policy for allocating the resource. Previous work focused on designing algorithms when forecasts are available, which are not robust to inaccuracies in the forecast, or online algorithms with worst-case performance guarantees, which can be too conservative in practice. In this work, we look at the single-leg revenue management problem through the lens of the algorithms-with-advi ce framework, which attempts to optimally incorporate advice/predictions about the future into online algorithms. In particular, we characterize the Pareto frontier that captures the tradeoff between consistency (performance when advice is accurate) and competitiveness (performance when advice is inaccurate) for every advice. Moreover, we provide an online algorithm that always achieves performance on this Pareto frontier. We also study the class of protection level policies, which is the most widely-deployed technique for single-leg revenue management: we provide an algorithm to incorporate advice into protection levels that optimally trades off consistency and competitiveness. Moreover, we empirically evaluate the performance of these algorithms on synthetic data. We find that our algorithm for protection level policies performs remarkably well on most instances, even if it is not guaranteed to be on the Pareto frontier in theory.
翻訳日:2022-02-23 16:53:21 公開日:2022-02-18
# expressシステムの知的代入問題に対するエンドツーエンド予測最適化クラスタリング法

An end-to-end predict-then-optimiz e clustering method for intelligent assignment problems in express systems ( http://arxiv.org/abs/2202.10937v1 )

ライセンス: Link先を確認
Jinlei Zhang, Ergang Shan, Lixia Wu, Lixing Yang, Ziyou Gao, Haoyuan Hu(参考訳) 急行システムは現代の主要都市で重要な役割を担っている。 エクスプレスシステムの配達員は、特定の時間に特定のエリア(aoi)の荷物を拾います。 しかし、将来のピックアップ要求は時間によって大きく異なる。 割り当て結果は通常、時間とともに変更することなく静的である。 したがって、歴史的ピックアップリクエスト番号を使用して、クーリエのAOI割り当て(またはピックアップリクエスト割り当て)を行うのは理にかなっている。 さらに, 将来のピックアップ要求をまず予測し, 予測結果を用いて割当てを行う場合でも, この種の2段階の手法は実用的でなく, 自明であり, 最良の予測結果などいくつかの欠点が存在する。 これらの問題を解決するため、我々は、AOIの将来のピックアップ要求を同時に予測し、クラスタリングによりAOIをクーリエに割り当てるインテリジェントなエンドツーエンド予測最適化クラスタリング手法を提案した。 まず,AOIの順序数を予測する深層学習に基づく予測モデルを提案する。 そして、予測結果に基づいて、クラスタAOIに差分制約付きK平均クラスタリング手法を導入する。 最後に,aoisをクーリエに合理的,動的,インテリジェントに割り当てる,エンドツーエンドの予測最適化クラスタリング手法を提案する。 その結果, この一段階予測最適化手法は, 最適化結果, すなわちクラスタリング結果の性能向上に有効であることが示唆された。 本研究は,表現システムにおけるタスクの予測と最適化,知的代入問題に対する批判的経験を提供する。

Express systems play important roles in modern major cities. Couriers serving for the express system pick up packages in certain areas of interest (AOI) during a specific time. However, future pick-up requests vary significantly with time. While the assignment results are generally static without changing with time. Using the historical pick-up request number to conduct AOI assignment (or pick-up request assignment) for couriers is thus unreasonable. Moreover, even we can first predict future pick-up requests and then use the prediction results to conduct the assignments, this kind of two-stage method is also impractical and trivial, and exists some drawbacks, such as the best prediction results might not ensure the best clustering results. To solve these problems, we put forward an intelligent end-to-end predict-then-optimiz e clustering method to simultaneously predict the future pick-up requests of AOIs and assign AOIs to couriers by clustering. At first, we propose a deep learning-based prediction model to predict order numbers on AOIs. Then a differential constrained K-means clustering method is introduced to cluster AOIs based on the prediction results. We finally propose a one-stage end-to-end predict-then-optimiz e clustering method to assign AOIs to couriers reasonably, dynamically, and intelligently. Results show that this kind of one-stage predict-then-optimiz e method is beneficial to improve the performance of optimization results, namely the clustering results. This study can provide critical experiences for predict-and-optimize related tasks and intelligent assignment problems in express systems.
翻訳日:2022-02-23 16:17:35 公開日:2022-02-18
# SapientML: 人文学習による機械学習パイプラインの合成

SapientML: Synthesizing Machine Learning Pipelines by Learning from Human-Written Solutions ( http://arxiv.org/abs/2202.10451v1 )

ライセンス: Link先を確認
Ripon K. Saha, Akira Ura, Sonal Mahajan, Chenguang Zhu, Linyi Li, Yang Hu, Hiroaki Yoshida, Sarfraz Khurshid, Mukul R. Prasad(参考訳) 自動機械学習(AutoML)は、データサイエンティストの作業を実質的に自動化することで、機械学習(ML)の使用を真に民主化する、という約束を掲げている。 しかし、候補パイプラインの巨大な組合せ検索空間は、現在のautoml技術が、特に大規模で複雑なデータセットにおいて、最適でないパイプラインを生成することを意味する。 本研究では,既存のデータセットとその人書きパイプラインのコーパスから学習し,新しいデータセット上で予測タスクのための高品質なパイプラインを効率的に生成する,AutoML技術であるSapientMLを提案する。 automlの探索空間の爆発に対処するために、sappientmlは3段階のプログラム合成アプローチとして実現される新しい分割・探索戦略を採用しており、その理由はより小さな探索空間である。 第1ステージでは、マシン学習モデルを使用して、パイプラインを構成するための可塑性MLコンポーネントセットを予測する。 第二段階では、コーパスと機械学習モデルから導かれる構文制約を用いて、実行可能なコンクリートパイプラインの小さなプールに精製する。 これら少数のパイプラインを動的に評価する上で,第3段階では,最適なソリューションを提供する。 完全に自動化されたツールチェーンの一部としてSapientMLをインスタンス化し、Kaggleをマイニングしてラベル付き学習コーパスを生成し、そこから学習し、学習モデルを使用して、新たな予測タスクのためのパイプラインを合成します。 私たちは、170のデータセットにまたがる1094のパイプラインのトレーニングコーパスを作成し、kaggleの10の新しい、大規模、実世界のデータセット、最先端のautomlツールと2つのベースラインを含む、41のベンチマークデータセットでsapientmlを評価しました。 我々の評価によると、SapientMLは27のベンチマークでベストまたは同等の精度で、第2のツールでは9のインスタンスでパイプラインを生成できない。

Automatic machine learning, or AutoML, holds the promise of truly democratizing the use of machine learning (ML), by substantially automating the work of data scientists. However, the huge combinatorial search space of candidate pipelines means that current AutoML techniques, generate sub-optimal pipelines, or none at all, especially on large, complex datasets. In this work we propose an AutoML technique SapientML, that can learn from a corpus of existing datasets and their human-written pipelines, and efficiently generate a high-quality pipeline for a predictive task on a new dataset. To combat the search space explosion of AutoML, SapientML employs a novel divide-and-conquer strategy realized as a three-stage program synthesis approach, that reasons on successively smaller search spaces. The first stage uses a machine-learned model to predict a set of plausible ML components to constitute a pipeline. In the second stage, this is then refined into a small pool of viable concrete pipelines using syntactic constraints derived from the corpus and the machine-learned model. Dynamically evaluating these few pipelines, in the third stage, provides the best solution. We instantiate SapientML as part of a fully automated tool-chain that creates a cleaned, labeled learning corpus by mining Kaggle, learns from it, and uses the learned models to then synthesize pipelines for new predictive tasks. We have created a training corpus of 1094 pipelines spanning 170 datasets, and evaluated SapientML on a set of 41 benchmark datasets, including 10 new, large, real-world datasets from Kaggle, and against 3 state-of-the-art AutoML tools and 2 baselines. Our evaluation shows that SapientML produces the best or comparable accuracy on 27 of the benchmarks while the second best tool fails to even produce a pipeline on 9 of the instances.
翻訳日:2022-02-23 15:47:56 公開日:2022-02-18
# バックドア攻撃の嫌悪:データバイアス除去におけるバックドア攻撃の利点

Debiasing Backdoor Attack: A Benign Application of Backdoor Attack in Eliminating Data Bias ( http://arxiv.org/abs/2202.10582v1 )

ライセンス: Link先を確認
Shangxi Wu and Qiuyang He and Yi Zhang and Jitao Sang(参考訳) バックドア攻撃は、近年出現した新たなAIセキュリティリスクである。 敵意攻撃に関するこれまでの研究から,バックドア攻撃はモデル学習プロセスを活用する可能性があり,モデル性能を向上させることができると論じた。 バックドア攻撃におけるクリーン精度低下 (CAD) に基づいて, CADはデータの擬似削除効果から生まれた。 モデル分類境界の観点からこの現象の予備的な説明を行い,データデバイアス問題において,この擬似削除が直接削除よりも有利であることを確認した。 以上の結果から,我々は脱バイアスバックドア攻撃 (DBA) を提案している。 debiasingタスクでsotaを実現し、アンサンプリングよりも幅広いアプリケーションシナリオを持つ。

Backdoor attack is a new AI security risk that has emerged in recent years. Drawing on the previous research of adversarial attack, we argue that the backdoor attack has the potential to tap into the model learning process and improve model performance. Based on Clean Accuracy Drop (CAD) in backdoor attack, we found that CAD came out of the effect of pseudo-deletion of data. We provided a preliminary explanation of this phenomenon from the perspective of model classification boundaries and observed that this pseudo-deletion had advantages over direct deletion in the data debiasing problem. Based on the above findings, we proposed Debiasing Backdoor Attack (DBA). It achieves SOTA in the debiasing task and has a broader application scenario than undersampling.
翻訳日:2022-02-23 15:47:04 公開日:2022-02-18
# グラフ変換器のパワーを解放する

Unleashing the Power of Transformer for Graphs ( http://arxiv.org/abs/2202.10581v1 )

ライセンス: Link先を確認
Lingbing Guo, Qiang Zhang, Huajun Chen(参考訳) 最近の自然言語処理とコンピュータビジョンの成功にもかかわらず、transformerはグラフを扱う際のスケーラビリティの問題に苦しんでいる。 計算複雑性は、例えば知識グラフのような大規模グラフでは受け入れられない。 一つの解決策は、近くの隣人だけを考えることであるが、トランスフォーマーの重要な利点は、任意の距離で要素に参加することにある。 本稿では,デュアルエンコードトランス (DET) と呼ばれる新しいトランスアーキテクチャを提案する。 DETは、接続された隣人からの情報を集約する構造エンコーダと、意味的に有用な遠隔ノードにフォーカスする意味エンコーダを備えている。 マルチホップの隣人を頼りにしているのと比べ、DETは自制訓練を通じて望まれる遠い隣人を捜している。 さらに、これらの2つのエンコーダは互いに性能を高めるために組み込むことができる。 実験により, 分子, ネットワーク, 知識グラフを多種多様なサイズで扱う手法と比較して, DETは優れた性能を示した。

Despite recent successes in natural language processing and computer vision, Transformer suffers from the scalability problem when dealing with graphs. The computational complexity is unacceptable for large-scale graphs, e.g., knowledge graphs. One solution is to consider only the near neighbors, which, however, will lose the key merit of Transformer to attend to the elements at any distance. In this paper, we propose a new Transformer architecture, named dual-encoding Transformer (DET). DET has a structural encoder to aggregate information from connected neighbors and a semantic encoder to focus on semantically useful distant nodes. In comparison with resorting to multi-hop neighbors, DET seeks the desired distant neighbors via self-supervised training. We further find these two encoders can be incorporated to boost each others' performance. Our experiments demonstrate DET has achieved superior performance compared to the respective state-of-the-art methods in dealing with molecules, networks and knowledge graphs with various sizes.
翻訳日:2022-02-23 15:02:12 公開日:2022-02-18
# マルチエンティティ時系列予測における動的関係発見と利用

Dynamic Relation Discovery and Utilization in Multi-Entity Time Series Forecasting ( http://arxiv.org/abs/2202.10586v1 )

ライセンス: Link先を確認
Lin Huang, Lijun Wu, Jia Zhang, Jiang Bian, Tie-Yan Liu(参考訳) 時系列予測は様々な領域において重要な役割を果たす。 多くの現実のシナリオでは、複数の予測エンティティ(例えば、太陽系の発電所、交通システムのステーション)が存在する。 直接的な予測ソリューションは、1d-CNN、RNN、トランスフォーマーなどを通じて各エンティティの時間依存性をマイニングすることである。 このアプローチは,これらの実体間の関係を見落とし,空間的時間的関係を用いた性能向上の機会を失う。 しかし、多くの現実世界のシナリオでは、明示的な関係の他に、実体間の決定的かつ暗黙的な関係が存在する可能性がある。 実体間の有用な暗黙の関係を発見し、様々な状況下で各実体の関係を効果的に活用する方法が重要である。 本稿では,エンティティ間の暗黙的な関係を可能な限り掘り起こし,その関係を動的に活用して予測性能を向上させるために,自動グラフ学習(a2gnn)を用いた注目型多グラフニューラルネットワークを提案する。 特に、gumbel-softmaxベースのauto graph learnerは、予測エンティティ間の暗黙的な関係を自動的に捉えるように設計されている。 さらに,各エンティティが好む関係に動的に注意を払うことのできる注意関係学習者を提案する。 3つの異なるドメインの5つの実世界のデータセットで広範な実験が行われている。 その結果,a2gnnは最先端手法以上の効果を示した。

Time series forecasting plays a key role in a variety of domains. In a lot of real-world scenarios, there exist multiple forecasting entities (e.g. power station in the solar system, stations in the traffic system). A straightforward forecasting solution is to mine the temporal dependency for each individual entity through 1d-CNN, RNN, transformer, etc. This approach overlooks the relations between these entities and, in consequence, loses the opportunity to improve performance using spatial-temporal relation. However, in many real-world scenarios, beside explicit relation, there could exist crucial yet implicit relation between entities. How to discover the useful implicit relation between entities and effectively utilize the relations for each entity under various circumstances is crucial. In order to mine the implicit relation between entities as much as possible and dynamically utilize the relation to improve the forecasting performance, we propose an attentional multi-graph neural network with automatic graph learning (A2GNN) in this work. Particularly, a Gumbel-softmax based auto graph learner is designed to automatically capture the implicit relation among forecasting entities. We further propose an attentional relation learner that enables every entity to dynamically pay attention to its preferred relations. Extensive experiments are conducted on five real-world datasets from three different domains. The results demonstrate the effectiveness of A2GNN beyond several state-of-the-art methods.
翻訳日:2022-02-23 15:01:57 公開日:2022-02-18
# Alphabetのレター:自然界の特徴を発見

Letters of the Alphabet: Discovering Natural Feature Sets ( http://arxiv.org/abs/2202.10934v1 )

ライセンス: Link先を確認
Ezana N. Beyenne(参考訳) ディープラーニングネットワークは、バックプロパゲーションアルゴリズムを使用して、大規模なデータセットで複雑な特徴を見つける。 このアルゴリズムは繰り返しネットワーク接続を調整する。 入力層と出力層の間の"隠れた"ノードの振る舞いを重み付け、調査することで、ニューラルネットワークが機能表現をどのように生成するかをよりよく知ることができます。 相互に構築された実験は、レイヤー内で計算された活動の違いが学習のガイドとなることを示している。 単純なニューラルネットワークは、アルファベット文字からなるデータセットを含み、各文字は0および1sからなる81の入力ノードと、1つの隠れ層と出力層とからなる。 最初の実験では、この単純なニューラルネットワークの隠れたレイヤが入力データの特徴をどのように表現しているかを説明します。 2つ目の実験は、ニューラルネットワークをリバースエンジニアリングしてアルファベットの自然な特徴集合を見つける試みである。 ネットワークは特徴を解釈するので、与えられたデータに対する自然な特徴集合を導出する方法を理解することができる。 この理解はボルツマン機械のような深い生成モデルに深く入り込むのに不可欠である。 深層生成モデルは教師なしの深層学習アルゴリズムのクラスである。 深層生成モデルの主要な機能は、与えられたデータセットの自然な特徴集合を見つけることである。

Deep learning networks find intricate features in large datasets using the backpropagation algorithm. This algorithm repeatedly adjusts the network connections.' weights and examining the "hidden" nodes behavior between the input and output layer provides better insight into how neural networks create feature representations. Experiments built on each other show that activity differences computed within a layer can guide learning. A simple neural network is used, which includes a data set comprised of the alphabet letters, where each letter forms 81 input nodes comprised of 0 and 1s and a single hidden layer and an output layer. The first experiment explains how the hidden layers in this simple neural network represent the input data's features. The second experiment attempts to reverse-engineer the neural network to find the alphabet's natural feature sets. As the network interprets features, we can understand how it derives the natural feature sets for a given data. This understanding is essential to delve deeper into deep generative models, such as Boltzmann machines. Deep generative models are a class of unsupervised deep learning algorithms. The primary function of deep generative models is to find the natural feature sets for a given data set.
翻訳日:2022-02-23 14:59:28 公開日:2022-02-18
# EF-Train: オンライン適応やパーソナライゼーションのためのデータ再構成によるFPGA上での効率的なCNNトレーニングを可能にする

EF-Train: Enable Efficient On-device CNN Training on FPGA Through Data Reshaping for Online Adaptation or Personalization ( http://arxiv.org/abs/2202.10935v1 )

ライセンス: Link先を確認
Yue Tang, Xinyi Zhang, Peipei Zhou, Jingtong Hu(参考訳) 従来、DNNモデルはクラウドで一度トレーニングされ、リアルタイム推論のために車、ロボット、無人航空機(UAV)などのエッジデバイスにデプロイされる。 しかし、新しい環境やドメイン、あるいは新しいユーザに対応するためにモデルを必要とするケースはたくさんあります。 このようなドメイン適応やパーソナライズを実現するためには、デバイス上のモデルをデバイス上で継続的にトレーニングする必要がある。 本研究では,リソース制限された低消費電力エッジレベルFPGAのエンドツーエンドトレーニングを実現するために,チャネルレベルの並列性に基づく畳み込みカーネルを統一した,効率的なDNNトレーニングアクセラレータであるEF-Trainを設計する。 メモリアクセスパターンの異なる前向き、後向きの伝搬、および重み更新によって生じる低効率のため、リソース制限FPGAのオンデバイストレーニングを実装するのは難しい。 そこで我々は,タイル内連続メモリ割り当てと重み付け再利用によるデータ再構成手法を開発した。 エッジFPGA上での高エネルギー効率を実現するために,計算資源とメモリ資源を自動的にスケジュールする解析モデルを構築した。 その結果, スループットとエネルギー効率の両面で46.99GFLOPSと6.09GFLOPS/Wを実現した。

Conventionally, DNN models are trained once in the cloud and deployed in edge devices such as cars, robots, or unmanned aerial vehicles (UAVs) for real-time inference. However, there are many cases that require the models to adapt to new environments, domains, or new users. In order to realize such domain adaption or personalization, the models on devices need to be continuously trained on the device. In this work, we design EF-Train, an efficient DNN training accelerator with a unified channel-level parallelism-based convolution kernel that can achieve end-to-end training on resource-limited low-power edge-level FPGAs. It is challenging to implement on-device training on resource-limited FPGAs due to the low efficiency caused by different memory access patterns among forward, backward propagation, and weight update. Therefore, we developed a data reshaping approach with intra-tile continuous memory allocation and weight reuse. An analytical model is established to automatically schedule computation and memory resources to achieve high energy efficiency on edge FPGAs. The experimental results show that our design achieves 46.99 GFLOPS and 6.09GFLOPS/W in terms of throughput and energy efficiency, respectively.
翻訳日:2022-02-23 14:59:11 公開日:2022-02-18
# 視覚言語事前学習モデルの検討

A Survey of Vision-Language Pre-Trained Models ( http://arxiv.org/abs/2202.10936v1 )

ライセンス: Link先を確認
Yifan Du, Zikang Liu, Junyi Li, Wayne Xin Zhao(参考訳) Transformerが進化するにつれて、事前訓練されたモデルは近年、ブレークネックペースで進化している。 それらは自然言語処理(NLP)とコンピュータビジョン(CV)において主要な技術を支配してきた。 ビジョン・アンド・ランゲージ(V-L)学習の分野への事前学習の適応と下流タスクのパフォーマンス向上がマルチモーダル学習の焦点となる。 本稿では,VL-PTM(Vision-Langu age Pre-Trained Models)の最近の進歩を概観する。 コアコンテンツとして、事前学習前に生画像とテキストを単一のモーダル埋め込みにエンコードする方法をいくつか紹介する。 次に,テキストと画像表現の相互作用をモデル化する上で,VL-PTMの主流アーキテクチャについて検討する。 さらに,広く使用されている事前学習タスクを提示し,その後,共通するダウンストリームタスクを紹介する。 最後に本論文をまとめ,有望な研究の方向性について述べる。 本調査は,マルチモーダル研究者に関連研究の合成とポインタを提供することを目的としている。

As Transformer evolved, pre-trained models have advanced at a breakneck pace in recent years. They have dominated the mainstream techniques in natural language processing (NLP) and computer vision (CV). How to adapt pre-training to the field of Vision-and-Language (V-L) learning and improve the performance on downstream tasks becomes a focus of multimodal learning. In this paper, we review the recent progress in Vision-Language Pre-Trained Models (VL-PTMs). As the core content, we first briefly introduce several ways to encode raw images and texts to single-modal embeddings before pre-training. Then, we dive into the mainstream architectures of VL-PTMs in modeling the interaction between text and image representations. We further present widely-used pre-training tasks, after which we introduce some common downstream tasks. We finally conclude this paper and present some promising research directions. Our survey aims to provide multimodal researchers a synthesis and pointer to related research.
翻訳日:2022-02-23 14:23:08 公開日:2022-02-18
# プロトコル仕様文書からの有限状態機械抽出による攻撃自動合成

Automated Attack Synthesis by Extracting Finite State Machines from Protocol Specification Documents ( http://arxiv.org/abs/2202.09470v1 )

ライセンス: Link先を確認
Maria Leonor Pacheco, Max von Hippel, Ben Weintraub, Dan Goldwasser, Cristina Nita-Rotaru(参考訳) 攻撃者合成やモデルベースファジィングなどの自動攻撃発見技術は、ネットワークプロトコルの正常かつセキュアな動作を保証する強力な手段を提供する。 このような技術は一般に、しばしば有限状態機械(FSM)の形でプロトコルの形式的な表現を必要とする。 残念ながら、多くのプロトコルは英語の散文でのみ記述されており、単純なネットワークプロトコルをFSMとして実装しても時間がかかり、微妙な論理的誤りが生じる。 ドキュメンテーションからプロトコルFSMを自動的に抽出することは、これらの技術の利用の増加に大きく貢献し、より堅牢でセキュアなプロトコル実装をもたらす。 本研究では,プロトコルセキュリティの代表的手法として攻撃者合成,プロトコルプロス記述のための代表形式としてrfcに着目した。 ルールベースのアプローチや既製のNLPツールを直接使用する他の作業とは異なり、RFC文書からFSMを抽出するためのデータ駆動アプローチを提案する。 具体的には,(1)技術言語のための大規模単語表現学習,(2)プロトコルテキストからプロトコル非依存情報言語へのマッピングのためのフォーカスゼロショット学習,(3)プロトコル非依存情報から特定のプロトコルfsmへのルールベースマッピングの3つのステップからなるハイブリッドアプローチを用いる。 BGPv4, DCCP, LTP, PPTP, SCTP, TCPの6種類のプロトコルに対してRFCを用いてFSM抽出の一般化可能性を示す。 本稿では, TCP と DCCP をケーススタディとして, RFC からの FSM の自動抽出を攻撃の合成に適用する方法を実証する。 本手法はrfcなどのテキスト仕様を用いることで,プロトコルに対する攻撃者合成を自動化できることを示す。

Automated attack discovery techniques, such as attacker synthesis or model-based fuzzing, provide powerful ways to ensure network protocols operate correctly and securely. Such techniques, in general, require a formal representation of the protocol, often in the form of a finite state machine (FSM). Unfortunately, many protocols are only described in English prose, and implementing even a simple network protocol as an FSM is time-consuming and prone to subtle logical errors. Automatically extracting protocol FSMs from documentation can significantly contribute to increased use of these techniques and result in more robust and secure protocol implementations. In this work we focus on attacker synthesis as a representative technique for protocol security, and on RFCs as a representative format for protocol prose description. Unlike other works that rely on rule-based approaches or use off-the-shelf NLP tools directly, we suggest a data-driven approach for extracting FSMs from RFC documents. Specifically, we use a hybrid approach consisting of three key steps: (1) large-scale word-representation learning for technical language, (2) focused zero-shot learning for mapping protocol text to a protocol-independent information language, and (3) rule-based mapping from protocol-independent information to a specific protocol FSM. We show the generalizability of our FSM extraction by using the RFCs for six different protocols: BGPv4, DCCP, LTP, PPTP, SCTP and TCP. We demonstrate how automated extraction of an FSM from an RFC can be applied to the synthesis of attacks, with TCP and DCCP as case-studies. Our approach shows that it is possible to automate attacker synthesis against protocols by using textual specifications such as RFCs.
翻訳日:2022-02-23 12:51:09 公開日:2022-02-18
# Wilson 統計に基づくベイズ推定のための分子優先分布

A Molecular Prior Distribution for Bayesian Inference Based on Wilson Statistics ( http://arxiv.org/abs/2202.09388v1 )

ライセンス: Link先を確認
Marc Aur\`ele Gilles and Amit Singer(参考訳) 背景と目的 ウィルソン統計は、高頻度でタンパク質のパワースペクトルをうまく記述している。 そのため、構造生物学におけるいくつかの応用、例えば低温電子顕微鏡(cryo-EM)で用いられる鋭いステップの基礎を見出した。 最近の論文は、ウィルソンの元の議論の形式主義に基づくウィルソン統計の最初の厳密な証明を与えた。 この新しい分析は、隣接するフーリエ係数の相関を示すタンパク質の散乱ポテンシャルの統計学的推定にも繋がる。 ここでは、これらの推定を分子構造のベイズ推論に使用できる新しい前駆体を作成するために活用する。 方法: プリミティブの特性とハイパーパラメータの計算について述べる。 次に,二つの合成線形逆問題に対する事前評価を行い,snrの範囲でのcryo-em再構成における一般的な先行問題と比較した。 結果: スペクトル領域の雑音を効果的に抑制し, 低SNR領域を埋めることを示す。 さらに、幅広いSNRにおいて考慮される問題に対する推定値の分解を改善し、マスキング効果に敏感なフーリエシェル相関曲線を生成する。 結論: 本モデルにおける仮定を分析し,他の正規化戦略との関係を議論し,cryo-emの構造決定の潜在的意義を仮定する。

Background and Objective: Wilson statistics describe well the power spectrum of proteins at high frequencies. Therefore, it has found several applications in structural biology, e.g., it is the basis for sharpening steps used in cryogenic electron microscopy (cryo-EM). A recent paper gave the first rigorous proof of Wilson statistics based on a formalism of Wilson's original argument. This new analysis also leads to statistical estimates of the scattering potential of proteins that reveal a correlation between neighboring Fourier coefficients. Here we exploit these estimates to craft a novel prior that can be used for Bayesian inference of molecular structures. Methods: We describe the properties of the prior and the computation of its hyperparameters. We then evaluate the prior on two synthetic linear inverse problems, and compare against a popular prior in cryo-EM reconstruction at a range of SNRs. Results: We show that the new prior effectively suppresses noise and fills-in low SNR regions in the spectral domain. Furthermore, it improves the resolution of estimates on the problems considered for a wide range of SNR and produces Fourier Shell Correlation curves that are insensitive to masking effects. Conclusions: We analyze the assumptions in the model, discuss relations to other regularization strategies, and postulate on potential implications for structure determination in cryo-EM.
翻訳日:2022-02-23 10:32:46 公開日:2022-02-18
# fedembed:パーソナライズされた個人フェデレーション学習

FedEmbed: Personalized Private Federated Learning ( http://arxiv.org/abs/2202.09472v1 )

ライセンス: Link先を確認
Andrew Silva, Katherine Metcalf, Nicholas Apostoloff, Barry-John Theobald(参考訳) 連合学習は、集中型データ収集が現実的でない問題への機械学習の展開を可能にする。 データがグローバルモデルにコントリビュートされている間、差分プライバシーを保証する。 フェデレーション学習にパーソナライズを加えることで、個々のユーザの好みを考慮しなくてはならない新しい課題がもたらされる。データサンプルは、あるサブ集団が肯定的に入力を見ることができるが、他のサブ集団は同じ入力を否定的に見るため、ラベルに矛盾する可能性がある。 本研究では,(1)類似ユーザのサブ人口と(2)個人埋め込みを用いたグローバルモデルのパーソナライズのための,プライベートフェデレーション学習への新たなアプローチであるfeedembedを提案する。 フェデレート学習への現在のアプローチは、競合するラベルによるデータ処理には不十分であることを示すとともに、FedEmbedがパーソナライズされた個人的フェデレーション学習に対するベースラインアプローチよりも最大45%改善していることを示す。

Federated learning enables the deployment of machine learning to problems for which centralized data collection is impractical. Adding differential privacy guarantees bounds on privacy while data are contributed to a global model. Adding personalization to federated learning introduces new challenges as we must account for preferences of individual users, where a data sample could have conflicting labels because one sub-population of users might view an input positively, but other sub-populations view the same input negatively. We present FedEmbed, a new approach to private federated learning for personalizing a global model that uses (1) sub-populations of similar users, and (2) personal embeddings. We demonstrate that current approaches to federated learning are inadequate for handling data with conflicting labels, and we show that FedEmbed achieves up to 45% improvement over baseline approaches to personalized private federated learning.
翻訳日:2022-02-23 09:58:11 公開日:2022-02-18
# 精神モデルによるヒト-AI共生の景観

A Mental-Model Centric Landscape of Human-AI Symbiosis ( http://arxiv.org/abs/2202.09447v1 )

ライセンス: Link先を確認
Zahra Zahedi, Sarath Sreedharan, Subbarao Kambhampati(参考訳) 近年、人間と効果的に対話し、協力できるAIエージェントの開発への関心が高まっている。 これらの作品はそれぞれ、人間とAIの相互作用の問題に非常に中心的な問題に対処しようとするが、これらの作品の多くは、関連性や相補性を曖昧にするための筋電図の定式化に頼っている。 人間を意識したAIフレームワークは、さまざまなメンタルモデルとの関係の観点から、人間とAIのインタラクションを統一的に説明するための最近の取り組みである。 残念なことに、人間の認識するAIの現在の説明は、限られた設定に重点を置いているため、人間とAIのインタラクションの領域で行われている作業の状況を説明するには不十分である。 本稿では,6種類のモデルについて述べるghai(generalized human-aware interaction)という,かなり汎用的なaiインタラクションスキームを導入することで,この欠点を正そうとする。 本稿では,この新たなフレームワークが,人間とAIの相互作用の空間における様々な作業の捉え方と,これらの作業によって支えられる基本的な行動パターンを識別する方法について述べる。 また、この枠組みを用いて、現在の文献の潜在的なギャップを特定し、これらの欠点に対処するための今後の研究の方向性を提案する。

There has been significant recent interest in developing AI agents capable of effectively interacting and teaming with humans. While each of these works try to tackle a problem quite central to the problem of human-AI interaction, they tend to rely on myopic formulations that obscure the possible inter-relatedness and complementarity of many of these works. The human-aware AI framework was a recent effort to provide a unified account for human-AI interaction by casting them in terms of their relationship to various mental models. Unfortunately, the current accounts of human-aware AI are insufficient to explain the landscape of the work doing in the space of human-AI interaction due to their focus on limited settings. In this paper, we aim to correct this shortcoming by introducing a significantly general version of human-aware AI interaction scheme, called generalized human-aware interaction (GHAI), that talks about (mental) models of six types. Through this paper, we will see how this new framework allows us to capture the various works done in the space of human-AI interaction and identify the fundamental behavioral patterns supported by these works. We will also use this framework to identify potential gaps in the current literature and suggest future research directions to address these shortcomings.
翻訳日:2022-02-23 09:53:39 公開日:2022-02-18
# 複数局所更新を伴う非接触ADMMによる個人的フェデレーション学習

Differentially Private Federated Learning via Inexact ADMM with Multiple Local Updates ( http://arxiv.org/abs/2202.09409v1 )

ライセンス: Link先を確認
Minseok Ryu and Kibaek Kim(参考訳) 差分プライバシ(dp)技術は連合学習モデルに適用でき、学習エージェント間の通信に対する推論攻撃に対して統計的にデータプライバシを保証することができる。 しかし、強力なデータのプライバシーを確保する一方で、DP技術は学習性能の向上を妨げる。 本稿では,ラプラス分布から発生する無作為な雑音による目的的摂動により凸部分問題列を解き,複数の局所更新を含む乗算アルゴリズムの非可逆交替方向法を開発した。 我々のアルゴリズムは、反復ごとに$\bar{\epsilon}$-DPを提供しており、$\bar{\epsilon}$は、ユーザが管理するプライバシー予算である。 また,提案アルゴリズムの収束解析について述べる。 MNIST と FEMNIST のデータセットを画像分類に用い,既存の DP アルゴリズムと比較してテスト誤差を少なくとも 311 % 削減し,同じレベルのデータプライバシーを実現することを示した。 また,本アルゴリズムは既存のアルゴリズムよりも高速に収束することを示す。

Differential privacy (DP) techniques can be applied to the federated learning model to statistically guarantee data privacy against inference attacks to communication among the learning agents. While ensuring strong data privacy, however, the DP techniques hinder achieving a greater learning performance. In this paper we develop a DP inexact alternating direction method of multipliers algorithm with multiple local updates for federated learning, where a sequence of convex subproblems is solved with the objective perturbation by random noises generated from a Laplace distribution. We show that our algorithm provides $\bar{\epsilon}$-DP for every iteration, where $\bar{\epsilon}$ is a privacy budget controlled by the user. We also present convergence analyses of the proposed algorithm. Using MNIST and FEMNIST datasets for the image classification, we demonstrate that our algorithm reduces the testing error by at most $31\%$ compared with the existing DP algorithm, while achieving the same level of data privacy. The numerical experiment also shows that our algorithm converges faster than the existing algorithm.
翻訳日:2022-02-23 09:27:35 公開日:2022-02-18
# 幾何学的代数に基づく静的・時間的知識グラフ補完のための埋め込み

Geometric Algebra based Embeddings for Staticand Temporal Knowledge Graph Completion ( http://arxiv.org/abs/2202.09464v1 )

ライセンス: Link先を確認
Chengjin Xu, Mojtaba Nayyeri, Yung-Yu Chen, and Jens Lehmann(参考訳) 近年,知識グラフ埋め込み (kges) は,知識グラフ (kg) の実体と関係を幾何学空間にマッピングすることで,リンク予測タスクにおいて有望な性能を示し,注目されている。 さらに、最近の知識グラフの多くは、2009年から2017年までしか有効ではないという事実(例えば、\textit{Obama}, \textit{PresidentOf}, \textit{USA})が進化するデータを含んでいる。 このような時間的KGが時間とともに変化するため、知識表現学習の重要な課題がもたらされる。 本研究では,KGEの複素あるいは超複素空間を超えて,多ベクトル表現と幾何積を用いて実体と関係をモデル化する幾何学的代数的埋め込み手法GeomEを提案する。 GeomEはいくつかの最先端KGEモデルを仮定し、多様な関係パターンをモデル化することができる。 これに加えて、時空間KGの4次テンソル分解を行い、時間表現学習のための新しい線形時空間正規化を考案する時空間KGEのためのGeomEをTGeomEに拡張する。 さらに,時間粒度がTGeomEモデルの性能に及ぼす影響について検討した。 実験の結果,提案モデルでは,4つの静的KGデータセットと4つのよく確立された時間的KGデータセットに対して,リンク予測の最先端性能が得られた。

Recent years, Knowledge Graph Embeddings (KGEs) have shown promising performance on link prediction tasks by mapping the entities and relations from a Knowledge Graph (KG) into a geometric space and thus have gained increasing attentions. In addition, many recent Knowledge Graphs involve evolving data, e.g., the fact (\textit{Obama}, \textit{PresidentOf}, \textit{USA}) is valid only from 2009 to 2017. This introduces important challenges for knowledge representation learning since such temporal KGs change over time. In this work, we strive to move beyond the complex or hypercomplex space for KGE and propose a novel geometric algebra based embedding approach, GeomE, which uses multivector representations and the geometric product to model entities and relations. GeomE subsumes several state-of-the-art KGE models and is able to model diverse relations patterns. On top of this, we extend GeomE to TGeomE for temporal KGE, which performs 4th-order tensor factorization of a temporal KG and devises a new linear temporal regularization for time representation learning. Moreover, we study the effect of time granularity on the performance of TGeomE models. Experimental results show that our proposed models achieve the state-of-the-art performances on link prediction over four commonly-used static KG datasets and four well-established temporal KG datasets across various metrics.
翻訳日:2022-02-23 08:42:02 公開日:2022-02-18
# 点雲完了のためのスノーフレーク点デコンボリューションとスキップ変換器による生成

Snowflake Point Deconvolution for Point Cloud Completion and Generation with Skip-Transformer ( http://arxiv.org/abs/2202.09367v1 )

ライセンス: Link先を確認
Peng Xiang, Xin Wen, Yu-Shen Liu, Yan-Pei Cao, Pengfei Wan, Wen Zheng, Zhizhong Han(参考訳) 既存のポイントクラウド補完手法のほとんどは、ポイントクラウドの離散的性質と、ローカル領域におけるポイントの非構造化予測に苦しめられているため、詳細な局所幾何学的詳細を明らかにすることは困難である。 この問題を解決するために,Snowflake Point Deconvolution (SPD) を用いたSnowflakeNetを提案する。 SPDは、完全点雲の生成を雪片のような点の成長としてモデル化し、それぞれのSPD後に親点を分割することで、子点を徐々に生成する。 詳細な幾何学を明らかにする上での洞察は,ローカル領域に最適な点分割パターンを学習するために,SPDにスキップ変換器を導入することである。 スキップ変換器は注意機構を利用して、以前のSPD層で使われる分割パターンを要約し、現在のSPD層で分割を生成する。 spdによって生成された局所コンパクトで構造化された点雲は,局所パッチにおける3次元形状の構造特性を正確に明らかにした。 さらに,SPDは完成に限らず一般的な操作であるため,ポイントクラウドの自動エンコーディング,生成,単一画像再構成,アップサンプリングなど,他の生成タスクへのSPDの適用についても検討する。 実験結果は,広く使用されているベンチマークでは最先端の手法を上回っている。

Most existing point cloud completion methods suffered from discrete nature of point clouds and unstructured prediction of points in local regions, which makes it hard to reveal fine local geometric details. To resolve this issue, we propose SnowflakeNet with Snowflake Point Deconvolution (SPD) to generate the complete point clouds. SPD models the generation of complete point clouds as the snowflake-like growth of points, where the child points are progressively generated by splitting their parent points after each SPD. Our insight of revealing detailed geometry is to introduce skip-transformer in SPD to learn point splitting patterns which can fit local regions the best. Skip-transformer leverages attention mechanism to summarize the splitting patterns used in previous SPD layer to produce the splitting in current SPD layer. The locally compact and structured point clouds generated by SPD precisely reveal the structure characteristic of 3D shape in local patches, which enables us to predict highly detailed geometries. Moreover, since SPD is a general operation, which is not limited to completion, we further explore the applications of SPD on other generative tasks, including point cloud auto-encoding, generation, single image reconstruction and upsampling. Our experimental results outperform the state-of-the-art methods under widely used benchmarks.
翻訳日:2022-02-23 08:40:31 公開日:2022-02-18
# グラフ表現学習によるグラフデータのインタラクティブなビジュアルパターン検索

Interactive Visual Pattern Search on Graph Data via Graph Representation Learning ( http://arxiv.org/abs/2202.09459v1 )

ライセンス: Link先を確認
Huan Song, Zeng Dai, Panpan Xu, Liu Ren(参考訳) グラフは、プロセスや関係を幅広い領域でモデル化するためのユビキタスなデータ構造である。 例えば、プログラムの制御フローグラフやイメージのセマンティックシーングラフなどです。 グラフ内の部分グラフパターンを特定することは、その構造的性質を理解するための重要なアプローチである。 本稿では,実例に基づくサブグラフパターン検索を,多数のグラフを含むデータベース上でサポートするビジュアル分析システムgraphqを提案する。 高速でインタラクティブなクエリをサポートするために、グラフニューラルネットワーク(gnns)を使用して、グラフを固定長の潜在ベクトル表現としてエンコードし、潜在空間でサブグラフマッチングを行う。 問題の複雑さのため、可視化と解釈に不可欠なマッチング結果において、正確な1対1ノード対応を得ることは依然として困難である。 そこで我々はNeuroAlignと呼ばれるノードアライメントのための新しいGNNを提案し,クエリ結果の検証と解釈を容易にする。 GraphQは、クエリエディタを備えたビジュアルクエリインターフェースと、結果のマルチスケール可視化、および追加の制約で結果を改善するためのユーザフィードバックメカニズムを提供する。 プログラムワークフローにおける再利用可能なサブルーチンの解析と,画像における意味的シーングラフ検索である。 定量的実験により、NeuroAlignはベースラインのGNNと比較して19~29%の精度向上を実現し、組合せアルゴリズムと比較して最大100倍の高速化を実現している。 ドメインエキスパートとの質的研究は、両方の利用シナリオの有効性を確認します。

Graphs are a ubiquitous data structure to model processes and relations in a wide range of domains. Examples include control-flow graphs in programs and semantic scene graphs in images. Identifying subgraph patterns in graphs is an important approach to understanding their structural properties. We propose a visual analytics system GraphQ to support human-in-the-loop, example-based, subgraph pattern search in a database containing many individual graphs. To support fast, interactive queries, we use graph neural networks (GNNs) to encode a graph as fixed-length latent vector representation, and perform subgraph matching in the latent space. Due to the complexity of the problem, it is still difficult to obtain accurate one-to-one node correspondences in the matching results that are crucial for visualization and interpretation. We, therefore, propose a novel GNN for node-alignment called NeuroAlign, to facilitate easy validation and interpretation of the query results. GraphQ provides a visual query interface with a query editor and a multi-scale visualization of the results, as well as a user feedback mechanism for refining the results with additional constraints. We demonstrate GraphQ through two example usage scenarios: analyzing reusable subroutines in program workflows and semantic scene graph search in images. Quantitative experiments show that NeuroAlign achieves 19-29% improvement in node-alignment accuracy compared to baseline GNN and provides up to 100x speedup compared to combinatorial algorithms. Our qualitative study with domain experts confirms the effectiveness for both usage scenarios.
翻訳日:2022-02-23 08:15:21 公開日:2022-02-18
# 混合効果ニューラルode:パネルデータのダイナミクス解析のための変分近似

Mixed Effects Neural ODE: A Variational Approximation for Analyzing the Dynamics of Panel Data ( http://arxiv.org/abs/2202.09463v1 )

ライセンス: Link先を確認
Jurijs Nazarovs, Rudrasis Chakraborty, Songwong Tasneeyapant, Sathya N. Ravi, Vikas Singh(参考訳) 小児の発達と疾患のモデリングを理解するために,複数の時間点にまたがる同じ参加者の縦断的測定を含むパネルデータが一般的である。 ニューラルネットワークの予測力と微分方程式などの物理シミュレータを結合したディープハイブリッドモデルは、そのような応用の進歩を推し進めている。 観測だけでなく、測定によって捕捉される隠れたダイナミクスのモデリングのタスクは、興味深い統計・計算の疑問をもたらす。 me-node と呼ばれる確率モデルを提案し,それらのパネルデータの解析に (固定+ランダム) 混合効果を取り入れる。 本モデルは, wong-zakai の定理により与えられた sdes の滑らかな近似を用いて導出できることを示す。 次に,meノードのエビデンスに基づく下限を導出し,mcに基づくサンプリング法と数値ode解法を用いて(効率的な)学習アルゴリズムを開発した。 シミュレーションや玩具データからアルツハイマー病(ad)研究の実際の縦型3d画像データまでの範囲にまたがるタスクにおけるme-nodeの有用性を実証し,補間,不確実性推定,パーソナライズ予測のための再構成精度の観点からその性能について検討した。

Panel data involving longitudinal measurements of the same set of participants taken over multiple time points is common in studies to understand childhood development and disease modeling. Deep hybrid models that marry the predictive power of neural networks with physical simulators such as differential equations, are starting to drive advances in such applications. The task of modeling not just the observations but the hidden dynamics that are captured by the measurements poses interesting statistical/computat ional questions. We propose a probabilistic model called ME-NODE to incorporate (fixed + random) mixed effects for analyzing such panel data. We show that our model can be derived using smooth approximations of SDEs provided by the Wong-Zakai theorem. We then derive Evidence Based Lower Bounds for ME-NODE, and develop (efficient) training algorithms using MC based sampling methods and numerical ODE solvers. We demonstrate ME-NODE's utility on tasks spanning the spectrum from simulations and toy data to real longitudinal 3D imaging data from an Alzheimer's disease (AD) study, and study its performance in terms of accuracy of reconstruction for interpolation, uncertainty estimates and personalized prediction.
翻訳日:2022-02-23 07:55:54 公開日:2022-02-18
# 予測コーディング: バックプロパゲーションを越えたディープラーニングの未来へ?

Predictive Coding: Towards a Future of Deep Learning beyond Backpropagation? ( http://arxiv.org/abs/2202.09467v1 )

ライセンス: Link先を確認
Beren Millidge, Tommaso Salvatori, Yuhang Song, Rafal Bogacz, Thomas Lukasiewicz(参考訳) ディープニューラルネットワークのトレーニングに使用されるエラーアルゴリズムのバックプロパゲーションは、ディープラーニングの成功に不可欠である。 しかし、逐次的な後方更新と非局所的な計算を必要とするため、大規模で並列化が難しく、脳での学習方法と異なります。 しかし、局所学習を利用する \emph{predictive coding}のような神経科学に触発された学習アルゴリズムは、これらの制限を克服し、現在のディープラーニング技術を超えて進歩する可能性がある。 予測符号化は、大脳皮質における情報処理のモデルとして理論神経科学から生まれたが、近年の研究では、局所的な計算だけでニューラルネットワークを訓練できる汎用アルゴリズムとして開発された。 本稿では,この視点に寄与する研究を概説するとともに,予測符号化とバックプロパゲーションの密接な理論的関係を示すとともに,バックプロパゲーション学習ニューラルネットワークよりも予測符号化モデルを使用することの複数の利点を強調する。 具体的には,分類器,生成器,連想記憶として同時に機能し,任意のグラフトポロジで定義可能な,等価な深層ニューラルネットワークに対する予測符号化ネットワークの柔軟性について述べる。 最後に,機械学習分類タスクにおける予測符号化ネットワークの直接ベンチマークと,制御理論とロボット工学への応用との密接な関係について検討する。

The backpropagation of error algorithm used to train deep neural networks has been fundamental to the successes of deep learning. However, it requires sequential backward updates and non-local computations, which make it challenging to parallelize at scale and is unlike how learning works in the brain. Neuroscience-inspire d learning algorithms, however, such as \emph{predictive coding}, which utilize local learning, have the potential to overcome these limitations and advance beyond current deep learning technologies. While predictive coding originated in theoretical neuroscience as a model of information processing in the cortex, recent work has developed the idea into a general-purpose algorithm able to train neural networks using only local computations. In this survey, we review works that have contributed to this perspective and demonstrate the close theoretical connections between predictive coding and backpropagation, as well as works that highlight the multiple advantages of using predictive coding models over backpropagation-trai ned neural networks. Specifically, we show the substantially greater flexibility of predictive coding networks against equivalent deep neural networks, which can function as classifiers, generators, and associative memories simultaneously, and can be defined on arbitrary graph topologies. Finally, we review direct benchmarks of predictive coding networks on machine learning classification tasks, as well as its close connections to control theory and applications in robotics.
翻訳日:2022-02-23 07:55:33 公開日:2022-02-18
# グループシフトにロバストな表現の学習と逆例

Learning Representations Robust to Group Shifts and Adversarial Examples ( http://arxiv.org/abs/2202.09446v1 )

ライセンス: Link先を確認
Ming-Chang Chiu, Xuezhe Ma(参考訳) ディープニューラルネットワークが様々なタスクで達成した高いパフォーマンスにもかかわらず、広範囲な研究により、入力の小さな微調整がモデル予測に失敗する可能性があることが示されている。 ディープニューラルネットワークのこの問題は、敵対的トレーニングや分散的ロバスト最適化など、モデルロバスト性を改善する多くの方法を生み出した。 これら2つの方法はいずれもロバストモデルを学ぶためのものだが、本質的に異なる動機を持っている。 敵対的トレーニングは摂動に対してディープニューラルネットワークをトレーニングしようとする一方で、分散的ロバスト最適化は、最も難しい"未知の分布"におけるモデルパフォーマンスを改善することを目的としている。 本研究では,ロバスト表現学習を改善するために,逆訓練と群分散ロバスト最適化を組み合わせたアルゴリズムを提案する。 3つの画像ベンチマークデータセットの実験から,提案手法は標準指標の多くを犠牲にすることなく,ロバストな測定結果に優れた結果が得られることが示された。

Despite the high performance achieved by deep neural networks on various tasks, extensive studies have demonstrated that small tweaks in the input could fail the model predictions. This issue of deep neural networks has led to a number of methods to improve model robustness, including adversarial training and distributionally robust optimization. Though both of these two methods are geared towards learning robust models, they have essentially different motivations: adversarial training attempts to train deep neural networks against perturbations, while distributional robust optimization aims at improving model performance on the most difficult "uncertain distributions". In this work, we propose an algorithm that combines adversarial training and group distribution robust optimization to improve robust representation learning. Experiments on three image benchmark datasets illustrate that the proposed method achieves superior results on robust metrics without sacrificing much of the standard measures.
翻訳日:2022-02-22 16:29:48 公開日:2022-02-18
# AF$_2$:Aerial Imagery Segmentationのための適応フォーカスフレームワーク

AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation ( http://arxiv.org/abs/2202.10322v1 )

ライセンス: Link先を確認
Lin Huang, Qiyuan Dong, Lijun Wu, Jia Zhang, Jiang Bian, Tie-Yan Liu(参考訳) 特定のセマンティックセグメンテーションタスクとして、空中画像セグメンテーションは高空間分解能(HSR)リモートセンシング画像理解に広く用いられている。 一般的なセマンティックセグメンテーションタスクが直面する一般的な問題(例えば大規模変動)に加えて、空中画像セグメンテーションにはいくつかの固有の課題があり、中でも最も重要なものは前景と背景のアンバランスにある。 情報的マルチスケールの特徴表現を抽出し、オブジェクト境界の識別を高めるために使用できるため、高度なニューラルネットワークアーキテクチャを提案することでこの問題に対処しようとする最近の取り組みがある。 それにもかかわらず、それらの多くは単にこれらのマルチスケール表現をアドホック測度で利用するだけであるが、様々な大きさの物体の意味が様々な範囲の受容的場を通してよりよく識別できるという事実を無視している。 本稿では,階層的セグメンテーション手法を採用し,広く採用されているニューラルネットワークアーキテクチャによって生成されたマルチスケール表現を適応的に活用するadaptive focus framework (af$_2$)を提案する。 特に,適応信頼機構 (Adaptive Confidence Mechanism, ACM) と呼ばれる学習可能なモジュールを提案する。 総合的な実験によると、AF$_2$は3つの広く使われている航空ベンチマークの精度を大幅に改善した。

As a specific semantic segmentation task, aerial imagery segmentation has been widely employed in high spatial resolution (HSR) remote sensing images understanding. Besides common issues (e.g. large scale variation) faced by general semantic segmentation tasks, aerial imagery segmentation has some unique challenges, the most critical one among which lies in foreground-backgroun d imbalance. There have been some recent efforts that attempt to address this issue by proposing sophisticated neural network architectures, since they can be used to extract informative multi-scale feature representations and increase the discrimination of object boundaries. Nevertheless, many of them merely utilize those multi-scale representations in ad-hoc measures but disregard the fact that the semantic meaning of objects with various sizes could be better identified via receptive fields of diverse ranges. In this paper, we propose Adaptive Focus Framework (AF$_2$), which adopts a hierarchical segmentation procedure and focuses on adaptively utilizing multi-scale representations generated by widely adopted neural network architectures. Particularly, a learnable module, called Adaptive Confidence Mechanism (ACM), is proposed to determine which scale of representation should be used for the segmentation of different objects. Comprehensive experiments show that AF$_2$ has significantly improved the accuracy on three widely used aerial benchmarks, as fast as the mainstream method.
翻訳日:2022-02-22 15:52:57 公開日:2022-02-18
# エキスパート選択ルーティングによるエキスパートの混合

Mixture-of-Experts with Expert Choice Routing ( http://arxiv.org/abs/2202.09368v1 )

ライセンス: Link先を確認
Yanqi Zhou and Tao Lei and Hanxiao Liu and Nan Du and Yanping Huang and Vincent Zhao and Andrew Dai and Zhifeng Chen and Quoc Le and James Laudon(参考訳) わずかに活性化されたMixture-of-experts(M oE)モデルは、所定のトークンやサンプルの計算量を変更せずにパラメータの数を大幅に増加させることができる。 しかし、専門家のルーティング戦略(例えば、負荷の不均衡をもたらすもの)は、特定の専門家を過度に訓練させ、専門家が過度に専門化される。 先行作業は、異なるトークンの相対的重要性に関わらず、トップk関数を使用して、各トークンに一定の数の専門家を割り当てる。 そこで本研究では,エキスパート選択手法を用いたヘテロジニアス混合物を提案する。 トークンがトップkの専門家を選択する代わりに、トップkトークンを選択する専門家がいます。 その結果、各トークンはさまざまな専門家にルーティングされ、各専門家は固定されたバケットサイズを持つことができる。 そこで本研究では,スイッチ変圧器top-1とgshard top-2と同じ計算資源を用いて事前学習速度を体系的に検討し,学習収束時間を2倍以上改善できることを見いだした。 同じ計算コストで,提案手法はGLUEおよびSuperGLUEベンチマークで選択したタスクを微調整することで高い性能を示す。 アクティベーションコストを小さくするために、本手法は11タスクのうち7タスクでT5高密度モデルより優れている。

Sparsely-activated Mixture-of-experts (MoE) models allow the number of parameters to greatly increase while keeping the amount of computation for a given token or a given sample unchanged. However, a poor expert routing strategy (e.g. one resulting in load imbalance) can cause certain experts to be under-trained, leading to an expert being under or over-specialized. Prior work allocates a fixed number of experts to each token using a top-k function regardless of the relative importance of different tokens. To address this, we propose a heterogeneous mixture-of-experts employing an expert choice method. Instead of letting tokens select the top-k experts, we have experts selecting the top-k tokens. As a result, each token can be routed to a variable number of experts and each expert can have a fixed bucket size. We systematically study pre-training speedups using the same computational resources of the Switch Transformer top-1 and GShard top-2 gating of prior work and find that our method improves training convergence time by more than 2x. For the same computational cost, our method demonstrates higher performance in fine-tuning 11 selected tasks in the GLUE and SuperGLUE benchmarks. For a smaller activation cost, our method outperforms the T5 dense model in 7 out of the 11 tasks.
翻訳日:2022-02-22 15:52:06 公開日:2022-02-18
# グラフニューラルネットワークのためのブラックボックスノードインジェクション攻撃

Black-box Node Injection Attack for Graph Neural Networks ( http://arxiv.org/abs/2202.09389v1 )

ライセンス: Link先を確認
Mingxuan Ju, Yujie Fan, Yanfang Ye, Liang Zhao(参考訳) グラフニューラルネットワーク(GNN)は長年にわたって大きな注目を集め、製品レコメンデーションやトラフィック予測といった高度なセキュリティ標準を必要とする重要な分野に広く適用されてきた。 このようなシナリオ下では、GNNの脆弱性を悪用し、その分類性能をさらに低下させ、敵にとって高いインセンティブとなる。 以前の攻撃者は、主に既存のグラフの構造的摂動に焦点を当てていた。 彼らは有望な結果を提供するが、実際の実装にはグラフ接続を操作する能力が必要である。 本研究では,被害者のGNNモデルを回避するためにノードを注入する可能性について検討し,従来のホワイトボックス設定と異なり,アクセス可能な知識の量を著しく制限し,ブラックボックス設定を探索する。 具体的には,ノードインジェクション攻撃をマルコフ決定過程としてモデル化し,アドバンテージアクター評論家に代表されるグラフ強化学習フレームワークGA2Cを提案する。 複数の評価されたベンチマークデータセットに関する広範な実験を通じて、提案したGA2Cの既存の最先端手法よりも優れた性能を示す。 データとソースコードは、https://github.com/j umxglhf/GA2Cで公開されている。

Graph Neural Networks (GNNs) have drawn significant attentions over the years and been broadly applied to vital fields that require high security standard such as product recommendation and traffic forecasting. Under such scenarios, exploiting GNN's vulnerabilities and further downgrade its classification performance become highly incentive for adversaries. Previous attackers mainly focus on structural perturbations of existing graphs. Although they deliver promising results, the actual implementation needs capability of manipulating the graph connectivity, which is impractical in some circumstances. In this work, we study the possibility of injecting nodes to evade the victim GNN model, and unlike previous related works with white-box setting, we significantly restrict the amount of accessible knowledge and explore the black-box setting. Specifically, we model the node injection attack as a Markov decision process and propose GA2C, a graph reinforcement learning framework in the fashion of advantage actor critic, to generate realistic features for injected nodes and seamlessly merge them into the original graph following the same topology characteristics. Through our extensive experiments on multiple acknowledged benchmark datasets, we demonstrate the superior performance of our proposed GA2C over existing state-of-the-art methods. The data and source code are publicly accessible at: https://github.com/j umxglhf/GA2C.
翻訳日:2022-02-22 15:51:01 公開日:2022-02-18
# エッジインテリジェンスのための動的畳み込みニューラルネットワーク推論の実現に向けて

Towards Enabling Dynamic Convolution Neural Network Inference for Edge Intelligence ( http://arxiv.org/abs/2202.09461v1 )

ライセンス: Link先を確認
Adewale Adeyemo, Travis Sandefur, Tolulope A. Odetola, Syed Rafay Hasan(参考訳) ディープラーニングアプリケーションは、多くの現実世界のアプリケーションで大きな成功を収めています。 ディープラーニングモデル、特に畳み込みニューラルネットワーク(CNN)は、高い電力効率と再構成性を提供するため、FPGAを使用してプロトタイプ化されることが多い。 CNNのFPGAへの展開は、高レベル合成(HLS)中のオンチップメモリにおけるモデルパラメータの節約を必要とする設計サイクルに従う。 エッジインテリジェンスの最近の進歩では、スループットの向上とレイテンシの低減のために、エッジネットワークのcnn推論が必要になる。 柔軟性を得るために、異なるモバイルデバイスに対する動的パラメータ割り当ては、事前に定義されたか、オンザフライで定義されたCNNアーキテクチャを実装する必要がある。 本研究では,従来のCNNアーキテクチャを実装するために,モデルパラメータをリアルタイムに動的にストリーミングする手法を提案する。 我々はさらに,リソース制約のあるエッジデバイスに適した部分再構成手法を用いて,スケーラブルで動的に分散したcnn推論をオンザフライで設計するライブラリベースアプローチを提案する。 提案手法は Xilinx PYNQ-Z2 ボード上に実装され,LeNet-5 CNN モデルを用いてその概念を証明する。 その結果,提案手法が有効であり,分類精度は92%,86%,94%であった。

Deep learning applications have achieved great success in numerous real-world applications. Deep learning models, especially Convolution Neural Networks (CNN) are often prototyped using FPGA because it offers high power efficiency and reconfigurability. The deployment of CNNs on FPGAs follows a design cycle that requires saving of model parameters in the on-chip memory during High-level synthesis (HLS). Recent advances in edge intelligence require CNN inference on edge network to increase throughput and reduce latency. To provide flexibility, dynamic parameter allocation to different mobile devices is required to implement either a predefined or defined on-the-fly CNN architecture. In this study, we present novel methodologies for dynamically streaming the model parameters at run-time to implement a traditional CNN architecture. We further propose a library-based approach to design scalable and dynamic distributed CNN inference on the fly leveraging partial-reconfigurat ion techniques, which is particularly suitable for resource-constrained edge devices. The proposed techniques are implemented on the Xilinx PYNQ-Z2 board to prove the concept by utilizing the LeNet-5 CNN model. The results show that the proposed methodologies are effective, with classification accuracy rates of 92%, 86%, and 94% respectively
翻訳日:2022-02-22 15:50:40 公開日:2022-02-18
# (参考訳) symphony: 機械学習のためのインタラクティブインターフェースの作成 [全文訳有]

Symphony: Composing Interactive Interfaces for Machine Learning ( http://arxiv.org/abs/2202.08946v1 )

ライセンス: CC BY 4.0
Alex B\"auerle, \'Angel Alexander Cabrera, Fred Hohman, Megan Maher, David Koski, Xavier Suau, Titus Barik, Dominik Moritz(参考訳) 機械学習(ML)、モデルやデータに関する情報と視覚化のためのインターフェースは、実践者が堅牢で責任あるMLシステムを構築するのに役立つ。 これらのメリットにもかかわらず、MLチームの最近の研究と実践者へのインタビュー(n=9)は、MLインターフェースが実際に採用されることに制限があることを示しました。 既存のMLインターフェースは特定のタスクに有効だが、クロスファンクショナルチームの複数のステークホルダーによって再利用、探索、共有されるように設計されていない。 さまざまなML実践者間の分析とコミュニケーションを可能にするために,計算ノートやWebダッシュボードなどのプラットフォームで使用可能な,タスク固有のデータ駆動コンポーネントを備えたインタラクティブMLインターフェースを構築するためのフレームワークであるSymphonyを設計,実装した。 10チーム(n=31)による参加型設計セッションを通じて交響曲を開発した結果,appleにおける3つの製品mlプロジェクトへの交響曲のデプロイから得られた知見について考察した。 Symphonyは、ML実践者がモデルの重複や盲点などの既知の問題を発見しながら、他のステークホルダと洞察を共有するのに役立つ。

Interfaces for machine learning (ML), information and visualizations about models or data, can help practitioners build robust and responsible ML systems. Despite their benefits, recent studies of ML teams and our interviews with practitioners (n=9) showed that ML interfaces have limited adoption in practice. While existing ML interfaces are effective for specific tasks, they are not designed to be reused, explored, and shared by multiple stakeholders in cross-functional teams. To enable analysis and communication between different ML practitioners, we designed and implemented Symphony, a framework for composing interactive ML interfaces with task-specific, data-driven components that can be used across platforms such as computational notebooks and web dashboards. We developed Symphony through participatory design sessions with 10 teams (n=31), and discuss our findings from deploying Symphony to 3 production ML projects at Apple. Symphony helped ML practitioners discover previously unknown issues like data duplicates and blind spots in models while enabling them to share insights with other stakeholders.
翻訳日:2022-02-21 22:10:11 公開日:2022-02-18
# (参考訳) カーネル階層型エクストリーム学習マシンによるADHD患者の分類 [全文訳有]

Classification of ADHD Patients by Kernel Hierarchical Extreme Learning Machine ( http://arxiv.org/abs/2202.08953v1 )

ライセンス: CC BY 4.0
Sartaj Ahmed Salman, Zhichao Lian, Yuduo Zhang(参考訳) 近年、脳画像技術による神経精神医学疾患の診断がますます注目されている。 機能的磁気共鳴画像(fmri)データに基づく脳機能結合における相互作用の探索は、精神疾患の研究に不可欠である。 注意欠陥・高活動障害(ADHD: attention-deficit/hy peractive disorder)は, 何百万人もの子どもに影響を及ぼす慢性疾患であるため, 診断が困難であるため, 診断精度が向上する余地は多くない。 本稿では,脳機能結合のダイナミクスについて検討し,医療画像から機能的脳動力学モデルをモデル化し,正常コントロール(nc)児とadhd児の脳機能相互作用の差異を明らかにする。 より詳しくは, 動的検出のためのベイズ接続性変化点モデル, 局所特徴抽出のための局所バイナリ符号化法, およびカーネル階層的エクストリーム学習機械の実装分類を用いて検討した。 本手法の有効性を検証するため,adhd23例とnc45例のfmri画像データの比較を行い,既存の方法よりも良好な分類結果を得た。

These days, the diagnosis of neuropsychiatric diseases through brain imaging technology has received more and more attention. The exploration of interactions in brain functional connectivity based on functional magnetic resonance imaging (fMRI) data is critical for the study of mental illness. Because attention-deficit/hy peractivity disorder (ADHD) is a chronic disease that affects millions of children, it is difficult to diagnose, so there is still much space for improvement in the accuracy of the diagnosis of the disease. In this paper, we consider the dynamics of brain functional connectivity, modeling a functional brain dynamics model from medical imaging, which helps to find differences in brain function interactions between normal control (NC) children and ADHD children. In more detail, our method is used by Bayesian Connectivity Change Point Model for dynamic detection, Local Binary Encoding Method for local feature extraction, and Kernel Hierarchical Extreme Learning Machine implementation classification. To validate our approach, experimental comparisons of fMRI imaging data on 23 ADHD and 45 NC children were performed, and our experimental methods achieved better classification results than existing methods.
翻訳日:2022-02-21 21:46:40 公開日:2022-02-18
# (参考訳) 密度予測のための周波数領域と空間領域の連成学習 [全文訳有]

Joint Learning of Frequency and Spatial Domains for Dense Predictions ( http://arxiv.org/abs/2202.08991v1 )

ライセンス: CC BY 4.0
Shaocheng Jia, Wei Yao(参考訳) 現在のニューラルネットワークは、主に空間領域で学習プロセスを行うが、周波数領域学習は無視する。 しかし、周波数領域で実施した学習コースは、空間領域で実施した学習コースよりも効率的である。 本稿では,周波数領域学習を完全に検討し,周波数領域と空間領域の合同学習パラダイムを提案する。 このパラダイムは、周波数学習と空間学習の優位性をフル活用することができる。特に、周波数領域学習と空間領域学習は、それぞれ、グローバル情報とローカル情報を効果的に捉えることができる。 自己教師型深度推定とセマンティックセグメンテーションという,2つの密集予測タスクの探索実験により,提案した共同学習パラダイムが有効であることを実証した。 1)事前訓練なしでも、深さ推定と意味分節タスクの両方において最先端の手法に匹敵する性能を達成する。 2) 他の最先端手法と比較してパラメータの数を著しく減らし,現実のアプリケーションを開発する機会を増やしている。 提案手法がクロスドメイン学習のさらなる研究を促進することを期待する。

Current artificial neural networks mainly conduct the learning process in the spatial domain but neglect the frequency domain learning. However, the learning course performed in the frequency domain can be more efficient than that in the spatial domain. In this paper, we fully explore frequency domain learning and propose a joint learning paradigm of frequency and spatial domains. This paradigm can take full advantage of the preponderances of frequency learning and spatial learning; specifically, frequency and spatial domain learning can effectively capture global and local information, respectively. Exhaustive experiments on two dense prediction tasks, i.e., self-supervised depth estimation and semantic segmentation, demonstrate that the proposed joint learning paradigm can 1) achieve performance competitive to those of state-of-the-art methods in both depth estimation and semantic segmentation tasks, even without pretraining; and 2) significantly reduce the number of parameters compared to other state-of-the-art methods, which provides more chance to develop real-world applications. We hope that the proposed method can encourage more research in cross-domain learning.
翻訳日:2022-02-21 21:35:27 公開日:2022-02-18
# (参考訳) KINet:教師なしフォワードモデリングのためのキーポイントインタラクションネットワーク [全文訳有]

KINet: Keypoint Interaction Networks for Unsupervised Forward Modeling ( http://arxiv.org/abs/2202.09006v1 )

ライセンス: CC BY 4.0
Alireza Rezazadeh, Changhyun Choi(参考訳) オブジェクト中心表現は、物理的推論と前方予測に不可欠な抽象化である。 既存のほとんどのアプローチはこの表現を広範囲な監視(オブジェクトクラスやバウンディングボックスなど)を通じて学習するが、現実ではそのような地平な情報は容易にアクセスできない。 そこで我々は、キーポイント表現に基づく複雑なシステムにおけるオブジェクトインタラクションを推論するためのエンドツーエンドの非教師付きフレームワークであるkinet(keypoint interaction network)を紹介する。 視覚的観察を用いて,オブジェクトとキーポイント座標を関連付けることを学び,キーポイント埋め込みとその関係の集合としてシステムのグラフ表現を発見する。 その後、コントラスト推定を用いてアクション条件フォワードモデルを学び、将来のキーポイント状態を予測する。 キーポイント空間における物理的推論を学習することにより、我々のモデルは、異なる数のオブジェクトと新しいオブジェクトジオメトリを持つシナリオに自動的に一般化する。 実験は,下流モデルに基づく制御タスクでも使用可能な前方予測と計画可能なオブジェクト中心表現の学習を精度良く行うためのモデルの有効性を実証する。

Object-centric representation is an essential abstraction for physical reasoning and forward prediction. Most existing approaches learn this representation through extensive supervision (e.g., object class and bounding box) although such ground-truth information is not readily accessible in reality. To address this, we introduce KINet (Keypoint Interaction Network) -- an end-to-end unsupervised framework to reason about object interactions in complex systems based on a keypoint representation. Using visual observations, our model learns to associate objects with keypoint coordinates and discovers a graph representation of the system as a set of keypoint embeddings and their relations. It then learns an action-conditioned forward model using contrastive estimation to predict future keypoint states. By learning to perform physical reasoning in the keypoint space, our model automatically generalizes to scenarios with a different number of objects, and novel object geometries. Experiments demonstrate the effectiveness of our model to accurately perform forward prediction and learn plannable object-centric representations which can also be used in downstream model-based control tasks.
翻訳日:2022-02-21 21:01:37 公開日:2022-02-18
# (参考訳) 微生物バイオボリューム測定のための画像解析手法の定量的比較による包括的調査 [全文訳有]

A Comprehensive Survey with Quantitative Comparison of Image Analysis Methods for Microorganism Biovolume Measurements ( http://arxiv.org/abs/2202.09020v1 )

ライセンス: CC0 1.0
Jiawei Zhang, Chen Li, Md Mamunur Rahaman, Yudong Yao, Pingli Ma, Jinghua Zhang, Xin Zhao, Tao Jiang, Marcin Grzegorzek(参考訳) 都市化と生活水準の加速により、微生物は産業生産、バイオテクノロジー、食品安全試験においてますます重要な役割を担っている。 微生物の生物体積測定は微生物分析の重要な部分の一つである。 しかし,従来の手動測定手法は時間を要するため,その特性を正確に測定することは困難である。 デジタル画像処理技術の発展により、微生物集団の特性を検出し定量化することができる。 変化傾向は時間とともに調整でき、改善の基盤を提供する。 微生物バイオボリューム計測法の応用は1980年代から進んでいる。 本研究では,60以上の論文をレビューし,その論文をデジタル画像分割法で周期的に分類した。 本研究は, 微生物研究者がデジタル画像解析法と潜在的応用を用いて微生物の生物体積測定を包括的に理解するために, 高い研究意義と応用価値を有する。

With the acceleration of urbanization and living standards, microorganisms play increasingly important roles in industrial production, bio-technique, and food safety testing. Microorganism biovolume measurements are one of the essential parts of microbial analysis. However, traditional manual measurement methods are time-consuming and challenging to measure the characteristics precisely. With the development of digital image processing techniques, the characteristics of the microbial population can be detected and quantified. The changing trend can be adjusted in time and provided a basis for the improvement. The applications of the microorganism biovolume measurement method have developed since the 1980s. More than 60 articles are reviewed in this study, and the articles are grouped by digital image segmentation methods with periods. This study has high research significance and application value, which can be referred to microbial researchers to have a comprehensive understanding of microorganism biovolume measurements using digital image analysis methods and potential applications.
翻訳日:2022-02-21 20:50:35 公開日:2022-02-18
# (参考訳) 深層ニューラルネットワークの最小深度に対する暗黙的バイアスについての一考察 [全文訳有]

A Note on the Implicit Bias Towards Minimal Depth of Deep Neural Networks ( http://arxiv.org/abs/2202.09028v1 )

ライセンス: CC BY 4.0
Tomer Galanti(参考訳) ディープラーニングシステムは、さまざまなベンチマークで技術の現状を着実に前進させており、画像分類 \citep{taigman2014deepface, zhai2021scaling}、言語処理 \citep{devlin-etal-2019-ber t,NEURIPS 2020_1457c0d6}、オープンな環境 \citep{SilverHuangEtAl16nat ure,arulkumaran2019a lphastar}、コーディング \citep{chen2021evaluating}といったタスクで顕著なパフォーマンスを示している。 これらのシステムの成功を可能にする中心的な側面は、広い浅いものの代わりに深いモデルを訓練する能力である。 直感的には、ニューラルネットワークは生データからハイレベルでより抽象的な特徴まで階層的な表現に分解される。 深層ニューラルネットワークのトレーニングは、浅いニューラルネットワークに対して繰り返し、優れたパフォーマンスを達成する一方で、表現学習における深度の役割の理解はいまだに欠如している。 本研究では,深層学習における深層学習の役割を理解するための新しい視点を提案する。 我々は、過パラメータ化されたニューラルネットワークのSGDトレーニングは、最小有効深さの解を好む暗黙のバイアスを示すと仮定する。 すなわち、SGDは、上位数層が冗長であるニューラルネットワークを訓練する。 層の冗長性を評価するために,最近発見された神経崩壊現象を再考する。

Deep learning systems have steadily advanced the state of the art in a wide variety of benchmarks, demonstrating impressive performance in tasks ranging from image classification \citep{taigman2014deepface, zhai2021scaling}, language processing \citep{devlin-etal-2019-ber t,NEURIPS2020_1457c0 d6}, open-ended environments \citep{SilverHuangEtAl16nat ure,arulkumaran2019a lphastar}, to coding \citep{chen2021evaluating}. A central aspect that enables the success of these systems is the ability to train deep models instead of wide shallow ones \citep{7780459}. Intuitively, a neural network is decomposed into hierarchical representations from raw data to high-level, more abstract features. While training deep neural networks repetitively achieves superior performance against their shallow counterparts, an understanding of the role of depth in representation learning is still lacking. In this work, we suggest a new perspective on understanding the role of depth in deep learning. We hypothesize that {\bf\em SGD training of overparameterized neural networks exhibits an implicit bias that favors solutions of minimal effective depth}. Namely, SGD trains neural networks for which the top several layers are redundant. To evaluate the redundancy of layers, we revisit the recently discovered phenomenon of neural collapse \citep{Papyan24652,han2021n eural}.
翻訳日:2022-02-21 20:21:15 公開日:2022-02-18
# (参考訳) マルチアーマッドバンド実験における適応性とコンバウンディング

Adaptivity and Confounding in Multi-Armed Bandit Experiments ( http://arxiv.org/abs/2202.09036v1 )

ライセンス: CC BY 4.0
Chao Qin and Daniel Russo(参考訳) マルチアームバンディットアルゴリズムは最適な振る舞いに収束するために必要な実験コストを最小化する。 フィードバックが観察されるにつれて、実験の努力を粗悪な行動から素早く取り除くことで実現します。 しかし、この望ましい機能は、古典的ランダム化制御試行の基礎となる主要な関心事であるコンファウンディングに敏感である。 例えば、人気のあるバンディットアルゴリズムは、日々の効果が推論を混乱させる場合の最良の行動を特定するという問題に対処できない。 そこで本研究では,トンプソンサンプリングを簡易かつ重要な方法で適用する方法として,トンプソンサンプリング(Thompson sample)を提案する。 理論的保証は、アルゴリズムが結合に対する適応性と頑健さの微妙なバランスを取ることを示唆している。 最高の行動(最適な適応性を示す)を確実に特定するために必要なサンプル数について、漸近的に低い限界を達成できる一方で、曜日の影響や観測の遅れの存在下での強いパフォーマンス保証も満たしている。 論文の核となるのは,遅延学習と分布シフトの問題を有機的に発生させるコンテキストバンディット実験の新しいモデルである。

Multi-armed bandit algorithms minimize experimentation costs required to converge on optimal behavior. They do so by rapidly adapting experimentation effort away from poorly performing actions as feedback is observed. But this desirable feature makes them sensitive to confounding, which is the primary concern underlying classical randomized controlled trials. We highlight, for instance, that popular bandit algorithms cannot address the problem of identifying the best action when day-of-week effects may confound inferences. In response, this paper proposes deconfounded Thompson sampling, which makes simple, but critical, modifications to the way Thompson sampling is usually applied. Theoretical guarantees suggest the algorithm strikes a delicate balance between adaptivity and robustness to confounding. It attains asymptotic lower bounds on the number of samples required to confidently identify the best action -- suggesting optimal adaptivity -- but also satisfies strong performance guarantees in the presence of day-of-week effects and delayed observations -- suggesting unusual robustness. At the core of the paper is a new model of contextual bandit experiments in which issues of delayed learning and distribution shift arise organically.
翻訳日:2022-02-21 20:14:37 公開日:2022-02-18
# (参考訳) YOLOによる軽量マルチDrone検出と3Dローカライゼーション [全文訳有]

Lightweight Multi-Drone Detection and 3D-Localization via YOLO ( http://arxiv.org/abs/2202.09097v1 )

ライセンス: CC BY 4.0
Aryan Sharma, Nitik Jain, and Mangal Kothari(参考訳) 本研究では,最先端の小型YOLOv4オブジェクト検出アルゴリズムとステレオ三角測量を用いて,リアルタイムな複数ドローン検出と3次元位置決めを行う手法を提案する。 我々のコンピュータビジョンアプローチは、計算コストのかかるステレオマッチングアルゴリズムの必要性を排除し、メモリフットプリントを大幅に削減し、組み込みシステムにデプロイできるようにする。 当社のドローン検出システムは高度にモジュール化されており(さまざまな検出アルゴリズムをサポート)、システム内の複数のドローンを識別することが可能で、リアルタイム検出精度は最大77倍、平均FPSは332(Nvidia Titan Xp)である。 また、AirSim環境で完全なパイプラインをテストし、最大距離8mでドローンを検知し、平均誤差は23.%である。 また、トレーニング済みのモデルとキュレートされた合成ステレオデータセットを備えた、プロジェクトのソースコードもリリースしています。

In this work, we present and evaluate a method to perform real-time multiple drone detection and three-dimensional localization using state-of-the-art tiny-YOLOv4 object detection algorithm and stereo triangulation. Our computer vision approach eliminates the need for computationally expensive stereo matching algorithms, thereby significantly reducing the memory footprint and making it deployable on embedded systems. Our drone detection system is highly modular (with support for various detection algorithms) and capable of identifying multiple drones in a system, with real-time detection accuracy of up to 77\% with an average FPS of 332 (on Nvidia Titan Xp). We also test the complete pipeline in AirSim environment, detecting drones at a maximum distance of 8 meters, with a mean error of $23\%$ of the distance. We also release the source code for the project, with pre-trained models and the curated synthetic stereo dataset.
翻訳日:2022-02-21 20:13:24 公開日:2022-02-18
# (参考訳) 階段ネットワークを用いた簡易かつ高精度なポーズ推定 [全文訳有]

Towards Simple and Accurate Human Pose Estimation with Stair Network ( http://arxiv.org/abs/2202.09115v1 )

ライセンス: CC BY 4.0
Chenru Jiang, Kaizhu Huang, Shufei Zhang, Shufei Zhang, Jimin Xiao, Zhenxing Niu, Amir Hussain(参考訳) 本稿では,正確なキーポイント座標回帰タスクに取り組むことに焦点を当てる。 既存のアプローチの多くは、多くのパラメータを持つ複雑なネットワークを採用しており、実際のコスト効率の悪い重いモデルに繋がる。 この制限を克服するために,より正確な多段階ポーズ推定システムに簡単に積み重ねることができる,Stair Networkと呼ばれる小さな判別モデルを開発した。 特に、計算コストを削減するために、stair networkは、特徴の多様性の促進とパラメータの少ないリッチな局所表現の獲得に焦点を当てた、新しい基本的な特徴抽出ブロックで構成されており、効率と性能のバランスが良好である。 性能向上のために,機能融合と補充に着目し,計算コストを無視する2つのメカニズムを導入する。 例えば、1段階の階段網はhrnetよりも80\%のパラメータと68%のgflopsの少ないcocoテストデータセットにおいて5.5%の精度で高い精度を実現している。

In this paper, we focus on tackling the precise keypoint coordinates regression task. Most existing approaches adopt complicated networks with a large number of parameters, leading to a heavy model with poor cost-effectiveness in practice. To overcome this limitation, we develop a small yet discrimicative model called STair Network, which can be simply stacked towards an accurate multi-stage pose estimation system. Specifically, to reduce computational cost, STair Network is composed of novel basic feature extraction blocks which focus on promoting feature diversity and obtaining rich local representations with fewer parameters, enabling a satisfactory balance on efficiency and performance. To further improve the performance, we introduce two mechanisms with negligible computational cost, focusing on feature fusion and replenish. We demonstrate the effectiveness of the STair Network on two standard datasets, e.g., 1-stage STair Network achieves a higher accuracy than HRNet by 5.5% on COCO test dataset with 80\% fewer parameters and 68% fewer GFLOPs.
翻訳日:2022-02-21 20:03:45 公開日:2022-02-18
# (参考訳) Piecewise Deterministic Markov Processes を用いた高次元ポリトープ体積の効率的な計算 [全文訳有]

Efficient computation of the volume of a polytope in high-dimensions using Piecewise Deterministic Markov Processes ( http://arxiv.org/abs/2202.09129v1 )

ライセンス: CC BY 4.0
Augustin Chevallier, Fr\'ed\'eric Cazals, Paul Fearnhead(参考訳) ポリトープの体積を高次元で計算するのは計算が難しいが、幅広い応用がある。 このようなボリュームを計算する現在の最先端のアルゴリズムは、例えばハミルトニアンモンテカルロを用いて、ポリトープに制限されたガウス分布の効率的なサンプリングに依存している。 そこで我々はPiecewise Deterministic Markov Processを用いた新しいサンプリング戦略を提案する。 ハミルトニアンモンテカルロと同様に、この新手法は非可逆過程の軌道をシミュレートし、同様の良好な混合特性を継承する。 しかし、重要なことに、この過程は分割された線形軌道のためにより容易にシミュレーションすることができ、これは空間の次元の係数による計算コストの削減に繋がる。 実験の結果,本手法は数値的に頑健であり,既存の手法よりも1桁高速(あるいはそれ以上)であることがわかった。 単一のコアプロセッサ上では,数分間の計算時間を次元500まで報告する。

Computing the volume of a polytope in high dimensions is computationally challenging but has wide applications. Current state-of-the-art algorithms to compute such volumes rely on efficient sampling of a Gaussian distribution restricted to the polytope, using e.g. Hamiltonian Monte Carlo. We present a new sampling strategy that uses a Piecewise Deterministic Markov Process. Like Hamiltonian Monte Carlo, this new method involves simulating trajectories of a non-reversible process and inherits similar good mixing properties. However, importantly, the process can be simulated more easily due to its piecewise linear trajectories - and this leads to a reduction of the computational cost by a factor of the dimension of the space. Our experiments indicate that our method is numerically robust and is one order of magnitude faster (or better) than existing methods using Hamiltonian Monte Carlo. On a single core processor, we report computational time of a few minutes up to dimension 500.
翻訳日:2022-02-21 19:51:19 公開日:2022-02-18
# (参考訳) データ拡張の効果の定量化

Quantifying the Effects of Data Augmentation ( http://arxiv.org/abs/2202.09134v1 )

ライセンス: CC BY 4.0
Kevin H. Huang and Peter Orbanz and Morgane Austern(参考訳) データの増大が推定の収束率と分散に与える影響を正確に定量化する結果を提供する。 共通の直感に反して、データ拡張は、経験的予測リスクのような推定の不確実性を減らすよりもむしろ増加する可能性がある。 我々の理論ツールは、ランダム変換された高次元ランダムベクトルの関数に対する極限定理である。 この証明は、多くの変数の関数の雑音安定性の確率で研究されている。 私たちが認識している病理行動は、複雑なモデルの結果ではなく、最も単純な設定でも起こりうる。 一方,本研究では,データ拡張が実数量化可能な利点を持つことを示す。

We provide results that exactly quantify how data augmentation affects the convergence rate and variance of estimates. They lead to some unexpected findings: Contrary to common intuition, data augmentation may increase rather than decrease uncertainty of estimates, such as the empirical prediction risk. Our main theoretical tool is a limit theorem for functions of randomly transformed, high-dimensional random vectors. The proof draws on work in probability on noise stability of functions of many variables. The pathological behavior we identify is not a consequence of complex models, but can occur even in the simplest settings -- one of our examples is a linear ridge regressor with two parameters. On the other hand, our results also show that data augmentation can have real, quantifiable benefits.
翻訳日:2022-02-21 19:00:53 公開日:2022-02-18
# (参考訳) ガウス混合畳み込みネットワーク [全文訳有]

Gaussian Mixture Convolution Networks ( http://arxiv.org/abs/2202.09153v1 )

ライセンス: CC BY 4.0
Adam Celarek, Pedro Hermosilla, Bernhard Kerbl, Timo Ropinski, Michael Wimmer(参考訳) 本稿では,多次元ガウス混合系の解析的畳み込みに基づく新しい深層学習法を提案する。 テンソルとは対照的に、これらは次元の呪いに苦しめられず、詳細なデータしか保存されないため、コンパクトな表現が可能である。 畳み込み核とデータは、制約のない重み、位置、共分散行列を持つガウス混合である。 離散畳み込みネットワークと同様に、各畳み込みステップは独立したガウス混合で表されるいくつかの特徴チャネルを生成する。 ReLUのような従来の伝達関数はガウス混合を生成しないので、代わりにこれらの関数のフィッティングを使うことを提案する。 このフィッティングステップは、ガウス成分の数を適切に減らせば、プーリング層としても機能する。 このアーキテクチャに基づくネットワークは,MNIST と ModelNet のデータセットに適合したガウス混合の競合精度に達することを示す。

This paper proposes a novel method for deep learning based on the analytical convolution of multidimensional Gaussian mixtures. In contrast to tensors, these do not suffer from the curse of dimensionality and allow for a compact representation, as data is only stored where details exist. Convolution kernels and data are Gaussian mixtures with unconstrained weights, positions, and covariance matrices. Similar to discrete convolutional networks, each convolution step produces several feature channels, represented by independent Gaussian mixtures. Since traditional transfer functions like ReLUs do not produce Gaussian mixtures, we propose using a fitting of these functions instead. This fitting step also acts as a pooling layer if the number of Gaussian components is reduced appropriately. We demonstrate that networks based on this architecture reach competitive accuracy on Gaussian mixtures fitted to the MNIST and ModelNet data sets.
翻訳日:2022-02-21 18:59:47 公開日:2022-02-18
# (参考訳) ラプラシアン固有写像による複数トラクター系の線形化と同定

Linearization and Identification of Multiple-Attractors Dynamical System through Laplacian Eigenmaps ( http://arxiv.org/abs/2202.09171v1 )

ライセンス: CC BY 4.0
Bernardo Fichera and Aude Billard(参考訳) 力学系(ds)は時間発展現象のモデリングと理解を基本とし、物理学、生物学、制御における応用を見出す。 力学の解析的な記述を決定することはしばしば難しいため、複数の平衡点を持つ非線形dsの同定と制御にはデータ駆動アプローチが好まれる。 このようなDSの同定は、主に教師付き学習問題として扱われてきた。 代わりに、数もダイナミクスのタイプも知らない教師なしの学習シナリオにフォーカスします。 本稿では, 時間的自然進化を保ちながら, 同じダイナミクスに属するデータポイントを接続するために, 速度拡張カーネルを利用するグラフベースのスペクトルクラスタリング手法を提案する。 グラフラプラシアンの固有ベクトルと固有値を研究し、それらが各部分力学に対して直交埋め込み空間の集合を形成することを示す。 部分力学が線型であり、n-次元埋め込みが準線型であるような2次元埋め込み空間が常に存在することを証明する。 アルゴリズムのクラスタリング性能をカーネルk平均、スペクトルクラスタリング、ガウス混合と比較し、それらのアルゴリズムが真のサブダイナミクス数で提供されたとしても、正しくクラスタ化できないことを示した。 我々は、ラプラシアン埋め込み空間から元の空間への微分同相性を学び、ラプラシアン埋め込みは、アート微分同相に基づくアプローチの状況と比較して、指数関数的減衰損失を通じて、良好な再構成精度とより高速な訓練時間をもたらすことを示す。

Dynamical Systems (DS) are fundamental to the modeling and understanding of time evolving phenomena, and find application in physics, biology and control. As determining an analytical description of the dynamics is often difficult, data-driven approaches are preferred for identifying and controlling nonlinear DS with multiple equilibrium points. Identification of such DS has been treated largely as a supervised learning problem. Instead, we focus on a unsupervised learning scenario where we know neither the number nor the type of dynamics. We propose a Graph-based spectral clustering method that takes advantage of a velocity-augmented kernel to connect data-points belonging to the same dynamics, while preserving the natural temporal evolution. We study the eigenvectors and eigenvalues of the Graph Laplacian and show that they form a set of orthogonal embedding spaces, one for each sub-dynamics. We prove that there always exist a set of 2-dimensional embedding spaces in which the sub-dynamics are linear, and n-dimensional embedding where they are quasi-linear. We compare the clustering performance of our algorithm to Kernel K-Means, Spectral Clustering and Gaussian Mixtures and show that, even when these algorithms are provided with the true number of sub-dynamics, they fail to cluster them correctly. We learn a diffeomorphism from the Laplacian embedding space to the original space and show that the Laplacian embedding leads to good reconstruction accuracy and a faster training time through an exponential decaying loss, compared to the state of the art diffeomorphism-based approaches.
翻訳日:2022-02-21 18:38:25 公開日:2022-02-18
# (参考訳) 高次元画像の次元化へのテクスチャ情報の導入 [全文訳有]

Incorporating Texture Information into Dimensionality Reduction for High-Dimensional Images ( http://arxiv.org/abs/2202.09179v1 )

ライセンス: CC BY-SA 4.0
Alexander Vieth, Anna Vilanova, Boudewijn Lelieveldt, Elmar Eisemann, Thomas H\"ollt(参考訳) 天文学や文化遺産からシステム生物学まで、様々な分野で高次元イメージングが益々重要になっている。 このような高次元データの視覚的探索は、一般的に次元の縮小によって促進される。 しかし, 局所的なテクスチャ特徴などの画像に存在する空間情報を低次元埋め込みの構成に含まない。 その結果、そのようなデータの探索は通常、属性空間にフォーカスするステップに分割され、続いて空間情報にフォーカスするステップに分割される。 本稿では, t-Distributed Stochastic Neighbor Embedding (t-SNE) などの距離に基づく次元削減手法に空間近傍情報を組み込む手法を提案する。 これを実現するために,各画素に関連付けられた高次元属性ベクトル間の距離測定を,画素の空間近傍を考慮に入れた。 画像パッチを比較するための異なる方法の分類に基づいて,様々なアプローチを検討した。 これらのアプローチを理論的および実験的観点から比較する。 最後に,合成データの質的・定量的評価と実世界の2つのユースケースを用いて,提案手法の価値を示す。

High-dimensional imaging is becoming increasingly relevant in many fields from astronomy and cultural heritage to systems biology. Visual exploration of such high-dimensional data is commonly facilitated by dimensionality reduction. However, common dimensionality reduction methods do not include spatial information present in images, such as local texture features, into the construction of low-dimensional embeddings. Consequently, exploration of such data is typically split into a step focusing on the attribute space followed by a step focusing on spatial information, or vice versa. In this paper, we present a method for incorporating spatial neighborhood information into distance-based dimensionality reduction methods, such as t-Distributed Stochastic Neighbor Embedding (t-SNE). We achieve this by modifying the distance measure between high-dimensional attribute vectors associated with each pixel such that it takes the pixel's spatial neighborhood into account. Based on a classification of different methods for comparing image patches, we explore a number of different approaches. We compare these approaches from a theoretical and experimental point of view. Finally, we illustrate the value of the proposed methods by qualitative and quantitative evaluation on synthetic data and two real-world use cases.
翻訳日:2022-02-21 18:36:56 公開日:2022-02-18
# (参考訳) 境界検定:高次元データセットのための正規化フロー [全文訳有]

Testing the boundaries: Normalizing Flows for higher dimensional data sets ( http://arxiv.org/abs/2202.09188v1 )

ライセンス: CC BY 4.0
Humberto Reyes-Gonzalez, Riccardo Torre(参考訳) 正規化フロー(NF)は、効率的なサンプリングを可能にするだけでなく、構築によって密度推定を行うことができるため、生成モデルの強力なクラスとして現れている。 それらは、複雑な高次元データと確率分布が日常の食事である高エネルギー物理学(hep)において大きな可能性を秘めている。 しかし、NFのポテンシャルを完全に活用するためには、データ次元が増加するにつれて、その堅牢性を探究することが重要である。 そこで本論文では, 市販のNFにおいて, 寸法が増大する玩具データを用いて, 市販のNFの性能について論じる。

Normalizing Flows (NFs) are emerging as a powerful class of generative models, as they not only allow for efficient sampling, but also deliver, by construction, density estimation. They are of great potential usage in High Energy Physics (HEP), where complex high dimensional data and probability distributions are everyday's meal. However, in order to fully leverage the potential of NFs it is crucial to explore their robustness as data dimensionality increases. Thus, in this contribution, we discuss the performances of some of the most popular types of NFs on the market, on some toy data sets with increasing number of dimensions.
翻訳日:2022-02-21 18:08:49 公開日:2022-02-18
# (参考訳) マルチモーダル深層学習における手法と応用 [全文訳有]

A Review on Methods and Applications in Multimodal Deep Learning ( http://arxiv.org/abs/2202.09195v1 )

ライセンス: CC BY 4.0
Jabeen Summaira, Xi Li, Amin Muhammad Shoib, Jabbar Abdul(参考訳) Deep Learningは幅広いアプリケーションを実装しており、近年はますます人気が高まっている。 マルチモーダル深層学習(MMDL)の目的は、様々なモーダルを用いて情報を処理・リンクできるモデルを作成することである。 一助学習のための広範な発展にもかかわらず、人間の学習のあらゆる側面をカバーすることはできない。 マルチモーダル学習は、様々な感覚が情報の処理に関わったときに、理解し、よりよく分析するのに役立つ。 本稿では,画像,ビデオ,テキスト,音声,身体ジェスチャー,表情,生理的信号など,多種類のモダリティに焦点を当てる。 マルチモーダルディープラーニングアプリケーションにおけるベースラインアプローチの詳細な分析と過去5年間(2017年-2021年)の最近の進歩に関する詳細な研究が提供されている。 様々なマルチモーダル深層学習手法のきめ細かい分類法を提案し,様々な応用をより深く研究した。 最後に、主要な課題は各ドメインについて個別に強調され、将来的な研究の方向性が示される。

Deep Learning has implemented a wide range of applications and has become increasingly popular in recent years. The goal of multimodal deep learning (MMDL) is to create models that can process and link information using various modalities. Despite the extensive development made for unimodal learning, it still cannot cover all the aspects of human learning. Multimodal learning helps to understand and analyze better when various senses are engaged in the processing of information. This paper focuses on multiple types of modalities, i.e., image, video, text, audio, body gestures, facial expressions, and physiological signals. Detailed analysis of the baseline approaches and an in-depth study of recent advancements during the last five years (2017 to 2021) in multimodal deep learning applications has been provided. A fine-grained taxonomy of various multimodal deep learning methods is proposed, elaborating on different applications in more depth. Lastly, main issues are highlighted separately for each domain, along with their possible future research directions.
翻訳日:2022-02-21 18:01:58 公開日:2022-02-18
# (参考訳) オートマンジを用いた非決定論的推論のための表的特徴の確率的摂動

Stochastic Perturbations of Tabular Features for Non-Deterministic Inference with Automunge ( http://arxiv.org/abs/2202.09248v1 )

ライセンス: CC BY 4.0
Nicholas J. Teague(参考訳) ガウス雑音を訓練特徴に注入することは正規化特性を持つことが知られている。 本論文は,非決定論的結果に推論を変換し,公平性,対人的事例保護,あるいは非決定主義の恩恵を受ける他のユースケースとの関連性を有する,数値的あるいはカテゴリー的な表型特徴へのノイズ注入について考察する。 ランダムサンプリングやエントロピーシードを量子回路に組み込むことで、擬似乱数生成器と比較してランダム性プロファイルが向上するオプションを含む、練習用リソースとして表計算前処理のためのAutomungeライブラリを提供する。 ベンチマークでは、既知のノイズプロファイルがトレーニングと推論の両方に対応する注入によって緩和された場合、ニューラルネットワークのパフォーマンスが向上する可能性があることが示されている。

Injecting gaussian noise into training features is well known to have regularization properties. This paper considers noise injections to numeric or categoric tabular features as passed to inference, which translates inference to a non-deterministic outcome and may have relevance to fairness considerations, adversarial example protection, or other use cases benefiting from non-determinism. We offer the Automunge library for tabular preprocessing as a resource for the practice, which includes options to integrate random sampling or entropy seeding with the support of quantum circuits for an improved randomness profile in comparison to pseudo random number generators. Benchmarking shows that neural networks may demonstrate an improved performance when a known noise profile is mitigated with corresponding injections to both training and inference, and that gradient boosting appears to be robust to a mild noise profile in inference, suggesting that stochastic perturbations could be integrated into existing data pipelines for prior trained gradient boosting models.
翻訳日:2022-02-21 17:14:09 公開日:2022-02-18
# (参考訳) 異方性MRIのSmooth Interpolationにおける低分解能MRIの自動符号化 [全文訳有]

Autoencoding Low-Resolution MRI for Semantically Smooth Interpolation of Anisotropic MRI ( http://arxiv.org/abs/2202.09258v1 )

ライセンス: CC BY 4.0
J\"org Sander, Bob D. de Vos and Ivana I\v{s}gum(参考訳) 高解像度の医療画像は分析に有用であるが、その取得が常に可能であるとは限らない。 あるいは、従来のアップサンプリング法を用いて、低解像度の取得から高分解能の画像を作成することができるが、そのような手法では画像に含まれる高レベルな文脈情報を活用できない。 近年,ディープラーニングに基づく超解像手法が提案されている。 しかし、これらの手法は教師付きの性格、すなわち訓練のために高分解能の例を必要とする。 代わりに、符号化された低解像度例から新しい中間スライスを合成する教師なしのディープラーニングセマンティック補間手法を提案する。 平面方向における意味的に滑らかな補間を実現するために、オートエンコーダによって生成される潜在空間を利用する。 新たな中間スライスを生成するために、2つの空間隣接スライスの潜時空間符号化を凸結合を用いて組み合わせる。 その後、複合符号化を中間スライスに復号する。 モデルを制約するために、あるデータセットに対して意味的類似性の概念を定義する。 このため、同じボリュームのスライス間の空間的関係を利用する新たな損失が導入された。 トレーニング中、隣接するスライス符号化の凸結合を用いて、既存の中間スライスを生成する。 本法は, 人工心臓, 新生児脳, 成人脳MRIを用いて訓練し, 評価した。 いずれの評価においても、新しい手法は立方体b-スプライン補間法よりも、構造的類似度指標とピーク信号対雑音比(p<0.0001)の点で有意に良い結果が得られる。 この方法の教師なしの性質から,高分解能なトレーニングデータを必要としないため,臨床現場でも容易に適用できる。

High-resolution medical images are beneficial for analysis but their acquisition may not always be feasible. Alternatively, high-resolution images can be created from low-resolution acquisitions using conventional upsampling methods, but such methods cannot exploit high-level contextual information contained in the images. Recently, better performing deep-learning based super-resolution methods have been introduced. However, these methods are limited by their supervised character, i.e. they require high-resolution examples for training. Instead, we propose an unsupervised deep learning semantic interpolation approach that synthesizes new intermediate slices from encoded low-resolution examples. To achieve semantically smooth interpolation in through-plane direction, the method exploits the latent space generated by autoencoders. To generate new intermediate slices, latent space encodings of two spatially adjacent slices are combined using their convex combination. Subsequently, the combined encoding is decoded to an intermediate slice. To constrain the model, a notion of semantic similarity is defined for a given dataset. For this, a new loss is introduced that exploits the spatial relationship between slices of the same volume. During training, an existing in-between slice is generated using a convex combination of its neighboring slice encodings. The method was trained and evaluated using publicly available cardiac cine, neonatal brain and adult brain MRI scans. In all evaluations, the new method produces significantly better results in terms of Structural Similarity Index Measure and Peak Signal-to-Noise Ratio (p< 0.001 using one-sided Wilcoxon signed-rank test) than a cubic B-spline interpolation approach. Given the unsupervised nature of the method, high-resolution training data is not required and hence, the method can be readily applied in clinical settings.
翻訳日:2022-02-21 17:13:04 公開日:2022-02-18
# (参考訳) マルチモーダル感情認識における自己認識はクロスアテンションが望ましいか? [全文訳有]

Is Cross-Attention Preferable to Self-Attention for Multi-Modal Emotion Recognition? ( http://arxiv.org/abs/2202.09263v1 )

ライセンス: CC BY 4.0
Vandana Rajan, Alessio Brutti, Andrea Cavallaro(参考訳) 人間は表情、音声イントネーション、単語の選択を通じて感情を表現する。 基礎となる感情の性質を推測するために、認識モデルは視覚、音声、テキスト、あるいはモダリティの組み合わせのような単一のモダリティを使用することができる。 一般に、複数のモダリティから相補的な情報を融合するモデルは、ユニモーダルよりも優れている。 しかし、モダリティを融合させる成功モデルは、各モダリティからタスク関連情報を効果的に集約できるコンポーネントを必要とする。 クロスモーダル・アテンションはマルチモーダル融合の有効なメカニズムと見なされているため,本稿では,そのようなメカニズムが持つ利得を,対応する自己着脱機構と比較して定量化する。 この目的のために,クロスアテンションモデルと自己アテンションモデルを実装し,比較する。 注目に加えて、各モデルは局所的な特徴抽出に畳み込み層を使用し、グローバルなシーケンシャルなモデリングに繰り返しレイヤを使用する。 IEMOCAPデータセットを用いた7クラス感情分類タスクにおいて,異なるモードの組み合わせを用いたモデルの比較を行った。 実験の結果, いずれのモデルも, 重み付けと重み付けの精度が向上したが, その性能は概ね統計的に比較できることがわかった。 実験を再現するコードはhttps://github.com/s martcameras/selfcros sattnで入手できる。

Humans express their emotions via facial expressions, voice intonation and word choices. To infer the nature of the underlying emotion, recognition models may use a single modality, such as vision, audio, and text, or a combination of modalities. Generally, models that fuse complementary information from multiple modalities outperform their uni-modal counterparts. However, a successful model that fuses modalities requires components that can effectively aggregate task-relevant information from each modality. As cross-modal attention is seen as an effective mechanism for multi-modal fusion, in this paper we quantify the gain that such a mechanism brings compared to the corresponding self-attention mechanism. To this end, we implement and compare a cross-attention and a self-attention model. In addition to attention, each model uses convolutional layers for local feature extraction and recurrent layers for global sequential modelling. We compare the models using different modality combinations for a 7-class emotion classification task using the IEMOCAP dataset. Experimental results indicate that albeit both models improve upon the state-of-the-art in terms of weighted and unweighted accuracy for tri- and bi-modal configurations, their performance is generally statistically comparable. The code to replicate the experiments is available at https://github.com/s martcameras/SelfCros sAttn
翻訳日:2022-02-21 16:39:50 公開日:2022-02-18
# (参考訳) ディープニューラルネットワークの性能評価のためのparetoフロンティア再考 [全文訳有]

Rethinking Pareto Frontier for Performance Evaluation of Deep Neural Networks ( http://arxiv.org/abs/2202.09275v1 )

ライセンス: CC BY 4.0
Vahid Partovi Nia, Alireza Ghaffari, Mahdi Zolnouri and Yvon Savaria(参考訳) 最近のディープラーニングの取り組みは、低リソースとエッジデバイス向けのディープラーニングモデルの再設計において、かなりの進歩を示している。 ディープラーニングモデルのパフォーマンス最適化は、手動または自動アーキテクチャ検索または両方の組み合わせによって行われる。 ディープラーニングモデルのスループットと消費電力は、ターゲットハードウェアに強く依存する。 本稿では,電力消費,レイテンシ,正確性といった他の変数が支配的モデルを定義する上で相対的な役割を果たす多目的最適化を用いて効率尺度を再定義する手法を提案する。 さらに,多次元パレートフロンティアのランダムバージョンを導入し,異なる実験環境におけるディープラーニングモデルの精度,レイテンシ,スループット変動の不確実性を軽減する。 これら2つのブレークスルーは、幅広いディープラーニングモデルに対する客観的なベンチマーク手法を提供する。 我々は,新しい多次元確率的相対効率を,画像ネットデータを訓練した深部画像分類モデル上で実行した。 この新しいアプローチのおかげで、競合変数と確率的性質を同時に1つの相対効率尺度に組み合わせます。 これにより、異なるコンピューティングハードウェア上で効率的に動作するディープモデルをランク付けし、推論効率とトレーニング効率を客観的に組み合わせることができる。

Recent efforts in deep learning show a considerable advancement in redesigning deep learning models for low-resource and edge devices. The performance optimization of deep learning models are conducted either manually or through automatic architecture search, or a combination of both. The throughput and power consumption of deep learning models strongly depend on the target hardware. We propose to use a \emph{multi-dimensional} Pareto frontier to re-define the efficiency measure using a multi-objective optimization, where other variables such as power consumption, latency, and accuracy play a relative role in defining a dominant model. Furthermore, a random version of the multi-dimensional Pareto frontier is introduced to mitigate the uncertainty of accuracy, latency, and throughput variations of deep learning models in different experimental setups. These two breakthroughs provide an objective benchmarking method for a wide range of deep learning models. We run our novel multi-dimensional stochastic relative efficiency on a wide range of deep image classification models trained ImageNet data. Thank to this new approach we combine competing variables with stochastic nature simultaneously in a single relative efficiency measure. This allows to rank deep models that run efficiently on different computing hardware, and combines inference efficiency with training efficiency objectively.
翻訳日:2022-02-21 16:28:44 公開日:2022-02-18
# (参考訳) 過パラメータ化による幾何学的正則化 [全文訳有]

Geometric Regularization from Overparameterization explains Double Descent and other findings ( http://arxiv.org/abs/2202.09276v1 )

ライセンス: CC BY 4.0
Nicholas J. Teague(参考訳) 損失値に関連する可能な重量構成の分布の体積は、超球によって示される幾何学的図形の次元が増大する収縮体積現象による過剰パラメータ化から暗黙の正規化の元となるかもしれない。 本稿では,幾何正規化について述べるとともに,二重降下,広大ネットワークと深層ネットワークの差異,he初期化と近接の利点,グラデーションの混乱,適合性ランドスケープ特性,その他の学習パラダイムにおける二重降下,および過パラメータ学習に関する他の知見など,説明できない現象の潜在的適用可能性について検討する。 実験は, ランダムサンプリング初期化に対応する損失値のヒストグラムを小さな設定で集約し, 幅, 深さ, 初期化分布の偏差からゼロあるいは中央モード支配の方向相関を求める。 2重降下は、トレーニングパスが十分低い損失に達すると正規化位相変化により起こり、ポテンシャル重みセットの縮小範囲からの損失多様体体積収縮が過パラメータ化幾何によって増幅される。

The volume of the distribution of possible weight configurations associated with a loss value may be the source of implicit regularization from overparameterization due to the phenomenon of contracting volume with increasing dimensions for geometric figures demonstrated by hyperspheres. This paper introduces geometric regularization and explores potential applicability to several unexplained phenomenon including double descent, the differences between wide and deep networks, the benefits of He initialization and retained proximity in training, gradient confusion, fitness landscape properties, double descent in other learning paradigms, and other findings for overparameterized learning. Experiments are conducted by aggregating histograms of loss values corresponding to randomly sampled initializations in small setups, which find directional correlations in zero or central mode dominance from deviations in width, depth, and initialization distributions. Double descent is likely due to a regularization phase change when a training path reaches low enough loss that the loss manifold volume contraction from a reduced range of potential weight sets is amplified by an overparameterized geometry.
翻訳日:2022-02-21 16:20:40 公開日:2022-02-18
# (参考訳) finnet:有限差分ニューラルネットワークによる時間独立微分方程式の解法 [全文訳有]

FinNet: Solving Time-Independent Differential Equations with Finite Difference Neural Network ( http://arxiv.org/abs/2202.09282v1 )

ライセンス: CC BY-SA 4.0
Son N. T. Tu, Thu Nguyen(参考訳) 近年、偏微分方程式に対する深層学習のアプローチは、メッシュ自由性やその他の望ましい性質のために多くの注目を集めている。 しかし、これまでの研究のほとんどは時間依存の非線形微分方程式に集中している。 本研究では、時間に依存しない微分方程式に対するよく知られた物理情報ニューラルネットワークによる潜在的な問題を分析する。 この解析は,有限差分を深層学習に組み込むことで微分方程式を解くための新しい手法であるfinnetを導入する動機付けとなる。 トレーニングフェーズではメッシュを使っていますが、予測フェーズはメッシュフリーです。 様々な方程式の解法について実験を行い,提案手法の有効性を示す。

In recent years, deep learning approaches for partial differential equations have received much attention due to their mesh-freeness and other desirable properties. However, most of the works so far concentrated on time-dependent nonlinear differential equations. In this work, we analyze potential issues with the well-known Physic Informed Neural Network for differential equations that are not time-dependent. This analysis motivates us to introduce a novel technique, namely FinNet, for solving differential equations by incorporating finite difference into deep learning. Even though we use a mesh during the training phase, the prediction phase is mesh-free. We illustrate the effectiveness of our method through experiments on solving various equations.
翻訳日:2022-02-21 15:59:00 公開日:2022-02-18
# (参考訳) アメナブルスパースネットワーク調査装置

Amenable Sparse Network Investigator ( http://arxiv.org/abs/2202.09284v1 )

ライセンス: CC BY 4.0
Saeed Damadi, Erfan Nouri, and Hamed Pirsiavash(参考訳) ニューラルネットワークのプルーニングの最適化問題は非凸であり、戦略は局所解を見つけることのみを保証するため、優れた初期化が最重要となる。 この目的のために,初期化を圧縮したスパースネットワークを学習するAmenable Sparse Network Investigator ASNIアルゴリズムを提案する。 ASNIによって発見された学習されたスパース構造は、ASNIによってもたらされる対応する初期化は、L が層数であるような 2L 個の数のみからなるため、実現可能である。 学習したスパースネットワークのパラメータ初期化のために数個の数を必要とするため、スパースネットワークは実現可能である。 学習された初期化集合は、各層のパラメータ値のセントロイドとして機能するL符号ペアからなる。 これらのセントロイドは、1回のトレーニングでasniアルゴリズムによって学習される。 実験により,学習したセントロイドは,学習したスパース構造の非ゼロパラメータを初期化し,非スパースネットワークの精度をほぼ確保できることを示した。 また,センタロイドを学習するためには,ネットワークをグローバルかつ段階的に活用する必要があることを実証的に示す。 そこで我々は,パラメータプルーニングのために,ネットワーク全体のスパーシティ率を指定するsgmoid関数に基づく新しい戦略を提案する。 そして、訓練の各々のエポック後、等級的にプルーニングを行う。 我々は、ImageNet、CIFAR10、MNISTデータセット上で、ResNets、VGGスタイル、小さな畳み込み、完全に接続されたネットワークなどのネットワークを利用した一連の実験を行った。

As the optimization problem of pruning a neural network is nonconvex and the strategies are only guaranteed to find local solutions, a good initialization becomes paramount. To this end, we present the Amenable Sparse Network Investigator ASNI algorithm that learns a sparse network whose initialization is compressed. The learned sparse structure found by ASNI is amenable since its corresponding initialization, which is also learned by ASNI, consists of only 2L numbers, where L is the number of layers. Requiring just a few numbers for parameter initialization of the learned sparse network makes the sparse network amenable. The learned initialization set consists of L signed pairs that act as the centroids of parameter values of each layer. These centroids are learned by the ASNI algorithm after only one single round of training. We experimentally show that the learned centroids are sufficient to initialize the nonzero parameters of the learned sparse structure in order to achieve approximately the accuracy of non-sparse network. We also empirically show that in order to learn the centroids, one needs to prune the network globally and gradually. Hence, for parameter pruning we propose a novel strategy based on a sigmoid function that specifies the sparsity percentage across the network globally. Then, pruning is done magnitude-wise and after each epoch of training. We have performed a series of experiments utilizing networks such as ResNets, VGG-style, small convolutional, and fully connected ones on ImageNet, CIFAR10, and MNIST datasets.
翻訳日:2022-02-21 15:47:27 公開日:2022-02-18
# (参考訳) littleMAN: ウェアラブルIoTデバイスのための強化学習を用いた軽量エネルギーマネージャ [全文訳有]

tinyMAN: Lightweight Energy Manager using Reinforcement Learning for Energy Harvesting Wearable IoT Devices ( http://arxiv.org/abs/2202.09297v1 )

ライセンス: CC BY-SA 4.0
Toygun Basaklar, Yigit Tuncel, and Umit Y. Ogras(参考訳) 低消費電力エレクトロニクスと機械学習技術の進歩は、多くの新しいウェアラブルIoTデバイスにつながる。 これらのデバイスはバッテリー容量と計算能力に制限がある。 したがって、環境源からのエネルギー回収は、これらの低エネルギーのウェアラブルデバイスを動かすための有望な解決策である。 エネルギー中立運転を達成するためには、収穫したエネルギーを最適に管理する必要がある。 最適エネルギー管理は、収穫エネルギーの動的性質と目標装置の電池エネルギーの制約のために難しい課題である。 この課題に対処するために、リソース制約のあるウェアラブルIoTデバイスに対して、強化学習に基づくエネルギー管理フレームワークである littleMAN を提案する。 このフレームワークは、動的エネルギー収穫パターンとバッテリ制約の下でターゲットデバイスの利用を最大化する。 さらに、tinymanは収穫エネルギーの予測に依存しておらず、予測なしのアプローチとなっている。 私たちは、100KB未満のメモリフットプリントのおかげで、TensorFlow Lite for Microを使用したウェアラブルデバイスのプロトタイプに小さなMANをデプロイしました。 評価の結果,SmallMANは2.36ms未満で27.75$\mu$Jを達成できる一方で,従来のアプローチに比べて最大45%高い実用性を維持していることがわかった。

Advances in low-power electronics and machine learning techniques lead to many novel wearable IoT devices. These devices have limited battery capacity and computational power. Thus, energy harvesting from ambient sources is a promising solution to power these low-energy wearable devices. They need to manage the harvested energy optimally to achieve energy-neutral operation, which eliminates recharging requirements. Optimal energy management is a challenging task due to the dynamic nature of the harvested energy and the battery energy constraints of the target device. To address this challenge, we present a reinforcement learning-based energy management framework, tinyMAN, for resource-constrained wearable IoT devices. The framework maximizes the utilization of the target device under dynamic energy harvesting patterns and battery constraints. Moreover, tinyMAN does not rely on forecasts of the harvested energy which makes it a prediction-free approach. We deployed tinyMAN on a wearable device prototype using TensorFlow Lite for Micro thanks to its small memory footprint of less than 100 KB. Our evaluations show that tinyMAN achieves less than 2.36 ms and 27.75 $\mu$J while maintaining up to 45% higher utility compared to prior approaches.
翻訳日:2022-02-21 15:45:33 公開日:2022-02-18
# (参考訳) Masked Proximal Operator を用いた信号分解

Signal Decomposition Using Masked Proximal Operators ( http://arxiv.org/abs/2202.09338v1 )

ライセンス: CC BY-SA 4.0
Bennet E. Meyers and Stephen P. Boyd(参考訳) 本稿では,ベクトル時系列信号をスムーズ,周期的,非負,スパースといった異なる特徴を持つ成分に分解する問題について考察する。 本稿では,コンポーネントが損失関数(制約を含む)によって定義される簡易で汎用的なフレームワークを提案し,コンポーネントの損失の総和を最小化して信号分解を行う(制約を対象とする)。 各損失関数が信号成分の密度の負の対数類似度である場合、本手法は最大後続確率(MAP)推定と一致するが、他の多くの興味深いケースも含む。 本研究では,成分クラス損失関数が凸である場合の最適分解を見出す分解計算のための2つの分散最適化法を提案する。 どちらの方法も、各成分損失関数のマスク付き近位演算子のみを必要とするが、これは引数の欠落したエントリを扱うよく知られた近位演算子の一般化である。 どちらのメソッドも分散しており、各コンポーネントを別々に扱う。 本論文では,損失関数のマスク付き近位演算子を評価するための抽出可能な手法について述べる。

We consider the well-studied problem of decomposing a vector time series signal into components with different characteristics, such as smooth, periodic, nonnegative, or sparse. We propose a simple and general framework in which the components are defined by loss functions (which include constraints), and the signal decomposition is carried out by minimizing the sum of losses of the components (subject to the constraints). When each loss function is the negative log-likelihood of a density for the signal component, our method coincides with maximum a posteriori probability (MAP) estimation; but it also includes many other interesting cases. We give two distributed optimization methods for computing the decomposition, which find the optimal decomposition when the component class loss functions are convex, and are good heuristics when they are not. Both methods require only the masked proximal operator of each of the component loss functions, a generalization of the well-known proximal operator that handles missing entries in its argument. Both methods are distributed, i.e., handle each component separately. We derive tractable methods for evaluating the masked proximal operators of some loss functions that, to our knowledge, have not appeared in the literature.
翻訳日:2022-02-21 15:34:24 公開日:2022-02-18
# (参考訳) 欠陥負の緩和と分解フラグメントコントラストによる分子コントラスト学習の改善 [全文訳有]

Improving Molecular Contrastive Learning via Faulty Negative Mitigation and Decomposed Fragment Contrast ( http://arxiv.org/abs/2202.09346v1 )

ライセンス: CC BY 4.0
Yuyang Wang, Rishikesh Magar, Chen Liang, Amir Barati Farimani(参考訳) 深層学習は計算化学において一般的であり、分子特性予測において広く実装されている。 近年、自己教師付き学習(SSL)、特に対照的学習(CL)は、巨大化学空間に一般化する分子表現を学習する可能性に注目が集まっている。 教師付き学習とは異なり、SSLは大きなラベルのないデータを直接利用することができ、コストと時間のかかるシミュレーションや実験を通じて分子特性ラベルを取得する労力を大幅に削減することができる。 しかし、ほとんどの分子SSL法は機械学習コミュニティからの洞察を借りているが、ユニークな化学情報学(分子指紋など)や分子の多レベルグラフィカル構造(機能群など)は無視している。 本稿では,iMolCLRを提案する。 グラフニューラルネットワーク(GNN)による表現の分子コントラスト学習の改善,(1) 分子対間の化学フォマティクス類似性を考慮した欠陥負のコントラストインスタンスの緩和,(2) 分子から分解された分子内および分子間サブ構造間の断片レベルのコントラスト 実験の結果,提案手法は分子特性予測におけるGNNモデルの性能を著しく向上させることがわかった。 以前のCLフレームワークと比較して、iMolCLRは7つの分類ベンチマークで平均1.3%改善し、5つの回帰ベンチマークで平均4.8%エラーが減少した。 ほとんどのベンチマークでは、iMolCLRによって事前訓練されたジェネリックGNNは、高度なアーキテクチャ設計とエンジニアリング機能を備えた教師付き学習モデルに匹敵する、あるいは超越している。 さらなる研究により、iMolCLRを通して学んだ表現が本質的に分子の類似性を推論できる足場と官能基を埋め込むことが示されている。

Deep learning has been a prevalence in computational chemistry and widely implemented in molecule property predictions. Recently, self-supervised learning (SSL), especially contrastive learning (CL), gathers growing attention for the potential to learn molecular representations that generalize to the gigantic chemical space. Unlike supervised learning, SSL can directly leverage large unlabeled data, which greatly reduces the effort to acquire molecular property labels through costly and time-consuming simulations or experiments. However, most molecular SSL methods borrow the insights from the machine learning community but neglect the unique cheminformatics (e.g., molecular fingerprints) and multi-level graphical structures (e.g., functional groups) of molecules. In this work, we propose iMolCLR: improvement of Molecular Contrastive Learning of Representations with graph neural networks (GNNs) in two aspects, (1) mitigating faulty negative contrastive instances via considering cheminformatics similarities between molecule pairs; (2) fragment-level contrasting between intra- and inter-molecule substructures decomposed from molecules. Experiments have shown that the proposed strategies significantly improve the performance of GNN models on various challenging molecular property predictions. In comparison to the previous CL framework, iMolCLR demonstrates an averaged 1.3% improvement of ROC-AUC on 7 classification benchmarks and an averaged 4.8% decrease of the error on 5 regression benchmarks. On most benchmarks, the generic GNN pre-trained by iMolCLR rivals or even surpasses supervised learning models with sophisticated architecture designs and engineered features. Further investigations demonstrate that representations learned through iMolCLR intrinsically embed scaffolds and functional groups that can reason molecule similarities.
翻訳日:2022-02-21 15:33:12 公開日:2022-02-18
# (参考訳) 進化型ニューラルネットワークとスパース多項式展開を用いた液体水銀スポーレーションターゲットのモデル校正 [全文訳有]

Model Calibration of the Liquid Mercury Spallation Target using Evolutionary Neural Networks and Sparse Polynomial Expansions ( http://arxiv.org/abs/2202.09353v1 )

ライセンス: CC BY 4.0
Majdi I. Radaideh, Hoang Tran, Lianshan Lin, Hao Jiang, Drew Winder, Sarma Gorti, Guannan Zhang, Justin Mach, Sarah Cousineau(参考訳) ターゲット容器内のひずみと応力を予測する水銀構成モデルは、スパレーション中性子源(sns)における水銀ターゲットの寿命予測と将来の目標設計を改善する上で中心的な役割を果たす。 目的行動の大規模シミュレーションとパラメータ推定に機械学習ツールを併用して, 水銀構成モデルを改善するために, 数年にわたって収集された実験ひずみデータを活用する。 進化的ニューラルネットワークとスパース多項式展開を用いた高価なシミュレーションの代理モデルキャリブレーションのための2つの学際的アプローチを提案する。 この2つの手法の実験と結果から,水銀分散ターゲットの固体力学シミュレーションに非常によい一致を示した。 提案手法は, 強い陽子パルス実験中の音の引張遮断閾値, 水銀密度, 水銀速度を校正するために用いられる。 水銀ターゲットセンサからのひずみ実験データを用いて, 新たに校正したシミュレーションにより, 信号予測精度の7-%, 平均絶対誤差の8-%を, 従来報告した基準パラメータと比較し, 最大30-%改善した。 提案したキャリブレーションシミュレーションは, 水銀の寿命と完全性を推定するために疲労解析を著しく支援し, 急激なターゲット故障を低減し, 膨大なコストを削減できる。 しかし、この研究の重要な結論は、スペール化反応の完全な物理を捉える際の状態方程式に基づく現在の構成モデルに欠けていることを指摘している。 実験データとの良好な一致を示すパラメータのいくつかが非物理的水銀の性質であることを考えると、気泡力学と水銀キャビテーションを捉えるためにより高度な二相流モデルが必要である。

The mercury constitutive model predicting the strain and stress in the target vessel plays a central role in improving the lifetime prediction and future target designs of the mercury targets at the Spallation Neutron Source (SNS). We leverage the experiment strain data collected over multiple years to improve the mercury constitutive model through a combination of large-scale simulations of the target behavior and the use of machine learning tools for parameter estimation. We present two interdisciplinary approaches for surrogate-based model calibration of expensive simulations using evolutionary neural networks and sparse polynomial expansions. The experiments and results of the two methods show a very good agreement for the solid mechanics simulation of the mercury spallation target. The proposed methods are used to calibrate the tensile cutoff threshold, mercury density, and mercury speed of sound during intense proton pulse experiments. Using strain experimental data from the mercury target sensors, the newly calibrated simulations achieve 7\% average improvement on the signal prediction accuracy and 8\% reduction in mean absolute error compared to previously reported reference parameters, with some sensors experiencing up to 30\% improvement. The proposed calibrated simulations can significantly aid in fatigue analysis to estimate the mercury target lifetime and integrity, which reduces abrupt target failure and saves a tremendous amount of costs. However, an important conclusion from this work points out to a deficiency in the current constitutive model based on the equation of state in capturing the full physics of the spallation reaction. Given that some of the calibrated parameters that show a good agreement with the experimental data can be nonphysical mercury properties, we need a more advanced two-phase flow model to capture bubble dynamics and mercury cavitation.
翻訳日:2022-02-21 15:20:32 公開日:2022-02-18
# ProxSkip: はい。 ローカルなグラディエントステップはおそらく通信加速につながる! ついに!

ProxSkip: Yes! Local Gradient Steps Provably Lead to Communication Acceleration! Finally! ( http://arxiv.org/abs/2202.09357v1 )

ライセンス: Link先を確認
Konstantin Mishchenko, Grigory Malinovsky, Sebastian Stich and Peter Richt\'arik(参考訳) ここでは,滑らかな (f$) 関数と高価な非滑らかな (\psi$) 関数の和を最小化する,驚くほど単純かつ証明可能な方法である \algname{ProxSkip} を紹介する。 このような問題を解決するための標準的アプローチは、近位勾配降下 (\algname{proxgd}) アルゴリズムであり、これは各イテレーションにおける$f$の勾配と$\psi$のprox演算子の評価に基づいている。 本研究で特に注目しているのは,proxの評価が勾配の評価に比較して費用がかかるようなシステムであり,多くの応用例においてそうである。 イテレーションの複雑さは$\co(\kappa \log \nicefrac{1}{\varepsilon})$であり、$\kappa$は$f$の条件番号であるが、proxの評価は$\co(\sqrt{\kappa} \log \nicefrac{1}{\varepsilon})$のみである。 我々の主な動機は、勾配演算子の評価が局所的な \algname{GD} ステップをすべてのデバイスで独立に行うことに対応し、prox の評価は勾配平均化の形で(指数的な)通信に対応することにある。 この文脈では、 \algname{ProxSkip} は通信複雑性の効果的な加速を提供する。 他の局所勾配型手法、例えば \algname{fedavg}, \algname{scaffold}, \algname{s-local-gd}, \algname{fedlin} とは異なり、理論的な通信の複雑さは異質なデータレジームにおけるvanilla \algname{gd} のそれよりも悪く、あるいは最もよく一致している。

We introduce \algname{ProxSkip} -- a surprisingly simple and provably efficient method for minimizing the sum of a smooth ($f$) and an expensive nonsmooth proximable ($\psi$) function. The canonical approach to solving such problems is via the proximal gradient descent (\algname{ProxGD}) algorithm, which is based on the evaluation of the gradient of $f$ and the prox operator of $\psi$ in each iteration. In this work we are specifically interested in the regime in which the evaluation of prox is costly relative to the evaluation of the gradient, which is the case in many applications. \algname{ProxSkip} allows for the expensive prox operator to be skipped in most iterations: while its iteration complexity is $\cO(\kappa \log \nicefrac{1}{\varepsilon})$, where $\kappa$ is the condition number of $f$, the number of prox evaluations is $\cO(\sqrt{\kappa} \log \nicefrac{1}{\varepsilon})$ only. Our main motivation comes from federated learning, where evaluation of the gradient operator corresponds to taking a local \algname{GD} step independently on all devices, and evaluation of prox corresponds to (expensive) communication in the form of gradient averaging. In this context, \algname{ProxSkip} offers an effective {\em acceleration} of communication complexity. Unlike other local gradient-type methods, such as \algname{FedAvg}, \algname{SCAFFOLD}, \algname{S-Local-GD} and \algname{FedLin}, whose theoretical communication complexity is worse than, or at best matching, that of vanilla \algname{GD} in the heterogeneous data regime, we obtain a provable and large improvement without any heterogeneity-boundi ng assumptions.
翻訳日:2022-02-21 14:58:12 公開日:2022-02-18
# XGBoostと確率ハイブリッドモデルによるユーザレベルTwitter活動のシミュレーション

Simulating User-Level Twitter Activity with XGBoost and Probabilistic Hybrid Models ( http://arxiv.org/abs/2202.08964v1 )

ライセンス: Link先を確認
Fred Mubang and Lawrence Hall(参考訳) ボリューム・オーディエンス・マッチシミュレーター(VAM)は、国際経済に関するTwitterの今後の活動を予測するために用いられた。 vamを時系列予測に応用し,(1)活動総数,(2)アクティブユーザ数,(3)新規アクティブユーザ数を予測開始時刻から24時間以内に予測した。 VAMは、これらのボリューム予測を使用して、ユーザリンク予測を実行した。 ユーザ・ユーザ・エッジは、24の将来のステップの各アクティビティに割り当てられた。 VAMは時系列およびユーザ割り当てタスクの両方において、ベースラインモデルのセットを大幅に上回った

The Volume-Audience-Matc h simulator, or VAM was applied to predict future activity on Twitter related to international economic affairs. VAM was applied to do timeseries forecasting to predict the: (1) number of total activities, (2) number of active old users, and (3) number of newly active users over the span of 24 hours from the start time of prediction. VAM then used these volume predictions to perform user link predictions. A user-user edge was assigned to each of the activities in the 24 future timesteps. VAM considerably outperformed a set of baseline models in both the time series and user-assignment tasks
翻訳日:2022-02-21 14:53:33 公開日:2022-02-18
# ホログラフィック顕微鏡と深層学習によるマイクロプランクトン生命史の解明

Microplankton life histories revealed by holographic microscopy and deep learning ( http://arxiv.org/abs/2202.09046v1 )

ライセンス: Link先を確認
Harshith Bachimanchi and Benjamin Midtvedt and Daniel Midtvedt and Erik Selander and Giovanni Volpe(参考訳) 海洋微生物の食物網は、地球規模の炭素循環において中心的な役割を果たす。 しかし、我々の海の機械的理解は、そのより大きな構成成分に偏り、一方、微生物食物網の速度とバイオマスフラックスは、主に間接測定とアンサンブル平均から推定される。 しかし、海洋食物網の理解を深めるためには、個々のマイクロプランクトンのレベルでの解決が必要である。 ここではホログラフィック顕微鏡と深層学習を組み合わせることで、生涯を通してマイクロプランクトンを追跡でき、3次元の位置と乾燥質量を連続的に測定できることを示した。 深層学習アルゴリズムはホログラフィックデータの計算集約的な処理を回避し、長期間にわたる迅速な測定を可能にする。 これにより、乾燥質量増加と細胞分裂の両方の観点から確実に成長速度を推定し、捕食イベントのような種間の対流相互作用を測定することができる。 個々の解像度は、選択性、個々の給餌率、個々のマイクロプランクトンの処理時間に関する情報を提供する。 この方法は特に、地球規模でもっとも重要かつ最も知られていない主要な消費者集団である微小動物プランクトンを通して炭素のフラックスを探索するのに有用である。 マイクロ動物プランクトン給餌イベントの詳細な説明、細胞分裂、および単一細胞の分裂から分裂までの長期モニタリングによってこれを実証する。

The marine microbial food web plays a central role in the global carbon cycle. Our mechanistic understanding of the ocean, however, is biased towards its larger constituents, while rates and biomass fluxes in the microbial food web are mainly inferred from indirect measurements and ensemble averages. Yet, resolution at the level of the individual microplankton is required to advance our understanding of the oceanic food web. Here, we demonstrate that, by combining holographic microscopy with deep learning, we can follow microplanktons throughout their lifespan, continuously measuring their three dimensional position and dry mass. The deep learning algorithms circumvent the computationally intensive processing of holographic data and allow rapid measurements over extended time periods. This permits us to reliably estimate growth rates, both in terms of dry mass increase and cell divisions, as well as to measure trophic interactions between species such as predation events. The individual resolution provides information about selectivity, individual feeding rates and handling times for individual microplanktons. This method is particularly useful to explore the flux of carbon through micro-zooplankton, the most important and least known group of primary consumers in the global oceans. We exemplify this by detailed descriptions of micro-zooplankton feeding events, cell divisions, and long term monitoring of single cells from division to division.
翻訳日:2022-02-21 14:53:23 公開日:2022-02-18
# マルチピッチ推定のためのディープラーニングアーキテクチャ:信頼性評価に向けて

Deep-Learning Architectures for Multi-Pitch Estimation: Towards Reliable Evaluation ( http://arxiv.org/abs/2202.09198v1 )

ライセンス: Link先を確認
Christof Wei{\ss}, Geoffroy Peeters(参考訳) 音楽録音からピッチ情報を抽出することは、音楽信号処理において難しいが重要な問題である。 フレームワイド書き起こしやマルチピッチ推定は,ポリフォニック録音におけるピッチの同時動作を検出することを目的としており,近年,様々なネットワークアーキテクチャを用いたディープラーニング技術により,大きな改善がなされている。 本稿では,cnn,u-net構造,自己着脱成分に基づいて異なるアーキテクチャを実現する。 本稿では,スキップ接続のためのセルフアテンションモジュール,自己アテンションを置換するリカレント層,ポリフォニーの程度を同時予測するマルチタスク戦略など,これらのアーキテクチャの修正を提案する。 マルチピッチ推定のためにこれらのアーキテクチャのバリエーションを比較し,MusicNet と Schubert Winterreise のデータセットを用いたピアノソロシナリオ以外の西洋古典音楽に焦点を当てた。 我々の実験は、ほとんどのアーキテクチャが競争力のある結果をもたらし、より大きなモデル変種が有益であることを示している。 しかし、これらの結果はランダム化効果とトレーニング-テスト分割の特定の選択に大きく依存しており、小さな改善しか与えられていない特定のアーキテクチャの優位性の主張に疑問を呈している。 そこで本研究では,ワークサイクルの複数の動作の有無におけるデータセット分割の影響を調査し(クロスバージョン評価),個々のテストトラックの影響を弱め,特定の作品や記録条件への過剰フィットを抑制するmusicnetのベストプラクティス分割戦略を提案する。 混合データセットの最終的な評価は、ある特定のデータセットの改善が必ずしも他のシナリオに一般化するとは限らないことを示唆しており、音楽の書き起こしタスクの進捗を確実に測定するために、さらに高品質なマルチピッチデータセットの必要性を強調している。

Extracting pitch information from music recordings is a challenging but important problem in music signal processing. Frame-wise transcription or multi-pitch estimation aims for detecting the simultaneous activity of pitches in polyphonic music recordings and has recently seen major improvements thanks to deep-learning techniques, with a variety of proposed network architectures. In this paper, we realize different architectures based on CNNs, the U-net structure, and self-attention components. We propose several modifications to these architectures including self-attention modules for skip connections, recurrent layers to replace the self-attention, and a multi-task strategy with simultaneous prediction of the degree of polyphony. We compare variants of these architectures in different sizes for multi-pitch estimation, focusing on Western classical music beyond the piano-solo scenario using the MusicNet and Schubert Winterreise datasets. Our experiments indicate that most architectures yield competitive results and that larger model variants seem to be beneficial. However, we find that these results substantially depend on randomization effects and the particular choice of the training-test split, which questions the claim of superiority for particular architectures given only small improvements. We therefore investigate the influence of dataset splits in the presence of several movements of a work cycle (cross-version evaluation) and propose a best-practice splitting strategy for MusicNet, which weakens the influence of individual test tracks and suppresses overfitting to specific works and recording conditions. A final evaluation on a mixed dataset suggests that improvements on one specific dataset do not necessarily generalize to other scenarios, thus emphasizing the need for further high-quality multi-pitch datasets in order to reliably measure progress in music transcription tasks.
翻訳日:2022-02-21 14:52:59 公開日:2022-02-18
# 乱流閉鎖の数値証明に向けて

Towards a Numerical Proof of Turbulence Closure ( http://arxiv.org/abs/2202.09289v1 )

ライセンス: Link先を確認
Giulio Ortali, Alessandro Corbetta, Gianluigi Rozza, and Federico Toschi(参考訳) 乱流閉包モデルの開発は、小さな非解決スケールが大きな解決スケールの力学に与える影響をパラメタライズし、大きな適用性を持つ理論上の課題である。 本稿では,統計誤差,オイラー構造関数,ラグランジュ構造関数,およびサブグリッドフラックスを含むエネルギーカスケードの断続統計を定量的に再現する,ディープリカレントニューラルネットワークに基づく閉包について述べる。 高次統計精度を達成するために, 厳密な統計試験を行い, 乱流のシェルモデルを用いた。 その結果, 3次元ナビエ・ストークス乱流に対する類似手法の開発が促進された。

The development of turbulence closure models, parametrizing the influence of small non-resolved scales on the dynamics of large resolved ones, is an outstanding theoretical challenge with vast applicative relevance. We present a closure, based on deep recurrent neural networks, that quantitatively reproduces, within statistical errors, Eulerian and Lagrangian structure functions and the intermittent statistics of the energy cascade, including those of subgrid fluxes. To achieve high-order statistical accuracy, and thus a stringent statistical test, we employ shell models of turbulence. Our results encourage the development of similar approaches for 3D Navier-Stokes turbulence.
翻訳日:2022-02-21 14:51:05 公開日:2022-02-18
# (参考訳) Map-Elitesによるダンジョンマップ、ロックド・ドア・ミッション、エニミー・プレースメントの空間の照らし方 [全文訳有]

Illuminating the Space of Dungeon Maps, Locked-door Missions and Enemy Placement Through MAP-Elites ( http://arxiv.org/abs/2202.09301v1 )

ライセンス: CC BY 4.0
Breno M. F. Viana (1), Leonardo T. Pereira (1), Claudio F. M. Toledo (1) ((1) Universidade de S\~ao Paulo)(参考訳) プロシージャコンテンツ生成(PCG)手法はゲーム開発プロセスの高速化に有用なツールである。 さらに、PCGはMoonlighter(Digital Sun, 2018)のプロシージャダンジョン生成(PDG)のような機能としてゲームに現れることもある。 本稿ではMAP-Elites集団を組み込んだ進化的ダンジョン発生器の拡張版を紹介する。 我々のダンジョンレベルは、室内に鍵を掛けたミッションや敵がいるかもしれない部屋と区別される。 ミッションの実現性を確保するため、木構造を通してダンジョンを符号化しました。 PDGアプローチを評価するために,計算およびユーザフィードバック実験を行った。 これらの結果から,本手法はMAP-エリート人口のほぼ全てを正確に収束させることがわかった。 最後に、プレイヤーのフィードバックは彼らが生成したレベルを楽しんだことを示し、それらはアルゴリズムをレベルジェネレータとして示せなかった。

Procedural Content Generation (PCG) methods are valuable tools to speed up the game development process. Moreover, PCG may also present in games as features, such as the procedural dungeon generation (PDG) in Moonlighter (Digital Sun, 2018). This paper introduces an extended version of an evolutionary dungeon generator by incorporating a MAP-Elites population. Our dungeon levels are discretized with rooms that may have locked-door missions and enemies within them. We encoded the dungeons through a tree structure to ensure the feasibility of missions. We performed computational and user feedback experiments to evaluate our PDG approach. They show that our approach accurately converges almost the whole MAP-Elite population for most executions. Finally, players' feedback indicates that they enjoyed the generated levels, and they could not indicate an algorithm as a level generator.
翻訳日:2022-02-21 14:50:23 公開日:2022-02-18
# gnn-surrogate:非構造化海洋シミュレーションのパラメータ空間探索のための階層的かつ適応型グラフニューラルネットワーク

GNN-Surrogate: A Hierarchical and Adaptive Graph Neural Network for Parameter Space Exploration of Unstructured-Mesh Ocean Simulations ( http://arxiv.org/abs/2202.08956v1 )

ライセンス: Link先を確認
Neng Shi, Jiayi Xu, Skylar W. Wurster, Hanqi Guo, Jonathan Woodring, Luke P. Van Roekel, and Han-Wei Shen(参考訳) 海洋気候シミュレーションのパラメータ空間を探索するグラフニューラルネットワークに基づく代理モデルであるGNN-Surrogateを提案する。 領域科学者にとってパラメータ空間探索は、入力パラメータ(例えば風応力)がシミュレーション出力(例えば温度)に与える影響を理解することが重要である。 この探索では、計算に高価なシミュレーションを実行することで複雑なパラメータ空間を消耗させる必要がある。 提案手法は,シミュレーション出力を精度よく効率的に予測するサロゲートモデルを用いて,パラメータ空間探索の効率を向上する。 具体的には、GNN-Surrogateは与えられたシミュレーションパラメータで出力フィールドを予測し、シミュレーションパラメータ空間をユーザが指定したビジュアルマッピングから視覚化することで探索することができる。 さらに,グラフに基づく手法は非構造メッシュ用に設計されており,不規則グリッド上でのシミュレーション出力の探索が効率的である。 効率的なトレーニングのために,階層グラフを生成し,適応解法を用いる。 mpas-oceanシミュレーションの定量的・定性評価を行い,gnn-surrogateの有効性と有効性を示す。 ソースコードはhttps://github.com/t rainsn/GNN-Surrogate で公開されている。

We propose GNN-Surrogate, a graph neural network-based surrogate model to explore the parameter space of ocean climate simulations. Parameter space exploration is important for domain scientists to understand the influence of input parameters (e.g., wind stress) on the simulation output (e.g., temperature). The exploration requires scientists to exhaust the complicated parameter space by running a batch of computationally expensive simulations. Our approach improves the efficiency of parameter space exploration with a surrogate model that predicts the simulation outputs accurately and efficiently. Specifically, GNN-Surrogate predicts the output field with given simulation parameters so scientists can explore the simulation parameter space with visualizations from user-specified visual mappings. Moreover, our graph-based techniques are designed for unstructured meshes, making the exploration of simulation outputs on irregular grids efficient. For efficient training, we generate hierarchical graphs and use adaptive resolutions. We give quantitative and qualitative evaluations on the MPAS-Ocean simulation to demonstrate the effectiveness and efficiency of GNN-Surrogate. Source code is publicly available at https://github.com/t rainsn/GNN-Surrogate .
翻訳日:2022-02-21 14:37:12 公開日:2022-02-18
# サーフィンか睡眠か? 就寝時間パターンがキャンパスに及ぼす影響の理解

Surf or sleep? Understanding the influence of bedtime patterns on campus ( http://arxiv.org/abs/2202.09283v1 )

ライセンス: Link先を確認
Teng Guo, Linhong Li, Dongyu Zhang, Feng Xia(参考訳) 睡眠不足は、心身の深刻な問題を引き起こす可能性があり、大学生にとって、労働負荷や対人的、社会的影響によってよく見られる問題である。 その影響を理解し、睡眠不足の学生を特定することは教育管理において非常に重要である。 現在行われている研究のほとんどは、小さなサンプルサイズと社会的望ましくないバイアスに悩まされている自己申告とアンケートに基づくものであるか、あるいは教育システムに適さない方法である。 本稿では,教育管理システムに格納されているインターネットアクセスパターンに基づいて,学生の睡眠パターンを識別する汎用的なデータ駆動手法を開発し,その影響について検討する。 まず、就寝時間分布に応じて生徒をクラスタリングするためのPossionベースの確率混合モデルを設計し、就寝に慣れている学生を同定する。 第2に,キャンパス行動データに基づく5つの側面(8次元を含む)の学生をプロファイリングし,ベイズネットワークを構築し,行動特性と睡眠習慣の関係について検討した。 最後に,睡眠習慣の予測可能性をテストする。 本稿では,認知的・行動的観点からの学生睡眠の理解に寄与するだけでなく,学生の睡眠パターンを検出するための各種教育機関の効果的な枠組みを提供する新しいアプローチを提案する。

Poor sleep habits may cause serious problems of mind and body, and it is a commonly observed issue for college students due to study workload as well as peer and social influence. Understanding its impact and identifying students with poor sleep habits matters a lot in educational management. Most of the current research is either based on self-reports and questionnaires, suffering from a small sample size and social desirability bias, or the methods used are not suitable for the education system. In this paper, we develop a general data-driven method for identifying students' sleep patterns according to their Internet access pattern stored in the education management system and explore its influence from various aspects. First, we design a Possion-based probabilistic mixture model to cluster students according to the distribution of bedtime and identify students who are used to staying up late. Second, we profile students from five aspects (including eight dimensions) based on campus-behavior data and build Bayesian networks to explore the relationship between behavioral characteristics and sleeping habits. Finally, we test the predictability of sleeping habits. This paper not only contributes to the understanding of student sleep from a cognitive and behavioral perspective but also presents a new approach that provides an effective framework for various educational institutions to detect the sleeping patterns of students.
翻訳日:2022-02-21 14:36:32 公開日:2022-02-18
# ランダム森林の変動推定について

On Variance Estimation of Random Forests ( http://arxiv.org/abs/2202.09008v1 )

ライセンス: Link先を確認
Tianning Xu, Ruoqing Zhu, Xiaofeng Shao(参考訳) ランダム森林のようなサブサンプリングに基づくアンサンブル法は、高い予測精度のために応用に人気がある。 既存の文献では、ランダムフォレスト予測は不確かさを定量化するための無限次不完全u統計として捉えられている。 しかし、これらの手法は、理論上は有効だが実際は限定的である各木の小さなサブサンプリングサイズに焦点を当てている。 本稿では,不完全u-統計に基づく偏りのない分散推定器を開発し,木のサイズをサンプルサイズ全体と比較し,より広い範囲の実際のアプリケーションで統計的推論を可能にした。 シミュレーションの結果,計算コストを増すことなく,バイアスの低減と信頼性区間の精度向上が期待できることがわかった。 また, 木数が比較的少ない場合に, 数値性能が向上した推定器の変動を低減するための局所的平滑化手法を提案する。 さらに,提案する分散推定器の比整合性についても検討した。 特に,エスチメータの分散のhoeffding分解を分析する新しい「二重u-statistic」式を開発した。

Ensemble methods based on subsampling, such as random forests, are popular in applications due to their high predictive accuracy. Existing literature views a random forest prediction as an infinite-order incomplete U-statistic to quantify its uncertainty. However, these methods focus on a small subsampling size of each tree, which is theoretically valid but practically limited. This paper develops an unbiased variance estimator based on incomplete U-statistics, which allows the tree size to be comparable with the overall sample size, making statistical inference possible in a broader range of real applications. Simulation results demonstrate that our estimators enjoy lower bias and more accurate confidence interval coverage without additional computational costs. We also propose a local smoothing procedure to reduce the variation of our estimator, which shows improved numerical performance when the number of trees is relatively small. Further, we investigate the ratio consistency of our proposed variance estimator under specific scenarios. In particular, we develop a new "double U-statistic" formulation to analyze the Hoeffding decomposition of the estimator's variance.
翻訳日:2022-02-21 14:35:40 公開日:2022-02-18
# 影響関数を持つフリーランチ? 半パラメトリック統計を用いたニューラルネットワーク推定の改善

A Free Lunch with Influence Functions? Improving Neural Network Estimates with Concepts from Semiparametric Statistics ( http://arxiv.org/abs/2202.09096v1 )

ライセンス: Link先を確認
Matthew J. Vowels and Sina Akbari and Jalal Etesami and Necati Cihan Camgoz and Richard Bowden(参考訳) 経験的場におけるパラメータ推定は通常パラメトリックモデルを用いて行われ、そのようなモデルは統計的推論が容易であるため便利である。 残念なことに、現実の現象を適切にモデル化できる十分な柔軟性のある機能形式を持つ可能性は低いため、その使用はバイアスのある見積もりと無効な推論をもたらす可能性がある。 残念なことに、非パラメトリック機械学習モデルは現実世界の現象の複雑さに適応するために必要な柔軟性を提供するが、それらは容易に統計的推論を促進しず、まだ残差がある可能性がある。 我々は、ニューラルネットワークや機械学習アルゴリズムを改善するために使用される半パラメトリック理論(特に影響関数)の可能性を探究する。 (a)データを増やすことなく初期見積もりを改善する b)我々のモデルの堅牢性を高め、 (c)統計的推論に信頼区間を与える。 本稿では,単一アーキテクチャを用いてアンサンブルの柔軟性と多様性を求めるニューラルネットワーク手法であるMultiNetを提案する。 因果推論タスクの結果から、MultiNetは他の手法よりも優れた性能を示し、ある条件下での半パラメトリック手法から改善できると考えられる。 言い換えれば、これらの技術により、より多くのデータを必要とすることなく、再トレーニングすることなく、既存のニューラルネットワークを 'free' のために改善できることが示されます。 最後に、一般的なグラフから推定する影響関数を導出するための式と、それを自動的に実行するコードを提供する。

Parameter estimation in the empirical fields is usually undertaken using parametric models, and such models are convenient because they readily facilitate statistical inference. Unfortunately, they are unlikely to have a sufficiently flexible functional form to be able to adequately model real-world phenomena, and their usage may therefore result in biased estimates and invalid inference. Unfortunately, whilst non-parametric machine learning models may provide the needed flexibility to adapt to the complexity of real-world phenomena, they do not readily facilitate statistical inference, and may still exhibit residual bias. We explore the potential for semiparametric theory (in particular, the Influence Function) to be used to improve neural networks and machine learning algorithms in terms of (a) improving initial estimates without needing more data (b) increasing the robustness of our models, and (c) yielding confidence intervals for statistical inference. We propose a new neural network method MultiNet, which seeks the flexibility and diversity of an ensemble using a single architecture. Results on causal inference tasks indicate that MultiNet yields better performance than other approaches, and that all considered methods are amenable to improvement from semiparametric techniques under certain conditions. In other words, with these techniques we show that we can improve existing neural networks for `free', without needing more data, and without needing to retrain them. Finally, we provide the expression for deriving influence functions for estimands from a general graph, and the code to do so automatically.
翻訳日:2022-02-21 14:35:23 公開日:2022-02-18
# 統計的・機械学習手法による生命保険制度のチャーンモデリング -重要な特徴の分析-

Churn modeling of life insurance policies via statistical and machine learning methods -- Analysis of important features ( http://arxiv.org/abs/2202.09182v1 )

ライセンス: Link先を確認
Andreas Groll, Carsten Wasserfuhr, Leonid Zeldin(参考訳) 生命保証企業は一般的に、複数のシステムとデータベースをカバーする豊富なデータを持っている。 これらのデータは、しばしば過去を分析し、現在を説明するために使われる。 過去を考慮すると、未来は伝統的な統計手法によって予測される。 これまでのところ、機械学習アプローチによる推定を行う試みはほんの数回しか行われていない。 本研究は,2つの部分株式内の顧客の個別契約キャンセル動作を,様々な分類手法を用いてモデル化する。 個人年金と寄付政策の一部株が考慮される。 モデリングに使用されるデータ、構造化されたデータ、どの方法でクリーン化されるかを記述する。 利用したモデルは、広範囲なチューニングプロセスに基づいて校正し、その適合性についてグラフィカルに評価し、変動関連概念を用いて、個々の契約キャンセル動作に顕著な特徴について検討する。

Life assurance companies typically possess a wealth of data covering multiple systems and databases. These data are often used for analyzing the past and for describing the present. Taking account of the past, the future is mostly forecasted by traditional statistical methods. So far, only a few attempts were undertaken to perform estimations by means of machine learning approaches. In this work, the individual contract cancellation behavior of customers within two partial stocks is modeled by the aid of various classification methods. Partial stocks of private pension and endowment policy are considered. We describe the data used for the modeling, their structured and in which way they are cleansed. The utilized models are calibrated on the basis of an extensive tuning process, then graphically evaluated regarding their goodness-of-fit and with the help of a variable relevance concept, we investigate which features notably affect the individual contract cancellation behavior.
翻訳日:2022-02-21 14:35:00 公開日:2022-02-18
# 調和スペクトル混合による非定常多出力ガウス過程

Nonstationary multi-output Gaussian processes via harmonizable spectral mixtures ( http://arxiv.org/abs/2202.09233v1 )

ライセンス: Link先を確認
Mat\'ias Altamirano, Felipe Tobar(参考訳) マルチ出力ガウスプロセス(MOGP)のカーネル設計は近年注目されている。 特に、Multi-Output Spectral Mixture kernel (MOSM) arXiv:1709.01298アプローチは、線状領域化の線形モデル、固有の局所化モデル、クロススペクトル混合のような他のアプローチを拡張するという意味で一般的なモデルとして賞賛されている。 MOSM はガウス混合としてパワースペクトル密度 (PSD) をパラメトリクスするために Cram\'er の定理を頼りにしており、したがって構造的制約を持つ:PSD の存在を仮定することで、この方法はマルチ出力定常的な応用にのみ適している。 本研究は, 静止プロセスと非定常プロセスの両方を含むカーネルのクラスであるMOGPに対して, 調和可能なカーネル群を提案することでMOSMの非定常拡張を開発する。 提案されたハーモニゼーション可能なカーネルの主な貢献は、実行者が静止カーネルか静止カーネルかを選択しなくてもよいという意味の非定常的な振る舞いを自動で識別することである。 提案手法は,本手法の重要な特性を図示する目的で合成データ上で最初に検証し,財務学と脳波学の2つの現実世界における既存のmogp法と比較した。

Kernel design for Multi-output Gaussian Processes (MOGP) has received increased attention recently. In particular, the Multi-Output Spectral Mixture kernel (MOSM) arXiv:1709.01298 approach has been praised as a general model in the sense that it extends other approaches such as Linear Model of Corregionalization, Intrinsic Corregionalization Model and Cross-Spectral Mixture. MOSM relies on Cram\'er's theorem to parametrise the power spectral densities (PSD) as a Gaussian mixture, thus, having a structural restriction: by assuming the existence of a PSD, the method is only suited for multi-output stationary applications. We develop a nonstationary extension of MOSM by proposing the family of harmonizable kernels for MOGPs, a class of kernels that contains both stationary and a vast majority of non-stationary processes. A main contribution of the proposed harmonizable kernels is that they automatically identify a possible nonstationary behaviour meaning that practitioners do not need to choose between stationary or non-stationary kernels. The proposed method is first validated on synthetic data with the purpose of illustrating the key properties of our approach, and then compared to existing MOGP methods on two real-world settings from finance and electroencephalograp hy.
翻訳日:2022-02-21 14:34:10 公開日:2022-02-18
# 小さな機械学習を大規模に管理する方法:産業的な展望

How to Manage Tiny Machine Learning at Scale: An Industrial Perspective ( http://arxiv.org/abs/2202.09113v1 )

ライセンス: Link先を確認
Haoyu Ren, Darko Anicic, Thomas Runkler(参考訳) TinyML(TinyML)は、機械学習(ML)がユビキタスマイクロコントローラ上で民主化され、センサーデータをリアルタイムで処理することで、広く普及している。 TinyMLを大量デプロイメントを行う業界で管理するために、オンボードセンサーやメモリサイズからMLモデルアーキテクチャやランタイムプラットフォームに至るまで、ハードウェアとソフトウェアの制約について検討する。 しかし、IoT(Internet of Things)デバイスは、通常、特定のタスクに合わせて調整され、異質性やリソースの制限を受ける。 さらに、TinyMLモデルは異なる構造で開発されており、その動作原則を明確に理解することなく、しばしば分散され、断片化されたエコシステムに繋がる。 これらの課題を考慮して、我々は、TinyMLモデルとIoTデバイスを大規模に共同で管理するためのセマンティックWeb技術を用いたフレームワークを提案し、情報モデリングから可能な組み合わせとベンチマークの発見、そして最終的にはTinyMLコンポーネントの交換と再利用を容易にする。 本稿では,iotデバイスを意味的に記述したworld wide web consortium(w3c)モノ記述に準拠したニューラルネットワークモデルのためのオントロジー(概念スキーマ)を提案する。 さらに、利用可能な23のMLモデルと6つのIoTデバイスからなる知識グラフを使用して、私たちのコンセプトを3つのケーススタディで実証し、再現性を高めるためのコードとサンプルを共有した。

Tiny machine learning (TinyML) has gained widespread popularity where machine learning (ML) is democratized on ubiquitous microcontrollers, processing sensor data everywhere in real-time. To manage TinyML in the industry, where mass deployment happens, we consider the hardware and software constraints, ranging from available onboard sensors and memory size to ML-model architectures and runtime platforms. However, Internet of Things (IoT) devices are typically tailored to specific tasks and are subject to heterogeneity and limited resources. Moreover, TinyML models have been developed with different structures and are often distributed without a clear understanding of their working principles, leading to a fragmented ecosystem. Considering these challenges, we propose a framework using Semantic Web technologies to enable the joint management of TinyML models and IoT devices at scale, from modeling information to discovering possible combinations and benchmarking, and eventually facilitate TinyML component exchange and reuse. We present an ontology (semantic schema) for neural network models aligned with the World Wide Web Consortium (W3C) Thing Description, which semantically describes IoT devices. Furthermore, a Knowledge Graph of 23 publicly available ML models and six IoT devices were used to demonstrate our concept in three case studies, and we shared the code and examples to enhance reproducibility: https://github.com/H aoyu-R/How-to-Manage -TinyML-at-Scale
翻訳日:2022-02-21 14:33:18 公開日:2022-02-18
# VCVTS:音声変換からのクロスモーダル知識伝達による多話者音声合成

VCVTS: Multi-speaker Video-to-Speech synthesis via cross-modal knowledge transfer from voice conversion ( http://arxiv.org/abs/2202.09081v1 )

ライセンス: Link先を確認
Disong Wang, Shan Yang, Dan Su, Xunying Liu, Dong Yu, Helen Meng(参考訳) 話者依存型ビデオ音声合成(VTS)では大きな進歩があったが、サイレント映像を音声にマッピングできるマルチ話者VTSにはほとんど注目されていない。 本稿では、音声変換(VC)からのクロスモーダルな知識伝達に基づく新しいマルチスピーカVTSシステムを提案し、VCのコンテントエンコーダにベクトル量子化(VQCPC)を用い、音響単位の指数列を推定するためにLip-to-Index(Lip2Ind )ネットワークに転送される離散音素様音響単位を導出する。 次に、Lip2IndネットワークはVCのコンテンツエンコーダを交換してマルチスピーカVTSシステムを形成し、サイレントビデオを音響ユニットに変換して正確な音声コンテンツを再構成する。 VTSシステムは、話者エンコーダを使用して話者表現を生成し、生成された音声の話者アイデンティティを効果的に制御することで、VCの利点を継承する。 高い自然性,知性,話者類似性を有する高品質な音声を生成する上で,制約付き語彙条件とオープン語彙条件の両方に適用可能な提案手法の有効性を検証する。 デモページは以下のとおり。 https://wendison.git hub.io/vcvts-demo/

Though significant progress has been made for speaker-dependent Video-to-Speech (VTS) synthesis, little attention is devoted to multi-speaker VTS that can map silent video to speech, while allowing flexible control of speaker identity, all in a single system. This paper proposes a novel multi-speaker VTS system based on cross-modal knowledge transfer from voice conversion (VC), where vector quantization with contrastive predictive coding (VQCPC) is used for the content encoder of VC to derive discrete phoneme-like acoustic units, which are transferred to a Lip-to-Index (Lip2Ind) network to infer the index sequence of acoustic units. The Lip2Ind network can then substitute the content encoder of VC to form a multi-speaker VTS system to convert silent video to acoustic units for reconstructing accurate spoken content. The VTS system also inherits the advantages of VC by using a speaker encoder to produce speaker representations to effectively control the speaker identity of generated speech. Extensive evaluations verify the effectiveness of proposed approach, which can be applied in both constrained vocabulary and open vocabulary conditions, achieving state-of-the-art performance in generating high-quality speech with high naturalness, intelligibility and speaker similarity. Our demo page is released here: https://wendison.git hub.io/VCVTS-demo/
翻訳日:2022-02-21 14:32:51 公開日:2022-02-18
# システム安全性と人工知能

System Safety and Artificial Intelligence ( http://arxiv.org/abs/2202.09292v1 )

ライセンス: Link先を確認
Roel I.J. Dobbe(参考訳) この章は、安全クリティカルドメインにおけるソフトウェアベースの自動化のためのシステム安全の分野からの洞察に基づいて、人工知能(AI)システムの害を防ぐための7つの教訓を定式化する。 社会的なドメインや公共組織、インフラにまたがるaiの新たな応用には、新たな危険が伴う。 このテキストは、新しいaiシステム障害の診断と排除に関する合意の欠如に対処している。 何十年もの間、システム安全の分野は、さまざまなソフトウェアベースの自動化と意思決定によって制御される安全クリティカルなシステムにおける事故と損害を扱ってきた。 この分野は、システムの中核的な前提を受け入れ、AIシステムはモデルやアルゴリズムの技術的な設計選択によって保護されることができない、という制御を、使用状況、影響のある利害関係者、システムが運用する形式的で非公式な制度環境を含むエンドツーエンドのハザード分析と設計フレームを必要とする。 安全とその他の価値は本質的に社会技術的で創発的なシステム特性であり、システムの技術的、社会的、組織的要素をインスタンス化する設計と制御の手段を必要とする。 この章はシステム安全の先駆者であるナンシー・レヴェソンを称え、今日のaiシステム安全課題の核となる教訓を振り返るものである。 すべてのレッスンにおいて、デザインとガバナンスの両方において、aiシステムの安全管理を再考し、再編成するための具体的なツールが提供される。 この歴史は、効果的なAI安全管理には、あらゆるレベルの社会への関与を可能にする、学際的なアプローチと共通言語が必要であることを教えてくれます。

This chapter formulates seven lessons for preventing harm in artificial intelligence (AI) systems based on insights from the field of system safety for software-based automation in safety-critical domains. New applications of AI across societal domains and public organizations and infrastructures come with new hazards, which lead to new forms of harm, both grave and pernicious. The text addresses the lack of consensus for diagnosing and eliminating new AI system hazards. For decades, the field of system safety has dealt with accidents and harm in safety-critical systems governed by varying degrees of software-based automation and decision-making. This field embraces the core assumption of systems and control that AI systems cannot be safeguarded by technical design choices on the model or algorithm alone, instead requiring an end-to-end hazard analysis and design frame that includes the context of use, impacted stakeholders and the formal and informal institutional environment in which the system operates. Safety and other values are then inherently socio-technical and emergent system properties that require design and control measures to instantiate these across the technical, social and institutional components of a system. This chapter honors system safety pioneer Nancy Leveson, by situating her core lessons for today's AI system safety challenges. For every lesson, concrete tools are offered for rethinking and reorganizing the safety management of AI systems, both in design and governance. This history tells us that effective AI safety management requires transdisciplinary approaches and a shared language that allows involvement of all levels of society.
翻訳日:2022-02-21 14:32:23 公開日:2022-02-18
# CLSEG:ストーリーエンドジェネレーションの対照的な学習

CLSEG: Contrastive Learning of Story Ending Generation ( http://arxiv.org/abs/2202.09049v1 )

ライセンス: Link先を確認
Yuqiang Xie, Yue Hu, Luxi Xing, Yunpeng Li, Wei Peng, Ping Guo(参考訳) ストーリー終末生成(SEG)は自然言語生成における課題である。 近年,事前学習型言語モデル(plm)に基づく手法が盛んに発展し,流動的でコヒーレントな物語の結末が生み出されている。 しかし, PLM手法の事前学習目的は, ストーリーコンテキストとエンディングの一貫性をモデル化できない。 本研究の目的は,SEGのコントラッシブラーニングにおいて2つの大きな課題がある一方で,ストーリーコンテキストとの整合性を高めるためにコントラッシブラーニングを採用することである。 まず、間違った結末の否定的なサンプリングはストーリーコンテキストと矛盾します。 第2の課題は、SEGに対するコントラスト学習の適応である。 これら2つの課題に対処するために,多視点サンプリングとストーリー固有のコントラスト学習という2つのステップを持つ,新しいCLSEG(Contrastive Learning framework for Story Ending Generation)を提案する。 特に,第1号では,順序の整合性,因果性,感情の整合性を考慮して,新しいマルチアスペクトサンプリング機構を用いて間違った結末を得る。 第2の問題を解決するために,SEGに適合するストーリー特化コントラストトレーニング戦略を適切に設計する。 実験の結果、CLSEGはベースラインを上回り、より一貫性と合理性を持った物語の結末を生み出すことができた。

Story Ending Generation (SEG) is a challenging task in natural language generation. Recently, methods based on Pre-trained Language Models (PLM) have achieved great prosperity, which can produce fluent and coherent story endings. However, the pre-training objective of PLM-based methods is unable to model the consistency between story context and ending. The goal of this paper is to adopt contrastive learning to generate endings more consistent with story context, while there are two main challenges in contrastive learning of SEG. First is the negative sampling of wrong endings inconsistent with story contexts. The second challenge is the adaptation of contrastive learning for SEG. To address these two issues, we propose a novel Contrastive Learning framework for Story Ending Generation (CLSEG), which has two steps: multi-aspect sampling and story-specific contrastive learning. Particularly, for the first issue, we utilize novel multi-aspect sampling mechanisms to obtain wrong endings considering the consistency of order, causality, and sentiment. To solve the second issue, we well-design a story-specific contrastive training strategy that is adapted for SEG. Experiments show that CLSEG outperforms baselines and can produce story endings with stronger consistency and rationality.
翻訳日:2022-02-21 14:31:56 公開日:2022-02-18
# AMS_ADRN at SemEval-2022 Task 5: An suitable image-text Multimodal Joint Modeling Method for Multi-task Misogyny Identification

AMS_ADRN at SemEval-2022 Task 5: A Suitable Image-text Multimodal Joint Modeling Method for Multi-task Misogyny Identification ( http://arxiv.org/abs/2202.09099v1 )

ライセンス: Link先を確認
Da Li, Ming Yi, Yukai He(参考訳) 女性はオンライン、特にTwitterやInstagramのような画像ベースのソーシャルメディアで影響力がある。 しかし、ネットワーク環境には性差別や攻撃的な情報が含まれており、性別のステレオタイプや性別の不平等を増大させる。 したがって、性差別などの違法コンテンツのフィルタリングは、健全なソーシャルネットワーク環境を維持する上で不可欠である。 本稿では,semeval-2022タスク5用に開発したマルチメディア自動ミソジニー識別システムについて述べる。 具体的には,テキストエンコーディングのためのBertweetと画像表現のためのResNet-18を組み合わせたマルチモーダルマルチタスク学習アーキテクチャと,BERT-Embeddingからのテキスト埋め込みと,EfficientNetやResNetなどの複数のモジュールからのイメージ埋め込みを組み合わせた単一フロートランスフォーマ構造を提案する。 このようにして、その背後にある情報が適切に明らかにできることを示す。 提案手法は,現行の2つのサブタスクにおいて,第15位がSubtask A(0.746マクロF1スコア),第11位がSubtask B(0.706マクロF1スコア),第11位が公式のベースライン結果に高いマージンで勝っている。

Women are influential online, especially in image-based social media such as Twitter and Instagram. However, many in the network environment contain gender discrimination and aggressive information, which magnify gender stereotypes and gender inequality. Therefore, the filtering of illegal content such as gender discrimination is essential to maintain a healthy social network environment. In this paper, we describe the system developed by our team for SemEval-2022 Task 5: Multimedia Automatic Misogyny Identification. More specifically, we introduce two novel system to analyze these posts: a multimodal multi-task learning architecture that combines Bertweet for text encoding with ResNet-18 for image representation, and a single-flow transformer structure which combines text embeddings from BERT-Embeddings and image embeddings from several different modules such as EfficientNet and ResNet. In this manner, we show that the information behind them can be properly revealed. Our approach achieves good performance on each of the two subtasks of the current competition, ranking 15th for Subtask A (0.746 macro F1-score), 11th for Subtask B (0.706 macro F1-score) while exceeding the official baseline results by high margins.
翻訳日:2022-02-21 14:31:35 公開日:2022-02-18
# balanced binary search treeを用いた多目的a*の拡張

Enhanced Multi-Objective A* Using Balanced Binary Search Trees ( http://arxiv.org/abs/2202.08992v1 )

ライセンス: Link先を確認
Zhongqiang Ren, Sivakumar Rathinam, Maxim Likhachev and Howie Choset(参考訳) この研究は、MO-SPP (Multi-Objective Shortest Path Problem) に対処する: 各エッジが非負のコストベクトルに関連付けられているグラフが与えられたら、MO-SPPは、与えられた開始ノードとゴールノードを接続するパレート最適化パスの全てを見つけることを目的としている。 mo-sppを解決するために、アルゴリズムのような一般的なマルチ目的a*(moa*)は、検索中に任意のノードに"frontier"セットを保持し、そのノードに到達する非支配的なパスを追跡する。 moa*アルゴリズムの計算効率は、フロンティア集合をいかに効率的に維持できるかに直接依存する。 近年,主に2つの目的のために,この問題に対処する技術が文献で開発されている。 本研究では,バランスの取れた二分探索木を利用して,これらのフロンティアを多目的に効率的に維持する手法を提案する。 3,4,5の課題に対して広範なシミュレーション結果を提供し,提案手法が既存の手法を1桁上回ることを示した。

This work addresses the Multi-Objective Shortest Path Problem (MO-SPP): Given a graph where each edge is associated with a non-negative cost vector, MO-SPP aims to find all the Pareto-optimal paths connecting the given start and goal nodes. To solve MO-SPP, the popular multi-objective A* (MOA*) like algorithms maintain a "frontier" set at any node during the search to keep track of the non-dominated paths that reach that node. The computational efficiency of MOA* algorithms directly depend on how efficiently one can maintain the frontier sets. Recently, several techniques have been developed in the literature to address this issue mainly for two objectives. In this work, we introduce a new method to efficiently maintain these frontiers for multiple objectives by leveraging balanced binary search trees. We provide extensive simulation results for problems with three, four and five objectives to show that our method outperforms existing techniques by an order of magnitude in general.
翻訳日:2022-02-21 14:30:01 公開日:2022-02-18
# 常識知識の選択戦略

Selection Strategies for Commonsense Knowledge ( http://arxiv.org/abs/2202.09163v1 )

ライセンス: Link先を確認
Claudia Schon(参考訳) 選択戦略は一階述語論理定理において広く使われ、手前の定理を証明するのに必要な大きな知識基盤のこれらの部分を選択する。 通常、これらの選択戦略はシンボル名の意味を考慮に入れない。 常識知識を持つ知識ベースでは、記号名は通常意味を持つものとして選ばれ、選択戦略に貴重な情報を提供する。 単語埋め込みに基づくコモンセンス知識のための純粋に統計的選択手法であるベクトルベース選択戦略を導入する。 定理証明を目的として,異なるコモンセンス知識選択手法を比較し,ベクトルベース選択の有用性をケーススタディで示す。

Selection strategies are broadly used in first-order logic theorem proving to select those parts of a large knowledge base that are necessary to proof a theorem at hand. Usually, these selection strategies do not take the meaning of symbol names into account. In knowledge bases with commonsense knowledge, symbol names are usually chosen to have a meaning and this meaning provides valuable information for selection strategies. We introduce the vector-based selection strategy, a purely statistical selection technique for commonsense knowledge based on word embeddings. We compare different commonsense knowledge selection techniques for the purpose of theorem proving and demonstrate the usefulness of vector-based selection with a case study.
翻訳日:2022-02-21 14:29:40 公開日:2022-02-18
# LG-LSQ:学習した勾配線形対称量子化

LG-LSQ: Learned Gradient Linear Symmetric Quantization ( http://arxiv.org/abs/2202.09009v1 )

ライセンス: Link先を確認
Shih-Ting Lin, Zhaofang Li, Yu-Hsiang Cheng, Hao-Wen Kuo, Chih-Cheng Lu, Kea-Tiong Tang(参考訳) 正確な重みと推論時の演算の少ないディープニューラルネットワークは、メモリ空間と加速器パワーのコストという点で利点がある。 量子化アルゴリズムに関する主な課題は、低ビット幅での精度を維持することである。 整数ニューラルネットワークプロセッサにおいて,低ビット幅での重みとアクティベーション関数を高精度に定量化する手法として,学習勾配線形量子化(LG-LSQ)を提案する。 まず,学習過程における線形量子化器のスケーリング係数の適切な勾配を決定するためのスケーリングシミュレーション勾配(ssg)法を提案する。 第2に、勾配がゼロになるのを防ぐための直線スルー推定器(STE)法とは異なるアークタンジエント・ソフト・ラウンド(ASR)法を導入する。 最後に、完全精度と低ビット量子化ネットワークのギャップを埋めるために、バックプロパゲーションの正確な勾配を決定するために、最小離散化誤差(MDE)法を提案する。 ASR+MDE法はSTE法に代わる単純な方法であり、異なる均一量子化法での使用に有効である。 評価では,ResNet18,ResNet34,R esNet50などの3ビットネットワークにおいて完全精度のベースライン精度を実現し,MobileNetV2やShuffleNetV2などの軽量モデルでは4ビット重みの量子化と4ビットアクティベーションの精度が1%未満であった。

Deep neural networks with lower precision weights and operations at inference time have advantages in terms of the cost of memory space and accelerator power. The main challenge associated with the quantization algorithm is maintaining accuracy at low bit-widths. We propose learned gradient linear symmetric quantization (LG-LSQ) as a method for quantizing weights and activation functions to low bit-widths with high accuracy in integer neural network processors. First, we introduce the scaling simulated gradient (SSG) method for determining the appropriate gradient for the scaling factor of the linear quantizer during the training process. Second, we introduce the arctangent soft round (ASR) method, which differs from the straight-through estimator (STE) method in its ability to prevent the gradient from becoming zero, thereby solving the discrete problem caused by the rounding process. Finally, to bridge the gap between full-precision and low-bit quantization networks, we propose the minimize discretization error (MDE) method to determine an accurate gradient in backpropagation. The ASR+MDE method is a simple alternative to the STE method and is practical for use in different uniform quantization methods. In our evaluation, the proposed quantizer achieved full-precision baseline accuracy in various 3-bit networks, including ResNet18, ResNet34, and ResNet50, and an accuracy drop of less than 1% in the quantization of 4-bit weights and 4-bit activations in lightweight models such as MobileNetV2 and ShuffleNetV2.
翻訳日:2022-02-21 14:28:50 公開日:2022-02-18
# クロスドメインFew-Shot学習における自己監督手法の効果

How Well Do Self-Supervised Methods Perform in Cross-Domain Few-Shot Learning? ( http://arxiv.org/abs/2202.09014v1 )

ライセンス: Link先を確認
Yiyi Zhang, Ying Zheng, Xiaogang Xu, Jun Wang(参考訳) クロスドメイン・ショットラーニング(CDFSL)はコンピュータビジョンの領域では未解決の問題であり、自己教師型学習は有望な解決策である。 どちらの学習手法も、大規模ラベル付きデータの要求に対するディープネットワークの依存性を緩和しようとする。 自己監督法は近年劇的に進歩しているが、CDFSLでの効用は比較的未解明である。 本稿では,CDFSLの文脈における自己指導型表現学習の役割を,既存の手法の徹底的な評価を通じて検討する。 浅いアーキテクチャや小さなトレーニングデータセットであっても、自己教師型メソッドが既存のSOTAメソッドと比較して好都合に動作できることは驚きだ。 それでも、既存の自己管理手法が普遍的に適用できないことを示すすべてのデータセットは、単一の自己管理アプローチが支配的ではない。 さらに,自己教師付き手法から抽出した表現は,教師付き手法よりも強い強靭性を示すことがわかった。 興味深いことに、自己組織化された表現がソースドメインでうまく機能するかは、ターゲットドメインでの適用性とはほとんど相関がない。 本研究の一環として,6種類の代表分類器の性能を客観的に測定した。 その結果,CDFSLの標準評価法としてプロトタイプ分類法が提案されている。

Cross-domain few-shot learning (CDFSL) remains a largely unsolved problem in the area of computer vision, while self-supervised learning presents a promising solution. Both learning methods attempt to alleviate the dependency of deep networks on the requirement of large-scale labeled data. Although self-supervised methods have recently advanced dramatically, their utility on CDFSL is relatively unexplored. In this paper, we investigate the role of self-supervised representation learning in the context of CDFSL via a thorough evaluation of existing methods. It comes as a surprise that even with shallow architectures or small training datasets, self-supervised methods can perform favorably compared to the existing SOTA methods. Nevertheless, no single self-supervised approach dominates all datasets indicating that existing self-supervised methods are not universally applicable. In addition, we find that representations extracted from self-supervised methods exhibit stronger robustness than the supervised method. Intriguingly, whether self-supervised representations perform well on the source domain has little correlation with their applicability on the target domain. As part of our study, we conduct an objective measurement of the performance for six kinds of representative classifiers. The results suggest Prototypical Classifier as the standard evaluation recipe for CDFSL.
翻訳日:2022-02-21 14:28:21 公開日:2022-02-18
# タスク固有の注意は、オブジェクト検出にもう1つ必要です

Task Specific Attention is one more thing you need for object detection ( http://arxiv.org/abs/2202.09048v1 )

ライセンス: Link先を確認
Sang Yon Lee(参考訳) 物体検出問題を解くために様々なモデルが提案されている。 しかし、そのほとんどは優れた性能を示すために多くの手作りのコンポーネントを必要とする。 これらの問題を緩和するため、TransformerベースのDETRとその変種であるDeformable DETRが提案された。 彼らは、オブジェクト検出モデルの先頭を設計する複雑な問題の多くを解決したが、トランスフォーマーベースのモデルが、間違いなくオブジェクト検出における最先端の方法とみなすことができることは、一般には明らかではない。 さらに、DETR は検出ヘッドのみに Transformer メソッドを適用しているが、背骨体に CNN を組み込んでも、アテンションモジュールを組み合わせることで、有能なエンドツーエンドパイプラインを構築することができるかどうかは定かではない。 本稿では,いくつかのアテンションモジュールと新しいタスク固有スプリットトランスフォーマ(tsst)を組み合わせることで,従来の手作業で設計したコンポーネントを使わずに最高のcoco結果を生成する方法を提案する。 一般に目的の注意モジュールを2つのミッション固有の注意モジュールに分割することにより、提案手法は従来よりもシンプルな物体検出モデルの設計方法に対処する。 COCOベンチマークの大規模な実験は、我々のアプローチの有効性を実証している。 コードはhttps://github.com/n avervision/tsstでリリース

Various models have been proposed to solve the object detection problem. However, most of them require many hand-designed components to demonstrate good performance. To mitigate these issues, Transformer based DETR and its variant Deformable DETR were suggested. They solved much of the complex issue of designing a head of object detection model but it has not been generally clear that the Transformer-based models could be considered as the state-of-the-art method in object detection without doubt. Furthermore, as DETR adapted Transformer method only for the detection head, but still with including CNN for the backbone body, it has not been certain that it would be possible to build the competent end-to-end pipeline with the combination of attention modules. In this paper, we propose that combining several attention modules with our new Task Specific Split Transformer(TSST) is a fairly good enough method to produce the best COCO results without traditionally hand-designed components. By splitting generally purposed attention module into two separated mission specific attention module, the proposed method addresses the way to design simpler object detection models than before. Extensive experiments on the COCO benchmark demonstrate the effectiveness of our approach. Code is released at https://github.com/n avervision/tsst
翻訳日:2022-02-21 14:27:02 公開日:2022-02-18
# オーバーラップ推定によるガイド局所特徴マッチング

Guide Local Feature Matching by Overlap Estimation ( http://arxiv.org/abs/2202.09050v1 )

ライセンス: Link先を確認
Ying Chen, Dihe Huang, Shang Xu, Jianlin Liu, Yong Liu(参考訳) 大きな外観、視点、距離変化の下での局所的な画像特徴マッチングは、非常に重要である。 従来の方法では、画像全体にわたって暫定的な局所的な特徴を検出し、マッチングし、ヒューリスティックな一貫性チェックを行い、信頼性の高い一致を保証する。 本稿では,よく見られる領域における局所的特徴マッチングを制限するために,TRansformer と TRansformer を併用した新たなオーバーラップ推定手法を提案する。 OETRは特徴相関の2段階プロセスで重なり推定を行い、重なり回帰を行う。 事前処理モジュールとして、OETRは既存のローカルな特徴検出およびマッチングパイプラインにプラグインすることができ、潜在的なビュー角やスケールのばらつきを軽減することができる。 集中的な実験により,OETRは局所的特徴マッチング性能を大幅に向上させることができることがわかった。 コードはhttps://github.com/A byssGaze/OETR.comで公開される。

Local image feature matching under large appearance, viewpoint, and distance changes is challenging yet important. Conventional methods detect and match tentative local features across the whole images, with heuristic consistency checks to guarantee reliable matches. In this paper, we introduce a novel Overlap Estimation method conditioned on image pairs with TRansformer, named OETR, to constrain local feature matching in the commonly visible region. OETR performs overlap estimation in a two-step process of feature correlation and then overlap regression. As a preprocessing module, OETR can be plugged into any existing local feature detection and matching pipeline, to mitigate potential view angle or scale variance. Intensive experiments show that OETR can boost state-of-the-art local feature matching performance substantially, especially for image pairs with small shared regions. The code will be publicly available at https://github.com/A byssGaze/OETR.
翻訳日:2022-02-21 14:26:43 公開日:2022-02-18
# インスタンスセグメンテーションのための反復学習

Iterative Learning for Instance Segmentation ( http://arxiv.org/abs/2202.09110v1 )

ライセンス: Link先を確認
Tuomas Sormunen, Arttu L\"ams\"a, Miguel Bordallo Lopez(参考訳) インスタンスセグメンテーションは、画像内の別々のオブジェクトを検出し、セグメンテーションするコンピュータビジョンタスクである。 最先端のディープニューラルネットワークモデルは、このタスクでうまく機能するために、大量のラベル付きデータを必要とする。 これらのアノテーションの作成には時間がかかる。 本稿では,複数の類似オブジェクトからなるデータセットにおけるインスタンスの検出,セグメント化,アノテートが可能な反復学習およびアノテーション手法を初めて提案する。 このアプローチは人間の介入を最小限にし、非常に少ないアノテーションを含むブートストラップセットのみを必要とする。 2つの異なるデータセットの実験は、視覚検査に関連する異なるアプリケーションにおけるアプローチの有効性を示している。

Instance segmentation is a computer vision task where separate objects in an image are detected and segmented. State-of-the-art deep neural network models require large amounts of labeled data in order to perform well in this task. Making these annotations is time-consuming. We propose for the first time, an iterative learning and annotation method that is able to detect, segment and annotate instances in datasets composed of multiple similar objects. The approach requires minimal human intervention and needs only a bootstrapping set containing very few annotations. Experiments on two different datasets show the validity of the approach in different applications related to visual inspection.
翻訳日:2022-02-21 14:26:25 公開日:2022-02-18
# 変圧器ネットワークを用いた屋外照明の時空間アグリゲーション

Spatio-Temporal Outdoor Lighting Aggregation on Image Sequences using Transformer Networks ( http://arxiv.org/abs/2202.09206v1 )

ライセンス: Link先を確認
Haebom Lee, Christian Homeyer, Robert Herzog, Jan Rexilius, Carsten Rother(参考訳) 本研究では,広角カメラおよび/または時間画像列からのリッチな画像情報を利用して,画像からのノイズ推定を集約し,屋外照明推定に着目する。 写真は本質的にシーンの照明に関する情報を陰影と影の形でエンコードする。 照明の復元は逆レンダリングの問題であり、不適切である。 ディープニューラルネットワークに基づく最近の研究は、単一の画像照明推定に有望な結果を示しているが、ロバスト性に苦しんでいる。 画像列の角領域と時間領域にサンプリングされた複数の画像ビューからの照明推定を組み合わせることでこの問題に取り組む。 そこで本研究では,従来の作業に必要な統計的後処理を必要とせず,エンドツーエンドでトレーニングしたトランスフォーマーアーキテクチャを提案する。 そこで我々は,視覚的単語間の注目度を計算する際に,カメラキャリブレーションとエゴモーション推定を考慮に入れた位置符号化を提案する。 提案手法は,最先端技術と比較して過度パラメータの低減を図り,照明推定の改善につながることを示す。

In this work, we focus on outdoor lighting estimation by aggregating individual noisy estimates from images, exploiting the rich image information from wide-angle cameras and/or temporal image sequences. Photographs inherently encode information about the scene's lighting in the form of shading and shadows. Recovering the lighting is an inverse rendering problem and as that ill-posed. Recent work based on deep neural networks has shown promising results for single image lighting estimation, but suffers from robustness. We tackle this problem by combining lighting estimates from several image views sampled in the angular and temporal domain of an image sequence. For this task, we introduce a transformer architecture that is trained in an end-2-end fashion without any statistical post-processing as required by previous work. Thereby, we propose a positional encoding that takes into account the camera calibration and ego-motion estimation to globally register the individual estimates when computing attention between visual words. We show that our method leads to improved lighting estimation while requiring less hyper-parameters compared to the state-of-the-art.
翻訳日:2022-02-21 14:26:16 公開日:2022-02-18
# PGCN:時空間交通予測のためのプログレッシブグラフ畳み込みネットワーク

PGCN: Progressive Graph Convolutional Networks for Spatial-Temporal Traffic Forecasting ( http://arxiv.org/abs/2202.08982v1 )

ライセンス: Link先を確認
Yuyol Shin and Yoonjin Yoon(参考訳) 交通ネットワークにおける複雑な時空間相関は、交通予測問題を難しくする。 輸送システムは本質的にグラフ構造を持っているため、多くの研究がグラフニューラルネットワークで行われている。 近年、データに対する適応グラフの構築は、単一の静的グラフ構造に依存するモデルに対して有望な結果を示している。 しかし、グラフ適応はトレーニングフェーズで適用され、テストフェーズで使用されるデータを反映しない。 このような欠点は、特に交通データが時系列の予期せぬ変化や不規則に悩まされるため、交通予測において問題となる。 本研究では,PGCN(Progressive Graph Convolutional Network)と呼ばれる新しいトラフィック予測フレームワークを提案する。 PGCNは、トレーニングとテストフェーズの間、入力データに徐々に適応してグラフの集合を構築する。 具体的には,グラフノード間の傾向類似性を学習することで,進行的隣接行列を構築するモデルを実装した。 そして、拡張因果畳み込みとゲート活性化ユニットとを組み合わせることで、時間的特徴を抽出する。 残差接続とスキップ接続により、PGCNはトラフィック予測を行う。 多様な幾何学的性質を持つ4つの実世界のトラフィックデータセットに適用すると、提案モデルはすべてのデータセットで一貫性のある最先端のパフォーマンスを達成する。 我々は、PGCNが入力データに徐々に適応する能力により、頑健な異なる研究現場でモデルを一般化することができると結論付けた。

The complex spatial-temporal correlations in transportation networks make the traffic forecasting problem challenging. Since transportation system inherently possesses graph structures, much research efforts have been put with graph neural networks. Recently, constructing adaptive graphs to the data has shown promising results over the models relying on a single static graph structure. However, the graph adaptations are applied during the training phases, and do not reflect the data used during the testing phases. Such shortcomings can be problematic especially in traffic forecasting since the traffic data often suffers from the unexpected changes and irregularities in the time series. In this study, we propose a novel traffic forecasting framework called Progressive Graph Convolutional Network (PGCN). PGCN constructs a set of graphs by progressively adapting to input data during the training and the testing phases. Specifically, we implemented the model to construct progressive adjacency matrices by learning trend similarities among graph nodes. Then, the model is combined with the dilated causal convolution and gated activation unit to extract temporal features. With residual and skip connections, PGCN performs the traffic prediction. When applied to four real-world traffic datasets of diverse geometric nature, the proposed model achieves state-of-the-art performance with consistency in all datasets. We conclude that the ability of PGCN to progressively adapt to input data enables the model to generalize in different study sites with robustness.
翻訳日:2022-02-21 14:24:11 公開日:2022-02-18
# ドロップアウトベイズニューラルネットワークを用いた配電データ検出の実際

Out of Distribution Data Detection Using Dropout Bayesian Neural Networks ( http://arxiv.org/abs/2202.08985v1 )

ライセンス: Link先を確認
Andre T. Nguyen, Fred Lu, Gary Lopez Munoz, Edward Raff, Charles Nicholas, James Holt(参考訳) 本稿では,分散(ood)データを検出するタスクとして,ドロップアウト型ベイズニューラルネットワーク(bnn)に含まれる情報の有用性について検討する。 まず, ドロップアウトBNNの中間層によって誘導されるランダム化埋め込みを利用する試みが, 距離測定によって失敗することを示す。 画像分類,言語分類,マルウェア検出の3つのタスクにおいて,組込み不確かさを計測し,その利用を理論的に正当化し,組込み不確かさを組み込むことがoodデータ識別をいかに改善するかを示す。

We explore the utility of information contained within a dropout based Bayesian neural network (BNN) for the task of detecting out of distribution (OOD) data. We first show how previous attempts to leverage the randomized embeddings induced by the intermediate layers of a dropout BNN can fail due to the distance metric used. We introduce an alternative approach to measuring embedding uncertainty, justify its use theoretically, and demonstrate how incorporating embedding uncertainty improves OOD data identification across three tasks: image classification, language classification, and malware detection.
翻訳日:2022-02-21 14:23:50 公開日:2022-02-18
# 不均一都市グラフ注意ネットワーク(HUGAT)を用いた効果的な都市域表現学習

Effective Urban Region Representation Learning Using Heterogeneous Urban Graph Attention Network (HUGAT) ( http://arxiv.org/abs/2202.09021v1 )

ライセンス: Link先を確認
Namwoo Kim, Yoonjin Yoon(参考訳) 都市環境を形作る隠れパターンの展開は、そのダイナミクスを理解し、都市をより賢くするために不可欠である。 近年の研究では、市街地の表現を学ぶことは、都市の本質的特徴を明らかにする効果的な戦略となることが示されている。 しかし、既存の研究では都市データソースに多様性を組み込むことができない。 本研究では,多様な都市データセットの均一性を組み込んだヘテロジニアスな都市グラフアテンションネットワーク(HUGAT)を提案する。 HUGATでは、ヘテロジニアス・アーバングラフ (HUG) は、地理的空間と時間的人々の移動のばらつきを単一のグラフ構造に組み込んでいる。 HUGを与えられたメタパスは、ノード間の複合関係としてリッチな都市セマンティクスをキャプチャするように設計されている。 領域埋め込みは、ヘテロジニアスグラフアテンションネットワーク(han)を用いて行われる。 hugatは、都市の地理空間とモビリティのバリエーションの複数の学習目標を同時に考慮するように設計されている。 ニューヨークのデータに関する大規模な実験で、HUGATは最先端のすべてのモデルを上回った。 さらに,犯罪,平均的個人所得,自転車フロー,空間クラスタリングといった様々な予測タスクに対して,堅牢な一般化能力を示した。

Revealing the hidden patterns shaping the urban environment is essential to understand its dynamics and to make cities smarter. Recent studies have demonstrated that learning the representations of urban regions can be an effective strategy to uncover the intrinsic characteristics of urban areas. However, existing studies lack in incorporating diversity in urban data sources. In this work, we propose heterogeneous urban graph attention network (HUGAT), which incorporates heterogeneity of diverse urban datasets. In HUGAT, heterogeneous urban graph (HUG) incorporates both the geo-spatial and temporal people movement variations in a single graph structure. Given a HUG, a set of meta-paths are designed to capture the rich urban semantics as composite relations between nodes. Region embedding is carried out using heterogeneous graph attention network (HAN). HUGAT is designed to consider multiple learning objectives of city's geo-spatial and mobility variations simultaneously. In our extensive experiments on NYC data, HUGAT outperformed all the state-of-the-art models. Moreover, it demonstrated a robust generalization capability across the various prediction tasks of crime, average personal income, and bike flow as well as the spatial clustering task.
翻訳日:2022-02-21 14:23:39 公開日:2022-02-18
# PerFED-GAN: 生成的敵対ネットワークによる個人化フェデレーション学習

PerFED-GAN: Personalized Federated Learning via Generative Adversarial Networks ( http://arxiv.org/abs/2202.09155v1 )

ライセンス: Link先を確認
Xingjian Cao, Gang Sun, Hongfang Yu, Mohsen Guizani(参考訳) AIに依存したIoTアプリケーションをデプロイし、クライアントデータのプライバシとセキュリティを保護するために使用できる分散機械学習メソッドとして、フェデレーション学習が人気を集めている。 クライアントの違いにより、単一のグローバルモデルがすべてのクライアントでうまく機能しない場合があるため、個々のニーズに合ったパーソナライズされたモデルをトレーニングするパーソナライズされたフェデレーション学習手法が研究のホットスポットとなる。 しかし、最もパーソナライズされた連合学習研究は、モデルアーキテクチャの不均一性の必要性を無視しながら、データの多様性に焦点を当てている。 既存のフェデレートラーニング手法の多くは、フェデレーションラーニングに参加するすべてのクライアントのモデルアーキテクチャを均一に設定するが、これは各クライアントの個々のモデルとローカルデータ配信要求に不都合であり、クライアントモデルの漏洩リスクも増大させる。 本稿では,モデルアーキテクチャやパラメータ情報を他のクライアントやセンタと共有することなく,各クライアントが独立してフェデレート学習トレーニングに参加できるように,GAN(Co-training and Generative Adversarial Network)に基づくフェデレーション学習手法を提案する。 実験では,提案手法は,クライアントのモデルアーキテクチャやデータ分散が著しく異なる場合,既存の手法を平均テスト精度で42%上回っている。

Federated learning is gaining popularity as a distributed machine learning method that can be used to deploy AI-dependent IoT applications while protecting client data privacy and security. Due to the differences of clients, a single global model may not perform well on all clients, so the personalized federated learning method, which trains a personalized model for each client that better suits its individual needs, becomes a research hotspot. Most personalized federated learning research, however, focuses on data heterogeneity while ignoring the need for model architecture heterogeneity. Most existing federated learning methods uniformly set the model architecture of all clients participating in federated learning, which is inconvenient for each client's individual model and local data distribution requirements, and also increases the risk of client model leakage. This paper proposes a federated learning method based on co-training and generative adversarial networks(GANs) that allows each client to design its own model to participate in federated learning training independently without sharing any model architecture or parameter information with other clients or a center. In our experiments, the proposed method outperforms the existing methods in mean test accuracy by 42% when the client's model architecture and data distribution vary significantly.
翻訳日:2022-02-21 14:23:21 公開日:2022-02-18
# transfer and marginalize: 特権情報によるラベルノイズの解消

Transfer and Marginalize: Explaining Away Label Noise with Privileged Information ( http://arxiv.org/abs/2202.09244v1 )

ライセンス: Link先を確認
Mark Collier, Rodolphe Jenatton, Efi Kokiopoulou and Jesse Berent(参考訳) 教師付き学習データセットは、トレーニング時に利用可能だがテスト時に利用できない機能、例えばラベルを提供するアノテーションのIDなどの特権情報を持つことが多い。 我々は、特権情報はラベルノイズの除去に有用であり、ノイズラベルの有害影響を低減できると主張している。 そこで我々は,ニューラルネットワークを簡易かつ効率的に管理する手法を開発した。これは,特権情報を用いて学習した知識をウェイト共有し,テスト時に特権情報よりもほぼ疎外する。 我々の方法であるTRAM(TRansfer and Marginalize)は、トレーニング時間オーバーヘッドが最小であり、特権情報を使用しないのと同じテスト時間コストである。 TRAMはCIFAR-10H、ImageNet、Civil Commentsベンチマークで強く動作する。

Supervised learning datasets often have privileged information, in the form of features which are available at training time but are not available at test time e.g. the ID of the annotator that provided the label. We argue that privileged information is useful for explaining away label noise, thereby reducing the harmful impact of noisy labels. We develop a simple and efficient method for supervised neural networks: it transfers via weight sharing the knowledge learned with privileged information and approximately marginalizes over privileged information at test time. Our method, TRAM (TRansfer and Marginalize), has minimal training time overhead and has the same test time cost as not using privileged information. TRAM performs strongly on CIFAR-10H, ImageNet and Civil Comments benchmarks.
翻訳日:2022-02-21 14:22:56 公開日:2022-02-18
# 積み重ねバックプロパゲーションのない物理インフォームニューラルネットワークの学習

Learning Physics-Informed Neural Networks without Stacked Back-propagation ( http://arxiv.org/abs/2202.09340v1 )

ライセンス: Link先を確認
Di He, Wenlei Shi, Shanda Li, Xiaotian Gao, Jia Zhang, Jiang Bian, Liwei Wang, Tie-Yan Liu(参考訳) 物理インフォームドニューラルネットワーク(PINN)は偏微分方程式(PDE)の解法として広く使われている。 しかし、高次元2階PDE問題に直面したPINNは、その損失には2階導関数が含まれており、その計算コストは、積み重ねされたバックプロパゲーションの次元とともに増大する。 本稿では,物理インフォームドニューラルネットワークのトレーニングを大幅に高速化する新しい手法を提案する。 特に、ガウス滑らか化モデルによりPDE解をパラメータ化し、スタインの恒等性から導かれる二次微分がバックプロパゲーションなしで効率的に計算可能であることを示す。 さらに, モデル容量について検討し, 導関数推定の重要な限界に対処する分散低減法を提案する。 実験の結果,提案手法は通常のPINN訓練に比べて2桁の精度で競合誤差を実現できることがわかった。

Physics-Informed Neural Network (PINN) has become a commonly used machine learning approach to solve partial differential equations (PDE). But, facing high-dimensional second-order PDE problems, PINN will suffer from severe scalability issues since its loss includes second-order derivatives, the computational cost of which will grow along with the dimension during stacked back-propagation. In this paper, we develop a novel approach that can significantly accelerate the training of Physics-Informed Neural Networks. In particular, we parameterize the PDE solution by the Gaussian smoothed model and show that, derived from Stein's Identity, the second-order derivatives can be efficiently calculated without back-propagation. We further discuss the model capacity and provide variance reduction methods to address key limitations in the derivative estimation. Experimental results show that our proposed method can achieve competitive error compared to standard PINN training but is two orders of magnitude faster.
翻訳日:2022-02-21 14:20:48 公開日:2022-02-18
# ハイブリッドctc/attentionシステムにおける後部分布適応に基づくエンドツーエンドコンテキストアサー

End-to-end contextual asr based on posterior distribution adaptation for hybrid ctc/attention system ( http://arxiv.org/abs/2202.09003v1 )

ライセンス: Link先を確認
Zhengyi Zhang, Pan Zhou(参考訳) エンドツーエンド(E2E)音声認識アーキテクチャは、従来の音声認識システムのすべてのコンポーネントを単一のモデルに組み立てる。 これはASRシステムを単純化するが、文脈的ASRの欠点を導入している: E2Eモデルは、頻繁な固有名詞を含む発話に対して、より悪い性能を持つ。 本研究では,aed(aware based encoder decoder)モデルに文脈バイアス注意(cba)モジュールを追加し,文脈句認識能力を向上させることを提案する。 具体的には、cbaは特定のバイアス埋め込みに対応するためにデコーダのソース注意のコンテキストベクトルを利用する。 基本的なAEDパラメータと共同で学習し、CBAはその出力確率分布をいつ、どこでバイアスするかをモデルに示すことができる。 推論段階では, バイアス句のリストをプリロードし, CBAの随伴バイアス句に従って, CTCとアテンションデコーダの両方の後方分布を適応させる。 提案手法をgigaaspeechで評価し,ベースラインモデルと比較して15%から28%のバイアスフレーズのリコール率の相対的改善を両立させた。 一方,本手法は,一般試験における性能が1.7%,2000のバイアスフレーズしか存在しないため,強い抗バイアス能力を示す。

End-to-end (E2E) speech recognition architectures assemble all components of traditional speech recognition system into a single model. Although it simplifies ASR system, it introduces contextual ASR drawback: the E2E model has worse performance on utterances containing infrequent proper nouns. In this work, we propose to add a contextual bias attention (CBA) module to attention based encoder decoder (AED) model to improve its ability of recognizing the contextual phrases. Specifically, CBA utilizes the context vector of source attention in decoder to attend to a specific bias embedding. Jointly learned with the basic AED parameters, CBA can tell the model when and where to bias its output probability distribution. At inference stage, a list of bias phrases is preloaded and we adapt the posterior distributions of both CTC and attention decoder according to the attended bias phrase of CBA. We evaluate the proposed method on GigaSpeech and achieve a consistent relative improvement on recall rate of bias phrases ranging from 15% to 28% compared to the baseline model. Meanwhile, our method shows a strong anti-bias ability as the performance on general tests only degrades 1.7% even 2,000 bias phrases are present.
翻訳日:2022-02-21 14:20:29 公開日:2022-02-18
# シンガポールの子どもの英語発音の大規模音響特性

Large-Scale Acoustic Characterization of Singaporean Children's English Pronunciation ( http://arxiv.org/abs/2202.09108v1 )

ライセンス: Link先を確認
Yuling Gu, Nancy F. Chen(参考訳) 本研究は,シンガポールの子どもたちが発声する英語の発音の差異を,選択した母音対と近似詞について,KmeansクラスタリングとArcetypal分析を行うことにより調査する。 歴史的理由からシンガポールがイギリス英語を制度上の基準として採用していることを考えると、シンガポールの子供たちはイギリスの発音パターンに従うだろう。 実際、シンガポールとイギリスの子供たちは、音節末尾/r/の製作において、アメリカ人の子供ほど第3のフォルマントを低くすることはなく、ラロティック性の欠如を示唆している。 興味深いことに、シンガポールの子供たちは、TRAP-BATHスプリット母音を含む様々な母音で示されるように、母音のフロントエンドに関して、アメリカ人の子供と同様のパターンを示す。 シンガポールの児童英語も他の2つの人口に似ていない特徴を示した。 シンガポールの幼児の母音の高さ特性は、アメリカとイギリスの両方の子供と異なることが観察された。 テンソルとラックスの母音対では、シンガポールの他の話者群に比べて区別が目立たないことが一貫して観察されている。 また,F1 と F2 のフォルマントの音節末/l/s への移行,F2 と F3 のホルマントの差,F1 と F2 のフォルマントの差は小さいが,シンガポールの小児の発音ではこれらすべてが示されていない。 これらの知見は、シンガポール英語が英語の発音特性以上の体現化にどのように進化しているかという社会言語学的意味を示唆している。 さらに、シンガポール英語は、シンガポールの多言語環境のために、アメリカ英語やイギリス英語以外の言語の影響を受けている可能性が示唆されている。

In this work, we investigate pronunciation differences in English spoken by Singaporean children in relation to their American and British counterparts by conducting Kmeans clustering and Archetypal analysis on selected vowel pairs and approximants. Given that Singapore adopts British English as the institutional standard due to historical reasons, one might expect Singaporean children to follow British pronunciation patterns. Indeed, Singaporean and British children are more similar in their production of syllable-final /r/ -- they do not lower their third formant nearly as much as American children do, suggesting a lack of rhoticity. Interestingly, Singaporean children also present similar patterns to American children when it comes to their fronting of vowels as demonstrated across various vowels including TRAP-BATH split vowels. Singaporean children's English also demonstrated characteristics that do not resemble any of the other two populations. We observe that Singaporean children's vowel height characteristics are distinct from both that of American and British children. In tense and lax vowel pairs, we also consistently observe that the distinction is less conspicuous for Singaporean children compared to the other speaker groups. Further, while American and British children demonstrate lowering of F1 and F2 formants in transitions into syllable-final /l/s, a wide gap between F2 and F3 formants, and small difference between F1 and F2 formants, all of these are not exhibited in Singaporean children's pronunciation. These findings point towards potential sociolinguistic implications of how Singapore English might be evolving to embody more than British pronunciation characteristics. Furthermore, these findings also suggest that Singapore English could be have been influenced by languages beyond American and British English, potentially due to Singapore's multilingual environment.
翻訳日:2022-02-21 14:20:06 公開日:2022-02-18
# テキスト埋め込みの構成妥当性の評価と調査質問への応用

Evaluating the Construct Validity of Text Embeddings with Application to Survey Questions ( http://arxiv.org/abs/2202.09166v1 )

ライセンス: Link先を確認
Qixiang Fang, Dong Nguyen and Daniel L Oberski(参考訳) 自然言語処理のテキスト埋め込みモデルは、テキストデータ(例えば、単語、文、文書)を有意な数値表現(例えば、テキスト埋め込み)にマッピングすることができる。 このようなモデルはますます社会科学研究に応用されるようになっているが、重要な問題の一つは、社会科学研究に関連する構成の正当な表現である。 そこで本研究では,テキスト埋め込みの有効性を評価するための古典的構成妥当性フレームワークを提案する。 このフレームワークがテキスト埋め込みの不透明で高次元な性質にどのように適応できるかを,調査質問に応用できることを示す。 構成妥当性分析には、いくつかの一般的なテキスト埋め込み手法(fastText、GloVe、BERT、Sentence-BERT、Universal Sentence Encoderなど)が含まれている。 場合によっては、収束し差別的な妥当性の証拠が見つかる。 また,全く新しい調査質問に対する回答を予測するために埋め込みが利用できることを示す。 さらに、BERTベースの埋め込み技術とユニバーサルセンスエンコーダは、他のものよりも、より有効な調査質問の表現を提供する。 以上の結果から,社会科学研究に導入する前に,テキスト埋め込みの構成妥当性を検討する必要性が浮き彫りとなった。

Text embedding models from Natural Language Processing can map text data (e.g. words, sentences, documents) to supposedly meaningful numerical representations (a.k.a. text embeddings). While such models are increasingly applied in social science research, one important issue is often not addressed: the extent to which these embeddings are valid representations of constructs relevant for social science research. We therefore propose the use of the classic construct validity framework to evaluate the validity of text embeddings. We show how this framework can be adapted to the opaque and high-dimensional nature of text embeddings, with application to survey questions. We include several popular text embedding methods (e.g. fastText, GloVe, BERT, Sentence-BERT, Universal Sentence Encoder) in our construct validity analyses. We find evidence of convergent and discriminant validity in some cases. We also show that embeddings can be used to predict respondent's answers to completely new survey questions. Furthermore, BERT-based embedding techniques and the Universal Sentence Encoder provide more valid representations of survey questions than do others. Our results thus highlight the necessity to examine the construct validity of text embeddings before deploying them in social science research.
翻訳日:2022-02-21 14:19:33 公開日:2022-02-18
# REFUGE2チャレンジ:緑内障診断におけるマルチドメイン学習のための宝物

REFUGE2 Challenge: Treasure for Multi-Domain Learning in Glaucoma Assessment ( http://arxiv.org/abs/2202.08994v1 )

ライセンス: Link先を確認
Huihui Fang, Fei Li, Huazhu Fu, Xu Sun, Xingxing Cao, Jaemin Son, Shuang Yu, Menglu Zhang, Chenglang Yuan, Cheng Bian, Baiying Lei, Benjian Zhao, Xinxing Xu, Shaohua Li, Francisco Fumero, Jose Sigut, Haidar Almubarak, Yakoub Bazi, Yuanhao Guo, Yating Zhou, Ujjwal Baid, Shubham Innani, Tianjiao Guo, Jie Yang, Jos\'e Ignacio Orlando, Hrvoje Bogunovi\'c, Xiulan Zhang, Yanwu Xu(参考訳) 緑内障は第2の盲目の原因であり、世界において不可逆的な盲目疾患の主要な原因である。 集団における緑内障の早期スクリーニングは重要である。 カラー眼底撮影は、眼疾患のスクリーニングに最も費用がかかる画像モダリティである。 深層学習ネットワークは多彩な特徴抽出機能のため,カラーベース画像解析によく用いられる。 しかし、ディープラーニング手法のモデルトレーニングには大量のデータが必要であり、モデル性能の堅牢性のためには、データの分布が豊富である必要がある。 カラーファンドス写真における深層学習研究の促進と,AI技術の臨床応用のさらなる研究を支援するため,我々はREFUGE2チャレンジを行った。 この課題により、zeiss、canon、kowa、topconを含む4つのモデルの2000色のファンドイメージがリリースされ、マルチドメインでのアルゴリズムの安定化と一般化が検証された。 さらに, 緑内障分類, cup/optic disc segmentation, macular fovea localizationの3つのサブタスクがデザインされた。 これらのサブタスクは、コンピュータビジョンの3つの主要な問題を技術的にカバーし、臨床では緑内障の診断の主要な研究をカバーしている。 大会には1,300以上の国際競技者が参加し、134チームが3000以上の有効な予備結果を提出し、22チームが決勝に進出した。 本稿では、ファイナリストのメソッドを要約し、その結果を分析する。 特に、ドメイン適応戦略を使用しているチームは、マルチドメインのデータセットで高い堅牢なパフォーマンスを示した。 このことは、UDAや他のマルチドメイン研究が将来ディープラーニング分野のトレンドとなり、我々のREFUGE2データセットがこれらの研究において重要な役割を果たすことを示している。

Glaucoma is the second leading cause of blindness and is the leading cause of irreversible blindness disease in the world. Early screening for glaucoma in the population is significant. Color fundus photography is the most cost effective imaging modality to screen for ocular diseases. Deep learning network is often used in color fundus image analysis due to its powful feature extraction capability. However, the model training of deep learning method needs a large amount of data, and the distribution of data should be abundant for the robustness of model performance. To promote the research of deep learning in color fundus photography and help researchers further explore the clinical application signification of AI technology, we held a REFUGE2 challenge. This challenge released 2,000 color fundus images of four models, including Zeiss, Canon, Kowa and Topcon, which can validate the stabilization and generalization of algorithms on multi-domain. Moreover, three sub-tasks were designed in the challenge, including glaucoma classification, cup/optic disc segmentation, and macular fovea localization. These sub-tasks technically cover the three main problems of computer vision and clinicly cover the main researchs of glaucoma diagnosis. Over 1,300 international competitors joined the REFUGE2 challenge, 134 teams submitted more than 3,000 valid preliminary results, and 22 teams reached the final. This article summarizes the methods of some of the finalists and analyzes their results. In particular, we observed that the teams using domain adaptation strategies had high and robust performance on the dataset with multi-domain. This indicates that UDA and other multi-domain related researches will be the trend of deep learning field in the future, and our REFUGE2 datasets will play an important role in these researches.
翻訳日:2022-02-21 14:18:46 公開日:2022-02-18
# きめ細かなオフロード意味セグメンテーションのためのアクティブ・コントラスト学習フレームワーク

An Active and Contrastive Learning Framework for Fine-Grained Off-Road Semantic Segmentation ( http://arxiv.org/abs/2202.09002v1 )

ライセンス: Link先を確認
Biao Gao, Xijun Zhao, Huijing Zhao(参考訳) 微粒なラベルを持つオフロードセマンティックセマンティックセマンティクスは、様々な機械的特性を持つオフロード車両を満足できないため、自動運転車が走行シーンを理解するために必要である。 オフロードシーンにおける微粒なセマンティックセグメンテーションは通常、曖昧な自然環境のために統一されたカテゴリ定義を持たない。 さらに, 降水量, 温度, 剥離などにより, オフロードシーンのセマンティックな特性は, 非常に変化しやすい。 これらの課題に対処するため,本研究では,画素単位のラベルに依存せず,パッチベースの弱いアノテーションにのみ依存する,アクティブでコントラストのある学習手法を提案する。 事前定義されたセマンティックなカテゴリは不要であり、対照的な学習に基づく特徴表現と適応クラスタリングはシーンデータからカテゴリモデルを発見する。 新しいシーンに積極的に適応するために,サプリメントラベリングのための高リスク予測付きハードフレームの検出と選択を行い,モデルを効率的に更新するリスク評価手法を提案する。 筆者らが開発したオフロードデータセットとDeepSceneデータセットを用いて行った実験は、数十の弱いラベル付きフレームで、きめ細かいセマンティックセマンティックセマンティクスを学習できることを示し、モデルは、一般的な完全な教師付きベースラインとほぼ同じレベルのパフォーマンスを実現しつつ、弱い監視によって、シーン間で効率的に適応することができる。

Off-road semantic segmentation with fine-grained labels is necessary for autonomous vehicles to understand driving scenes, as the coarse-grained road detection can not satisfy off-road vehicles with various mechanical properties. Fine-grained semantic segmentation in off-road scenes usually has no unified category definition due to ambiguous nature environments, and the cost of pixel-wise labeling is extremely high. Furthermore, semantic properties of off-road scenes can be very changeable due to various precipitations, temperature, defoliation, etc. To address these challenges, this research proposes an active and contrastive learning-based method that does not rely on pixel-wise labels, but only on patch-based weak annotations for model learning. There is no need for predefined semantic categories, the contrastive learning-based feature representation and adaptive clustering will discover the category model from scene data. In order to actively adapt to new scenes, a risk evaluation method is proposed to discover and select hard frames with high-risk predictions for supplemental labeling, so as to update the model efficiently. Experiments conducted on our self-developed off-road dataset and DeepScene dataset demonstrate that fine-grained semantic segmentation can be learned with only dozens of weakly labeled frames, and the model can efficiently adapt across scenes by weak supervision, while achieving almost the same level of performance as typical fully supervised baselines.
翻訳日:2022-02-21 14:17:08 公開日:2022-02-18
# コントラスト学習を伴う組織像におけるマイトショット分類の理解と一般化

Towards better understanding and better generalization of few-shot classification in histology images with contrastive learning ( http://arxiv.org/abs/2202.09059v1 )

ライセンス: Link先を確認
Jiawei Yang, Hanbo Chen, Jiangpeng Yan, Xiaoyu Chen, Jianhua Yao(参考訳) 自然画像に長年定着している課題は少ないが, よくラベル付けされたデータセットやまれな異常なサンプルの収集が高価であるため,臨床価値の高い組織像に注目する研究は少ない。 本稿では,実際のクリニック問題をシミュレートする3つのクロスドメインタスクを設定することにより,組織像におけるマイトショット学習の研究を促進する。 ラベル効率のよい学習とより優れた一般化性を実現するために,コントラスト学習 (CL) と潜時拡張 (LA) を併用して数ショットシステムを構築することを提案する。 CLは手動ラベルなしで有用な表現を学習し、LAは教師なしの方法でベースデータセットのセマンティックなバリエーションを転送する。 これら2つのコンポーネントはラベルなしのトレーニングデータを完全に活用し、他のラベル格納問題に対して優雅にスケールすることができる。 実験では 一 CLが学習したモデルは、目に見えないクラスの組織像の教師あり学習より一般化し、 二 LAが基準線より一貫した利得をもたらすこと。 自己教師型学習の以前の研究は、主にイメージネットのようなイメージに焦点を当てていた。 近年,マルチオブジェクト画像やマルチテキスト画像に注目が集まっている。 このような研究には、組織像が自然な選択である。 このようなデータに対する一般化の観点からは,教師付き学習よりもclが優れていることを示し,この観察に対する経験的理解を提供する。 本研究の知見は,このモデルが表現学習と組織像解析の両方の文脈においてどのように一般化するかを理解するのに寄与する。 コードは利用可能。

Few-shot learning is an established topic in natural images for years, but few work is attended to histology images, which is of high clinical value since well-labeled datasets and rare abnormal samples are expensive to collect. Here, we facilitate the study of few-shot learning in histology images by setting up three cross-domain tasks that simulate real clinics problems. To enable label-efficient learning and better generalizability, we propose to incorporate contrastive learning (CL) with latent augmentation (LA) to build a few-shot system. CL learns useful representations without manual labels, while LA transfers semantic variations of the base dataset in an unsupervised way. These two components fully exploit unlabeled training data and can scale gracefully to other label-hungry problems. In experiments, we find i) models learned by CL generalize better than supervised learning for histology images in unseen classes, and ii) LA brings consistent gains over baselines. Prior studies of self-supervised learning mainly focus on ImageNet-like images, which only present a dominant object in their centers. Recent attention has been paid to images with multi-objects and multi-textures. Histology images are a natural choice for such a study. We show the superiority of CL over supervised learning in terms of generalization for such data and provide our empirical understanding for this observation. The findings in this work could contribute to understanding how the model generalizes in the context of both representation learning and histological image analysis. Code is available.
翻訳日:2022-02-21 14:16:40 公開日:2022-02-18
# 逆行性話者適応による構音再建における話者同一性保存

Speaker Identity Preservation in Dysarthric Speech Reconstruction by Adversarial Speaker Adaptation ( http://arxiv.org/abs/2202.09082v1 )

ライセンス: Link先を確認
Disong Wang, Songxiang Liu, Xixin Wu, Hui Lu, Lifa Sun, Xunying Liu, Helen Meng(参考訳) 変形性音声再建(DSR: Dysarthric Speech reconstruction)は, 変形性音声の質の向上を目的としているが, 音声を正常に復元するだけでなく, 話者のアイデンティティも維持する必要があるため, 課題である。 話者識別に最適化された話者エンコーダ(SE)によって抽出された話者表現について検討した。 しかし、SEは、これまで見えなかった変形性スピーカーの特徴を完全に捉えることができないかもしれない。 この課題に対処するため、我々は新しいマルチタスク学習戦略、すなわち、対人話者適応(ASA)を提案する。 ASAの第一のタスクは、ターゲットの変形話者の音声でSEを微調整し、識別関連情報を効果的に捕捉し、第二のタスクは、再構成された音声の分布を基準音声に近いものに調整することで、再構成された音声に異常な発声パターンを組み込まないよう敵の訓練を施す。 実験により,提案手法は,強いベースラインアプローチにより,話者の類似度と比較音声の自然性が向上することを示す。 再建された音声は、中等度者および中等度者に対して22.3%および31.5%の絶対単語誤り率をそれぞれ達成している。 私たちのデモページはこちらで公開されている。

Dysarthric speech reconstruction (DSR), which aims to improve the quality of dysarthric speech, remains a challenge, not only because we need to restore the speech to be normal, but also must preserve the speaker's identity. The speaker representation extracted by the speaker encoder (SE) optimized for speaker verification has been explored to control the speaker identity. However, the SE may not be able to fully capture the characteristics of dysarthric speakers that are previously unseen. To address this research problem, we propose a novel multi-task learning strategy, i.e., adversarial speaker adaptation (ASA). The primary task of ASA fine-tunes the SE with the speech of the target dysarthric speaker to effectively capture identity-related information, and the secondary task applies adversarial training to avoid the incorporation of abnormal speaking patterns into the reconstructed speech, by regularizing the distribution of reconstructed speech to be close to that of reference speech with high quality. Experiments show that the proposed approach can achieve enhanced speaker similarity and comparable speech naturalness with a strong baseline approach. Compared with dysarthric speech, the reconstructed speech achieves 22.3% and 31.5% absolute word error rate reduction for speakers with moderate and moderate-severe dysarthria respectively. Our demo page is released here: https://wendison.git hub.io/ASA-DSR-demo/
翻訳日:2022-02-21 14:16:15 公開日:2022-02-18
# ヒルクライミングによるクラスタリング:一貫性の結果

Clustering by Hill-Climbing: Consistency Results ( http://arxiv.org/abs/2202.09023v1 )

ライセンス: Link先を確認
Ery Arias-Castro and Wanli Qiao(参考訳) 1970年代に福永とホセトラーが定式化したいくつかのヒルクライミング手法を考察した。 連続空間と離散空間(すなわちメドイド)の両変種を研究し、その整合性を確立する。

We consider several hill-climbing approaches to clustering as formulated by Fukunaga and Hostetler in the 1970's. We study both continuous-space and discrete-space (i.e., medoid) variants and establish their consistency.
翻訳日:2022-02-21 14:15:49 公開日:2022-02-18
# 分散問題との関連による機械学習の堅牢性再考

Rethinking Machine Learning Robustness via its Link with the Out-of-Distribution Problem ( http://arxiv.org/abs/2202.08944v1 )

ライセンス: Link先を確認
Abderrahmen Amich, Birhanu Eshete(参考訳) 堅牢な機械学習(ML)モデルへの複数の取り組みにもかかわらず、敵の例に対する脆弱性は、防衛戦略を再考する上で難しい問題である。 本稿では,MLモデルに対する感受性の背景にある要因について考察する。 特に,敵の事例とアウト・オブ・ディストリビューション(OOD)問題との因果関係について検討する。 そこで本研究では, 逆方向と自然方向の両方に反するOOD一般化手法を提案する。 OODから分布内マッピングへの直感を通じて,本手法では,OOD入力をモデルのトレーニングとテストに使用するデータ分布に変換する。 異なるスケールの3つのベンチマーク画像データセット(MNIST, CIFAR10, ImageNet)について広範な実験を行い, 画像と画像の変換手法を活用することにより, より広いOOD一般化問題の特別な場合であることを示す。 すべてのデータセットにおいて、我々の翻訳に基づくアプローチはOODの逆入力に対する堅牢性を一貫して改善し、良性(分布内)データに対する正確な精度を維持しつつ、最先端の防御を著しく上回ることを示す。 さらに、より暗い画像やシャープ画像などの自然OOD入力を一般化する。

Despite multiple efforts made towards robust machine learning (ML) models, their vulnerability to adversarial examples remains a challenging problem that calls for rethinking the defense strategy. In this paper, we take a step back and investigate the causes behind ML models' susceptibility to adversarial examples. In particular, we focus on exploring the cause-effect link between adversarial examples and the out-of-distribution (OOD) problem. To that end, we propose an OOD generalization method that stands against both adversary-induced and natural distribution shifts. Through an OOD to in-distribution mapping intuition, our approach translates OOD inputs to the data distribution used to train and test the model. Through extensive experiments on three benchmark image datasets of different scales (MNIST, CIFAR10, and ImageNet) and by leveraging image-to-image translation methods, we confirm that the adversarial examples problem is a special case of the wider OOD generalization problem. Across all datasets, we show that our translation-based approach consistently improves robustness to OOD adversarial inputs and outperforms state-of-the-art defenses by a significant margin, while preserving the exact accuracy on benign (in-distribution) data. Furthermore, our method generalizes on naturally OOD inputs such as darker or sharper images
翻訳日:2022-02-21 14:15:45 公開日:2022-02-18
# DARL1N:ワンホップ隣人による分散マルチエージェント強化学習

DARL1N: Distributed multi-Agent Reinforcement Learning with One-hop Neighbors ( http://arxiv.org/abs/2202.09019v1 )

ライセンス: Link先を確認
Baoqian Wang, Junfei Xie, Nikolay Atanasov(参考訳) 既存のマルチエージェント強化学習(MARL)手法は、扱える問題の規模が限られている。 特にエージェント数の増加に伴い、トレーニングコストは指数関数的に増加する。 本稿では,DARL1N(One-hop Neighbors)を用いた分散マルチエージェント強化学習手法を提案する。 darl1nは、エージェント間のグローバルな相互作用を分離し、一方のホップの隣人に情報交換を制限することによって、次元の呪いを破るオフポリシーのアクタ-批判手法である。 各エージェントは、そのアクション値とポリシー関数をワンホップ地区で最適化し、学習の複雑さを著しく低減するが、近隣の様々な数と状態を訓練することで表現性を維持する。 この構造により、分散学習フレームワークを定式化し、トレーニング手順をさらに高速化することができます。 最先端のMARL法と比較すると、DARL1Nは政策品質を犠牲にすることなくトレーニング時間を著しく短縮し、エージェント数が増加するにつれてスケーラブルである。

Most existing multi-agent reinforcement learning (MARL) methods are limited in the scale of problems they can handle. Particularly, with the increase of the number of agents, their training costs grow exponentially. In this paper, we address this limitation by introducing a scalable MARL method called Distributed multi-Agent Reinforcement Learning with One-hop Neighbors (DARL1N). DARL1N is an off-policy actor-critic method that breaks the curse of dimensionality by decoupling the global interactions among agents and restricting information exchanges to one-hop neighbors. Each agent optimizes its action value and policy functions over a one-hop neighborhood, significantly reducing the learning complexity, yet maintaining expressiveness by training with varying numbers and states of neighbors. This structure allows us to formulate a distributed learning framework to further speed up the training procedure. Comparisons with state-of-the-art MARL methods show that DARL1N significantly reduces training time without sacrificing policy quality and is scalable as the number of agents increases.
翻訳日:2022-02-21 14:15:20 公開日:2022-02-18
# 近傍wasersteinによるグラフ自動エンコーダ

Graph Auto-Encoder Via Neighborhood Wasserstein Reconstruction ( http://arxiv.org/abs/2202.09025v1 )

ライセンス: Link先を確認
Mingyue Tang, Carl Yang, Pan Li(参考訳) グラフニューラルネットワーク(GNN)は、主に半教師付き学習の環境下で、近年、大きな研究の注目を集めている。 タスク非依存の表現が好まれたり、単に監視ができない場合、自動エンコーダフレームワークは、教師なしGNNトレーニングの自然なグラフ再構成目的に役立ちます。 しかし、既存のグラフ自動エンコーダは直接リンクを再構築するために設計されており、この方法で訓練されたGNNは、近距離指向のグラフマイニングタスクにのみ最適化されており、トポロジ的構造が重要であれば不足する。 本研究では,各ノードの近傍情報を埋め込みベクトルにエンコードすることを本質的に学習するGNNのグラフ符号化プロセスを再検討し,近隣ワッサースタイン再構成(NWR)を通して近傍情報と構造の両方に関する近傍情報を再構築する新しいグラフデコーダを提案する。 具体的には、各ノードのGNN埋め込みから、NWRはそのノード次数と隣り合う特徴分布を共同で予測し、分布予測はワッサーシュタイン距離に基づいて最適輸送損失を採用する。 合成および実世界のネットワークデータセットの広範な実験により、NWRで学習した教師なしノード表現は、構造指向のグラフマイニングタスクにおいてはるかに有利であると同時に、近接指向のノードでの競合性能も達成している。

Graph neural networks (GNNs) have drawn significant research attention recently, mostly under the setting of semi-supervised learning. When task-agnostic representations are preferred or supervision is simply unavailable, the auto-encoder framework comes in handy with a natural graph reconstruction objective for unsupervised GNN training. However, existing graph auto-encoders are designed to reconstruct the direct links, so GNNs trained in this way are only optimized towards proximity-oriented graph mining tasks, and will fall short when the topological structures matter. In this work, we revisit the graph encoding process of GNNs which essentially learns to encode the neighborhood information of each node into an embedding vector, and propose a novel graph decoder to reconstruct the entire neighborhood information regarding both proximity and structure via Neighborhood Wasserstein Reconstruction (NWR). Specifically, from the GNN embedding of each node, NWR jointly predicts its node degree and neighbor feature distribution, where the distribution prediction adopts an optimal-transport loss based on the Wasserstein distance. Extensive experiments on both synthetic and real-world network datasets show that the unsupervised node representations learned with NWR have much more advantageous in structure-oriented graph mining tasks, while also achieving competitive performance in proximity-oriented ones.
翻訳日:2022-02-21 14:14:58 公開日:2022-02-18
# (参考訳) 動的変分オートエンコーダを用いた教師なしマルチオブジェクトトラッキング [全文訳有]

Unsupervised Multiple-Object Tracking with a Dynamical Variational Autoencoder ( http://arxiv.org/abs/2202.09315v1 )

ライセンス: CC BY 4.0
Xiaoyu Lin, Laurent Girin, Xavier Alameda-Pineda(参考訳) 本稿では,DVAE-UMOTと呼ばれる動的変動オートエンコーダ(DVAE)に基づくマルチオブジェクト追跡(MOT)のための教師なし確率モデルと関連する推定アルゴリズムを提案する。 DVAEは潜伏変数の深い生成モデルであり、時間的シーケンスのモデリングのための変分オートエンコーダの拡張と見なすことができる。 dvae-umotには、シングルオブジェクトトラジェクタのラベルなし合成データセットで事前トレーニングされた後に、オブジェクトのダイナミクスをモデル化するために含まれている。 次に、dvae-umotの分布とパラメータを、変分推論の原理を用いて、各多目的列上で推定して追跡する:潜在変数の近似後続分布の定義と、データ類似関数の下界における対応する証拠の最大化。 DVAE-UMOTは2つの最先端確率MOTモデルの性能を上回り、競争力を発揮する。 コードとデータは公開されている。

In this paper, we present an unsupervised probabilistic model and associated estimation algorithm for multi-object tracking (MOT) based on a dynamical variational autoencoder (DVAE), called DVAE-UMOT. The DVAE is a latent-variable deep generative model that can be seen as an extension of the variational autoencoder for the modeling of temporal sequences. It is included in DVAE-UMOT to model the objects' dynamics, after being pre-trained on an unlabeled synthetic dataset of single-object trajectories. Then the distributions and parameters of DVAE-UMOT are estimated on each multi-object sequence to track using the principles of variational inference: Definition of an approximate posterior distribution of the latent variables and maximization of the corresponding evidence lower bound of the data likehood function. DVAE-UMOT is shown experimentally to compete well with and even surpass the performance of two state-of-the-art probabilistic MOT models. Code and data are publicly available.
翻訳日:2022-02-21 14:13:09 公開日:2022-02-18
# 滑らか化と確率勾配を伴う良性非凸性に取り組む

Tackling benign nonconvexity with smoothing and stochastic gradients ( http://arxiv.org/abs/2202.09052v1 )

ライセンス: Link先を確認
Harsh Vardhan, Sebastian U. Stich(参考訳) 非凸最適化問題は機械学習、特にディープラーニングにおいてユビキタスである。 このような複雑な問題は確率勾配降下 (SGD) を用いて実際に最適化されることが多いが、理論解析はこの成功を適切に説明できない。 特に、標準解析は非凸函数上のSGDの大域収束を示さず、定常点(局所ミニマ点やサドル点でもある)への収束を示す。 本研究では, ゆがんだSGD(確率的雑音によるゆらぎ)が, 大域的最小値(あるいはその近傍)に収束することを示す, 局所的最小値に留まらない勾配下降とは対照的に, 広範に非凸関数のクラスを同定する。 例えば、凸(強凸あるいはPL)関数に比較的近い非凸函数について、SGD が大域的最適に線型収束可能であることを示す。

Non-convex optimization problems are ubiquitous in machine learning, especially in Deep Learning. While such complex problems can often be successfully optimized in practice by using stochastic gradient descent (SGD), theoretical analysis cannot adequately explain this success. In particular, the standard analyses do not show global convergence of SGD on non-convex functions, and instead show convergence to stationary points (which can also be local minima or saddle points). We identify a broad class of nonconvex functions for which we can show that perturbed SGD (gradient descent perturbed by stochastic noise -- covering SGD as a special case) converges to a global minimum (or a neighborhood thereof), in contrast to gradient descent without noise that can get stuck in local minima far from a global solution. For example, on non-convex functions that are relatively close to a convex-like (strongly convex or PL) function we show that SGD can converge linearly to a global optimum.
翻訳日:2022-02-21 13:17:03 公開日:2022-02-18
# 因果学習のための補間と正規化

Interpolation and Regularization for Causal Learning ( http://arxiv.org/abs/2202.09054v1 )

ライセンス: Link先を確認
Leena Chennuru Vankadara, Luca Rendsburg, Ulrike von Luxburg, Debarghya Ghoshdastidar(参考訳) 補間レンズとそれに対応する正則化を通して観測データから因果モデルを学習する問題について検討する。 最近の理論や経験的研究の膨大な量は、高度に複雑なモデルクラスにおいて、補間推定子は優れた統計一般化特性を持ち、統計学習に最適であるかもしれないことを示唆している。 最近Janzing (2019) が強調した統計学と因果学習の類推により, 補間推定器が優れた因果モデルも学べるかどうかを考察した。 この目的のために,単純な線形結合モデルを考え,高次元環境におけるmin-norm補間器とリッジ正規化レグレッサの*causal risk*に対する正確な漸近性を求める。 因果学習における標準的な仮定である独立因果機構の原理の下では、補間子は最適ではなく、因果学習は統計的学習よりも強固な正規化を必要とする。 これは最近のJanzing (2019) の予想を解く。 この仮定を超越すると、より広い範囲の行動が、*結合力*という新しい尺度で正確に特徴づけられるようになる。 共起強度が負の場合、因果学習は統計的学習よりも弱い正則化を必要とし、補間器は最適であり、最適正則化は負である。 結合強度が大きい場合、最適正則化は無限であり、観測データからの学習は積極的に有害である。

We study the problem of learning causal models from observational data through the lens of interpolation and its counterpart -- regularization. A large volume of recent theoretical, as well as empirical work, suggests that, in highly complex model classes, interpolating estimators can have good statistical generalization properties and can even be optimal for statistical learning. Motivated by an analogy between statistical and causal learning recently highlighted by Janzing (2019), we investigate whether interpolating estimators can also learn good causal models. To this end, we consider a simple linearly confounded model and derive precise asymptotics for the *causal risk* of the min-norm interpolator and ridge-regularized regressors in the high-dimensional regime. Under the principle of independent causal mechanisms, a standard assumption in causal learning, we find that interpolators cannot be optimal and causal learning requires stronger regularization than statistical learning. This resolves a recent conjecture in Janzing (2019). Beyond this assumption, we find a larger range of behavior that can be precisely characterized with a new measure of *confounding strength*. If the confounding strength is negative, causal learning requires weaker regularization than statistical learning, interpolators can be optimal, and the optimal regularization can even be negative. If the confounding strength is large, the optimal regularization is infinite, and learning from observational data is actively harmful.
翻訳日:2022-02-21 13:16:44 公開日:2022-02-18
# マスケ予測タスク:パラメータ識別可能性の観点から

Masked prediction tasks: a parameter identifiability view ( http://arxiv.org/abs/2202.09305v1 )

ライセンス: Link先を確認
Bingbin Liu, Daniel Hsu, Pradeep Ravikumar, Andrej Risteski(参考訳) 自己教師付き学習におけるほとんどの作業は、理論上も経験的でも(ほとんどが後者であるが)、下流タスクの優れた機能を回復することに集中しており、「良い」の定義はしばしば下流タスク自体と複雑に結びついている。 このレンズは間違いなく非常に興味深いものですが、ダウンストリームタスクの"canonical"セットが存在しないという問題に苦しんでいます。 本稿では、パラメータ識別性の一つとして、代替レンズを提案する。 より正確には、パラメトリック確率モデルからのデータを考慮し、適切に選択されたパラメトリック形式で自己教師付き学習予測器を訓練する。 次に、最適予測器から確率モデルの基底的真理パラメータを読み取ることができるかどうかを問う。 自然言語と視覚データの両方に共通するマスクトークンを予測する,広範に使用されている自己教師付き学習手法に注目した。 このアプローチのインカーネーションは、より単純な確率モデル(例えば、完全に観測されていないグラフィカルモデルを学ぶ)に既にうまく使われているが、代わりに、逐次構造をキャプチャする潜在変数モデル、すなわち離散的および条件的ガウス的観測の両方を持つ隠れマルコフモデルに焦点を当てている。 我々は,可能性の豊かな景観が存在することを示し,その内,予測タスクによって識別可能となるものもあれば,そうでないものもある。 この結果は,自己指導型学習の理論的根拠に基づくものであり,実践に有益な影響を与える可能性がある。 さらに、テンソル階数分解の特異性との密接な関係を明らかにする。これはモーメント法のレンズによる識別可能性の研究において広く用いられているツールである。

The vast majority of work in self-supervised learning, both theoretical and empirical (though mostly the latter), have largely focused on recovering good features for downstream tasks, with the definition of "good" often being intricately tied to the downstream task itself. This lens is undoubtedly very interesting, but suffers from the problem that there isn't a "canonical" set of downstream tasks to focus on -- in practice, this problem is usually resolved by competing on the benchmark dataset du jour. In this paper, we present an alternative lens: one of parameter identifiability. More precisely, we consider data coming from a parametric probabilistic model, and train a self-supervised learning predictor with a suitably chosen parametric form. Then, we ask whether we can read off the ground truth parameters of the probabilistic model from the optimal predictor. We focus on the widely used self-supervised learning method of predicting masked tokens, which is popular for both natural languages and visual data. While incarnations of this approach have already been successfully used for simpler probabilistic models (e.g. learning fully-observed undirected graphical models), we focus instead on latent-variable models capturing sequential structures -- namely Hidden Markov Models with both discrete and conditionally Gaussian observations. We show that there is a rich landscape of possibilities, out of which some prediction tasks yield identifiability, while others do not. Our results, borne of a theoretical grounding of self-supervised learning, could thus potentially beneficially inform practice. Moreover, we uncover close connections with uniqueness of tensor rank decompositions -- a widely used tool in studying identifiability through the lens of the method of moments.
翻訳日:2022-02-21 13:16:18 公開日:2022-02-18
# GNNにおける一般化アグリゲーション関数:非線形近傍アグリゲータによる高容量GNN

Generalizing Aggregation Functions in GNNs:High-Capacity GNNs via Nonlinear Neighborhood Aggregators ( http://arxiv.org/abs/2202.09145v1 )

ライセンス: Link先を確認
Beibei Wang and Bo Jiang(参考訳) グラフニューラルネットワーク(GNN)は多くのグラフ学習タスクで大きな成功を収めている。 既存のGNNを支えている主な側面は、学習タスクの非線形グラフ表現を学習する多層ネットワークアーキテクチャである。 GNNのコア操作はメッセージの伝搬であり、各ノードは隣人の表現を集約することでその表現を更新する。 既存のGNNは主に、メッセージの伝搬に線形近傍集約(平均,sum)または最大アグリゲータを採用する。 1) 線形アグリゲータの場合,GNNの非線型性とネットワークの容量は,通常,過度にスムースな問題に悩まされるため,一般に制限される。 2) 最大アグリゲータの場合、近隣のノード表現の詳細な情報を認識できないのが普通である。 これらの問題を克服するために,gnnにおけるメッセージ伝達機構を再考し,gnnにおける近傍情報集約のための一般非線形アグリゲータの開発を目指す。 提案する非線形アグリゲータの主な特徴は,maxと平均/平均アグリゲータ間の最適バランスアグリゲータを提供することである。 このアグリゲータは 両方を継承できます (i)ネットワークの容量を増加させる高非線形性 (II)GNNのメッセージ伝達において、表現の詳細な情報を一緒に保存する詳細感度。 複数のデータセットにおける有望な実験は、提案する非線形アグリゲータの有効性を示している。

Graph neural networks (GNNs) have achieved great success in many graph learning tasks. The main aspect powering existing GNNs is the multi-layer network architecture to learn the nonlinear graph representations for the specific learning tasks. The core operation in GNNs is message propagation in which each node updates its representation by aggregating its neighbors' representations. Existing GNNs mainly adopt either linear neighborhood aggregation (mean,sum) or max aggregator in their message propagation. (1) For linear aggregators, the whole nonlinearity and network's capacity of GNNs are generally limited due to deeper GNNs usually suffer from over-smoothing issue. (2) For max aggregator, it usually fails to be aware of the detailed information of node representations within neighborhood. To overcome these issues, we re-think the message propagation mechanism in GNNs and aim to develop the general nonlinear aggregators for neighborhood information aggregation in GNNs. One main aspect of our proposed nonlinear aggregators is that they provide the optimally balanced aggregators between max and mean/sum aggregations. Thus, our aggregators can inherit both (i) high nonlinearity that increases network's capacity and (ii) detail-sensitivity that preserves the detailed information of representations together in GNNs' message propagation. Promising experiments on several datasets show the effectiveness of the proposed nonlinear aggregators.
翻訳日:2022-02-21 13:15:25 公開日:2022-02-18
# 教師なしドメイン適応のための逆ロバストトレーニングの探索

Exploring Adversarially Robust Training for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2202.09300v1 )

ライセンス: Link先を確認
Shao-Yuan Lo and Vishal M. Patel(参考訳) Unsupervised Domain Adaptation (UDA)メソッドは、ラベル付きソースドメインからラベル付きターゲットドメインへの知識の転送を目的としている。 UDAはコンピュータビジョン文学で広く研究されている。 ディープネットワークは敵の攻撃に弱いことが示されている。 しかし、深いUDAモデルの敵意的堅牢性を改善することにはほとんど焦点が当てられず、モデルの信頼性に深刻な懸念がもたらされる。 対人訓練(AT)は最も成功した対人防御のアプローチと考えられている。 それにもかかわらず、従来のATは、非ラベルのターゲット領域におけるその有効性を制限した敵のサンプルや列車モデルを生成するために、地平線ラベルを必要とする。 本稿では、UDAモデルのドメイン不変性を学習しながら、ATを介してラベルなしデータのロバスト性を高める方法について検討する。 これに対応するために、UDAに適用可能な複数のAT変種について体系的な研究を行う。 さらに,ARTUDA と呼ばれる UDA の適応ロバスト学習手法を提案する。 複数の攻撃とベンチマークに関する大規模な実験により、ARTUDAはUDAモデルの対角的堅牢性を一貫して改善することが示された。

Unsupervised Domain Adaptation (UDA) methods aim to transfer knowledge from a labeled source domain to an unlabeled target domain. UDA has been extensively studied in the computer vision literature. Deep networks have been shown to be vulnerable to adversarial attacks. However, very little focus is devoted to improving the adversarial robustness of deep UDA models, causing serious concerns about model reliability. Adversarial Training (AT) has been considered to be the most successful adversarial defense approach. Nevertheless, conventional AT requires ground-truth labels to generate adversarial examples and train models, which limits its effectiveness in the unlabeled target domain. In this paper, we aim to explore AT to robustify UDA models: How to enhance the unlabeled data robustness via AT while learning domain-invariant features for UDA? To answer this, we provide a systematic study into multiple AT variants that potentially apply to UDA. Moreover, we propose a novel Adversarially Robust Training method for UDA accordingly, referred to as ARTUDA. Extensive experiments on multiple attacks and benchmarks show that ARTUDA consistently improves the adversarial robustness of UDA models.
翻訳日:2022-02-21 13:15:04 公開日:2022-02-18
# MultiRes-NetVLAD:低解像度画像を用いた位置認識訓練の強化

MultiRes-NetVLAD: Augmenting Place Recognition Training with Low-Resolution Imagery ( http://arxiv.org/abs/2202.09146v1 )

ライセンス: Link先を確認
Ahmad Khaliq, Michael Milford and Sourav Garg(参考訳) 視覚的位置認識(VPR)は、6-DoFのローカライゼーション、視覚SLAM、そしてモーションパイプラインの重要なコンポーネントであり、グローバルな場所記述子をマッチングすることで、位置マッチング仮説の初期リストを生成する。 しかし、一般的に使用されるcnnベースの手法は、トレーニング後に複数の画像解像度を処理するか、単一の解像度を使用して、トレーニング中に最後の畳み込み層にマルチスケールの特徴抽出を制限する。 本稿では,低解像度画像ピラミッド符号化によるNetVLAD表現学習を強化し,よりリッチな位置表現を実現する。 結果として得られる多重解像度特徴ピラミッドは、VLADを通して単一のコンパクト表現に便利に集約することができ、近年のマルチスケールアプローチにおいて、複数のパッチの連結や要約を回避することができる。 さらに,学習機能テンソルと既存のマルチスケールアプローチを組み合わせることで,ベースライン性能を向上できることを示す。 15の視点変化および視点整合性ベンチマークデータセットの評価により、提案したMultiRes-NetVLADが、グローバルディスクリプタベースの検索のための最先端のRecall@Nパフォーマンスをもたらすことを確認した。 ソースコードはhttps://github.com/A hmedest61/MultiRes-N etVLADで公開されている。

Visual Place Recognition (VPR) is a crucial component of 6-DoF localization, visual SLAM and structure-from-motio n pipelines, tasked to generate an initial list of place match hypotheses by matching global place descriptors. However, commonly-used CNN-based methods either process multiple image resolutions after training or use a single resolution and limit multi-scale feature extraction to the last convolutional layer during training. In this paper, we augment NetVLAD representation learning with low-resolution image pyramid encoding which leads to richer place representations. The resultant multi-resolution feature pyramid can be conveniently aggregated through VLAD into a single compact representation, avoiding the need for concatenation or summation of multiple patches in recent multi-scale approaches. Furthermore, we show that the underlying learnt feature tensor can be combined with existing multi-scale approaches to improve their baseline performance. Evaluation on 15 viewpoint-varying and viewpoint-consistent benchmarking datasets confirm that the proposed MultiRes-NetVLAD leads to state-of-the-art Recall@N performance for global descriptor based retrieval, compared against 11 existing techniques. Source code is publicly available at https://github.com/A hmedest61/MultiRes-N etVLAD.
翻訳日:2022-02-21 13:14:46 公開日:2022-02-18
# (参考訳) 解釈可能な強化学習は資産を管理することができるか? [全文訳有]

Can Interpretable Reinforcement Learning Manage Assets Your Way? ( http://arxiv.org/abs/2202.09064v1 )

ライセンス: CC BY 4.0
Charl Maree and Christian Omlin(参考訳) 製品やサービスのパーソナライゼーションは、銀行や商取引の成功の原動力になりつつある。 機械学習は、顧客のニーズと好みをより深く理解し、調整するという約束を持っている。 金融決定問題に対する従来のソリューションは、しばしばモデル前提に依存するが、強化学習は、複雑な金融環境で顧客のモデリングと意思決定を改善するために大量のデータを活用することができる。 モデル説明可能性と解釈可能性(英語版)は、受け入れの透明性を要求する規制の観点からの課題を提示し、顧客に対する洞察と理解を改善する機会を提供する。 ポストホックアプローチは通常、事前訓練された強化学習モデルを説明するために使用される。 これまでの顧客消費行動のモデル化に基づいて、本質的に望ましい行動を特徴付ける最近の強化学習アルゴリズムを適用し、資産管理の問題に移行する。 自己解釈可能な強化学習エージェントを訓練し,ファイナンシャルパーソナリティのプロトタイプと整合した投資アドバイスを行い,最終推薦を行う。 我々は、訓練されたエージェントのアドバイスが意図した特性に固執し、複合的な成長の価値を学習し、明確な言及なしにリスクの概念と政策の収束を改善することを観察する。

Personalisation of products and services is fast becoming the driver of success in banking and commerce. Machine learning holds the promise of gaining a deeper understanding of and tailoring to customers' needs and preferences. Whereas traditional solutions to financial decision problems frequently rely on model assumptions, reinforcement learning is able to exploit large amounts of data to improve customer modelling and decision-making in complex financial environments with fewer assumptions. Model explainability and interpretability present challenges from a regulatory perspective which demands transparency for acceptance; they also offer the opportunity for improved insight into and understanding of customers. Post-hoc approaches are typically used for explaining pretrained reinforcement learning models. Based on our previous modeling of customer spending behaviour, we adapt our recent reinforcement learning algorithm that intrinsically characterizes desirable behaviours and we transition to the problem of asset management. We train inherently interpretable reinforcement learning agents to give investment advice that is aligned with prototype financial personality traits which are combined to make a final recommendation. We observe that the trained agents' advice adheres to their intended characteristics, they learn the value of compound growth, and, without any explicit reference, the notion of risk as well as improved policy convergence.
翻訳日:2022-02-21 13:12:59 公開日:2022-02-18
# TURNER:中国のNERのための不確実性ベースの検索フレームワーク

TURNER: The Uncertainty-based Retrieval Framework for Chinese NER ( http://arxiv.org/abs/2202.09022v1 )

ライセンス: Link先を確認
Zhichao Geng, Hang Yan, Zhangyue Yin, Chenxin An, Xipeng Qiu(参考訳) 中国語のNERは、漢字の曖昧さと単語境界の欠如のために難しい作業である。 これまでの中国NERの研究は、境界情報を導入し、予測中のOV(out-of-vocabulary )ケースを減らすための辞書ベースの手法に重点を置いていた。 しかし、特定のドメインで高品質なレキシコンを取得し、動的に維持することは高価であり、検索エンジンのようなより一般的な知識資源を利用する動機となる。 本稿では,中国語NERのための不確実性に基づく検索フレームワークTURNERを提案する。 我々はしばしば、未知または未知の実体に遭遇するときに補助的な知識を補助として取り出す。 検索の効率性と有効性を改善するために,入力テキストの最も曖昧なエンティティレベルの不確実なコンポーネントを選択するための2種類の不確実性サンプリング手法を提案する。 そして、知識融合モデルにより、得られた知識を組み合わせて不確実なサンプルを再予測する。 4つのベンチマークデータセットの実験では、TURNERの有効性が示されている。 TURNERは既存のレキシコンベースのアプローチより優れ、新しいSOTAを実現する。

Chinese NER is a difficult undertaking due to the ambiguity of Chinese characters and the absence of word boundaries. Previous work on Chinese NER focus on lexicon-based methods to introduce boundary information and reduce out-of-vocabulary (OOV) cases during prediction. However, it is expensive to obtain and dynamically maintain high-quality lexicons in specific domains, which motivates us to utilize more general knowledge resources, e.g., search engines. In this paper, we propose TURNER: The Uncertainty-based Retrieval framework for Chinese NER. The idea behind TURNER is to imitate human behavior: we frequently retrieve auxiliary knowledge as assistance when encountering an unknown or uncertain entity. To improve the efficiency and effectiveness of retrieval, we first propose two types of uncertainty sampling methods for selecting the most ambiguous entity-level uncertain components of the input text. Then, the Knowledge Fusion Model re-predict the uncertain samples by combining retrieved knowledge. Experiments on four benchmark datasets demonstrate TURNER's effectiveness. TURNER outperforms existing lexicon-based approaches and achieves the new SOTA.
翻訳日:2022-02-21 13:03:02 公開日:2022-02-18
# Space4HGNN: 異種グラフニューラルネットワーク評価のための新しい,モジュール化された再現可能なプラットフォーム

Space4HGNN: A Novel, Modularized and Reproducible Platform to Evaluate Heterogeneous Graph Neural Network ( http://arxiv.org/abs/2202.09177v1 )

ライセンス: Link先を確認
Tianyu Zhao, Cheng Yang, Yibo Li, Quan Gan, Zhenyi Wang, Fengqi Liang, Huan Zhao, Yingxia Shao, Xiao Wang, Chuan Shi(参考訳) Heterogeneous Graph Neural Network (HGNN) は様々なタスクでうまく使われているが、多様なアーキテクチャや応用シナリオのために、HGNNの異なる設計次元の重要性を正確に知ることはできない。 加えて、HGNNの研究コミュニティでは、様々なタスクの実装と評価には多くの人的努力が必要である。 これらの問題を解決するため,我々はまず,ヘテロジニアス線形変換,ヘテロジニアスグラフ変換,ヘテロジニアスメッセージパッシング層という3つのコンポーネントからなる,ほとんどのhgnnをカバーする統一フレームワークを提案する。 そして、モジュール化されたコンポーネント、再現可能な実装、HGNNの標準化された評価を提供する統一フレームワークに基づいて、HGNNの設計空間を定義することで、Space4HGNNを構築する。 最後に,異なる設計の効果を分析する実験を行う。 その結果, 凝縮した設計空間を蒸留し, その有効性を検証した。

Heterogeneous Graph Neural Network (HGNN) has been successfully employed in various tasks, but we cannot accurately know the importance of different design dimensions of HGNNs due to diverse architectures and applied scenarios. Besides, in the research community of HGNNs, implementing and evaluating various tasks still need much human effort. To mitigate these issues, we first propose a unified framework covering most HGNNs, consisting of three components: heterogeneous linear transformation, heterogeneous graph transformation, and heterogeneous message passing layer. Then we build a platform Space4HGNN by defining a design space for HGNNs based on the unified framework, which offers modularized components, reproducible implementations, and standardized evaluation for HGNNs. Finally, we conduct experiments to analyze the effect of different designs. With the insights found, we distill a condensed design space and verify its effectiveness.
翻訳日:2022-02-21 13:02:26 公開日:2022-02-18
# 救急患者の入院状況予測のための統合的最適化と機械学習モデル

An Integrated Optimization and Machine Learning Models to Predict the Admission Status of Emergency Patients ( http://arxiv.org/abs/2202.09196v1 )

ライセンス: Link先を確認
Abdulaziz Ahmed, Omar Ashour, Haneen Ali, Mohammad Firouz(参考訳) 機械学習アルゴリズムを最適化するためのフレームワークを提案する。 この枠組みの実践性は、救急部門(ED)患者の入院状況(例えば、入院時と退院時)をトリアージ時に患者データを用いて予測する医療領域からの重要事例スタディを用いて説明される。 提案フレームワークは,患者搭乗プロセスを積極的に計画することにより,混雑を緩和することができる。 米国中西部の医療提供者の3つの主要な場所から3年以上にわたるED訪問の電子的健康記録データベースから、患者の記録の大規模な振り返りデータセットを取得する。 T-XGB、T-ADAB、T-MLPの3つの機械学習アルゴリズムが提案されている。 T-XGBは極端な勾配向上(XGB)とタブサーチ(TS)を統合し、T-ADABはAdaboostとTSを統合し、T-MLPは多層パーセプトロン(MLP)とTSを統合する。 提案アルゴリズムは従来のアルゴリズム(XGB, ADAB, MLP)と比較される。 提案する3つのアルゴリズムと元のアルゴリズムは、異なる特徴選択法から得られた9つのデータグループを使って訓練され、テストされる。 言い換えれば、54モデルが開発されている。 評価は, 曲線下面積(AUC), 感度, 特異度, F1, 精度の5つの尺度を用いて行った。 その結果,新たに提案するアルゴリズムは高aucとなり,従来のアルゴリズムを上回った。 T-ADABは新しく開発されたアルゴリズムの中で最高の性能を発揮する。 AUC、感度、特異性、F1、精度はそれぞれ95.4%、99.3%、91.4%、95.2%、97.2%である。

This work proposes a framework for optimizing machine learning algorithms. The practicality of the framework is illustrated using an important case study from the healthcare domain, which is predicting the admission status of emergency department (ED) patients (e.g., admitted vs. discharged) using patient data at the time of triage. The proposed framework can mitigate the crowding problem by proactively planning the patient boarding process. A large retrospective dataset of patient records is obtained from the electronic health record database of all ED visits over three years from three major locations of a healthcare provider in the Midwest of the US. Three machine learning algorithms are proposed: T-XGB, T-ADAB, and T-MLP. T-XGB integrates extreme gradient boosting (XGB) and Tabu Search (TS), T-ADAB integrates Adaboost and TS, and T-MLP integrates multi-layer perceptron (MLP) and TS. The proposed algorithms are compared with the traditional algorithms: XGB, ADAB, and MLP, in which their parameters are tunned using grid search. The three proposed algorithms and the original ones are trained and tested using nine data groups that are obtained from different feature selection methods. In other words, 54 models are developed. Performance was evaluated using five measures: Area under the curve (AUC), sensitivity, specificity, F1, and accuracy. The results show that the newly proposed algorithms resulted in high AUC and outperformed the traditional algorithms. The T-ADAB performs the best among the newly developed algorithms. The AUC, sensitivity, specificity, F1, and accuracy of the best model are 95.4%, 99.3%, 91.4%, 95.2%, 97.2%, respectively.
翻訳日:2022-02-21 13:02:10 公開日:2022-02-18
# 薬物設計のための分子生成--グラフ学習の視点から

Molecule Generation for Drug Design: a Graph Learning Perspective ( http://arxiv.org/abs/2202.09212v1 )

ライセンス: Link先を確認
Nianzu Yang, Huaijin Wu, Junchi Yan, Xiaoyong Pan, Ye Yuan, Le Song(参考訳) 機械学習は多くの分野に革命をもたらし、グラフ学習は近年注目を集めている。 応用の観点から見ると、新しく魅力的な分野の1つは、特に医薬品産業において分子の設計と発見を支援することである。 本調査では,グラフ学習(深層学習)の方法論を取り入れた,最先端の分子(主にデノボ薬物)の設計と発見支援手法の概要について述べる。 具体的には、これらの方法を3つのグループに分類する。 I (複数形 Is) 二 フラグメントベース及び iii) node-by-node さらに,代表的な公開データセットをいくつか提示し,生成と最適化に広く利用されている評価指標を要約する。 最後に,薬物設計の観点から,今後の研究の課題と方向性について議論する。

Machine learning has revolutionized many fields, and graph learning is recently receiving increasing attention. From the application perspective, one of the emerging and attractive areas is aiding the design and discovery of molecules, especially in drug industry. In this survey, we provide an overview of the state-of-the-art molecule (and mostly for de novo drug) design and discovery aiding methods whose methodology involves (deep) graph learning. Specifically, we propose to categorize these methods into three groups: i) all at once, ii) fragment-based and iii) node-by-node. We further present some representative public datasets and summarize commonly utilized evaluation metrics for generation and optimization, respectively. Finally, we discuss challenges and directions for future research, from the drug design perspective.
翻訳日:2022-02-21 13:01:40 公開日:2022-02-18
# DataMUX: ニューラルネットワークのためのデータ多重化

DataMUX: Data Multiplexing for Neural Networks ( http://arxiv.org/abs/2202.09318v1 )

ライセンス: Link先を確認
Vishvak Murahari, Carlos E. Jimenez, Runzhe Yang, Karthik Narasimhan(参考訳) 本稿では,1つのコンパクト表現を用いて,深層ニューラルネットワークが複数の入力を同時に処理できる手法であるデータ多重化(DataMUX)を提案する。 DataMUXは、ニューラルネットワークが入力の混合よりも正確な予測を生成できることを示した。 私たちのアプローチは2つの重要なコンポーネントを使用します。 1)1つの入力と同一サイズの混合表現を作成するために結合する前に各入力に対して固定線形変換を行う多重化層で、ベースネットワークによって処理される。 2) 入力毎に予測を生成する前に、ベースネットワークの出力を独立した表現に変換するデマルチプレクシング層。 文の分類,名前付きエンティティ認識,画像分類にまたがる6つのタスクにおいて,異なるアーキテクチャ(トランスフォーマおよびより少ない範囲のmlpおよびcnn)におけるdatamuxの有効性を示す。 例えば、Transformers用のDataMUXは最大20$x/$40$xの入力を多重化でき、自然言語推論タスクであるMNLIでは、最小限のパフォーマンス低下が$<2\%$と$<4\%$のスループットで、11$x/$18$xのスループットを達成できる。 また、自己アテンションネットワークにおける多重化に関する理論的構成を提供し、DataMUXにおける様々な設計要素の効果を分析する。

In this paper, we introduce data multiplexing (DataMUX), a technique that enables deep neural networks to process multiple inputs simultaneously using a single compact representation. DataMUX demonstrates that neural networks are capable of generating accurate predictions over mixtures of inputs, resulting in increased throughput with minimal extra memory requirements. Our approach uses two key components -- 1) a multiplexing layer that performs a fixed linear transformation to each input before combining them to create a mixed representation of the same size as a single input, which is then processed by the base network, and 2) a demultiplexing layer that converts the base network's output back into independent representations before producing predictions for each input. We show the viability of DataMUX for different architectures (Transformers, and to a lesser extent MLPs and CNNs) across six different tasks spanning sentence classification, named entity recognition and image classification. For instance, DataMUX for Transformers can multiplex up to $20$x/$40$x inputs, achieving $11$x/$18$x increase in throughput with minimal absolute performance drops of $<2\%$ and $<4\%$ respectively on MNLI, a natural language inference task. We also provide a theoretical construction for multiplexing in self-attention networks and analyze the effect of various design elements in DataMUX.
翻訳日:2022-02-21 13:01:30 公開日:2022-02-18
# (参考訳) 敵攻撃とロバスト性に対する防衛モデル評価のための臨界チェックポイント [全文訳有]

Critical Checkpoints for Evaluating Defence Models Against Adversarial Attack and Robustness ( http://arxiv.org/abs/2202.09039v1 )

ライセンス: CC BY 4.0
Kanak Tekwani, Manojkumar Parmar(参考訳) 過去2年間から、マシンラーニングの敵に対する防御モデルを提案する研究者のサイクルがあり、制限条件下での既存の攻撃の多く(いくつかの境界付けられた入力やデータセット上で評価される)に対して、間違いなく防御可能である。 そして間もなく、別の研究者が防御モデルの脆弱性を発見し、より強力な攻撃モデルを提案した。 いくつかの一般的な欠陥は、非常に短期間に壊れた過去の防衛モデルで指摘されている。 防衛モデルは、機械学習モデルの助けを借りて多くの重要な活動を決定するため、簡単に破壊される。 そのため、この技術の健全性を評価し、それを適切な防御技術であると宣言しながら、研究者が心に留めておくべき防衛チェックポイントがまったく必要です。 本稿では,防衛モデルの健全性を構築・評価する上で考慮すべきチェックポイントがほとんどないことを示す。 これらの点は全て、過去の防衛モデルが失敗した理由と、あるモデルがどのようにアダクタンスのままで、非常に強力な攻撃に対してその健全さを証明したかを観察した後に推奨される。

From past couple of years there is a cycle of researchers proposing a defence model for adversaries in machine learning which is arguably defensible to most of the existing attacks in restricted condition (they evaluate on some bounded inputs or datasets). And then shortly another set of researcher finding the vulnerabilities in that defence model and breaking it by proposing a stronger attack model. Some common flaws are been noticed in the past defence models that were broken in very short time. Defence models being broken so easily is a point of concern as decision of many crucial activities are taken with the help of machine learning models. So there is an utter need of some defence checkpoints that any researcher should keep in mind while evaluating the soundness of technique and declaring it to be decent defence technique. In this paper, we have suggested few checkpoints that should be taken into consideration while building and evaluating the soundness of defence models. All these points are recommended after observing why some past defence models failed and how some model remained adamant and proved their soundness against some of the very strong attacks.
翻訳日:2022-02-21 12:59:28 公開日:2022-02-18
# (2.5+1)ビデオ質問応答のための時空間グラフ

(2.5+1)D Spatio-Temporal Scene Graphs for Video Question Answering ( http://arxiv.org/abs/2202.09277v1 )

ライセンス: Link先を確認
Anoop Cherian and Chiori Hori and Tim K. Marks and Jonathan Le Roux(参考訳) ビデオ質問回答(QA)のようなビデオベースの推論タスクに対する時空間のシーングラフアプローチは、典型的には、ビデオフレーム毎にそのようなグラフを構築する。 このようなアプローチは、ビデオが基本的に3d空間で起こる出来事の2dの「ビュー」のシーケンスであり、3dシーンのセマンティクスがフレームからフレームへと引き継がれるという事実をしばしば無視する。 この知見を生かして,ビデオ内の時空間情報の流れをよりよく捉えるために,(2.5+1)dのシーングラフ表現を提案する。 具体的には,まず各2次元フレームをオフザシェルフ2D-to-3D変換モジュールを用いて推定3次元構造に変換して2.5D(pseudo-3D)シーングラフを作成し,次にビデオフレームを共有(2.5+1)D空間に登録し,その内部に2次元シーングラフを接地する。 そのような(2.5+1)Dグラフは静的な部分グラフと動的部分グラフに分離され、その中の物体が通常世界で動くかどうかに対応する。 動的グラフのノードは、他のグラフノードとの相互作用をキャプチャするモーション特徴に富んでいる。 次に、ビデオQAタスクにおいて、(2.5+1)Dグラフを時空間階層空間に埋め込んだトランスフォーマーベースの推論パイプラインを示し、サブグラフとその相互作用を様々な粒度でキャプチャする。 提案手法の有効性を示すため,NExT-QAデータセットとAVSD-QAデータセットについて実験を行った。 以上の結果から,提案した2.5+1(D)表現はトレーニングと推論の高速化に寄与し,階層モデルでは映像QAタスクにおいて技術状況よりも優れた性能を示した。

Spatio-temporal scene-graph approaches to video-based reasoning tasks such as video question-answering (QA) typically construct such graphs for every video frame. Such approaches often ignore the fact that videos are essentially sequences of 2D "views" of events happening in a 3D space, and that the semantics of the 3D scene can thus be carried over from frame to frame. Leveraging this insight, we propose a (2.5+1)D scene graph representation to better capture the spatio-temporal information flows inside the videos. Specifically, we first create a 2.5D (pseudo-3D) scene graph by transforming every 2D frame to have an inferred 3D structure using an off-the-shelf 2D-to-3D transformation module, following which we register the video frames into a shared (2.5+1)D spatio-temporal space and ground each 2D scene graph within it. Such a (2.5+1)D graph is then segregated into a static sub-graph and a dynamic sub-graph, corresponding to whether the objects within them usually move in the world. The nodes in the dynamic graph are enriched with motion features capturing their interactions with other graph nodes. Next, for the video QA task, we present a novel transformer-based reasoning pipeline that embeds the (2.5+1)D graph into a spatio-temporal hierarchical latent space, where the sub-graphs and their interactions are captured at varied granularity. To demonstrate the effectiveness of our approach, we present experiments on the NExT-QA and AVSD-QA datasets. Our results show that our proposed (2.5+1)D representation leads to faster training and inference, while our hierarchical model showcases superior performance on the video QA task versus the state of the art.
翻訳日:2022-02-21 12:50:07 公開日:2022-02-18
# VLP:ビジョンランゲージ事前トレーニングに関する調査

VLP: A Survey on Vision-Language Pre-training ( http://arxiv.org/abs/2202.09061v1 )

ライセンス: Link先を確認
Feilong Chen, Duzhan Zhang, Minglun Han, Xiuyi Chen, Jing Shi, Shuang Xu, Bo Xu(参考訳) 過去数年間、事前学習モデルの出現により、コンピュータビジョン(cv)や自然言語処理(nlp)といったユニモーダルな分野が新しい時代を迎えた。 実質的な作業は、下流のユニモーダルなタスクに有用であることを示し、新しいモデルをゼロからトレーニングすることを避けている。 では、事前学習されたモデルはマルチモーダルタスクに適用できるのだろうか? 研究者はこの問題を調査し、大きな進歩を遂げた。 本稿では,視覚言語事前学習(VLP)の最近の進歩と新たなフロンティアについて調査する。 VLPの全体的な理解を深めるために、私たちは最初に、機能抽出、モデルアーキテクチャ、事前学習目標、事前学習データセット、下流タスクの5つの側面から最新の進歩をレビューする。 次に, 具体的なVLPモデルを詳述する。 最後に,VLPの新たなフロンティアについて論じる。 私たちの知る限りでは、VLPに関する最初の調査です。 この調査が今後のVLP分野の研究に光を当てることを願っている。

In the past few years, the emergence of pre-training models has brought uni-modal fields such as computer vision (CV) and natural language processing (NLP) to a new era. Substantial works have shown they are beneficial for downstream uni-modal tasks and avoid training a new model from scratch. So can such pre-trained models be applied to multi-modal tasks? Researchers have explored this problem and made significant progress. This paper surveys recent advances and new frontiers in vision-language pre-training (VLP), including image-text and video-text pre-training. To give readers a better overall grasp of VLP, we first review its recent advances from five aspects: feature extraction, model architecture, pre-training objectives, pre-training datasets, and downstream tasks. Then, we summarize the specific VLP models in detail. Finally, we discuss the new frontiers in VLP. To the best of our knowledge, this is the first survey on VLP. We hope that this survey can shed light on future research in the VLP field.
翻訳日:2022-02-21 12:49:35 公開日:2022-02-18
# R2-D2:セミスーパービジョン深層学習のための繰り返し予測深部暗号

R2-D2: Repetitive Reprediction Deep Decipher for Semi-Supervised Deep Learning ( http://arxiv.org/abs/2202.08955v1 )

ライセンス: Link先を確認
Guo-Hua Wang, Jianxin Wu(参考訳) 最近の半教師付き深層学習(deep SSL)手法では、ネットワーク予測を使用して擬似ラベルを更新し、擬似ラベルを使用してネットワークパラメータを反復的に更新するという、同様のパラダイムが使用されている。 しかし、理論的な支持は得られず、なぜ予測が深層学習パラダイムにおける擬似ラベルの候補となるのかを説明できない。 本稿では,SSLのためのD2(Deep Decipher)と呼ばれるエンドツーエンドフレームワークを提案する。 D2フレームワーク内では、擬似ラベルが指数的リンク関数によってネットワーク予測に関連があることが証明され、擬似ラベルとして予測を使用する理論的支援を提供する。 さらに,ネットワーク予測による疑似ラベルの更新により不確かになることを示す。 この問題を軽減するために,反復補充(R2)と呼ばれるトレーニング戦略を提案する。 最後に,大規模なImageNetデータセット上でR2-D2法を試験し,最先端の手法を5ポイント上回る性能を示した。

Most recent semi-supervised deep learning (deep SSL) methods used a similar paradigm: use network predictions to update pseudo-labels and use pseudo-labels to update network parameters iteratively. However, they lack theoretical support and cannot explain why predictions are good candidates for pseudo-labels in the deep learning paradigm. In this paper, we propose a principled end-to-end framework named deep decipher (D2) for SSL. Within the D2 framework, we prove that pseudo-labels are related to network predictions by an exponential link function, which gives a theoretical support for using predictions as pseudo-labels. Furthermore, we demonstrate that updating pseudo-labels by network predictions will make them uncertain. To mitigate this problem, we propose a training strategy called repetitive reprediction (R2). Finally, the proposed R2-D2 method is tested on the large-scale ImageNet dataset and outperforms state-of-the-art methods by 5 percentage points.
翻訳日:2022-02-21 12:49:19 公開日:2022-02-18
# 画像リアリズムを学ぶための機械学習パラダイム:Constableの雲は現代のものよりもリアルか?

A Machine Learning Paradigm for Studying Pictorial Realism: Are Constable's Clouds More Real than His Contemporaries? ( http://arxiv.org/abs/2202.09348v1 )

ライセンス: Link先を確認
Zhuomin Zhang and Elizabeth C. Mansfield and Jia Li and John Russell and George S. Young and Catherine Adams and James Z. Wang(参考訳) ヨーロッパの芸術家はルネサンス以来、生命のようなイメージを作ろうとしてきた。 写実主義を絵画に付与するために芸術家が用いた技法は、線形視点のような数学に基づくアプローチに依存することが多いが、写実主義絵画の実用性を評価するための手段は主観的であり、直感的でもある。 絵画リアリズムを評価するためのオルタナティブで比較的客観的な方法の探索は、既存の美術史研究を強化する可能性がある。 画像リアリズムを説明可能な方法で研究するための機械学習に基づくパラダイムを提案する。 美術史家による主観的な評価や、不可解な学習を生かしたコンピュータによる絵画分析とは異なり、この枠組みは、ジョン・コンスタブルのような非常に熟練した19世紀の風景画家が描いた雲と雲の写真との類似性を測定することによって、リアリズムを評価する。 雲の分類実験の結果、コンスタブルは同時代の絵画の実際の雲の形式的特徴よりも一貫して近似していることがわかった。 分析の結果、写真の発明に先立つ数十年間、アーティストは写真のスタイル的特徴を予見する形で活動したことが示唆された。 この研究は、コンピュータビジョンと機械学習を用いた絵画リアリズムのより深い分析のためのバネボードである。

European artists have sought to create life-like images since the Renaissance. The techniques used by artists to impart realism to their paintings often rely on approaches based in mathematics, like linear perspective; yet the means used to assess the verisimilitude of realist paintings have remained subjective, even intuitive. An exploration of alternative and relatively objective methods for evaluating pictorial realism could enhance existing art historical research. We propose a machine-learning-bas ed paradigm for studying pictorial realism in an explainable way. Unlike subjective evaluations made by art historians or computer-based painting analysis exploiting inexplicable learned features, our framework assesses realism by measuring the similarity between clouds painted by exceptionally skillful 19th-century landscape painters like John Constable and photographs of clouds. The experimental results of cloud classification show that Constable approximates more consistently than his contemporaries the formal features of actual clouds in his paintings. Our analyses suggest that artists working in the decades leading up to the invention of photography worked in a mode that anticipated some of the stylistic features of photography. The study is a springboard for deeper analyses of pictorial realism using computer vision and machine learning.
翻訳日:2022-02-21 12:49:03 公開日:2022-02-18
# (参考訳) Data-SUITE:In-distri bution incongruous例のデータ中心同定

Data-SUITE: Data-centric identification of in-distribution incongruous examples ( http://arxiv.org/abs/2202.08836v2 )

ライセンス: CC BY 4.0
Nabeel Seedat, Jonathan Crabb\'e, Mihaela van der Schaar(参考訳) データ品質の体系的定量化は一貫したモデル性能にとって重要である。 以前の研究は、アウトオブディストリビューションデータに重点を置いてきた。 代わりに、特徴空間の不均一性から生じる可能性のある不連続領域(ID)データを特徴付けるという、未検討かつ等しく重要な問題に取り組む。 そこで本研究では,データ中心のフレームワークであるData-SUITEによるパラダイムシフトを提案する。 Data-SUITEは、コプラモデリング、表現学習、コンフォメーション予測を利用して、一連のトレーニングインスタンスに基づいて特徴量信頼区間推定器を構築する。 これらの推定器は、トレーニングセットに関するテストインスタンスの一致を評価するために、(1)トレーニングインスタンスでトレーニングされたモデルによってどのテストインスタンスが確実に予測されるかという、実用的な2つの質問に答えるために使用できる。 そして、(2)データオーナーがデータの制限を理解したり、将来のデータ収集を導くために、特徴空間の不一致領域を識別できますか? 我々は、Data-SUITEの性能とカバレッジ保証を実証的に検証し、クロスサイト医療データ、偏りのあるデータ、コンセプトドリフトデータ、そして、下流モデルが信頼できる(そのモデルに依存しない)ID領域を最もよく識別することを示す。 さらに、これらの特定されたリージョンがデータセットに対する洞察を提供し、その制限を強調する方法について説明する。

Systematic quantification of data quality is critical for consistent model performance. Prior works have focused on out-of-distribution data. Instead, we tackle an understudied yet equally important problem of characterizing incongruous regions of in-distribution (ID) data, which may arise from feature space heterogeneity. To this end, we propose a paradigm shift with Data-SUITE: a data-centric framework to identify these regions, independent of a task-specific model. DATA-SUITE leverages copula modeling, representation learning, and conformal prediction to build feature-wise confidence interval estimators based on a set of training instances. These estimators can be used to evaluate the congruence of test instances with respect to the training set, to answer two practically useful questions: (1) which test instances will be reliably predicted by a model trained with the training instances? and (2) can we identify incongruous regions of the feature space so that data owners understand the data's limitations or guide future data collection? We empirically validate Data-SUITE's performance and coverage guarantees and demonstrate on cross-site medical data, biased data, and data with concept drift, that Data-SUITE best identifies ID regions where a downstream model may be reliable (independent of said model). We also illustrate how these identified regions can provide insights into datasets and highlight their limitations.
翻訳日:2022-02-21 12:46:47 公開日:2022-02-18
# 画像分類における早期停止を用いたニューラルアーキテクチャ探索による2段階アーキテクチャの微調整

Two-Stage Architectural Fine-Tuning with Neural Architecture Search using Early-Stopping in Image Classification ( http://arxiv.org/abs/2202.08604v2 )

ライセンス: Link先を確認
Youngkee Kim, Won Joon Yun, Youn Kyu Lee, Joongheon Kim(参考訳) ディープニューラルネットワーク(NN)は、畳み込みニューラルネットワーク(CNN)によって様々なタスク(コンピュータビジョンなど)でよく機能する。 しかし,業界における品質データ収集の難しさは,NNの利用を妨げている。 この問題に対処するために、大規模なデータセットでトレーニングされたnnの微調整を活用する転送学習(tl)の概念が登場した。 そこで本稿では,ニューラルアーキテクチャサーチ(NAS)の概念に触発された,画像分類のための2段階のアーキテクチャ微調整手法を提案する。 提案手法の主なアイデアの1つはベースアーキテクチャの変異であり、与えられたアーキテクチャ情報を使用することで検索コストを削減できる。 さらに、NASコストを直接削減するアーリーストッピングも検討されている。 実験により,提案手法は計算コストを最大28.2%,検索コストを22.3%削減できることを確認した。

Deep neural networks (NN) perform well in various tasks (e.g., computer vision) because of the convolutional neural networks (CNN). However, the difficulty of gathering quality data in the industry field hinders the practical use of NN. To cope with this issue, the concept of transfer learning (TL) has emerged, which leverages the fine-tuning of NNs trained on large-scale datasets in data-scarce situations. Therefore, this paper suggests a two-stage architectural fine-tuning method for image classification, inspired by the concept of neural architecture search (NAS). One of the main ideas of our proposed method is a mutation with base architectures, which reduces the search cost by using given architectural information. Moreover, an early-stopping is also considered which directly reduces NAS costs. Experimental results verify that our proposed method reduces computational and searching costs by up to 28.2% and 22.3%, compared to existing methods.
翻訳日:2022-02-21 12:44:48 公開日:2022-02-18
# 奥行きを優先した3次元室内シーン合成

3D-Aware Indoor Scene Synthesis with Depth Priors ( http://arxiv.org/abs/2202.08553v2 )

ライセンス: Link先を確認
Zifan Shi, Yujun Shen, Jiapeng Zhu, Dit-Yan Yeung, Qifeng Chen(参考訳) 近年,2次元データから3次元画像合成を学習するGAN(Generative Adversarial Networks)が進歩しているが,室内レイアウトや内部オブジェクトの多様さにより,既存の手法では屋内シーンのモデル化に失敗している。 室内シーンは内在的な構造が共有されていないため, 2次元画像のみを用いた場合, モデルに十分な3次元形状を導くことはできない。 本研究では,このギャップを3次元の先行モデルとして深度を導入することで埋める。 他の3Dデータフォーマットと比較して、深度は畳み込みベースの生成メカニズムに適合し、実際はより容易にアクセスできる。 具体的には、一方の経路が他方の経路に中間的な特徴を注入する深度生成を、外観レンダリングの条件として行うデュアルパス生成器を提案する。 このような設計により、明快な幾何学情報による3D認識合成が容易になる。 一方、実際のv.s.フェイクドメインを区別し、与えられた入力から深さを予測するために、切り替え可能な判別器を導入する。 このようにして、判別器は空間配置を考慮に入れ、ジェネレータに適切な深度条件を学ぶよう助言することができる。 大規模な実験結果から,本手法は室内のシーンを極めて優れた品質と3D整合性で合成することができることが示唆された。

Despite the recent advancement of Generative Adversarial Networks (GANs) in learning 3D-aware image synthesis from 2D data, existing methods fail to model indoor scenes due to the large diversity of room layouts and the objects inside. We argue that indoor scenes do not have a shared intrinsic structure, and hence only using 2D images cannot adequately guide the model with the 3D geometry. In this work, we fill in this gap by introducing depth as a 3D prior. Compared with other 3D data formats, depth better fits the convolution-based generation mechanism and is more easily accessible in practice. Specifically, we propose a dual-path generator, where one path is responsible for depth generation, whose intermediate features are injected into the other path as the condition for appearance rendering. Such a design eases the 3D-aware synthesis with explicit geometry information. Meanwhile, we introduce a switchable discriminator both to differentiate real v.s. fake domains and to predict the depth from a given input. In this way, the discriminator can take the spatial arrangement into account and advise the generator to learn an appropriate depth condition. Extensive experimental results suggest that our approach is capable of synthesizing indoor scenes with impressively good quality and 3D consistency, significantly outperforming state-of-the-art alternatives.
翻訳日:2022-02-21 12:44:32 公開日:2022-02-18
# ADAM チャレンジ: 眼底画像から加齢に伴う黄斑変性を検出する

ADAM Challenge: Detecting Age-related Macular Degeneration from Fundus Images ( http://arxiv.org/abs/2202.07983v2 )

ライセンス: Link先を確認
Huihui Fang, Fei Li, Huazhu Fu, Xu Sun, Xingxing Cao, Fengbin Lin, Jaemin Son, Sunho Kim, Gwenole Quellec, Sarah Matta, Sharath M Shankaranarayana, Yi-Ting Chen, Chuen-heng Wang, Nisarg A. Shah, Chia-Yen Lee, Chih-Chung Hsu, Hai Xie, Baiying Lei, Ujjwal Baid, Shubham Innani, Kang Dang, Wenxiu Shi, Ravi Kamble, Nitin Singhal, Jos\'e Ignacio Orlando, Hrvoje Bogunovi\'c, Xiulan Zhang, Yanwu Xu(参考訳) 加齢関連黄斑変性症(AMD)は、高齢者の視覚障害の主要な原因である。 AMDの早期検出は、AMDによる視力喪失が不可逆的で永続的であるため、非常に重要である。 カラー眼底撮影は網膜障害のスクリーニングに最も費用対効果の高い画像モダリティである。 近頃、深層学習に基づくいくつかのアルゴリズムが基礎画像解析と自動amd検出のために開発された。 しかし、包括的な注釈付きデータセットと標準評価ベンチマークがまだ欠けている。 この問題に対処するため、ISBI 2020カンファレンスの衛星イベントとして初めて、老化関連黄斑変性症(ADAM)の自動検出課題を設定した。 ADAM課題は、AMDの分類、光ディスクの検出・分節、葉の局在、病変の検出・分節を含む、基礎画像からのAMDの検出における主なトピックをカバーした4つの課題からなる。 ADAMの課題は、1200個の眼窩画像の包括的データセットをAMDのカテゴリラベル、全視ディスクと病変のピクセルワイドセグメンテーションマスク(ドライセン、エウデント、出血、傷など)、および黄斑窩の位置座標と共にリリースした。 異なるモデルの公正な比較を行うために、統一評価フレームワークが構築されている。 ADAMチャレンジでは、オンライン評価のために610の結果が提出され、最終的に11チームがオンサイトチャレンジに参加した。 本稿では,課題,データセット,評価手法を紹介するとともに,各タスクに参加するチームの結果を要約し,分析する。 特に,センシング戦略と臨床事前知識が深層学習モデルの性能を向上できることが観察された。

Age-related macular degeneration (AMD) is the leading cause of visual impairment among elderly in the world. Early detection of AMD is of great importance as the vision loss caused by AMD is irreversible and permanent. Color fundus photography is the most cost-effective imaging modality to screen for retinal disorders. \textcolor{red}{Recently, some algorithms based on deep learning had been developed for fundus image analysis and automatic AMD detection. However, a comprehensive annotated dataset and a standard evaluation benchmark are still missing.} To deal with this issue, we set up the Automatic Detection challenge on Age-related Macular degeneration (ADAM) for the first time, held as a satellite event of the ISBI 2020 conference. The ADAM challenge consisted of four tasks which cover the main topics in detecting AMD from fundus images, including classification of AMD, detection and segmentation of optic disc, localization of fovea, and detection and segmentation of lesions. The ADAM challenge has released a comprehensive dataset of 1200 fundus images with the category labels of AMD, the pixel-wise segmentation masks of the full optic disc and lesions (drusen, exudate, hemorrhage, scar, and other), as well as the location coordinates of the macular fovea. A uniform evaluation framework has been built to make a fair comparison of different models. During the ADAM challenge, 610 results were submitted for online evaluation, and finally, 11 teams participated in the onsite challenge. This paper introduces the challenge, dataset, and evaluation methods, as well as summarizes the methods and analyzes the results of the participating teams of each task. In particular, we observed that ensembling strategy and clinical prior knowledge can better improve the performances of the deep learning models.
翻訳日:2022-02-21 12:44:09 公開日:2022-02-18
# BB-ML:機械学習を用いた基本ブロック性能予測

BB-ML: Basic Block Performance Prediction using Machine Learning Techniques ( http://arxiv.org/abs/2202.07798v2 )

ライセンス: Link先を確認
Shamminuj Aktar, Hamdy Abdelkhalik, Nazmul Haque Turja, Yehia Arafa, Atanu Barai, Nishant Panda, Gopinath Chennupati, Nandakishore Santhi, Stephan Eidenbenz and Abdel-Hameed Badawy(参考訳) 近年では、主に粗いレベルで、大規模アプリケーションのパフォーマンスを予測するために機械学習(ml)技術が採用されている。 対照的に、我々はML技術を用いてパフォーマンス予測をはるかにきめ細かな粒度で行うことを提案し、すなわち、すべてのコンパイラが分析ツールとして使用する単一のエントリ単一出口コードブロックであるベーシックブロック(BB)のレベルにおいて、大きなコードを管理可能なピースに分解する。 mlとbb分析を組み合わせることで、現在の技術を超えたスケーラブルなハードウェアとソフトウェアの共同設計が可能になる。 本稿では、gpuアプリケーションの基本ブロック実行数を、同じアプリケーションのより小さな入力サイズの数から、大きな入力サイズに推定する。 我々は、Poisson Neural Network(PNN)とBayesian Regularization Backpropagation Neural Network(BR-BPNN)の2つのMLモデルを採用する。 基本ブロック数を予測するために,アプリケーションの最下位入力値とランダム入力値を用いて両方のモデルを訓練する。 その結果,16種類のベンチマークアプリケーションのブロック実行回数を正確に予測できた。 PNNモデルとBR-BPNNモデルでは、それぞれ93.5%と95.6%の平均精度を達成し、モデルがより小さな入力セットを用いてトレーニングされた場合、大きな入力セットに対する基本ブロック数を外挿する。 さらに、モデルはそれぞれ97.7%と98.1%の精度を示し、ランダムなインスタンスの基本的なブロック数を予測する。

Recent years have seen the adoption of Machine Learning (ML) techniques to predict the performance of large-scale applications, mostly at a coarse level. In contrast, we propose to use ML techniques for performance prediction at much finer granularity, namely at the levels of Basic Block (BB), which are the single entry-single exit code blocks that are used as analysis tools by all compilers to break down a large code into manageable pieces. Utilizing ML and BB analysis together can enable scalable hardware-software co-design beyond the current state of the art. In this work, we extrapolate the basic block execution counts of GPU applications for large inputs sizes from the counts of smaller input sizes of the same application. We employ two ML models, a Poisson Neural Network (PNN) and a Bayesian Regularization Backpropagation Neural Network (BR-BPNN). We train both models using the lowest input values of the application and random input values to predict basic block counts. Results show that our models accurately predict the basic block execution counts of 16 benchmark applications. For PNN and BR-BPNN models, we achieve an average accuracy of 93.5% and 95.6%, respectively, while extrapolating the basic block counts for large input sets when the model is trained using smaller input sets. Additionally, the models show an average accuracy of 97.7% and 98.1%, respectively, while predicting basic block counts on random instances.
翻訳日:2022-02-21 12:43:41 公開日:2022-02-18
# 一般メトリクスに異常値を持つ分散k平均

Distributed k-Means with Outliers in General Metrics ( http://arxiv.org/abs/2202.08173v2 )

ライセンス: Link先を確認
Enrico Dandolo, Andrea Pietracaprina, Geppino Pucci(参考訳) センターベースのクラスタリングは教師なし学習とデータ分析のための重要なプリミティブである。 k-平均問題(k-means problem)は、計量空間からの点のセットが p$ であり、パラメータが $k<|p|$ であるような場合、最も近い中心からの点のすべての二乗距離の和を最小化する部分集合 $s$ of $k$ を決定する必要がある。 ノイズの多いデータセットを扱うために導入された k-means with $z$ outliers と呼ばれるより一般的な定式化では、さらにパラメータ $z$ があり、上記の和を計算するとき、最大 $z$ の $p$ (outliers) が無視される。 本稿では, MapReduce を計算モデルとして, 一般的な距離空間に対する k-means に対する分散コアセットに基づく3ラウンド近似アルゴリズムを提案する。 我々の分散アルゴリズムは、還元器あたりのサブ線形ローカルメモリを必要としており、近似比が$O(\gamma)$であるような解は、最もよく知られた逐次的(おそらくはビクリテリア)アルゴリズムによって達成可能なものから離れたもので、$\gamma$を任意に小さくすることができる。 我々のアルゴリズムの重要な特徴は、距離空間の倍の次元$D$で捉えられたデータセットの本質的な複雑さに鮮明に適応することである。 私たちの知る限りでは、従来の分散アプローチでは、一般的なメトリクスに対して同様の品質とパフォーマンスのトレードオフを達成できなかったのです。

Center-based clustering is a pivotal primitive for unsupervised learning and data analysis. A popular variant is undoubtedly the k-means problem, which, given a set $P$ of points from a metric space and a parameter $k<|P|$, requires to determine a subset $S$ of $k$ centers minimizing the sum of all squared distances of points in $P$ from their closest center. A more general formulation, known as k-means with $z$ outliers, introduced to deal with noisy datasets, features a further parameter $z$ and allows up to $z$ points of $P$ (outliers) to be disregarded when computing the aforementioned sum. We present a distributed coreset-based 3-round approximation algorithm for k-means with $z$ outliers for general metric spaces, using MapReduce as a computational model. Our distributed algorithm requires sublinear local memory per reducer, and yields a solution whose approximation ratio is an additive term $O(\gamma)$ away from the one achievable by the best known sequential (possibly bicriteria) algorithm, where $\gamma$ can be made arbitrarily small. An important feature of our algorithm is that it obliviously adapts to the intrinsic complexity of the dataset, captured by the doubling dimension $D$ of the metric space. To the best of our knowledge, no previous distributed approaches were able to attain similar quality-performance tradeoffs for general metrics.
翻訳日:2022-02-21 12:43:16 公開日:2022-02-18
# グラフトランスフォーマーネットワークを用いた複雑な文書レイアウトにおけるテキストの意味論のモデル化

Modelling the semantics of text in complex document layouts using graph transformer networks ( http://arxiv.org/abs/2202.09144v1 )

ライセンス: Link先を確認
Thomas Roland Barillot (1), Jacob Saks (1), Polena Lilyanova (1), Edward Torgas (1), Yachen Hu (1), Yuanqing Liu (1), Varun Balupuri (1) and Paul Gaskell (1) ((1) BlackRock Inc.)(参考訳) 複雑な文書から構造化されたテキストを表現することは、通常、段落の言語モデルやテーブル抽出のための畳み込みニューラルネットワーク(CNN)など、さまざまな機械学習技術を要求する。 本稿では,文書の人間の読取パターンを近似したモデルを提案し,その内容の種類に関係なく,各テキストに対して一意な意味表現を出力する。 アーキテクチャは構造化テキストのグラフ表現に基づいており、文書間で意味的に類似した情報を検索できるだけでなく、生成した埋め込み空間は、テキストシーケンスのみで動作する言語モデルと同様、有用な意味情報をキャプチャできることを示す。

Representing structured text from complex documents typically calls for different machine learning techniques, such as language models for paragraphs and convolutional neural networks (CNNs) for table extraction, which prohibits drawing links between text spans from different content types. In this article we propose a model that approximates the human reading pattern of a document and outputs a unique semantic representation for every text span irrespective of the content type they are found in. We base our architecture on a graph representation of the structured text, and we demonstrate that not only can we retrieve semantically similar information across documents but also that the embedding space we generate captures useful semantic information, similar to language models that work only on text sequences.
翻訳日:2022-02-21 12:42:29 公開日:2022-02-18
# 予測を伴うアルゴリズムの学習予測

Learning Predictions for Algorithms with Predictions ( http://arxiv.org/abs/2202.09312v1 )

ライセンス: Link先を確認
Mikhail Khodak, Maria-Florina Balcan, Ameet Talwalkar, Sergei Vassilvitskii(参考訳) アルゴリズム設計における飛躍的なパラダイムは、アルゴリズムが問題のいくつかの側面の潜在的に不完全な予測を利用するように設計された予測を伴うアルゴリズムの分野である。 多くの作業は、競争比率、実行時間、その他のパフォーマンス指標を改善するために予測を使うことに集中しているが、特に重要なオンライン環境において、予測自体を取得する方法に関する問題に、より少ない労力が費やされてきた。 予測器を学習するアルゴリズムの一般的な設計手法として,(1)性能指標の機能的依存性を予測品質に同定し,(2)オンライン学習から予測器を敵インスタンスに対して学習する手法を適用し,堅牢性-一貫性のトレードオフをチューニングし,新たな統計的保証を得る。 両部マッチング,ページマイグレーション,スキーレンタル,ジョブスケジューリングの手法を解析することにより,学習アルゴリズムの導出におけるアプローチの有効性を実証する。 第1および最後の設定では、オンラインの結果を導出し、より良くまたはより一般的な統計的な保証を得て、より単純な分析を活用し、第2および第4では第1の学習理論的保証を提供する。

A burgeoning paradigm in algorithm design is the field of algorithms with predictions, in which algorithms are designed to take advantage of a possibly-imperfect prediction of some aspect of the problem. While much work has focused on using predictions to improve competitive ratios, running times, or other performance measures, less effort has been devoted to the question of how to obtain the predictions themselves, especially in the critical online setting. We introduce a general design approach for algorithms that learn predictors: (1) identify a functional dependence of the performance measure on the prediction quality, and (2) apply techniques from online learning to learn predictors against adversarial instances, tune robustness-consisten cy trade-offs, and obtain new statistical guarantees. We demonstrate the effectiveness of our approach at deriving learning algorithms by analyzing methods for bipartite matching, page migration, ski-rental, and job scheduling. In the first and last settings we improve upon existing learning-theoretic results by deriving online results, obtaining better or more general statistical guarantees, and utilizing a much simpler analysis, while in the second and fourth we provide the first learning-theoretic guarantees.
翻訳日:2022-02-21 12:42:17 公開日:2022-02-18