このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220325となっている論文です。

PDF登録状況(公開日: 20220325)

TitleAuthorsAbstract論文公表日・翻訳日
# hate-alert@dravidian langtech-acl2022: タミル・トロルミー分類のマルチモーダル化

hate-alert@Dravidian LangTech-ACL2022: Ensembling Multi-Modalities for Tamil TrollMeme Classification ( http://arxiv.org/abs/2204.12587v1 )

ライセンス: Link先を確認
Mithun Das and Somnath Banerjee and Animesh Mukherjee(参考訳) ソーシャルメディアプラットフォームは、ユーザーやコミュニティをターゲットにした様々なタイプのトロールや悪意のあるコンテンツの繁殖地として機能することが多い。 ユーザーをトロルする一つの方法はミームを作ることで、ほとんどの場合、画像に短いテキストが埋め込まれた画像が一体化される。 ベンチマークデータセットやモデルがないため、多言語(例えばタミル)のミームでは状況は複雑である。 ACL-2022における共有タスク"Troll Meme Classification in DravidianLangTech202 2"に基づいて,タミルのトロールミームを検出するモデルについて検討した。 テキストベースモデル MURIL がノントロール・ミーム分類に優れているのに対して,画像ベースモデル VGG16 はトロル・ミーム分類に優れていた。 これら2つのモダリティをさらに融合させることで、両方のクラスで安定した結果が得られる。 我々の核融合モデルは0.561の重み付き平均F1スコアを達成し、このタスクでは2位となった。

Social media platforms often act as breeding grounds for various forms of trolling or malicious content targeting users or communities. One way of trolling users is by creating memes, which in most cases unites an image with a short piece of text embedded on top of it. The situation is more complex for multilingual(e.g., Tamil) memes due to the lack of benchmark datasets and models. We explore several models to detect Troll memes in Tamil based on the shared task, "Troll Meme Classification in DravidianLangTech202 2" at ACL-2022. We observe while the text-based model MURIL performs better for Non-troll meme classification, the image-based model VGG16 performs better for Troll-meme classification. Further fusing these two modalities help us achieve stable outcomes in both classes. Our fusion model achieved a 0.561 weighted average F1 score and ranked second in this task.
翻訳日:2022-05-01 09:24:02 公開日:2022-03-25
# (参考訳) 極低温ニューロモルフィックハードウェア [全文訳有]

Cryogenic Neuromorphic Hardware ( http://arxiv.org/abs/2204.07503v1 )

ライセンス: CC BY 4.0
Md Mazharul Islam, Shamiul Alam, Md Shafayat Hossain, Kaushik Roy, Ahmedullah Aziz(参考訳) 人工知能(AI)の革命は、膨大なストレージとデータ処理の要求をもたらす。 電力消費とハードウェアオーバーヘッドは、次世代AIハードウェアを構築する上で大きな課題となっている。 したがって、従来のフォン・ノイマン・アーキテクチャのボトルネックを回避できる新しいアーキテクチャを探すことが不可欠である。 人間の脳は、最もコンパクトでエネルギー効率の良い知能デバイスとして知られており、私たちの脳を模倣するアーキテクチャを構築しようという試みは直感的だったため、ニューロモルフィックコンピューティングの追求が始まりました。 ニューロモルフィックハードウェアの電力消費を最小化するために、長年にわたり研究が続けられてきたが、人間の脳のエネルギー効率に到達するまでにはまだ長い道のりがある。 さらに、設計の複雑さやプロセスのバリエーションなどにより、現在のニューロモルフィックプラットフォームの大規模実装が妨げられる。 近年,低温下でのニューロモルフィックコンピューティングシステムの実現という概念が注目されている。 いくつかの極低温デバイスは、超低電力のニューロモルフィックプリミティブとして機能するように設計することができる。 そのため、低温エレクトロニクスはエネルギー効率とバイオリアリスティックなニューロモルフィックシステムのための有望な探索プラットフォームとなっている。 ここでは, 極低温神経形態学ハードウェアについて概観する。 我々は,既存の極低温神経成型ハードウェアを分類し,いくつかの性能指標に基づいて比較分析を行う。 最後に,現在の技術にまつわる課題を回避するための今後の研究の展望を探る。

The revolution in artificial intelligence (AI) brings up an enormous storage and data processing requirement. Large power consumption and hardware overhead have become the main challenges for building next-generation AI hardware. Therefore, it is imperative to look for a new architecture capable of circumventing these bottlenecks of conventional von Neumann architecture. Since the human brain is the most compact and energy-efficient intelligent device known, it was intuitive to attempt to build an architecture that could mimic our brain, and so the chase for neuromorphic computing began. While relentless research has been underway for years to minimize the power consumption in neuromorphic hardware, we are still a long way off from reaching the energy efficiency of the human brain. Besides, design complexity, process variation, etc. hinder the large-scale implementation of current neuromorphic platforms. Recently, the concept of implementing neuromorphic computing systems in cryogenic temperature has garnered immense attention. Several cryogenic devices can be engineered to work as neuromorphic primitives with ultra-low demand for power. Cryogenic electronics has therefore become a promising exploratory platform for an energy-efficient and bio-realistic neuromorphic system. Here we provide a comprehensive overview of the reported cryogenic neuromorphic hardware. We carefully classify the existing cryogenic neuromorphic hardware into different categories and draw a comparative analysis based on several performance metrics. Finally, we explore the future research prospects to circumvent the challenges associated with the current technologies.
翻訳日:2022-04-25 00:21:51 公開日:2022-03-25
# フリーテキスト電子健康記録から臨床意図を予測する

Predicting Clinical Intent from Free Text Electronic Health Records ( http://arxiv.org/abs/2204.09594v1 )

ライセンス: Link先を確認
Kawsar Noor, Katherine Smith, Julia Bennett, Jade OConnell, Jessica Fisk, Monika Hunt, Gary Philippo, Teresa Xu, Simon Knight, Luis Romao, Richard JB Dobson, Wai Keong Wong(参考訳) 患者の相談の後、臨床医は患者の管理のステップを決定する。 例えば、臨床医は再び患者に診察を依頼したり、専門家に紹介したりすることができる。 ほとんどの臨床医は、その意図を患者の臨床ノートに「次のステップ」として記録するが、場合によっては、患者の意図を指示や要求として示すことを忘れてしまうことがある。 その結果、患者は失意から失意に陥り、場合によっては悪影響を及ぼす可能性がある。 本稿では,患者の臨床ノートから患者をフォローアップしようとする臨床医の意図を検出するために,機械学習モデルを訓練する。 アノテーションは22種類の臨床意図を体系的に同定し,3000の臨床記録を付加した。 アノテーション処理によってラベル付きデータのクラス不均衡が明らかになり,22のインテントのうち11のトレーニングに十分なラベル付きデータしか存在しないことが分かった。 このデータをBERTに基づくマルチラベル分類モデルのトレーニングに使用し,マクロ精度:0.91,マクロリコール:0.90,マクロf1:0.90,マクロ精度:0。

After a patient consultation, a clinician determines the steps in the management of the patient. A clinician may for example request to see the patient again or refer them to a specialist. Whilst most clinicians will record their intent as "next steps" in the patient's clinical notes, in some cases the clinician may forget to indicate their intent as an order or request, e.g. failure to place the follow-up order. This consequently results in patients becoming lost-to-follow up and may in some cases lead to adverse consequences. In this paper we train a machine learning model to detect a clinician's intent to follow up with a patient from the patient's clinical notes. Annotators systematically identified 22 possible types of clinical intent and annotated 3000 Bariatric clinical notes. The annotation process revealed a class imbalance in the labeled data and we found that there was only sufficient labeled data to train 11 out of the 22 intents. We used the data to train a BERT based multilabel classification model and reported the following average accuracy metrics for all intents: macro-precision: 0.91, macro-recall: 0.90, macro-f1: 0.90.
翻訳日:2022-04-24 16:43:08 公開日:2022-03-25
# フラグメントスクリーニングキャンペーンにおける機械学習モデルと機械学習

Meaningful machine learning models and machine-learned pharmacophores from fragment screening campaigns ( http://arxiv.org/abs/2204.06348v1 )

ライセンス: Link先を確認
Carl Poelking, Gianni Chessari, Christopher W. Murray, Richard J. Hall, Lucy Colwell, Marcel Verdonk(参考訳) 機械学習(ML)は、タンパク質-リガンド結合を予測するモデルを訓練するために、薬物発見に広く用いられている。 これらのモデルは医薬化学者にとって非常に価値があり、特に結合過程を駆動する物理的相互作用に対するケース固有の洞察を提供する。 この研究では、50以上のフラグメントスクリーニングキャンペーンからmlモデルを導出して、最も欠落していると思われる2つの重要な要素 -- すべてではないとしても -- を導入することで、このタイプのml研究が報告されている。 次に、mlモデルがバインディングの成功に重要であると考えるものを、物理的に解釈可能かつ検証可能な表現する。 この表現は、化学環境の(相互の)作用の観点から予測を説明する単純な帰属手順に由来する。 重要な点として、専門家の分子モデルによる先行アノテーションに対して、大規模な帰属結果を検証する。 MLモデルが提案する重要な分子構造と,ミスからヒットを識別するモデルの性能が完璧ではない場合でも,手動で割り当てられた分子構造との間には良好な一致が認められる。 この属性を予め定義された相互作用のプロトタイプ(薬局フォア)に投影することにより、MLはターゲットに対するフラグメントバインディングをスクリーニングデータから自動的に駆動する単純なルールを定式化できることを示す。

Machine learning (ML) is widely used in drug discovery to train models that predict protein-ligand binding. These models are of great value to medicinal chemists, in particular if they provide case-specific insight into the physical interactions that drive the binding process. In this study we derive ML models from over 50 fragment-screening campaigns to introduce two important elements that we believe are absent in most -- if not all -- ML studies of this type reported to date: First, alongside the observed hits we use to train our models, we incorporate true misses and show that these experimentally validated negative data are of significant importance to the quality of the derived models. Second, we provide a physically interpretable and verifiable representation of what the ML model considers important for successful binding. This representation is derived from a straightforward attribution procedure that explains the prediction in terms of the (inter-)action of chemical environments. Critically, we validate the attribution outcome on a large scale against prior annotations made independently by expert molecular modellers. We find good agreement between the key molecular substructures proposed by the ML model and those assigned manually, even when the model's performance in discriminating hits from misses is far from perfect. By projecting the attribution onto predefined interaction prototypes (pharmacophores), we show that ML allows us to formulate simple rules for what drives fragment binding against a target automatically from screening data.
翻訳日:2022-04-17 07:29:53 公開日:2022-03-25
# 臨床テキストデータの非同定のためのトランスフォーマモデルの比較評価

A Comparative Evaluation Of Transformer Models For De-Identification Of Clinical Text Data ( http://arxiv.org/abs/2204.07056v1 )

ライセンス: Link先を確認
Christopher Meaney, Wali Hakimpour, Sumeet Kalia, Rahim Moineddin(参考訳) 目的: i2b2/uthealth 2014臨床テキスト識別課題コーパスにおける保護健康情報(phi)の同定におけるトランスフォーマーモデルアーキテクチャの比較評価を行う。 方法: i2b2/UTHealth 2014 コーパスは、N=296患者から得られたN=1304臨床ノートを含む。 転送学習フレームワークを用いて、BERT-base、BERT-large、ROBERTA-base、ROBERTA-large、ALBERT-base、ALBERT-xxlargeなどのトランスフォーマーモデルアーキテクチャをコーパス上に微調整する。 微調整中は、バッチサイズ、数トレーニング期間、学習率、体重減少といったモデルハイパーパラメータが異なる。 トレーニングデータセット上でモデルを微調整し、独立検証データセット上で最適な実行モデルを評価し選択し、最後にホールドアウトテストデータセットにおける一般化性能を評価する。 精度,精度(正の予測値),リコール(感度),F1スコア(高調波平均精度とリコール)でモデル性能を評価する。 私たちは、PHI固有のモデルパフォーマンスだけでなく、全体的なモデルパフォーマンス(PHIとPHIは特定されていない)に興味を持っています。 結果: ROBERTA-largeモデルではi2b2/UTHealth 2014コーパスでのPHIの同定に優れ, 総合精度は99%, ホールドアウトテストコーパスでのリコール/精度は96.7%であった。 多くのPHIクラスで性能は良好であったが, 職業, 組織, 年齢, 特定の場所の識別において, 精度・精度・リコールは低下した。 結論: トランスフォーマーは臨床テキストの非識別のための有望なモデルクラス/アーキテクチャである。 最小限のハイパーパラメータ・チューニング・トランスフォーマーは、研究者やクリニック研究者に最先端のパフォーマンスを得る機会を与える。

Objective: To comparatively evaluate several transformer model architectures at identifying protected health information (PHI) in the i2b2/UTHealth 2014 clinical text de-identification challenge corpus. Methods: The i2b2/UTHealth 2014 corpus contains N=1304 clinical notes obtained from N=296 patients. Using a transfer learning framework, we fine-tune several transformer model architectures on the corpus, including: BERT-base, BERT-large, ROBERTA-base, ROBERTA-large, ALBERT-base and ALBERT-xxlarge. During fine-tuning we vary the following model hyper-parameters: batch size, number training epochs, learning rate and weight decay. We fine tune models on a training data set, we evaluate and select optimally performing models on an independent validation dataset, and lastly assess generalization performance on a held-out test dataset. We assess model performance in terms of accuracy, precision (positive predictive value), recall (sensitivity) and F1 score (harmonic mean of precision and recall). We are interested in overall model performance (PHI identified vs. PHI not identified), as well as PHI-specific model performance. Results: We observe that the ROBERTA-large models perform best at identifying PHI in the i2b2/UTHealth 2014 corpus, achieving >99% overall accuracy and 96.7% recall/precision on the heldout test corpus. Performance was good across many PHI classes; however, accuracy/precision/r ecall decreased for identification of the following entity classes: professions, organizations, ages, and certain locations. Conclusions: Transformers are a promising model class/architecture for clinical text de-identification. With minimal hyper-parameter tuning transformers afford researchers/clinicia ns the opportunity to obtain (near) state-of-the-art performance.
翻訳日:2022-04-17 07:04:43 公開日:2022-03-25
# (参考訳) Laplacian Graph Priorsを用いた確率的埋め込み [全文訳有]

Probabilistic Embeddings with Laplacian Graph Priors ( http://arxiv.org/abs/2204.01846v1 )

ライセンス: CC BY 4.0
V\"ain\"o Yrj\"an\"ainen and M{\aa}ns Magnusson(参考訳) 我々は,laplacian priors (pelp) を用いた確率的埋め込みを導入する。 提案モデルでは,静的単語埋め込みにグラフ側情報を組み込むことができる。 理論的には、このモデルが1つの傘の下に既に提案されていた埋め込み手法を統一することを示します。 PELPはグラフ強化、グループ、動的、言語間静的単語埋め込みを一般化する。 PELPはまた、これらの以前のモデルの組み合わせを簡単に行うことができる。 さらに,本モデルが過去のモデルの性能と特殊ケースとを一致させることを実証的に示す。 さらに,政治社会学の比較に時間をかけて適用することで,その柔軟性を実証する。 最後に、異なる設定で柔軟な推定を可能にするTensorFlow実装としてコードを提供します。

We introduce probabilistic embeddings using Laplacian priors (PELP). The proposed model enables incorporating graph side-information into static word embeddings. We theoretically show that the model unifies several previously proposed embedding methods under one umbrella. PELP generalises graph-enhanced, group, dynamic, and cross-lingual static word embeddings. PELP also enables any combination of these previous models in a straightforward fashion. Furthermore, we empirically show that our model matches the performance of previous models as special cases. In addition, we demonstrate its flexibility by applying it to the comparison of political sociolects over time. Finally, we provide code as a TensorFlow implementation enabling flexible estimation in different settings.
翻訳日:2022-04-10 12:29:03 公開日:2022-03-25
# (参考訳) 深層学習における後方攻撃防止のためのトロイの木馬訓練 [全文訳有]

Trojan Horse Training for Breaking Defenses against Backdoor Attacks in Deep Learning ( http://arxiv.org/abs/2203.15506v1 )

ライセンス: CC BY 4.0
Arezoo Rajabi, Bhaskar Ramasubramanian, Radha Poovendran(参考訳) ディープニューラルネットワークを使用する機械学習(ML)モデルは、バックドア攻撃に対して脆弱である。 このような攻撃は、敵による(隠れた)トリガーの挿入を含む。 その結果、トリガーを含む任意の入力は、ニューラルネットワークが(単一の)ターゲットクラスへの入力を誤って分類し、トリガーなしで他の入力を正しく分類する。 バックドアを含むMLモデルは、トロイの木馬モデルと呼ばれる。 バックドアは、モデル出力のみが利用可能である場合、安全に重要なサイバーおよびサイバー物理システムに深刻な影響をもたらす可能性がある。 単一ターゲットのバックドア攻撃の場合、トロイの木馬モデルと非トロイの木馬モデルの出力を96%の精度で区別できる防衛機構が開発され、実証されている。 防御機構の限界を理解するには、その機構が失敗する例を構築する必要がある。 現在の単一ターゲットのバックドア攻撃は、ターゲットクラスごとに1つのトリガーを必要とする。 我々は、単一のトリガが複数のターゲットクラスに誤分類をもたらすような、より一般的な新しい攻撃を導入する。 このような誤分類は、入力が属する真の(実際の)クラスに依存する。 我々は、この攻撃のカテゴリをマルチターゲットバックドア攻撃と呼ぶ。 単一ターゲットまたは複数ターゲットのトリガを持つトロイの木馬モデルを訓練することにより、トロイの木馬の出力と非トロイの木馬の出力を区別する防衛機構の精度を低減できることを示す。 本手法は, トロイの木馬モデルの教師として非トロイの木馬モデルを用い, トロイの木馬モデルと防御機構の間の最小最適化問題を解く。 経験的評価により,本訓練は最先端防御機構の精度を96~0%に低下させることが示された。

Machine learning (ML) models that use deep neural networks are vulnerable to backdoor attacks. Such attacks involve the insertion of a (hidden) trigger by an adversary. As a consequence, any input that contains the trigger will cause the neural network to misclassify the input to a (single) target class, while classifying other inputs without a trigger correctly. ML models that contain a backdoor are called Trojan models. Backdoors can have severe consequences in safety-critical cyber and cyber physical systems when only the outputs of the model are available. Defense mechanisms have been developed and illustrated to be able to distinguish between outputs from a Trojan model and a non-Trojan model in the case of a single-target backdoor attack with accuracy > 96 percent. Understanding the limitations of a defense mechanism requires the construction of examples where the mechanism fails. Current single-target backdoor attacks require one trigger per target class. We introduce a new, more general attack that will enable a single trigger to result in misclassification to more than one target class. Such a misclassification will depend on the true (actual) class that the input belongs to. We term this category of attacks multi-target backdoor attacks. We demonstrate that a Trojan model with either a single-target or multi-target trigger can be trained so that the accuracy of a defense mechanism that seeks to distinguish between outputs coming from a Trojan and a non-Trojan model will be reduced. Our approach uses the non-Trojan model as a teacher for the Trojan model and solves a min-max optimization problem between the Trojan model and defense mechanism. Empirical evaluations demonstrate that our training procedure reduces the accuracy of a state-of-the-art defense mechanism from >96 to 0 percent.
翻訳日:2022-04-03 07:31:10 公開日:2022-03-25
# (参考訳) モデル拡張によるコントラスト学習の改善 [全文訳有]

Improving Contrastive Learning with Model Augmentation ( http://arxiv.org/abs/2203.15508v1 )

ライセンス: CC BY 4.0
Zhiwei Liu, Yongjun Chen, Jia Li, Man Luo, Philip S. Yu, Caiming Xiong(参考訳) 逐次的レコメンデーションは,ユーザの行動における次の項目を予測することを目的としている。 シーケンスにおけるデータの分散性やノイズの問題から,新たな自己教師付き学習(SSL)パラダイムが提案され,シーケンスの肯定的視点と否定的視点の対比学習が採用されている。 しかし,既存の手法では,データ視点による拡張を取り入れてビューを構築する。 1)最適なデータ拡張手法の考案は困難である。 2)データ強化手法は逐次相関を壊し、 3)データ拡張では、包括的な自己管理信号が組み込まれない。 そこで,ビューペア構築のためのモデル拡張の可能性を検討する。 本稿では,ニューロンマスキング,レイヤドロップ,エンコーダ補完の3段階のモデル拡張法を提案する。 この作業は、対照的なSSLのビューを構築するための新しい方向性を開く。 実験では、逐次レコメンデーションにおいてSSLのモデル拡張の有効性を検証する。 コードは、footnote{\url{https://github.com/s alesforce/SRMA}}で入手できる。

The sequential recommendation aims at predicting the next items in user behaviors, which can be solved by characterizing item relationships in sequences. Due to the data sparsity and noise issues in sequences, a new self-supervised learning (SSL) paradigm is proposed to improve the performance, which employs contrastive learning between positive and negative views of sequences. However, existing methods all construct views by adopting augmentation from data perspectives, while we argue that 1) optimal data augmentation methods are hard to devise, 2) data augmentation methods destroy sequential correlations, and 3) data augmentation fails to incorporate comprehensive self-supervised signals. Therefore, we investigate the possibility of model augmentation to construct view pairs. We propose three levels of model augmentation methods: neuron masking, layer dropping, and encoder complementing. This work opens up a novel direction in constructing views for contrastive SSL. Experiments verify the efficacy of model augmentation for the SSL in the sequential recommendation. Code is available\footnote{\url{https://github.com/s alesforce/SRMA}}.
翻訳日:2022-04-03 07:12:06 公開日:2022-03-25
# (参考訳) 複雑なゲーム環境に対する逆数に基づくOODAループの解析 [全文訳有]

Analysis of OODA Loop based on Adversarial for Complex Game Environments ( http://arxiv.org/abs/2203.15502v1 )

ライセンス: CC BY 4.0
Xiangri Lu, Hongbin Ma, Zhanqing Wang(参考訳) インテリジェントゲームのための非完全情報動的対策モデルシミュレーションにおいて,ゲーム環境の情報不足による不完全対決戦略の問題に対処するため,oodaリング(観測,方向,決定,行動)理論に基づく対決モデルの階層的分析ゲーム戦略を提案する。 同時に,NetLogoのソフトウェアシミュレーションは,非有人未来戦の傾向を考慮した2つの戦車間の対決の動的導出を構築するために用いられる。 本発明の検証プロセスにおいて、OODAループ理論を用いて、赤と青の両面の複雑なシステムの動作過程を記述し、両面の装甲数に応じて観察・判定・決定・実行の4段階サイクルを行い、次いで、OODAループシステムは、第1サイクルの結果に応じて次の対向サイクルの判定・決定時間係数を調整する。 損失率や支援率などの客観的要因を考慮した従来のシミュレーション手法と比較して,OODAループに基づく階層型ゲーム解析は,より包括的に対決状況を分析することができる。

To address the problem of imperfect confrontation strategy caused by the lack of information of game environment in the simulation of non-complete information dynamic countermeasure modeling for intelligent game, the hierarchical analysis game strategy of confrontation model based on OODA ring (Observation, Orientation, Decision, Action) theory is proposed. At the same time, taking into account the trend of unmanned future warfare, NetLogo software simulation is used to construct a dynamic derivation of the confrontation between two tanks. In the validation process, the OODA loop theory is used to describe the operation process of the complex system between red and blue sides, and the four-step cycle of observation, judgment, decision and execution is carried out according to the number of armor of both sides, and then the OODA loop system adjusts the judgment and decision time coefficients for the next confrontation cycle according to the results of the first cycle. Compared with traditional simulation methods that consider objective factors such as loss rate and support rate, the OODA-loop-based hierarchical game analysis can analyze the confrontation situation more comprehensively.
翻訳日:2022-04-03 06:58:45 公開日:2022-03-25
# (参考訳) 暗号化トラフィック分類と未知データ検出のためのディープラーニング [全文訳有]

Deep Learning for Encrypted Traffic Classification and Unknown Data Detection ( http://arxiv.org/abs/2203.15501v1 )

ライセンス: CC BY-SA 4.0
Madushi H. Pathmaperuma and Yogachandran Rahulamathavan and Safak Dogan and Ahmet M. Kondoz, and Rongxing Lu(参考訳) インターネット上の通信に機密性を提供する暗号化技術が広く使われているにもかかわらず、モバイルデバイスのユーザーは依然としてプライバシーとセキュリティのリスクにさらされている。 本稿では,新しいディープニューラルネットワーク(dnn)ベースのユーザアクティビティ検出フレームワークを提案し,スニッフ化された暗号化されたインターネットトラフィックストリームから,モバイルアプリケーション(アプリ内アクティビティと呼ばれる)上で実行されるきめ細かいユーザアクティビティを識別する。 課題の1つは、無数のアプリケーションがあり、それらから可能なすべてのデータを使ってDNNモデルを収集し、訓練することは事実上不可能である。 そこで本研究では,dnn出力層の確率分布を利用して,モデルトレーニング中に考慮されないアプリケーション(すなわち未知データ)からのデータフィルタリングを行う。 提案されたフレームワークでは、アクティビティのトラフィックフローをセグメントに分割するためにタイムウィンドウベースのアプローチを採用している。 テストの結果,DNNベースのフレームワークは,事前訓練したアプリ内アクティビティの特定において90%以上の精度を示し,未訓練のアプリ内アクティビティのトラフィックを未知のデータとして特定する場合の平均精度は79%であった。

Despite the widespread use of encryption techniques to provide confidentiality over Internet communications, mobile device users are still susceptible to privacy and security risks. In this paper, a new Deep Neural Network (DNN) based user activity detection framework is proposed to identify fine grained user activities performed on mobile applications (known as in-app activities) from a sniffed encrypted Internet traffic stream. One of the challenges is that there are countless applications, and it is practically impossible to collect and train a DNN model using all possible data from them. Therefore, in this work we exploit the probability distribution of DNN output layer to filter the data from applications that are not considered during the model training (i.e., unknown data). The proposed framework uses a time window based approach to divide the traffic flow of an activity into segments, so that in-app activities can be identified just by observing only a fraction of the activity related traffic. Our tests have shown that the DNN based framework has demonstrated an accuracy of 90% or above in identifying previously trained in-app activities and an average accuracy of 79% in identifying previously untrained in-app activity traffic as unknown data when this framework is employed.
翻訳日:2022-04-03 06:49:04 公開日:2022-03-25
# (参考訳) 時間の短所で9つ節約する: ニューラルネットワークのキャリブレーション改善のための列車時間正規化損失 [全文訳有]

A Stitch in Time Saves Nine: A Train-Time Regularizing Loss for Improved Neural Network Calibration ( http://arxiv.org/abs/2203.13834v1 )

ライセンス: CC BY 4.0
Ramya Hebbalaguppe, Jatin Prakash, Neelabh Madan, Chetan Arora(参考訳) ディープニューラルネットワーク(DNN)は、過信的なミスを犯すことで知られており、安全クリティカルなアプリケーションでの使用に問題がある。 最先端(SOTA)キャリブレーション技術は、予測ラベルのみの信頼性を改善し、非マックスクラス(トップ2、トップ5)の信頼性を損なう。 このようなキャリブレーションは、後処理を用いたラベルリファインメントには適さない。 さらに、ほとんどのSOTA技術は、いくつかのハイパーパラメーターをポストホックで学習し、画像のスコープやピクセル固有のキャリブレーションを除外する。 これにより、ドメインシフトの下でのキャリブレーションや、セマンティックセグメンテーションのような密集した予測タスクには適さない。 本稿では,列車時間自体の介入を論じ,キャリブレーションDNNモデルを直接生成する。 MDCA(Multi-class difference in Confidence and Accuracy)は,他のアプリケーションやタスク固有の損失関数と組み合わせて,同一のMDCAを実現する機能である。 MDCAを用いたトレーニングは,画像分類やセグメンテーションタスクにおいて,期待校正誤差 (ECE) と静的校正誤差 (SCE) の観点から,より良い校正モデルをもたらすことを示す。 CIFAR 100 データセットの ECE (SCE ) スコアは 0.72 (1.60) であり、SOTA は 1.90 (1.71) である。 ドメインシフトの下では、MDCAを用いてPACSデータセットでトレーニングされたResNet-18モデルは、SOTAの24.2 (11.8)と比較すると、平均的なECEスコア(SCE)が全ドメインで19.7 (9.7)である。 セグメンテーションタスクでは,Focal Lossと比較してPASCAL-VOCデータセットの校正誤差を2倍に削減した。 最後に、MDCAトレーニングは、不均衡なデータや自然言語分類タスクに対しても校正を改善する。 コードはhttps://github.com/m dca-lossで入手できる。

Deep Neural Networks ( DNN s) are known to make overconfident mistakes, which makes their use problematic in safety-critical applications. State-of-the-art ( SOTA ) calibration techniques improve on the confidence of predicted labels alone and leave the confidence of non-max classes (e.g. top-2, top-5) uncalibrated. Such calibration is not suitable for label refinement using post-processing. Further, most SOTA techniques learn a few hyper-parameters post-hoc, leaving out the scope for image, or pixel specific calibration. This makes them unsuitable for calibration under domain shift, or for dense prediction tasks like semantic segmentation. In this paper, we argue for intervening at the train time itself, so as to directly produce calibrated DNN models. We propose a novel auxiliary loss function: Multi-class Difference in Confidence and Accuracy ( MDCA ), to achieve the same MDCA can be used in conjunction with other application/task-spe cific loss functions. We show that training with MDCA leads to better-calibrated models in terms of Expected Calibration Error ( ECE ), and Static Calibration Error ( SCE ) on image classification, and segmentation tasks. We report ECE ( SCE ) score of 0.72 (1.60) on the CIFAR 100 dataset, in comparison to 1.90 (1.71) by the SOTA. Under domain shift, a ResNet-18 model trained on PACS dataset using MDCA gives an average ECE ( SCE ) score of 19.7 (9.7) across all domains, compared to 24.2 (11.8) by the SOTA. For the segmentation task, we report a 2X reduction in calibration error on PASCAL - VOC dataset in comparison to Focal Loss. Finally, MDCA training improves calibration even on imbalanced data, and for natural language classification tasks. We have released the code here: code is available at https://github.com/m dca-loss
翻訳日:2022-04-03 06:33:37 公開日:2022-03-25
# (参考訳) Cluster Algebras: ネットワークサイエンスと機械学習

Cluster Algebras: Network Science and Machine Learning ( http://arxiv.org/abs/2203.13847v1 )

ライセンス: CC0 1.0
Pierre-Philippe Dechant, Yang-Hui He, Elli Heyes, Edward Hirst(参考訳) クラスター代数は近年、数学や物理学において重要なプレーヤーとなっている。 本研究では,現代データサイエンスのレンズ,特にネットワーク科学と機械学習の手法を用いて,それらを調査する。 ネットワーク解析法は、様々な変異型のクラスター代数の交換グラフに適用される。 分析は、グラフがクラスタ間の置換同値によって識別されずに表現されると、quiver交換グラフ埋め込みにエレガントな対称性が現れることを示している。 この対称性に関連する種数とクインバー数の間の比率は、階数5までの有限ディンキン型代数で計算され、より高い階数で予想される。 単純な機械学習技術は、クラスター代数をシードと区別することに成功した。 学習性能は、同じ変異型の代数とタイプ間の0.9の精度を超え、人工的に生成されたデータと比較する。

Cluster algebras have recently become an important player in mathematics and physics. In this work, we investigate them through the lens of modern data science, specifically with techniques from network science and machine-learning. Network analysis methods are applied to the exchange graphs for cluster algebras of varying mutation types. The analysis indicates that when the graphs are represented without identifying by permutation equivalence between clusters an elegant symmetry emerges in the quiver exchange graph embedding. The ratio between number of seeds and number of quivers associated to this symmetry is computed for finite Dynkin type algebras up to rank 5, and conjectured for higher ranks. Simple machine learning techniques successfully learn to differentiate cluster algebras from their seeds. The learning performance exceeds 0.9 accuracies between algebras of the same mutation type and between types, as well as relative to artificially generated data.
翻訳日:2022-04-03 06:12:38 公開日:2022-03-25
# (参考訳) 画像と非画像データの深部マルチモーダル融合による疾患診断と予後の検討 [全文訳有]

Deep Multi-modal Fusion of Image and Non-image Data in Disease Diagnosis and Prognosis: A Review ( http://arxiv.org/abs/2203.15588v1 )

ライセンス: CC BY 4.0
Can Cui, Haichun Yang, Yaohong Wang, Shilin Zhao, Zuhayr Asad, Lori A. Coburn, Keith T. Wilson, Bennett A. Landman, and Yuankai Huo(参考訳) 医療における診断技術の急速な発展は、医師が日常的に発生する異質で相補的なデータを扱い、統合することの要求が高まっている。 例えば、がん患者のパーソナライズされた診断と治療計画は、様々な画像(例えば、放射線画像、病理画像、カメラ画像)と非画像データ(例えば、臨床データ、ゲノムデータ)に依存している。 しかし、そのような意思決定手順は主観的、質的であり、主観的変数が大きい。 最近のマルチモーダル深層学習技術の進歩により、ますます多くの取り組みが鍵となる質問に費やされている: 客観的で定量的な臨床意思決定を提供するために、マルチモーダル情報を抽出し集約するにはどうすればよいのか? 本稿では,このような問題に対する最近の研究を概観する。 本稿では,(1)現在のマルチモーダル・ラーニング・ワークフローの概要,(2)マルチモーダル・フュージョン・メソッドの要約,(3)パフォーマンスの議論,(4)疾患診断と予後の応用,(5)課題と今後の方向性について概説する。

The rapid development of diagnostic technologies in healthcare is leading to higher requirements for physicians to handle and integrate the heterogeneous, yet complementary data that are produced during routine practice. For instance, the personalized diagnosis and treatment planning for a single cancer patient relies on the various images (e.g., radiological, pathological, and camera images) and non-image data (e.g., clinical data and genomic data). However, such decision-making procedures can be subjective, qualitative, and have large inter-subject variabilities. With the recent advances in multi-modal deep learning technologies, an increasingly large number of efforts have been devoted to a key question: how do we extract and aggregate multi-modal information to ultimately provide more objective, quantitative computer-aided clinical decision making? This paper reviews the recent studies on dealing with such a question. Briefly, this review will include the (1) overview of current multi-modal learning workflows, (2) summarization of multi-modal fusion methods, (3) discussion of the performance, (4) applications in disease diagnosis and prognosis, and (5) challenges and future directions.
翻訳日:2022-04-03 06:11:43 公開日:2022-03-25
# (参考訳) TimeReplayer:ビデオ補間のためのイベントカメラの可能性を解き放つ [全文訳有]

TimeReplayer: Unlocking the Potential of Event Cameras for Video Interpolation ( http://arxiv.org/abs/2203.13859v1 )

ライセンス: CC BY 4.0
Weihua He, Kaichao You, Zhendong Qiao, Xu Jia, Ziyang Zhang, Wenhui Wang, Huchuan Lu, Yaoyuan Wang, Jianxing Liao(参考訳) 高速動作を高速fps(フレーム毎秒)で記録するには、高価な高速カメラが必要である。 代替として、コモディティカメラからの低FPSビデオの補間が注目されている。 低FPSビデオのみが利用可能であれば、中間フレームを推論するためには運動仮定(線形または二次)が必要である。 イベントカメラは、時間分解能の$\mu s$(10^{-6}$ second $)$の時間分解能で明るさ変化のイベントを発生するピクセルを備えた新しいカメラである。 イベントカメラは、新しいセンサーであるため、処理アルゴリズムの欠如により、そのポテンシャルは満たされていない。 先駆的な仕事であるTime Lensは、高速フレームとイベントの大量のペアトレーニングデータを収集するために光学デバイスを設計することで、ビデオ補間にイベントカメラを導入した。 本稿では,イベントカメラの可能性をフルに解き放つために,コモディティカメラが捉えた映像とイベントを補間するTimeReplayerアルゴリズムを提案する。 教師なしのサイクル一貫性のスタイルで訓練され、高速なトレーニングデータの必要性を解消し、ビデオ外挿のさらなる能力をもたらす。 最新の成果と補足的なデモビデオは、イベントベースのビジョンの有望な未来を明らかにしている。

Recording fast motion in a high FPS (frame-per-second) requires expensive high-speed cameras. As an alternative, interpolating low-FPS videos from commodity cameras has attracted significant attention. If only low-FPS videos are available, motion assumptions (linear or quadratic) are necessary to infer intermediate frames, which fail to model complex motions. Event camera, a new camera with pixels producing events of brightness change at the temporal resolution of $\mu s$ $(10^{-6}$ second $)$, is a game-changing device to enable video interpolation at the presence of arbitrarily complex motion. Since event camera is a novel sensor, its potential has not been fulfilled due to the lack of processing algorithms. The pioneering work Time Lens introduced event cameras to video interpolation by designing optical devices to collect a large amount of paired training data of high-speed frames and events, which is too costly to scale. To fully unlock the potential of event cameras, this paper proposes a novel TimeReplayer algorithm to interpolate videos captured by commodity cameras with events. It is trained in an unsupervised cycle-consistent style, canceling the necessity of high-speed training data and bringing the additional ability of video extrapolation. Its state-of-the-art results and demo videos in supplementary reveal the promising future of event-based vision.
翻訳日:2022-04-03 05:45:36 公開日:2022-03-25
# (参考訳) ニューラルマシン翻訳のためのデータ選択カリキュラム [全文訳有]

Data Selection Curriculum for Neural Machine Translation ( http://arxiv.org/abs/2203.13867v1 )

ライセンス: CC BY 4.0
Tasnim Mohiuddin, Philipp Koehn, Vishrav Chaudhary, James Cross, Shruti Bhosale, and Shafiq Joty(参考訳) ニューラルマシン翻訳(nmt)モデルは通常、連結されランダムにシャッフルされる異種データに基づいて訓練される。 しかし、トレーニングデータのすべてがモデルに等しく有用であるわけではない。 カリキュラムトレーニングは、NMTモデルに有意義な順序でデータを提示することを目的としている。 本研究ではNMTのための2段階のカリキュラム学習フレームワークを導入し,NMTモデルの予測スコアを考慮した事前学習手法とオンラインスコアを用いた決定論的スコアから選択したデータサブセットに基づいて基本NMTモデルを微調整する。 WMT'21の低リソース言語と高リソース言語からなる6つの言語対に関する総合的な実験を通じて、我々のカリキュラム戦略は、常により良い品質(+2.2BLEUの改善)とより速い収束(約50%の更新)を示すことを示した。

Neural Machine Translation (NMT) models are typically trained on heterogeneous data that are concatenated and randomly shuffled. However, not all of the training data are equally useful to the model. Curriculum training aims to present the data to the NMT models in a meaningful order. In this work, we introduce a two-stage curriculum training framework for NMT where we fine-tune a base NMT model on subsets of data, selected by both deterministic scoring using pre-trained methods and online scoring that considers prediction scores of the emerging NMT model. Through comprehensive experiments on six language pairs comprising low- and high-resource languages from WMT'21, we have shown that our curriculum strategies consistently demonstrate better quality (up to +2.2 BLEU improvement) and faster convergence (approximately 50% fewer updates).
翻訳日:2022-04-03 05:28:06 公開日:2022-03-25
# (参考訳) 視覚概念に基づく自己教師付き意味セグメンテーション [全文訳有]

Self-supervised Semantic Segmentation Grounded in Visual Concepts ( http://arxiv.org/abs/2203.13868v1 )

ライセンス: CC BY 4.0
Wenbin He, William Surmeier, Arvind Kumar Shekar, Liang Gou, Liu Ren(参考訳) 教師なしセマンティックセグメンテーションでは、人間のアノテーションなしで各ピクセルにラベルを割り当てる必要がある。 個々の画像に対する自己教師あり表現学習の最近の進歩にもかかわらず、画素レベル表現を用いた教師なし意味セグメンテーションは依然として課題であり、未検討のままである。 本研究では,画像から抽出した視覚概念(例えば,意味意味を持つ画素群,例えば,部分,オブジェクト,シーンなど)を用いて,意味セグメンテーションのための自己教師あり画素表現学習手法を提案する。 自己指導型学習の指導には, 画素と局所概念の関係, 局所概念とグローバル概念, 概念の共起など, 画素と概念の関係の3つのタイプを利用する。 PASCAL VOC 2012 COCO 2017, DAVIS 2017を含む3つのデータセット上で, 学習した画素埋め込みと視覚概念を評価した。 その結果,最近の教師なしセマンティクスセグメンテーションアプローチに比べて,提案手法は一貫性と大幅な改善が得られ,視覚的概念が画像データセットへの洞察を明らかにすることができることが示された。

Unsupervised semantic segmentation requires assigning a label to every pixel without any human annotations. Despite recent advances in self-supervised representation learning for individual images, unsupervised semantic segmentation with pixel-level representations is still a challenging task and remains underexplored. In this work, we propose a self-supervised pixel representation learning method for semantic segmentation by using visual concepts (i.e., groups of pixels with semantic meanings, such as parts, objects, and scenes) extracted from images. To guide self-supervised learning, we leverage three types of relationships between pixels and concepts, including the relationships between pixels and local concepts, local and global concepts, as well as the co-occurrence of concepts. We evaluate the learned pixel embeddings and visual concepts on three datasets, including PASCAL VOC 2012, COCO 2017, and DAVIS 2017. Our results show that the proposed method gains consistent and substantial improvements over recent unsupervised semantic segmentation approaches, and also demonstrate that visual concepts can reveal insights into image datasets.
翻訳日:2022-04-03 05:10:25 公開日:2022-03-25
# (参考訳) マルチモーダルな誤情報検出:アプローチ,課題,機会 [全文訳有]

Multi-modal Misinformation Detection: Approaches, Challenges and Opportunities ( http://arxiv.org/abs/2203.13883v1 )

ライセンス: CC BY-SA 4.0
Sara Abdali(参考訳) ソーシャルメディアプラットフォームがテキストベースのフォーラムからマルチモーダル環境へと進化するにつれ、ソーシャルメディアにおける誤情報の性質も変化している。 画像や動画などの視覚的モダリティがユーザにとってより好適で魅力的であり、テキストの内容が不注意にスキミングされることがあるという事実を生かして、誤情報のスプレッダーは、最近、テキストや画像といったモダリティ間の文脈的相関を標的にしてきた。 このように、ウェブベースのメディアにおける相互不一致検出のための自動手法の開発に多くの研究がなされている。 本研究は,マルチモーダル誤情報検出の分野での研究を進める新たな機会を明らかにするため,既存のアプローチを分析し,分類し,識別することを目的としている。

As social media platforms are evolving from text-based forums into multi-modal environments, the nature of misinformation in social media is also changing accordingly. Taking advantage of the fact that visual modalities such as images and videos are more favorable and attractive to the users, and textual contents are sometimes skimmed carelessly, misinformation spreaders have recently targeted contextual correlations between modalities e.g., text and image. Thus, many research efforts have been put into development of automatic techniques for detecting possible cross-modal discordances in web-based media. In this work, we aim to analyze, categorize and identify existing approaches in addition to challenges and shortcomings they face in order to unearth new opportunities in furthering the research in the field of multi-modal misinformation detection.
翻訳日:2022-04-03 05:03:43 公開日:2022-03-25
# (参考訳) 敗血症治療戦略における分布シフトを扱う保守的q-learningアプローチ [全文訳有]

A Conservative Q-Learning approach for handling distribution shift in sepsis treatment strategies ( http://arxiv.org/abs/2203.13884v1 )

ライセンス: CC0 1.0
Pramod Kaushik, Sneha Kummetha, Perusha Moodley, Raju S. Bapi(参考訳) セプシスは死亡の主な原因であり、その治療は非常に高価である。 セプシス治療は、介入が何が最善かについてのコンセンサスがなく、異なる患者が同じ治療に対して非常に異なる反応を示すため、非常に難しい。 深層強化学習法は、医師の行動を反映した治療戦略の最適方針を導き出すのに使うことができる。 医療シナリオでは、利用可能なデータは大部分がオフラインで収集され、オフラインのRL技術を使用する必要がなくなる。 オフラインRLパラダイムは、アクション分散シフトに悩まされ、結果的に治療に最適なポリシーを学ぶことに悪影響を及ぼす。 本研究では,このシフトを緩和するために,従来の深層q学習よりも,その対応方針を医師の方針に近づける,保守的q学習(cql)アルゴリズムを用いる。 得られた方針は、集中治療室の臨床医が敗血症患者を治療し、生存率を向上させるのに役立つ。

Sepsis is a leading cause of mortality and its treatment is very expensive. Sepsis treatment is also very challenging because there is no consensus on what interventions work best and different patients respond very differently to the same treatment. Deep Reinforcement Learning methods can be used to come up with optimal policies for treatment strategies mirroring physician actions. In the healthcare scenario, the available data is mostly collected offline with no interaction with the environment, which necessitates the use of offline RL techniques. The Offline RL paradigm suffers from action distribution shifts which in turn negatively affects learning an optimal policy for the treatment. In this work, a Conservative-Q Learning (CQL) algorithm is used to mitigate this shift and its corresponding policy reaches closer to the physicians policy than conventional deep Q Learning. The policy learned could help clinicians in Intensive Care Units to make better decisions while treating septic patients and improve survival rate.
翻訳日:2022-04-03 04:43:30 公開日:2022-03-25
# (参考訳) 説明可能な太陽フレア予測のための複数インスタンス学習 [全文訳有]

Using Multiple Instance Learning for Explainable Solar Flare Prediction ( http://arxiv.org/abs/2203.13896v1 )

ライセンス: CC BY 4.0
C\'edric Huwyler, Martin Melchior(参考訳) 本研究では、NASAのIRIS衛星からのスペクトルデータの弱いラベル付きデータセットを用いて、MIL(Multiple Instance Learning)パラダイムを用いた太陽フレアの予測を行う。 標準的な教師付き学習モデルはすべてのインスタンスにラベルを期待するが、MILはこれを緩和し、ラベル付けされるインスタンスの袋のみを考慮する。 これは、機器スリットに沿って測定された紫外線スペクトルの時系列からなるIRISデータによるフレア予測に最適である。 特に,mg ii h&k線周辺の読み出し窓について検討し,太陽色圏のダイナミクスに関する情報をエンコードする。 我々のMILモデルは、約90%の精度で次の$\sim$25分以内にフレアが発生するかどうかを予測できるだけでなく、バッグレベルの予測にどのスペクトルプロファイルが特に重要かを説明することもできる。 この情報は、現在進行中のIRIS観測における関心領域をリアルタイムで強調し、典型的なフレア前駆体スペクトルプロファイルの候補を特定するために用いられる。 我々はk-meansクラスタリングを用いて,フレア予測に関連するスペクトルプロファイル群を抽出する。 回収された群は、以前の研究で見つかったように、高強度、三重項赤翼放出、単ピークhとk線を示す。 これらは、フレアの何分か前に発生したと報告された小規模な爆発物と関連しているようである。

In this work we leverage a weakly-labeled dataset of spectral data from NASAs IRIS satellite for the prediction of solar flares using the Multiple Instance Learning (MIL) paradigm. While standard supervised learning models expect a label for every instance, MIL relaxes this and only considers bags of instances to be labeled. This is ideally suited for flare prediction with IRIS data that consists of time series of bags of UV spectra measured along the instrument slit. In particular, we consider the readout window around the Mg II h&k lines that encodes information on the dynamics of the solar chromosphere. Our MIL models are not only able to predict whether flares occur within the next $\sim$25 minutes with accuracies of around 90%, but are also able to explain which spectral profiles were particularly important for their bag-level prediction. This information can be used to highlight regions of interest in ongoing IRIS observations in real-time and to identify candidates for typical flare precursor spectral profiles. We use k-means clustering to extract groups of spectral profiles that appear relevant for flare prediction. The recovered groups show high intensity, triplet red wing emission and single-peaked h and k lines, as found by previous works. They seem to be related to small-scale explosive events that have been reported to occur tens of minutes before a flare.
翻訳日:2022-04-03 04:36:11 公開日:2022-03-25
# (参考訳) 概念埋め込み分析:レビュー

Concept Embedding Analysis: A Review ( http://arxiv.org/abs/2203.13909v1 )

ライセンス: CC BY 4.0
Gesina Schwalbe(参考訳) ディープニューラルネットワーク(DNN)は、人間のマシンシステムの安全性、セキュリティ、公正性に影響を与える可能性のある多くのアプリケーションに導入されている。 ユーザによる基本的な理解と十分な信頼が必要です。 このことは、説明可能な人工知能(XAI)の研究分野、すなわち「ブラックボックス」DNNが表す方法の発見を動機づけた。 特定のコンピュータビジョン領域において、DNNの実践的評価には、人間の解釈可能な概念とモデルの内部とのグローバルな結合が必要である。 CAは、人間の解釈可能な意味概念(例えば、目、ひげを生やした)とDNNの内部表現のグローバルで評価可能な関連を見つけることを目的としています。 この研究は、CAの一般的な定義とCAメソッドの分類を確立し、文学からいくつかのアイデアをまとめる。 これにより、CAアプローチの配置と比較が容易になります。 定義した概念に導かれ,ca法と興味深い応用に関する最新の研究を概観する。 関連する30以上の方法が議論され、比較され、分類される。 最後に、実践者に対しては、教師付き概念分析に使用される15のデータセットの調査が提供される。 オープンチャレンジと研究の方向性は最後に指摘されます。

Deep neural networks (DNNs) have found their way into many applications with potential impact on the safety, security, and fairness of human-machine-system s. Such require basic understanding and sufficient trust by the users. This motivated the research field of explainable artificial intelligence (XAI), i.e. finding methods for opening the "black-boxes" DNNs represent. For the computer vision domain in specific, practical assessment of DNNs requires a globally valid association of human interpretable concepts with internals of the model. The research field of concept (embedding) analysis (CA) tackles this problem: CA aims to find global, assessable associations of humanly interpretable semantic concepts (e.g., eye, bearded) with internal representations of a DNN. This work establishes a general definition of CA and a taxonomy for CA methods, uniting several ideas from literature. That allows to easily position and compare CA approaches. Guided by the defined notions, the current state-of-the-art research regarding CA methods and interesting applications are reviewed. More than thirty relevant methods are discussed, compared, and categorized. Finally, for practitioners, a survey of fifteen datasets is provided that have been used for supervised concept analysis. Open challenges and research directions are pointed out at the end.
翻訳日:2022-04-03 04:07:47 公開日:2022-03-25
# (参考訳) CICERO: 対話における文脈化コモンセンス推論のためのデータセット [全文訳有]

CICERO: A Dataset for Contextualized Commonsense Inference in Dialogues ( http://arxiv.org/abs/2203.13926v1 )

ライセンス: CC BY-SA 4.0
Deepanway Ghosal, Siqi Shen, Navonil Majumder, Rada Mihalcea, Soujanya Poria(参考訳) 本稿では,文脈化コモンセンス推論を用いた対話推論の問題に対処する。 我々は,dyadic会話のデータセットであるciceroを,発話レベルの推論に基づく推論の5つのタイプ – 原因,その後の事象,前提条件,動機,感情的反応 – で収集した。 データセットには、5,672の対話からの推論の53,105が含まれている。 このデータセットは、原因とその後の出来事の生成、前提条件の生成、モチベーション、リスナーの感情反応、妥当な選択肢の選択といった、関連する生成的および差別的なタスクを解決するために使用される。 その結果,対話中心のコモンセンス知識データセットの価値が確認された。 CICEROがコモンセンスベースの対話推論に新たな研究道を開くことを願っています。

This paper addresses the problem of dialogue reasoning with contextualized commonsense inference. We curate CICERO, a dataset of dyadic conversations with five types of utterance-level reasoning-based inferences: cause, subsequent event, prerequisite, motivation, and emotional reaction. The dataset contains 53,105 of such inferences from 5,672 dialogues. We use this dataset to solve relevant generative and discriminative tasks: generation of cause and subsequent event; generation of prerequisite, motivation, and listener's emotional reaction; and selection of plausible alternatives. Our results ascertain the value of such dialogue-centric commonsense knowledge datasets. It is our hope that CICERO will open new research avenues into commonsense-based dialogue reasoning.
翻訳日:2022-04-03 04:06:46 公開日:2022-03-25
# (参考訳) ディープラーニングと人工知能: まだまだ道のりは長い [全文訳有]

Deep Learning and Artificial General Intelligence: Still a Long Way to Go ( http://arxiv.org/abs/2203.14963v1 )

ライセンス: CC BY-SA 4.0
Maciej \'Swiechowski(参考訳) 近年,ニューラルネットワークアーキテクチャ(ディープニューラルネットワーク)を用いたディープラーニングは,コンピュータ科学研究の最前線にある。 コンピュータビジョン、ゲーム、生物学といったいくつかの問題において超人的なパフォーマンスをもたらし、結果としてディープラーニング革命という用語が生まれた。 ディープラーニングの成功と急速な成長は、将来的にはai(artificial general intelligence, agi)が実現可能になる可能性を示唆している。 本稿では,現状の深層ニューラルネットワークがAGIに到達するための選択技術である準備ができていない理由を5つの主要な理由として,この主張に批判的にアプローチする。

In recent years, deep learning using neural network architecture, i.e. deep neural networks, has been on the frontier of computer science research. It has even lead to superhuman performance in some problems, e.g., in computer vision, games and biology, and as a result the term deep learning revolution was coined. The undisputed success and rapid growth of deep learning suggests that, in future, it might become an enabler for Artificial General Intelligence (AGI). In this article, we approach this statement critically showing five major reasons of why deep neural networks, as of the current state, are not ready to be the technique of choice for reaching AGI.
翻訳日:2022-04-03 03:41:32 公開日:2022-03-25
# (参考訳) 正定値弾性剛性テンソルの予測のためのニューラルネットワーク層 [全文訳有]

Neural Network Layers for Prediction of Positive Definite Elastic Stiffness Tensors ( http://arxiv.org/abs/2203.13938v1 )

ライセンス: CC BY 4.0
Charles F. Jekel, Kenneth E. Swartz, Daniel A. White, Daniel A. Tortorelli, Seth E. Watts(参考訳) 機械学習モデルは、保存議論に基づいて常に対称正定値(spd)でなければならない均質化弾性剛性テンソルのような物理量を予測するのに使うことができる。 格子材料の均質化弾性率テンソルの2つのデータセットを例に示し、単位セルの幾何学的パラメータと材料パラメータを同質化剛性にマッピングするモデルを求める。 モデルをSPDデータに適合させることは、モデルの予測がSPDのままであることを保証するものではない。 既存のコルセスキー分解と固有分解スキームをSPD条件を強制する変換層として抽象化する。 これらのレイヤは、SPDの振る舞いを強制するために、多くの一般的な機械学習モデルに含めることができる。 本研究は, 異なる正の関数が層に及ぼす影響と, モデル精度に与える影響について検討する。 一般的に使用されるモデルは多項式、放射基底関数、ニューラルネットワークなどである。 最終的に、単一のSPD層がモデルの平均予測精度を向上させることが示される。

Machine learning models can be used to predict physical quantities like homogenized elasticity stiffness tensors, which must always be symmetric positive definite (SPD) based on conservation arguments. Two datasets of homogenized elasticity tensors of lattice materials are presented as examples, where it is desired to obtain models that map unit cell geometric and material parameters to their homogenized stiffness. Fitting a model to SPD data does not guarantee the model's predictions will remain SPD. Existing Cholsesky factorization and Eigendecomposition schemes are abstracted in this work as transformation layers which enforce the SPD condition. These layers can be included in many popular machine learning models to enforce SPD behavior. This work investigates the effects that different positivity functions have on the layers and how their inclusion affects model accuracy. Commonly used models are considered, including polynomials, radial basis functions, and neural networks. Ultimately it is shown that a single SPD layer improves the model's average prediction accuracy.
翻訳日:2022-04-03 03:34:23 公開日:2022-03-25
# うるさいアノテーションから胎児脳組織を分割する学習

Learning to segment fetal brain tissue from noisy annotations ( http://arxiv.org/abs/2203.14962v1 )

ライセンス: Link先を確認
Davood Karimi, Caitlin K. Rollins, Clemente Velasco-Annis, Abdelhakim Ouaalam, and Ali Gholipour(参考訳) 自動胎児脳組織分節は、この臨界段階における脳の発達の定量的評価を高めることができる。 深層学習法は医用画像のセグメンテーションにおける技術の現状を表し、脳のセグメンテーションにおける印象的な結果も達成している。 しかしながら、このタスクを実行するためのディープラーニングモデルの効果的なトレーニングには、一過性胎児脳構造の急速な発達を表すために、多数のトレーニング画像が必要である。 一方で、多数の3d画像の手動マルチラベルセグメンテーションは禁止されている。 この課題に対処するために,19~39週にわたる272のトレーニングイメージを,変形可能な登録と確率的アトラス融合に基づく自動マルチアトラスセグメンテーション戦略を用いて分割し,それらのセグメンテーションにおける大きな誤りを手作業で修正した。 このプロセスは,雑音分割を伴う大規模学習データセットを生成するため,新しいラベル平滑化手法と損失関数を開発し,雑音分割を用いた深層学習モデルを訓練した。 組織境界の不確かさを適切に考慮する手法を提案する。 異なる胎児群を手動で分離したテスト画像23例について検討した。 その結果, 若年および高齢の胎児の過渡構造について, 平均 dice 類似度係数 0.893 および 0.916 が得られた。 提案手法は,本手法に最も近い結果を得たnnU-Netを含む,いくつかの最先端手法よりも精度が高かった。 我々の訓練されたモデルは、MRIにおける胎児脳分析の精度と再現性を高める貴重なツールとなり得る。

Automatic fetal brain tissue segmentation can enhance the quantitative assessment of brain development at this critical stage. Deep learning methods represent the state of the art in medical image segmentation and have also achieved impressive results in brain segmentation. However, effective training of a deep learning model to perform this task requires a large number of training images to represent the rapid development of the transient fetal brain structures. On the other hand, manual multi-label segmentation of a large number of 3D images is prohibitive. To address this challenge, we segmented 272 training images, covering 19-39 gestational weeks, using an automatic multi-atlas segmentation strategy based on deformable registration and probabilistic atlas fusion, and manually corrected large errors in those segmentations. Since this process generated a large training dataset with noisy segmentations, we developed a novel label smoothing procedure and a loss function to train a deep learning model with smoothed noisy segmentations. Our proposed methods properly account for the uncertainty in tissue boundaries. We evaluated our method on 23 manually-segmented test images of a separate set of fetuses. Results show that our method achieves an average Dice similarity coefficient of 0.893 and 0.916 for the transient structures of younger and older fetuses, respectively. Our method generated results that were significantly more accurate than several state-of-the-art methods including nnU-Net that achieved the closest results to our method. Our trained model can serve as a valuable tool to enhance the accuracy and reproducibility of fetal brain analysis in MRI.
翻訳日:2022-03-30 12:22:17 公開日:2022-03-25
# 小型データ分類のための最適量子カーネル

Optimal quantum kernels for small data classification ( http://arxiv.org/abs/2203.13848v1 )

ライセンス: Link先を確認
Elham Torabian and Roman V. Krems(参考訳) 量子機械学習(ml)は量子コンピューティングの最も有望な応用の1つとして提案されているが、古典的mlを上回る量子mlモデルの構築方法は依然として大きな疑問である。 本稿では,量子ゲートシーケンスをデータに適用する支援ベクターマシンのための量子カーネル構築アルゴリズムを示す。 このアルゴリズムは3つの必須成分を含む: 量子回路空間における欲望探索、回路選択計量としてのベイズ情報基準、同定された最適量子回路のパラメータのベイズ最適化。 少数のトレーニングポイントを持つ分類問題に対する結果の量子モデルの性能は、従来のカーネルを持つ最適化された古典モデルよりも著しく高い。 さらに, 量子回路を分子指紋にマッピングする可能性を示し, 結果として得られる化学空間において, 高性能量子カーネルを分離できることを示す。 このことは、化学空間をまたいだ分子特性の最適化と補間のために開発された手法が、量子機械学習のための量子回路の構築に利用できることを示唆している。

While quantum machine learning (ML) has been proposed to be one of the most promising applications of quantum computing, how to build quantum ML models that outperform classical ML remains a major open question. Here, we demonstrate an algorithm for constructing quantum kernels for support vector machines that adapts quantum gate sequences to data. The algorithm includes three essential ingredients: greedy search in the space of quantum circuits, Bayesian information criterion as circuit selection metric and Bayesian optimization of the parameters of the optimal quantum circuit identified. The performance of the resulting quantum models for classification problems with a small number of training points significantly exceeds that of optimized classical models with conventional kernels. In addition, we illustrate the possibility of mapping quantum circuits onto molecular fingerprints and show that performant quantum kernels can be isolated in the resulting chemical space. This suggests that methods developed for optimization and interpolation of molecular properties across chemical spaces can be used for building quantum circuits for quantum machine learning with enhanced performance.
翻訳日:2022-03-29 17:26:10 公開日:2022-03-25
# dyadic audio-visual-physio信号からの連続印象認識のためのクロスドメインアプローチ

A Cross-Domain Approach for Continuous Impression Recognition from Dyadic Audio-Visual-Physio Signals ( http://arxiv.org/abs/2203.13932v1 )

ライセンス: Link先を確認
Yuanchao Li, Catherine Lai(参考訳) 私たちが他人に与える印象は、私たちが何を言っているかだけでなく、その言い方にも大きく依存します。 感情コンピューティングと社会信号処理のサブブランチとして、人間と人間の会話と音声対話システムの両方において印象認識が重要であることが証明されている。 しかしながら、ほとんどの研究は、受信機からの応答を無視して、エミッターによって表現される信号からのみ印象を研究する。 本稿では,dyadicインプレッションデータセット上で提案するクロスドメインアーキテクチャを用いて印象認識を行う。 この改良されたアーキテクチャは、クロスドメインの注意と正規化を利用する。 ドメイン間の注意は、それぞれドメイン内およびドメイン間関連性をキャプチャする、アテンション内およびインターアテンション機構から構成される。 クロスドメイン正則化には、エミッタと受信機間の機能接続を強化する知識蒸留と類似性増強損失が含まれる。 本手法の有効性を実験的に検証した。 提案手法は, コンコータンス相関係数0.770, 温暖度0.748を実現した。

The impression we make on others depends not only on what we say, but also, to a large extent, on how we say it. As a sub-branch of affective computing and social signal processing, impression recognition has proven critical in both human-human conversations and spoken dialogue systems. However, most research has studied impressions only from the signals expressed by the emitter, ignoring the response from the receiver. In this paper, we perform impression recognition using a proposed cross-domain architecture on the dyadic IMPRESSION dataset. This improved architecture makes use of cross-domain attention and regularization. The cross-domain attention consists of intra- and inter-attention mechanisms, which capture intra- and inter-domain relatedness, respectively. The cross-domain regularization includes knowledge distillation and similarity enhancement losses, which strengthen the feature connections between the emitter and receiver. The experimental evaluation verified the effectiveness of our approach. Our approach achieved a concordance correlation coefficient of 0.770 in competence dimension and 0.748 in warmth dimension.
翻訳日:2022-03-29 17:19:08 公開日:2022-03-25
# 決定論的政策勾配における準ニュートン反復

Quasi-Newton Iteration in Deterministic Policy Gradient ( http://arxiv.org/abs/2203.13854v1 )

ライセンス: Link先を確認
Arash Bahari Kordabad, Hossein Nejatbakhsh Esfahani, Wenqi Cai, Sebastien Gros(参考訳) 本稿では,政策パラメータの準ニュートンステップに基づく強化学習の文脈で使用する決定論的政策の性能を,ヘシアンに対してモデルフリーで近似する。 近似ヘッシアンは最適方針において正確なヘッシアンに収束し、政策パラメトリゼーションが豊富であることを条件として、学習における超線形収束を可能にする。 自然政策勾配法は,提案手法の特定の場合として解釈することができる。 単純な線形の場合の定式化を解析的に検証し、非線形例において提案手法の収束と自然政策勾配を比較する。

This paper presents a model-free approximation for the Hessian of the performance of deterministic policies to use in the context of Reinforcement Learning based on Quasi-Newton steps in the policy parameters. We show that the approximate Hessian converges to the exact Hessian at the optimal policy, and allows for a superlinear convergence in the learning, provided that the policy parametrization is rich. The natural policy gradient method can be interpreted as a particular case of the proposed method. We analytically verify the formulation in a simple linear case and compare the convergence of the proposed method with the natural policy gradient in a nonlinear example.
翻訳日:2022-03-29 17:15:31 公開日:2022-03-25
# 対向訓練によるジェットタグアルゴリズムの堅牢性向上

Improving robustness of jet tagging algorithms with adversarial training ( http://arxiv.org/abs/2203.13890v1 )

ライセンス: Link先を確認
Annika Stein and Xavier Coubez and Spandan Mondal and Andrzej Novak and Alexander Schmidt(参考訳) 深層学習は高エネルギー物理学の分野で標準的なツールであり、多くの解析戦略においてかなりの感度向上を促進する。 特に、ジェットフレーバータグングのような物理オブジェクトの識別では、複雑なニューラルネットワークアーキテクチャが重要な役割を果たしている。 しかし、これらの手法は正確なシミュレーションに依存している。 ミスモデリングは、測定とキャリブレーションが必要なデータのパフォーマンスに、無視できない違いをもたらす可能性がある。 入力データに対する分類器応答を入力ミスモデリングにより検証し,敵攻撃の適用によるフレーバータグ付けアルゴリズムの脆弱性を検証した。 次に,このようなシミュレート攻撃の影響を軽減し,分類器のロバスト性を向上させる,敵対的訓練戦略を提案する。 性能と脆弱性の関係を考察し,この手法が脆弱性を貧弱なモデリングに還元する有望なアプローチであることを示す。

Deep learning is a standard tool in the field of high-energy physics, facilitating considerable sensitivity enhancements for numerous analysis strategies. In particular, in identification of physics objects, such as jet flavor tagging, complex neural network architectures play a major role. However, these methods are reliant on accurate simulations. Mismodeling can lead to non-negligible differences in performance in data that need to be measured and calibrated against. We investigate the classifier response to input data with injected mismodelings and probe the vulnerability of flavor tagging algorithms via application of adversarial attacks. Subsequently, we present an adversarial training strategy that mitigates the impact of such simulated attacks and improves the classifier robustness. We examine the relationship between performance and vulnerability and show that this method constitutes a promising approach to reduce the vulnerability to poor modeling.
翻訳日:2022-03-29 17:15:24 公開日:2022-03-25
# 有限標本から高次元ヒルベルト値関数への近近近多項式近似の効率的な計算アルゴリズムについて

On efficient algorithms for computing near-best polynomial approximations to high-dimensional, Hilbert-valued functions from limited samples ( http://arxiv.org/abs/2203.13908v1 )

ライセンス: Link先を確認
Ben Adcock, Simone Brugiapaglia, Nick Dexter, Sebastian Moraga(参考訳) スパース多項式近似は、限られたサンプルから滑らかで高次元あるいは無限次元の関数を近似するのに不可欠である。 これは計算科学や工学における重要なタスクであり、例えば、関数がパラメトリックまたは確率的PDEの解写像であるUQにおける代理モデリングである。 しかし、スパース多項式近似は完全な理論を欠いている。 一方で、正則函数に対する指数的あるいは代数的収束率を主張する最良の$s$項多項式近似の理論が発達している。 一方、そのような近似を計算するための(重み付けされた)$\ell^1$-minimizationのような成熟した方法がある。 これらの方法のサンプルの複雑さは詳細に分析されているが、これらの方法がそのような速度を達成するかどうかの問題はよく分かっていない。 さらに、これらの手法は非線形最適化問題の最小化を含むため、それぞれアルゴリズムではない。 この論文はこれらのギャップを閉じる。 有限次元、無限次元、正則、およびヒルベルト値関数に対する近似を計算するためのロバストで効率的なアルゴリズムは、最良の$s$-termレートを達成する限られたサンプルから存在するか? これを肯定的に答え、指数的あるいは代数的収束率を主張するアルゴリズムと理論的保証を導入し、サンプリング、アルゴリズム、物理的離散化誤差に対するロバスト性を導入する。 我々はスカラー関数とヒルベルト値関数の両方に取り組み、これはパラメトリックPDEと確率PDEに特に関係している。 我々の研究は、ヒルベルト空間における重み付き$\ell^1$-minimization問題を解くための新しい原始双対反復を含む、既存の技術のいくつかの重要な発展を含む。 これらのアルゴリズムの実用性を示す数値実験により,本理論を補足する。

Sparse polynomial approximation has become indispensable for approximating smooth, high- or infinite-dimensional functions from limited samples. This is a key task in computational science and engineering, e.g., surrogate modelling in UQ where the function is the solution map of a parametric or stochastic PDE. Yet, sparse polynomial approximation lacks a complete theory. On the one hand, there is a well-developed theory of best $s$-term polynomial approximation, which asserts exponential or algebraic rates of convergence for holomorphic functions. On the other hand, there are increasingly mature methods such as (weighted) $\ell^1$-minimization for computing such approximations. While the sample complexity of these methods has been analyzed in detail, the matter of whether or not these methods achieve such rates is not well understood. Furthermore, these methods are not algorithms per se, since they involve exact minimizers of nonlinear optimization problems. This paper closes these gaps. Specifically, we pose and answer the following question: are there robust, efficient algorithms for computing approximations to finite- or infinite-dimensional , holomorphic and Hilbert-valued functions from limited samples that achieve best $s$-term rates? We answer this in the affirmative by introducing algorithms and theoretical guarantees that assert exponential or algebraic rates of convergence, along with robustness to sampling, algorithmic, and physical discretization errors. We tackle both scalar- and Hilbert-valued functions, this being particularly relevant to parametric and stochastic PDEs. Our work involves several significant developments of existing techniques, including a novel restarted primal-dual iteration for solving weighted $\ell^1$-minimization problems in Hilbert spaces. Our theory is supplemented by numerical experiments demonstrating the practical efficacy of these algorithms.
翻訳日:2022-03-29 17:15:11 公開日:2022-03-25
# ニューラル加速器の高速・最適ハードウェア協調設計への半分離的アプローチ

A Semi-Decoupled Approach to Fast and Optimal Hardware-Software Co-Design of Neural Accelerators ( http://arxiv.org/abs/2203.13921v1 )

ライセンス: Link先を確認
Bingqian Lu, Zheyu Yan, Yiyu Shi, Shaolei Ren(参考訳) ニューラルネットワークとアクセラレーターのための完全に分離された設計のパフォーマンスの限界を考えると、ハードウェアソフトウェアの共同設計はフレキシブルな設計空間の利点を完全に享受し、ニューラルネットワークのパフォーマンスを最適化するために現れている。 それでも、このような共同設計は検索空間を事実上無限大に拡大し、重大な課題を提起する。 以前の研究は、検索効率の向上(強化学習など)に重点を置いてきたが、アーキテクチャアクセラレータ設計の領域全体にわたる共同研究が一般的である。 本稿では,設計空間全体のサイズを1桁小さくする手法を提案するが,最適性を損なうことはない。 まず,1つのアクセラレータ候補に対する最適なアーキテクチャの小さなセットを得るために,ニューラルネットワーク探索を行う。 重要なことに、これは、異なる加速器設計における推論遅延とエネルギー消費の観点から、ニューラルネットワークのランク順が極めて類似しているという特性に基づく、他の加速器設計のための(近接した)最適アーキテクチャのセットでもある。 そして、すべての可能なアーキテクチャを考える代わりに、この小さなアーキテクチャセットと組み合わせてアクセラレータ設計を最適化することで、全体の検索コストを大幅に削減します。 データフローの異なるアクセラレーション設計のために,様々なアーキテクチャ空間で実験を行い,そのアプローチを検証する。 この結果から,探索空間を探索するだけで最適設計が達成できることが示唆された。 この作業のソースコードは \url{https://github.com/r en-research/codesign } にある。

In view of the performance limitations of fully-decoupled designs for neural architectures and accelerators, hardware-software co-design has been emerging to fully reap the benefits of flexible design spaces and optimize neural network performance. Nonetheless, such co-design also enlarges the total search space to practically infinity and presents substantial challenges. While the prior studies have been focusing on improving the search efficiency (e.g., via reinforcement learning), they commonly rely on co-searches over the entire architecture-acceler ator design space. In this paper, we propose a \emph{semi}-decoupled approach to reduce the size of the total design space by orders of magnitude, yet without losing optimality. We first perform neural architecture search to obtain a small set of optimal architectures for one accelerator candidate. Importantly, this is also the set of (close-to-)optimal architectures for other accelerator designs based on the property that neural architectures' ranking orders in terms of inference latency and energy consumption on different accelerator designs are highly similar. Then, instead of considering all the possible architectures, we optimize the accelerator design only in combination with this small set of architectures, thus significantly reducing the total search cost. We validate our approach by conducting experiments on various architecture spaces for accelerator designs with different dataflows. Our results highlight that we can obtain the optimal design by only navigating over the reduced search space. The source code of this work is at \url{https://github.com/R en-Research/CoDesign }.
翻訳日:2022-03-29 16:40:15 公開日:2022-03-25
# FD-SLAM:特徴とDense Matchingを用いた3次元再構成

FD-SLAM: 3-D Reconstruction Using Features and Dense Matching ( http://arxiv.org/abs/2203.13861v1 )

ライセンス: Link先を確認
Xingrui Yang and Yuhang Ming and Zhaopeng Cui and Andrew Calway(参考訳) 密マッチングに基づく視覚的SLAMシステムは局所的に正確であるが、長期のドリフトや地図の破損の影響も受けやすいことが知られている。 対照的に、特徴マッチング手法はより長期的な一貫性を実現することができるが、特徴情報が不足している場合、不正確な局所ポーズ推定に悩まされる可能性がある。 これらの観測に基づいてrgb-d slamシステムを提案する。 正確なサブマップとオンザフライ機能ベースのマッチングを構築し、グローバルマップ最適化を行うために、密なフレーム対モデルオドメトリを使用する。 さらに,地図構築を安定化させる3次元特徴に基づく学習型ループ閉鎖コンポーネントを組み込んだ。 本研究では,公開データセットから屋内シーケンスに対するアプローチを評価し,地図再構成品質とポーズ推定の観点から,最先端システムと同等かそれ以上の性能を示す。 このアプローチは、他のシステムがしばしば失敗する大きなシーンにも拡張できる。

It is well known that visual SLAM systems based on dense matching are locally accurate but are also susceptible to long-term drift and map corruption. In contrast, feature matching methods can achieve greater long-term consistency but can suffer from inaccurate local pose estimation when feature information is sparse. Based on these observations, we propose an RGB-D SLAM system that leverages the advantages of both approaches: using dense frame-to-model odometry to build accurate sub-maps and on-the-fly feature-based matching across sub-maps for global map optimisation. In addition, we incorporate a learning-based loop closure component based on 3-D features which further stabilises map building. We have evaluated the approach on indoor sequences from public datasets, and the results show that it performs on par or better than state-of-the-art systems in terms of map reconstruction quality and pose estimation. The approach can also scale to large scenes where other systems often fail.
翻訳日:2022-03-29 16:36:15 公開日:2022-03-25
# エンサンブル機械学習による電力需要のピーク日とピーク時間予測

Predicting Peak Day and Peak Hour of Electricity Demand with Ensemble Machine Learning ( http://arxiv.org/abs/2203.13886v1 )

ライセンス: Link先を確認
Tao Fu, Huifen Zhou, Xu Ma, Z. Jason Hou, Di Wu(参考訳) バッテリーエネルギー貯蔵システムは電力システムのピーク需要削減に利用でき、経済的に大きな利益をもたらす。 2つの実践的課題 1)ピーク負荷日時及び時刻を正確に判定する。 2 派遣決定の確率的リスク対策における予測に係る不確実性の定量化及び低減 本研究では,教師付き機械学習による生成手法を開発する。 1 月のピーク時を含む次の営業日の発生確率及び 2)1時間の確率は、その日のピーク時である。 データの準備と強化、および機械学習モデルの選択と意思決定しきい値の選択に関するガイダンスが提供される。 提案手法はデューク・エナジー・プログレス(Duke Energy Progress)システムに適用され、72ヶ月中69日間のピークを3%超の確率閾値で達成した。 ピーク日の90%では、実際のピークアワーは最大確率の2時間のうちの1時間である。

Battery energy storage systems can be used for peak demand reduction in power systems, leading to significant economic benefits. Two practical challenges are 1) accurately determining the peak load days and hours and 2) quantifying and reducing uncertainties associated with the forecast in probabilistic risk measures for dispatch decision-making. In this study, we develop a supervised machine learning approach to generate 1) the probability of the next operation day containing the peak hour of the month and 2) the probability of an hour to be the peak hour of the day. Guidance is provided on the preparation and augmentation of data as well as the selection of machine learning models and decision-making thresholds. The proposed approach is applied to the Duke Energy Progress system and successfully captures 69 peak days out of 72 testing months with a 3% exceedance probability threshold. On 90% of the peak days, the actual peak hour is among the 2 hours with the highest probabilities.
翻訳日:2022-03-29 16:05:21 公開日:2022-03-25
# セルフアテンションチャネルコンビネータを利用した遠隔asrのための空間処理フロントエンド

Spatial Processing Front-End For Distant ASR Exploiting Self-Attention Channel Combinator ( http://arxiv.org/abs/2203.13919v1 )

ライセンス: Link先を確認
Dushyant Sharma and Rong Gong and James Fosburgh and Stanislav Yu. Kruchinin and Patrick A. Naylor and Ljubomir Milanovic(参考訳) 本稿では,チャネル短縮と重み付き予測誤差 (wpe) 法を併用した新しいマルチチャネルフロントエンドと,最近提案されているsacc(self-attention- based channel combination)方式を併用した固定mvdrビームフォーマを提案する。 提案方式はContextNetをベースとしたエンド・ツー・エンド(E2E)ASRシステムの一部として,マルチチャネルLibriSpeechデータセット上での相対的なWERの21.6%削減により,主要なASRシステムより優れていることを示す。 また,ビームフォーミングに先立っての除去がいかに有用かを示し,WPE法とニューラルチャネル短縮法との比較を行った。 信号C50の非侵入推定の分析により、8チャネルWPE法が信号の顕著な収差(13.6dB改善)を提供することを確認した。 また、SACCシステムの重み付けにより、ダイアリゼーションなどの他の音声処理アプリケーションに有用な正確な空間情報の抽出が可能となることを示す。

We present a novel multi-channel front-end based on channel shortening with theWeighted Prediction Error (WPE) method followed by a fixed MVDR beamformer used in combination with a recently proposed self-attention-based channel combination (SACC) scheme, for tackling the distant ASR problem. We show that the proposed system used as part of a ContextNet based end-to-end (E2E) ASR system outperforms leading ASR systems as demonstrated by a 21.6% reduction in relative WER on a multi-channel LibriSpeech playback dataset. We also show how dereverberation prior to beamforming is beneficial and compare the WPE method with a modified neural channel shortening approach. An analysis of the non-intrusive estimate of the signal C50 confirms that the 8 channel WPE method provides significant dereverberation of the signals (13.6 dB improvement). We also show how the weights of the SACC system allow the extraction of accurate spatial information which can be beneficial for other speech processing applications like diarization.
翻訳日:2022-03-29 15:59:56 公開日:2022-03-25
# 伝達学習に基づく顔行動単位認識

Facial Action Unit Recognition Based on Transfer Learning ( http://arxiv.org/abs/2203.14694v1 )

ライセンス: Link先を確認
Shangfei Wang, Yanan Chang, Jiahe Wang(参考訳) 顔面行動単位認識は顔分析において重要な課題である。 複雑な収集環境のため、野生における顔行動単位の認識は依然として困難である。 第3回感情行動分析コンテスト(ABAW)では,顔動作単位アノテーションを用いた顔画像が多数提供されている。 本稿では,トランスファー学習に基づく顔行動単位認識手法を提案する。 まず,表現ラベル付き顔画像を用いて特徴抽出ネットワークを訓練する。 次に、顔行動単位認識のためのネットワークを微調整する。

Facial action unit recognition is an important task for facial analysis. Owing to the complex collection environment, facial action unit recognition in the wild is still challenging. The 3rd competition on affective behavior analysis in-the-wild (ABAW) has provided large amount of facial images with facial action unit annotations. In this paper, we introduce a facial action unit recognition method based on transfer learning. We first use available facial images with expression labels to train the feature extraction network. Then we fine-tune the network for facial action unit recognition.
翻訳日:2022-03-29 15:26:05 公開日:2022-03-25
# 説明手法における品質評価基準のメタ調査

A Meta Survey of Quality Evaluation Criteria in Explanation Methods ( http://arxiv.org/abs/2203.13929v1 )

ライセンス: Link先を確認
Helena L\"ofstr\"om, Karl Hammar, Ulf Johansson(参考訳) 意思決定支援システム(DSS)における不透明なAIモデルの増加により、説明可能な人工知能(XAI)において、説明方法とその評価が重要な問題となっている。 最も正確なaiモデルは透明性と理解性が低い不透明であるため、バイアス検出と不確実性の制御には説明が不可欠である。 説明方法の品質を評価する際に選択すべき基準はたくさんあります。 しかし,既存の基準は単一説明法の評価に重点を置いているため,異なる手法の質を比較する方法が明確ではない。 この合意の欠如はこの分野における厳密さの重大な不足を生み出しているが、説明法の比較評価についてはほとんど書かれていない。 本稿では,説明方法の比較評価に使用可能な既存の基準を識別するための説明可能性の評価を対象とする,半体系的メタサーベイを15以上の文献調査で実施した。 本論文の主な貢献は、主観評価基準の結果を測定する基準として適切な信頼を活用し、その結果、比較評価を可能にすることにある。 また,説明品質の側面のモデルも提示する。 モデルでは、類似した定義を持つ基準は、モデル、説明、ユーザという3つの品質の側面にグループ化され、関連する。 また,説明品質のすべての面をカバーする4つの一般的な基準 (グループ) が文献に含まれていることにも気付きました。 本モデルは, 比較評価のためのチャートとして用いることで, 説明品質に関するより一般的な研究を創出することを提案する。

Explanation methods and their evaluation have become a significant issue in explainable artificial intelligence (XAI) due to the recent surge of opaque AI models in decision support systems (DSS). Since the most accurate AI models are opaque with low transparency and comprehensibility, explanations are essential for bias detection and control of uncertainty. There are a plethora of criteria to choose from when evaluating explanation method quality. However, since existing criteria focus on evaluating single explanation methods, it is not obvious how to compare the quality of different methods. This lack of consensus creates a critical shortage of rigour in the field, although little is written about comparative evaluations of explanation methods. In this paper, we have conducted a semi-systematic meta-survey over fifteen literature surveys covering the evaluation of explainability to identify existing criteria usable for comparative evaluations of explanation methods. The main contribution in the paper is the suggestion to use appropriate trust as a criterion to measure the outcome of the subjective evaluation criteria and consequently make comparative evaluations possible. We also present a model of explanation quality aspects. In the model, criteria with similar definitions are grouped and related to three identified aspects of quality; model, explanation, and user. We also notice four commonly accepted criteria (groups) in the literature, covering all aspects of explanation quality: Performance, appropriate trust, explanation satisfaction, and fidelity. We suggest the model be used as a chart for comparative evaluations to create more generalisable research in explanation quality.
翻訳日:2022-03-29 14:45:53 公開日:2022-03-25
# sylph: インクリメンタルな少数ショットオブジェクト検出のためのハイパーネットワークフレームワーク

Sylph: A Hypernetwork Framework for Incremental Few-shot Object Detection ( http://arxiv.org/abs/2203.13903v1 )

ライセンス: Link先を確認
Li Yin, Juan M Perez-Rua, Kevin J Liang(参考訳) ifsd(pregressal few-shot object detection)設定について検討した。 近年,超ネットワークベースの手法が,連続的かつ精細なifsdの文脈で研究され,成功を収めている。 このような手法の重要な設計選択について詳しく検討し、いくつかの重要な改善をもたらし、Sylphと呼ばれるより正確で柔軟なフレームワークを生み出しました。 特に,大規模データセット上のクラス非依存なローカライズのために事前学習されたベース検出器を活用して,対象の分類とローカライズを分離するの有効性を示す。 従来の結果とは対照的に,厳密に設計されたクラス条件のハイパーネットワークにより,大量のデータを持つ多数のベースカテゴリがメタトレーニングに利用可能である場合,特にテストタイムトレーニングを行う代替案に近づいた場合,ファネチューンフリーのiFSDは極めて有効であることを示す。 この結果は,(1)追加の訓練を伴わずに新しいクラスを逐次学習すること,(2)新しいクラスと見たクラスの両方を1回のパスで検出すること,(3)これまで見られたクラスを忘れないこと,といった多くの実践上の利点を考えると,さらに重要である。 我々は、COCOとLVISの両方でモデルをベンチマークし、LVISの長い尾のレアクラスで最大17\%$APを報告し、ハイパーネットワークベースのiFSDの可能性を示唆した。

We study the challenging incremental few-shot object detection (iFSD) setting. Recently, hypernetwork-based approaches have been studied in the context of continuous and finetune-free iFSD with limited success. We take a closer look at important design choices of such methods, leading to several key improvements and resulting in a more accurate and flexible framework, which we call Sylph. In particular, we demonstrate the effectiveness of decoupling object classification from localization by leveraging a base detector that is pretrained for class-agnostic localization on large-scale dataset. Contrary to what previous results have suggested, we show that with a carefully designed class-conditional hypernetwork, finetune-free iFSD can be highly effective, especially when a large number of base categories with abundant data are available for meta-training, almost approaching alternatives that undergo test-time-training. This result is even more significant considering its many practical advantages: (1) incrementally learning new classes in sequence without additional training, (2) detecting both novel and seen classes in a single pass, and (3) no forgetting of previously seen classes. We benchmark our model on both COCO and LVIS, reporting as high as $17\%$ AP on the long-tail rare classes on LVIS, indicating the promise of hypernetwork-based iFSD.
翻訳日:2022-03-29 14:43:51 公開日:2022-03-25
# AMD画像データセットを用いた高精細合成医用画像の生成支援ネットワーク

Which Generative Adversarial Network Yields High-Quality Synthetic Medical Images: Investigation Using AMD Image Datasets ( http://arxiv.org/abs/2203.13856v1 )

ライセンス: Link先を確認
Guilherme C. Oliveira, Gustavo H. Rosa, Daniel C. G. Pedronette, Jo\~ao P. Papa, Himeesh Kumar, Leandro A. Passos, Dinesh Kumar(参考訳) 医学画像の評価と分類のために深層学習が提案されている。 しかし、適切にラベル付けされた画像と注釈付き画像を持つ多くの医用画像データベースは小さく不均衡であり、そのようなモデルの訓練や検証には適さない。 選択は合成画像を生成することであり、その使用を制限する1つの技術が特許取得されている。 我々は,GAN(Generative Adversarial Networks)を用いたデータ拡張のための高分解能画像生成のためのフリーアクセス・代替手法を開発し,老化関連黄斑変性(AMD)識別のための眼底画像の有効性を示した。 10種類の異なるGANアーキテクチャを比較して、AMDの有無に関わらず合成眼底画像を生成する。 Fr'echet Inception Distance (FID) と2つの臨床専門家と深層学習分類を用いて3つの公開データベースのデータを評価した。 その結果、stylegan2は最低fid(166.17)に達し、臨床医は実際の画像と合成画像を正確に区別できなかった。 ResNet-18アーキテクチャは85%の精度で最高の性能を獲得し、平均精度77.5%のAMDの眼底画像検出の専門家よりも優れていた。 これらの結果は、最近特許された方法と似ており、高品質な合成医用画像を生成する代替手段を提供する。 この分野のさらなる発展を促進するため、全メソッドに無料アクセスが提供されている。

Deep learning has been proposed for the assessment and classification of medical images. However, many medical image databases with appropriately labeled and annotated images are small and imbalanced, and thus unsuitable to train and validate such models. The option is to generate synthetic images and one successful technique has been patented which limits its use for others. We have developed a free-access, alternate method for generating synthetic high-resolution images using Generative Adversarial Networks (GAN) for data augmentation and showed their effectiveness using eye-fundus images for Age-Related Macular Degeneration (AMD) identification. Ten different GAN architectures were compared to generate synthetic eye-fundus images with and without AMD. Data from three public databases were evaluated using the Fr\'echet Inception Distance (FID), two clinical experts and deep-learning classification. The results show that StyleGAN2 reached the lowest FID (166.17), and clinicians could not accurately differentiate between real and synthetic images. ResNet-18 architecture obtained the best performance with 85% accuracy and outperformed the two experts in detecting AMD fundus images, whose average accuracy was 77.5%. These results are similar to a recently patented method, and will provide an alternative to generating high-quality synthetic medical images. Free access has been provided to the entire method to facilitate the further development of this field.
翻訳日:2022-03-29 14:16:32 公開日:2022-03-25
# 動的治療効果のための自動脱バイアス機械学習

Automatic Debiased Machine Learning for Dynamic Treatment Effects ( http://arxiv.org/abs/2203.13887v1 )

ライセンス: Link先を確認
Rahul Singh, Vasilis Syrgkanis(参考訳) 自動脱バイアス機械学習の考え方を動的治療体制に拡張する。 離散的な処理を伴う動的処理系に対する多重ロバストな公式は、ネスト平均回帰の帰納的 rieszpresenter キャラクタリゼーションの観点から再定式化できることを示した。 次に,動的レジームにおける二重ロバストな推定に関する先行研究のように,補正項が逆確率重み付け項の積のようにどのように見えるかを特徴付けることなく,脱バイアス補正を推定する再帰的リース推定学習アルゴリズムを適用する。 提案手法では, 損失最小化問題の列を定義し, 最小化器は脱バイアス補正の多重化器であり, 補助確率モデルの解法の必要性を回避し, 目標脱バイアス補正の平均二乗誤差を直接最適化する。

We extend the idea of automated debiased machine learning to the dynamic treatment regime. We show that the multiply robust formula for the dynamic treatment regime with discrete treatments can be re-stated in terms of a recursive Riesz representer characterization of nested mean regressions. We then apply a recursive Riesz representer estimation learning algorithm that estimates de-biasing corrections without the need to characterize how the correction terms look like, such as for instance, products of inverse probability weighting terms, as is done in prior work on doubly robust estimation in the dynamic regime. Our approach defines a sequence of loss minimization problems, whose minimizers are the mulitpliers of the de-biasing correction, hence circumventing the need for solving auxiliary propensity models and directly optimizing for the mean squared error of the target de-biasing correction.
翻訳日:2022-03-29 14:12:43 公開日:2022-03-25
# 透過電子顕微鏡画像からのナノワイヤ形態解析のための自己教師型機械学習モデル

Self-supervised machine learning model for analysis of nanowire morphologies from transmission electron microscopy images ( http://arxiv.org/abs/2203.13875v1 )

ライセンス: Link先を確認
Shizhao Lu, Brian Montz, Todd Emrick, Arthi Jayaraman(参考訳) 軟質材料の分野では、顕微鏡は構造的特徴付けのための最初の、しばしばアクセス可能な方法である。 顕微鏡画像の解析と解釈を自動化できる機械学習手法の開発への関心が高まっている。 機械学習モデルのトレーニングは通常、関連する構造ラベルを持つ大量の画像を必要とするが、画像の手動ラベリングにはドメイン知識が必要であり、ヒューマンエラーや主観性が生じる。 これらの制約を克服するため,我々は,少数のラベル付き顕微鏡画像を用いた自己教師あり転送学習手法を提案する。 具体的には、ラベルのない画像で画像エンコーダを訓練し、そのエンコーダを使用して、異なる下流画像タスク(分類とセグメンテーション)の変換学習を、最小限のラベル付き画像でトレーニングする。

In the field of soft materials, microscopy is the first and often only accessible method for structural characterization. There is a growing interest in the development of machine learning methods that can automate the analysis and interpretation of microscopy images. Typically training of machine learning models require large numbers of images with associated structural labels, however, manual labeling of images requires domain knowledge and is prone to human error and subjectivity. To overcome these limitations, we present a self-supervised transfer learning approach that uses a small number of labeled microscopy images for training and performs as effectively as methods trained on significantly larger data sets. Specifically, we train an image encoder with unlabeled images and use that encoder for transfer learning of different downstream image tasks (classification and segmentation) with a minimal number of labeled images for training.
翻訳日:2022-03-29 14:12:16 公開日:2022-03-25
# AUTOLEX: 言語探索のための自動フレームワーク

AUTOLEX: An Automatic Framework for Linguistic Exploration ( http://arxiv.org/abs/2203.13901v1 )

ライセンス: Link先を確認
Aditi Chaudhary, Zaid Sheikh, David R Mortensen, Antonios Anastasopoulos, Graham Neubig(参考訳) それぞれの言語は、言語学者や言語学習者の消費のために文法記述にしばしば要約される単語、句、文の構成の複雑な体系を持っている。 しかし、そのような記述を手動で作成することは、偏見や誤りを伴わずに「それ自身の言葉」で言語を記述する記述を作成する際には、手元にある言語と言語学全般の深い理解が必要である。 本稿では,言語現象の簡潔な記述の発見と抽出を容易にするための自動フレームワークAutoLEXを提案する。 具体的には, 形態的一致, ケースマーキング, 単語順序の3つの現象について, 複数の言語で記述する。 言語の専門家の助けを借りて記述を評価し,人間評価が実現不可能である場合の自動評価手法を提案する。

Each language has its own complex systems of word, phrase, and sentence construction, the guiding principles of which are often summarized in grammar descriptions for the consumption of linguists or language learners. However, manual creation of such descriptions is a fraught process, as creating descriptions which describe the language in "its own terms" without bias or error requires both a deep understanding of the language at hand and linguistics as a whole. We propose an automatic framework AutoLEX that aims to ease linguists' discovery and extraction of concise descriptions of linguistic phenomena. Specifically, we apply this framework to extract descriptions for three phenomena: morphological agreement, case marking, and word order, across several languages. We evaluate the descriptions with the help of language experts and propose a method for automated evaluation when human evaluation is infeasible.
翻訳日:2022-03-29 14:12:03 公開日:2022-03-25
# あなたはどうしたのですか。 自動対話評価のためのユーザ感の活用

What is wrong with you?: Leveraging User Sentiment for Automatic Dialog Evaluation ( http://arxiv.org/abs/2203.13927v1 )

ライセンス: Link先を確認
Sarik Ghazarian, Behnam Hedayatnia, Alexandros Papangelis, Yang Liu, Dilek Hakkani-Tur(参考訳) オープンドメインダイアログの正確な自動評価メトリクスは需要が高い。 システム応答評価のための既存のモデルベースのメトリクスは、人間の注釈付きデータに基づいて訓練される。 本稿では,ユーザの感情やユーザが会話を明示的に終了するかどうかといった,次のユーザの発話から自動的に抽出できる情報を,従来のシステム応答の質を測定するプロキシとして使用することを提案する。 これにより、手動のシステムターン品質アノテーションを必要とせずに、監督の弱い大量のダイアログをトレーニングできます。 実験により、我々のモデルは、人間の注釈データで訓練されたモデルに匹敵することが示された。 さらに,実際のユーザと有料ユーザの両方から収集したオープンドメイン対話コーパスを一般化する。

Accurate automatic evaluation metrics for open-domain dialogs are in high demand. Existing model-based metrics for system response evaluation are trained on human annotated data, which is cumbersome to collect. In this work, we propose to use information that can be automatically extracted from the next user utterance, such as its sentiment or whether the user explicitly ends the conversation, as a proxy to measure the quality of the previous system response. This allows us to train on a massive set of dialogs with weak supervision, without requiring manual system turn quality annotations. Experiments show that our model is comparable to models trained on human annotated data. Furthermore, our model generalizes across both spoken and written open-domain dialog corpora collected from real and paid users.
翻訳日:2022-03-29 14:11:48 公開日:2022-03-25
# 文脈化言語表現における内在的・外在的公平性評価指標について

On the Intrinsic and Extrinsic Fairness Evaluation Metrics for Contextualized Language Representations ( http://arxiv.org/abs/2203.13928v1 )

ライセンス: Link先を確認
Yang Trista Cao and Yada Pruksachatkun and Kai-Wei Chang and Rahul Gupta and Varun Kumar and Jwala Dhamala and Aram Galstyan(参考訳) 様々な自然言語処理タスクの公平性を測定するために、複数のメトリクスが導入された。 これらのメトリクスは、大まかに2つのカテゴリに分類できる。 1)ダウンストリームアプリケーションにおける公平性評価のための \emph{exrinsic metrics} 2) 上流の文脈化言語表現モデルにおける公平性を推定するためのemph{inrinsic metrics}。 本稿では,19の文脈化言語モデルを用いて,バイアス概念にまたがる内在的指標と外在的指標の相関関係について検討する。 評価データセットにおけるノイズの補正や,実験構成などの要因の統合においても,本質的および極端的メトリクスは元の設定と必ずしも相関しないことがわかった。 %であった。

Multiple metrics have been introduced to measure fairness in various natural language processing tasks. These metrics can be roughly categorized into two categories: 1) \emph{extrinsic metrics} for evaluating fairness in downstream applications and 2) \emph{intrinsic metrics} for estimating fairness in upstream contextualized language representation models. In this paper, we conduct an extensive correlation study between intrinsic and extrinsic metrics across bias notions using 19 contextualized language models. We find that intrinsic and extrinsic metrics do not necessarily correlate in their original setting, even when correcting for metric misalignments, noise in evaluation datasets, and confounding factors such as experiment configuration for extrinsic metrics. %al
翻訳日:2022-03-29 14:11:38 公開日:2022-03-25
# 局所線形埋め込みと因子分析と確率的PCAの理論的関係

Theoretical Connection between Locally Linear Embedding, Factor Analysis, and Probabilistic PCA ( http://arxiv.org/abs/2203.13911v1 )

ライセンス: Link先を確認
Benyamin Ghojogh, Ali Ghodsi, Fakhri Karray, Mark Crowley(参考訳) 局所線形埋め込み(LLE)は非線形スペクトル次元減少および多様体学習法である。 線形再構成と入力空間への点の線形埋め込みと埋め込み空間という2つの主要なステップがある。 本研究では,各データ点が線形再構成重みを潜在因子として条件付けされていると仮定する確率論的視点から線形再構成ステップを考察する。 lleの確率線形再構成は期待最大化を用いて解く。 本稿では,LLE,因子分析,確率的主成分分析(PCA)の3つの基本次元減少法の間に理論的関係があることを述べる。 LLEの確率線形再構成は因子分析や確率的PCAと同様に定式化される。 また、因子分析と確率的PCAが線形であり、LLEが非線形法である理由も説明されている。 この研究は、次元還元の2つの広いアプローチ、すなわちスペクトルと確率的アルゴリズムの橋渡しと組み合わせている。

Locally Linear Embedding (LLE) is a nonlinear spectral dimensionality reduction and manifold learning method. It has two main steps which are linear reconstruction and linear embedding of points in the input space and embedding space, respectively. In this work, we look at the linear reconstruction step from a stochastic perspective where it is assumed that every data point is conditioned on its linear reconstruction weights as latent factors. The stochastic linear reconstruction of LLE is solved using expectation maximization. We show that there is a theoretical connection between three fundamental dimensionality reduction methods, i.e., LLE, factor analysis, and probabilistic Principal Component Analysis (PCA). The stochastic linear reconstruction of LLE is formulated similar to the factor analysis and probabilistic PCA. It is also explained why factor analysis and probabilistic PCA are linear and LLE is a nonlinear method. This work combines and makes a bridge between two broad approaches of dimensionality reduction, i.e., the spectral and probabilistic algorithms.
翻訳日:2022-03-29 13:40:59 公開日:2022-03-25
# 価値と密度比を考慮したオフライン強化学習:ギャップのパワー

Offline Reinforcement Learning Under Value and Density-Ratio Realizability: the Power of Gaps ( http://arxiv.org/abs/2203.13935v1 )

ライセンス: Link先を確認
Jinglin Chen, Nan Jiang(参考訳) オフライン強化学習(RL)において、十分なカバレッジを欠いたデータセットを用いてサンプル効率保証を得るという難解な理論的問題を考える。 既存の理論では、実現可能性と非探索データの両方の下での学習を別々に扱っているが、両方を同時に扱うことはできない(我々が詳細に比較した並行処理を除く)。 余分な重要度サンプリングによって形成されるバージョン空間に基づく単純な悲観的アルゴリズムの保証を提供するとともに、その保証は最適なポリシーと関数クラスをカバーし、最適な値と密度比関数を実現するためにデータのみを必要とする。 同様のギャップ仮定はRL理論の他の領域で使用されているが、我々の研究は、オフラインRLにおけるギャップ仮定の実用性と新しいメカニズムを最初に特定するものである。

We consider a challenging theoretical problem in offline reinforcement learning (RL): obtaining sample-efficiency guarantees with a dataset lacking sufficient coverage, under only realizability-type assumptions for the function approximators. While the existing theory has addressed learning under realizability and under non-exploratory data separately, no work has been able to address both simultaneously (except for a concurrent work which we compare to in detail). Under an additional gap assumption, we provide guarantees to a simple pessimistic algorithm based on a version space formed by marginalized importance sampling, and the guarantee only requires the data to cover the optimal policy and the function classes to realize the optimal value and density-ratio functions. While similar gap assumptions have been used in other areas of RL theory, our work is the first to identify the utility and the novel mechanism of gap assumptions in offline RL.
翻訳日:2022-03-29 13:40:44 公開日:2022-03-25
# 知的マスキング : 医用画像解析における文脈符号化のための深いQラーニング

Intelligent Masking: Deep Q-Learning for Context Encoding in Medical Image Analysis ( http://arxiv.org/abs/2203.13865v1 )

ライセンス: Link先を確認
Mojtaba Bahrami, Mahsa Ghorbani, Nassir Navab(参考訳) 教師あり設定における大量のラベル付きデータの必要性は、ラベルなしデータを用いたディープニューラルネットワークの事前学習に自己教師あり学習を利用する最近の研究につながった。 多くの自己監督訓練戦略は、特に医療データセットにおいて、ラベルのないデータで利用可能な情報を活用するために研究されている。 画像に基づく自己監督の基本的な戦略の1つは文脈予測である。 このアプローチでは、画像の任意の欠落領域の内容をその周囲に基づいて再構成するモデルを訓練する。 しかし,既存の手法では画像のすべての領域に一様に焦点を合わせ,ランダムで盲目なマスキング手法を採用している。 このアプローチでは、多くの不要なネットワーク更新が発生し、モデルが抽出された機能を忘れてしまう。 本研究では,事前学習手順を改善するために,対象領域を遮蔽する新しい自己教師付きアプローチを開発した。 そこで本研究では,深層Q-ラーニングによる入力画像をインテリジェントにマスクする強化学習エージェントを提案する。 予測モデルに対するエージェントの訓練は,下流分類タスクで抽出された意味的特徴を著しく改善できることを示す。 超音波画像における乳癌の診断とMRI画像による下等度グリオーマの検出のための2つの公開データセットの実験を行った。 実験では,新しいマスキング手法が,精度,マクロF1,AUROCの分類タスクの性能に応じて,学習した特徴を向上することを示した。

The need for a large amount of labeled data in the supervised setting has led recent studies to utilize self-supervised learning to pre-train deep neural networks using unlabeled data. Many self-supervised training strategies have been investigated especially for medical datasets to leverage the information available in the much fewer unlabeled data. One of the fundamental strategies in image-based self-supervision is context prediction. In this approach, a model is trained to reconstruct the contents of an arbitrary missing region of an image based on its surroundings. However, the existing methods adopt a random and blind masking approach by focusing uniformly on all regions of the images. This approach results in a lot of unnecessary network updates that cause the model to forget the rich extracted features. In this work, we develop a novel self-supervised approach that occludes targeted regions to improve the pre-training procedure. To this end, we propose a reinforcement learning-based agent which learns to intelligently mask input images through deep Q-learning. We show that training the agent against the prediction model can significantly improve the semantic features extracted for downstream classification tasks. We perform our experiments on two public datasets for diagnosing breast cancer in the ultrasound images and detecting lower-grade glioma with MR images. In our experiments, we show that our novel masking strategy advances the learned features according to the performance on the classification task in terms of accuracy, macro F1, and AUROC.
翻訳日:2022-03-29 13:37:41 公開日:2022-03-25
# ビデオからのアクションフリー事前学習による強化学習

Reinforcement Learning with Action-Free Pre-Training from Videos ( http://arxiv.org/abs/2203.13880v1 )

ライセンス: Link先を確認
Younggyo Seo, Kimin Lee, Stephen James, Pieter Abbeel(参考訳) 最近の教師なし事前学習手法は、複数の下流タスクに有用な表現を学習することで、言語や視覚領域に効果的であることが示されている。 本稿では,教師なし事前学習が視覚に基づく強化学習(RL)にも有効かどうかを検討する。 そこで本研究では,映像における生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。 我々のフレームワークは2つのフェーズから構成される: アクションフリーの潜伏映像予測モデルを事前学習し、事前学習された表現を用いて、目に見えない環境下でアクション条件付き世界モデルを効率的に学習する。 微調整中に追加のアクション入力を組み込むため、事前学習されたアクションフリー予測モデルの上に、アクション条件潜在予測モデルを積み重ねる新しいアーキテクチャを導入する。 さらに,より優れた探索のために,事前学習した表現を活用するビデオベース固有のボーナスを提案する。 我々は,様々な操作や移動タスクにおいて,視覚に基づくRLの最終的な性能とサンプル効率の両方を大幅に改善することを示した。 コードはhttps://github.com/y ounggyoseo/apvで入手できる。

Recent unsupervised pre-training methods have shown to be effective on language and vision domains by learning useful representations for multiple downstream tasks. In this paper, we investigate if such unsupervised pre-training methods can also be effective for vision-based reinforcement learning (RL). To this end, we introduce a framework that learns representations useful for understanding the dynamics via generative pre-training on videos. Our framework consists of two phases: we pre-train an action-free latent video prediction model, and then utilize the pre-trained representations for efficiently learning action-conditional world models on unseen environments. To incorporate additional action inputs during fine-tuning, we introduce a new architecture that stacks an action-conditional latent prediction model on top of the pre-trained action-free prediction model. Moreover, for better exploration, we propose a video-based intrinsic bonus that leverages pre-trained representations. We demonstrate that our framework significantly improves both final performances and sample-efficiency of vision-based RL in a variety of manipulation and locomotion tasks. Code is available at https://github.com/y ounggyoseo/apv.
翻訳日:2022-03-29 13:10:20 公開日:2022-03-25
# SpeqNets:sprsity-awa re Permutation-equivari ant Graph Networks

SpeqNets: Sparsity-aware Permutation-equivari ant Graph Networks ( http://arxiv.org/abs/2203.13913v1 )

ライセンス: Link先を確認
Christopher Morris, Gaurav Rattan, Sandra Kiefer, and Siamak Ravanbakhsh(参考訳) メッセージパッシング)グラフニューラルネットワークは、グラフや一般的なリレーショナルデータ上での置換同変関数の近似に明確な制限があるが、より表現力のある高次グラフニューラルネットワークは、大きなグラフにスケールしない。 彼らは$k$-orderテンソルで操作するか、$k$-nodeサブグラフをすべて考慮し、メモリ要件の$k$への指数関数依存を示し、グラフのスパーシティに適応しない。 グラフ同型問題に対する新しいヒューリスティックを導入することで、従来のアーキテクチャとは異なり、表現性と拡張性の間の細かな制御を提供し、グラフのスパーシティに適応する普遍的、置換同変グラフネットワークのクラスを考案する。 これらのアーキテクチャは、予測性能の観点から標準グラフニューラルネットワークやグラフカーネルアーキテクチャを大幅に改善しながら、教師付きノードとグラフレベルの分類と回帰レジームにおける標準的な高次グラフネットワークと比較して、計算時間を大幅に削減する。

While (message-passing) graph neural networks have clear limitations in approximating permutation-equivari ant functions over graphs or general relational data, more expressive, higher-order graph neural networks do not scale to large graphs. They either operate on $k$-order tensors or consider all $k$-node subgraphs, implying an exponential dependence on $k$ in memory requirements, and do not adapt to the sparsity of the graph. By introducing new heuristics for the graph isomorphism problem, we devise a class of universal, permutation-equivari ant graph networks, which, unlike previous architectures, offer a fine-grained control between expressivity and scalability and adapt to the sparsity of the graph. These architectures lead to vastly reduced computation times compared to standard higher-order graph networks in the supervised node- and graph-level classification and regression regime while significantly improving over standard graph neural network and graph kernel architectures in terms of predictive performance.
翻訳日:2022-03-29 12:39:49 公開日:2022-03-25
# 外見のない地域への視覚と言語ナビゲーションの一般化分析

Analyzing Generalization of Vision and Language Navigation to Unseen Outdoor Areas ( http://arxiv.org/abs/2203.13838v1 )

ライセンス: Link先を確認
Raphael Schumann and Stefan Riezler(参考訳) 視覚と言語ナビゲーション(VLN)は、視覚的な言語理解の課題である。 自然言語ナビゲーション命令が与えられると、ビジュアルエージェントはパノラマ画像を備えたグラフベースの環境と対話し、記述された経路に従おうとする。 事前の作業は、トレーニングルートに類似したルートのナビゲーションに最適な結果が得られた屋内シナリオで行われており、見えない環境でのテストではパフォーマンスが著しく低下している。 室内のVLNとは対照的に,室内のVLNは,各環境グラフに特有の接合型埋め込みや方向デルタといった特徴により,屋外のVLNの獲得に大きく寄与しているのに対し,画像情報は,VLNを未確認の屋外領域に一般化する上で非常に小さな役割を担っている。 これらの結果は都市環境のグラフ表現の具体化に偏りを示し,vlnタスクの大規模化と地理的環境の多様性を求めるものである。

Vision and language navigation (VLN) is a challenging visually-grounded language understanding task. Given a natural language navigation instruction, a visual agent interacts with a graph-based environment equipped with panorama images and tries to follow the described route. Most prior work has been conducted in indoor scenarios where best results were obtained for navigation on routes that are similar to the training routes, with sharp drops in performance when testing on unseen environments. We focus on VLN in outdoor scenarios and find that in contrast to indoor VLN, most of the gain in outdoor VLN on unseen data is due to features like junction type embedding or heading delta that are specific to the respective environment graph, while image information plays a very minor role in generalizing VLN to unseen outdoor areas. These findings show a bias to specifics of graph representations of urban environments, demanding that VLN tasks grow in scale and diversity of geographical environments.
翻訳日:2022-03-29 12:18:52 公開日:2022-03-25
# 自然言語理解モデルにおけるカナリア抽出

Canary Extraction in Natural Language Understanding Models ( http://arxiv.org/abs/2203.13920v1 )

ライセンス: Link先を確認
Rahil Parikh, Christophe Dupuy, Rahul Gupta(参考訳) 自然言語理解(NLU)モデルは、電話番号やジップコードなどの機密情報に基づいて訓練することができる。 近年の文献では、モデルパラメータからトレーニングデータを抽出できるモデル反転攻撃(ModIvA)に焦点を当てている。 本研究では,NLUトレーニングデータに挿入されたカナリアを抽出し,そのような攻撃の態様を示す。 攻撃では、モデルへのオープンボックスアクセスを持つ敵がモデルのトレーニングセットに含まれるカナリアを再構築する。 カナリア上でテキスト補完を行うことで,このアプローチを評価し,カナリアのプレフィックス(非センシティブ)トークンを使用することで,カナリア全体を生成できることを実証する。 例えば、攻撃は、nluモデルのトレーニングデータセット内の4桁のコードを、最良の構成で0.5の確率で再構築することができる。 対策として,本実験においてModIvAのリスクを効果的に排除するいくつかの防御機構を同定した。

Natural Language Understanding (NLU) models can be trained on sensitive information such as phone numbers, zip-codes etc. Recent literature has focused on Model Inversion Attacks (ModIvA) that can extract training data from model parameters. In this work, we present a version of such an attack by extracting canaries inserted in NLU training data. In the attack, an adversary with open-box access to the model reconstructs the canaries contained in the model's training set. We evaluate our approach by performing text completion on canaries and demonstrate that by using the prefix (non-sensitive) tokens of the canary, we can generate the full canary. As an example, our attack is able to reconstruct a four digit code in the training dataset of the NLU model with a probability of 0.5 in its best configuration. As countermeasures, we identify several defense mechanisms that, when combined, effectively eliminate the risk of ModIvA in our experiments.
翻訳日:2022-03-29 12:18:34 公開日:2022-03-25
# (参考訳) バイオフォーマー:超低消費電力sEMGを用いたジェスチャー認識のための埋め込みトランス [全文訳有]

Bioformers: Embedding Transformers for Ultra-Low Power sEMG-based Gesture Recognition ( http://arxiv.org/abs/2203.12932v2 )

ライセンス: CC BY-SA 4.0
Alessio Burrello, Francesco Bianco Morghet, Moritz Scherer, Simone Benatti, Luca Benini, Enrico Macii, Massimo Poncino, Daniele Jahier Pagliari(参考訳) 人間と機械の相互作用は、義手やロボットアームの制御など、リハビリ作業で注目を集めている。 表面筋電図(sEMG)信号を利用したジェスチャー認識は、筋収縮に直接関連しているため、最も有望なアプローチの一つである。 しかし、同様のジェスチャーが筋収縮をもたらすため、これらの信号の分析には多くの課題が残されている。 したがって、信号の形状はほぼ同じであり、分類精度は低い。 この課題に取り組むために、大きなメモリフットプリントを必要とする複雑なニューラルネットワークが採用され、比較的高いエネルギーを消費し、分類に使用するデバイスの最大バッテリ寿命を制限している。 この研究はバイオフォーマーの導入によってこの問題に対処する。 この新しいファミリは4.9Xのパラメータと演算数を減らしながら最先端の性能にアプローチする。 さらに,新たなサブジェクト間事前学習を導入することで,新たな推論コストを必要とせず,最高のバイオフォーマーの精度を3.39%向上させる。 並列・超低消費電力(pulp)マイクロコントローラユニット(mcu)とグリーンウェーブギャップ8(greenwaves gap8)に最も高性能なバイオフォーマーを配置することで、推論レイテンシとエネルギーを2.72msと0.14mjで達成し、従来の最先端ニューラルネットワークよりも8.0倍低く、メモリは94.2kbに過ぎません。

Human-machine interaction is gaining traction in rehabilitation tasks, such as controlling prosthetic hands or robotic arms. Gesture recognition exploiting surface electromyographic (sEMG) signals is one of the most promising approaches, given that sEMG signal acquisition is non-invasive and is directly related to muscle contraction. However, the analysis of these signals still presents many challenges since similar gestures result in similar muscle contractions. Thus the resulting signal shapes are almost identical, leading to low classification accuracy. To tackle this challenge, complex neural networks are employed, which require large memory footprints, consume relatively high energy and limit the maximum battery life of devices used for classification. This work addresses this problem with the introduction of the Bioformers. This new family of ultra-small attention-based architectures approaches state-of-the-art performance while reducing the number of parameters and operations of 4.9X. Additionally, by introducing a new inter-subjects pre-training, we improve the accuracy of our best Bioformer by 3.39%, matching state-of-the-art accuracy without any additional inference cost. Deploying our best performing Bioformer on a Parallel, Ultra-Low Power (PULP) microcontroller unit (MCU), the GreenWaves GAP8, we achieve an inference latency and energy of 2.72 ms and 0.14 mJ, respectively, 8.0X lower than the previous state-of-the-art neural network, while occupying just 94.2 kB of memory.
翻訳日:2022-03-29 04:07:45 公開日:2022-03-25
# (参考訳) ウィジェット内映像のマルチモーダル感情推定 [全文訳有]

Multi-modal Emotion Estimation for in-the-wild Videos ( http://arxiv.org/abs/2203.13032v2 )

ライセンス: CC BY 4.0
Liyu Meng, Yuchen Liu, Xiaolong Liu, Zhaopei Huang, Wenqiang Jiang, Tenggan Zhang, Yuanyuan Deng, Ruichen Li, Yannan Wu, Jinming Zhao, Fengsheng Qiao, Chuanhe Liu and Qin Jin(参考訳) 本稿では,第3回愛着行動分析コンペティション(abaw)コンペティションにおけるヴァレンス・覚醒推定チャレンジ(valence-arousal estimation challenge)について紹介する。 本手法では,マルチモーダル情報,すなわち視覚情報と音声情報を用いて,映像の時間的文脈をモデル化する時間エンコーダを用いる。 さらに,より合理的な予測を行うためにスムースプロセッサが適用され,提案手法の性能向上のためにモデルアンサンブル戦略が用いられる。 実験の結果,提案手法の有効性を実証するaf-wild2データセットの検証セット上で,valenceは65.55%ccc,arousalは70.88%cccであった。

In this paper, we briefly introduce our submission to the Valence-Arousal Estimation Challenge of the 3rd Affective Behavior Analysis in-the-wild (ABAW) competition. Our method utilizes the multi-modal information, i.e., the visual and audio information, and employs a temporal encoder to model the temporal context in the videos. Besides, a smooth processor is applied to get more reasonable predictions, and a model ensemble strategy is used to improve the performance of our proposed method. The experiment results show that our method achieves 65.55% ccc for valence and 70.88% ccc for arousal on the validation set of the Aff-Wild2 dataset, which prove the effectiveness of our proposed method.
翻訳日:2022-03-29 03:53:58 公開日:2022-03-25
# (参考訳) 映像表情認識のためのスムース予測付き粗大なカスケードネットワーク [全文訳有]

Coarse-to-Fine Cascaded Networks with Smooth Predicting for Video Facial Expression Recognition ( http://arxiv.org/abs/2203.13052v2 )

ライセンス: CC BY 4.0
Fanglei Xue, Zichang Tan, Yu Zhu, Zhongsong Ma, Guodong Guo(参考訳) 表情認識は人間とコンピュータの相互作用において重要な役割を果たす。 本稿では,表情認識の性能を向上させるために,Smooth Predicting (CFC-SP) を用いたCarse-to-Fine Cascadedネットワークを提案する。 CFC-SPは、CFC(Carse-to-Fine Cascaded Network)とSP(Smooth Predicting)の2つのコアコンポーネントを含んでいる。 CFCでは、まずいくつかの類似した感情をグループ化し、粗いカテゴリーを形成し、その後ネットワークを使って粗いが正確な分類を行う。 後に、これらのグループ化された感情のための追加のネットワークが、よりきめ細かい予測を得るためにさらに使用される。 SPでは、普遍的および一意的な表現特徴の両方をキャプチャすることで、モデルの認識能力を向上する。 具体的には、普遍的な特徴は、ある期間内の顔の感情の一般的な特徴を表し、特異な特徴は、この時点での特定の特徴を表す。 Aff-Wild2の実験は提案したCFSPの有効性を示した。

Facial expression recognition plays an important role in human-computer interaction. In this paper, we propose the Coarse-to-Fine Cascaded network with Smooth Predicting (CFC-SP) to improve the performance of facial expression recognition. CFC-SP contains two core components, namely Coarse-to-Fine Cascaded networks (CFC) and Smooth Predicting (SP). For CFC, it first groups several similar emotions to form a rough category, and then employs a network to conduct a coarse but accurate classification. Later, an additional network for these grouped emotions is further used to obtain fine-grained predictions. For SP, it improves the recognition capability of the model by capturing both universal and unique expression features. To be specific, the universal features denote the general characteristic of facial emotions within a period and the unique features denote the specific characteristic at this moment. Experiments on Aff-Wild2 show the effectiveness of the proposed CFSP.
翻訳日:2022-03-29 03:44:12 公開日:2022-03-25
# (参考訳) Bailando:Choreograph ic Memoryによるアクター・クライブGPTによる3Dダンス生成 [全文訳有]

Bailando: 3D Dance Generation by Actor-Critic GPT with Choreographic Memory ( http://arxiv.org/abs/2203.13055v2 )

ライセンス: CC BY 4.0
Li Siyao, Weijiang Yu, Tianpei Gu, Chunze Lin, Quan Wang, Chen Qian, Chen Change Loy, Ziwei Liu(参考訳) 振付ノルムによるポーズに適用される空間的制約のため,音楽に合わせて踊る3Dキャラクタの運転は非常に困難である。 さらに、生成されたダンスシーケンスは、異なる音楽ジャンルと時間的一貫性を維持する必要がある。 これらの課題に取り組むため,我々は2つの強力な要素を持つ新しい音楽とダンスの枠組みであるbailandoを提案する。 1)意味あるダンスユニットを3Dポーズシーケンスから量子化されたコードブックに要約することを学ぶ振付記憶。 2)これらのユニットを音楽にコヒーレントな流麗なダンスに構成するアクタ批判型前訓練トランスフォーマー(gpt)。 学習した振り付け記憶により、生成したダンスシーケンスが空間的制約内に制限されるように、高い振り付け基準を満たす量子化単位上でダンス生成を実現する。 多様な動きのテンポと音楽のビートを同期的に調整するために,新たに設計されたビートアライメント機能を備えたアクタ批判に基づく強化学習スキームをGPTに導入する。 提案するフレームワークは, 定性的かつ定量的に, 最先端の性能を達成することを実証した。 特に、学習した振付記憶は、人間の解釈可能なダンススタイルのポーズを教師なしで発見する。

Driving 3D characters to dance following a piece of music is highly challenging due to the spatial constraints applied to poses by choreography norms. In addition, the generated dance sequence also needs to maintain temporal coherency with different music genres. To tackle these challenges, we propose a novel music-to-dance framework, Bailando, with two powerful components: 1) a choreographic memory that learns to summarize meaningful dancing units from 3D pose sequence to a quantized codebook, 2) an actor-critic Generative Pre-trained Transformer (GPT) that composes these units to a fluent dance coherent to the music. With the learned choreographic memory, dance generation is realized on the quantized units that meet high choreography standards, such that the generated dancing sequences are confined within the spatial constraints. To achieve synchronized alignment between diverse motion tempos and music beats, we introduce an actor-critic-based reinforcement learning scheme to the GPT with a newly-designed beat-align reward function. Extensive experiments on the standard benchmark demonstrate that our proposed framework achieves state-of-the-art performance both qualitatively and quantitatively. Notably, the learned choreographic memory is shown to discover human-interpretable dancing-style poses in an unsupervised manner.
翻訳日:2022-03-29 03:37:28 公開日:2022-03-25
# (参考訳) Point2Seq: 3Dオブジェクトをシーケンスとして検出する [全文訳有]

Point2Seq: Detecting 3D Objects as Sequences ( http://arxiv.org/abs/2203.13394v1 )

ライセンス: CC BY 4.0
Yujing Xue, Jiageng Mao, Minzhe Niu, Hang Xu, Michael Bi Mi, Wei Zhang, Xiaogang Wang, Xinchao Wang(参考訳) 我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。 従来の3Dオブジェクトの属性を1度に予測する手法とは対照的に,3Dオブジェクトの属性間の相互依存性を表現的にモデル化することで,検出精度が向上する。 具体的には,各3次元オブジェクトを単語列とみなし,各3次元オブジェクト検出タスクを自動回帰的に3次元シーンからの単語の復号化として再構成する。 さらに,3dシーンから特徴を条件とした単語を自動生成し,先行する単語からのヒントを自動生成する軽量なシーンからシーケンスへのデコーダを提案する。 予測された単語は最終的にシーン内の3Dオブジェクトを完全に記述した一連のシーケンスを構成し、予測されたすべてのシーケンスは、類似性に基づくシーケンスマッチングによって、自動的に各基底真実に割り当てられる。 我々の手法は概念的に直観的であり、計算オーバーヘッドが多すぎることなく既存のほとんどの3D検出バックボーンに簡単に接続できる。一方、我々が提案した逐次デコードパラダイムは、予測された単語の助けを借りて複雑な3Dシーンの情報を活用することができる。 ベルとホイッスルがなければ、我々の手法は従来のアンカーとセンターベースの3Dオブジェクト検出フレームワークよりも大幅に優れており、挑戦的なONCEデータセットとWaymo Open Datasetの新たな状態が得られる。 コードは \url{https://github.com/o cNflag/point2seq} で入手できる。

We present a simple and effective framework, named Point2Seq, for 3D object detection from point clouds. In contrast to previous methods that normally {predict attributes of 3D objects all at once}, we expressively model the interdependencies between attributes of 3D objects, which in turn enables a better detection accuracy. Specifically, we view each 3D object as a sequence of words and reformulate the 3D object detection task as decoding words from 3D scenes in an auto-regressive manner. We further propose a lightweight scene-to-sequence decoder that can auto-regressively generate words conditioned on features from a 3D scene as well as cues from the preceding words. The predicted words eventually constitute a set of sequences that completely describe the 3D objects in the scene, and all the predicted sequences are then automatically assigned to the respective ground truths through similarity-based sequence matching. Our approach is conceptually intuitive and can be readily plugged upon most existing 3D-detection backbones without adding too much computational overhead; the sequential decoding paradigm we proposed, on the other hand, can better exploit information from complex 3D scenes with the aid of preceding predicted words. Without bells and whistles, our method significantly outperforms previous anchor- and center-based 3D object detection frameworks, yielding the new state of the art on the challenging ONCE dataset as well as the Waymo Open Dataset. Code is available at \url{https://github.com/o cNflag/point2seq}.
翻訳日:2022-03-29 00:16:22 公開日:2022-03-25
# (参考訳) rおよびc上の質的ニューラルネットワーク近似:解析的および多項式的活性化に関する基礎的証明 [全文訳有]

Qualitative neural network approximation over R and C: Elementary proofs for analytic and polynomial activation ( http://arxiv.org/abs/2203.13410v1 )

ライセンス: CC BY 4.0
Josiah Park and Stephan Wojtowytsch(参考訳) 本稿では,基礎的議論により解析的活性化関数を持つ深層および浅層ニューラルネットワークのクラスにおける近似定理を証明する。 非線形活性化を持つ実ネットワークと複素ネットワークの両方に対して、ニューラルネットワークのクラスは多項式の空間の閉包と一致することを証明する。 閉包はさらにストーン・ワイエルシュトラスの定理(実数の場合)とマージリャンの定理(複素数の場合)によって特徴づけられる。 実例では、高次元調和活性化と直交射影線形写像を持つネットワークに対する近似結果をさらに証明する。 さらに, 多項式活性化関数を持つ大深度の完全連結および残差ネットワークは, 任意の多項式を一定の幅条件で近似できることを示した。 証明はすべて初等的である。

In this article, we prove approximation theorems in classes of deep and shallow neural networks with analytic activation functions by elementary arguments. We prove for both real and complex networks with non-polynomial activation that the closure of the class of neural networks coincides with the closure of the space of polynomials. The closure can further be characterized by the Stone-Weierstrass theorem (in the real case) and Mergelyan's theorem (in the complex case). In the real case, we further prove approximation results for networks with higher-dimensional harmonic activation and orthogonally projected linear maps. We further show that fully connected and residual networks of large depth with polynomial activation functions can approximate any polynomial under certain width requirements. All proofs are entirely elementary.
翻訳日:2022-03-28 23:58:15 公開日:2022-03-25
# (参考訳) 自然言語コマンドによるロボット軌跡の再構成:トランスフォーマーを用いたマルチモーダルデータアライメントの検討 [全文訳有]

Reshaping Robot Trajectories Using Natural Language Commands: A Study of Multi-Modal Data Alignment Using Transformers ( http://arxiv.org/abs/2203.13411v1 )

ライセンス: CC BY 4.0
Arthur Bucker, Luis Figueredo, Sami Haddadin, Ashish Kapoor, Shuang Ma, Rogerio Bonatti(参考訳) 自然言語は、命令や指示を表現するときに他の人と対話する最も直感的な媒体です。 しかし、現在の言語インターフェースのほとんどが静的なアクションターゲットとコマンドセットを持つ厳格なテンプレートを必要とするため、ロボットに対する意図を表現する必要のある場合、言語の使用は容易な作業ではない。 本研究では,人間とロボットのコラボレーションのための柔軟な言語ベースのインタフェースを提供する。 我々は,ユーザコマンドを符号化する大規模言語モデル(BERT,CLIP)の分野での最近の進歩を生かして,これらの特徴をマルチモーダルアテンショントランスフォーマを用いた軌道情報と組み合わせる。 言語コマンドによって修正されたロボット軌跡を含むデータセット上で模倣学習を用いてモデルを訓練し、軌道生成過程を言語生成アーキテクチャの動作に類似したシーケンス予測問題として扱う。 我々は,複数のシミュレーション軌道シナリオでシステム評価を行い,ベースラインアプローチによるモデルの性能向上を示す。 さらに,ロボットアームを用いた実世界実験では,審美的教育やコスト関数型プログラミングといった従来の手法よりも自然言語インターフェースが有意に好まれることが示された。 ロボット工学の分野において、ロボットと機械の間のより直感的なインタフェースを構築するために、大きな事前学習された言語モデルをどのように活用できるかを示す。 プロジェクトWebページ: https://arthurfender bucker.github.io/NL_ trajectory_reshaper/

Natural language is the most intuitive medium for us to interact with other people when expressing commands and instructions. However, using language is seldom an easy task when humans need to express their intent towards robots, since most of the current language interfaces require rigid templates with a static set of action targets and commands. In this work, we provide a flexible language-based interface for human-robot collaboration, which allows a user to reshape existing trajectories for an autonomous agent. We take advantage of recent advancements in the field of large language models (BERT and CLIP) to encode the user command, and then combine these features with trajectory information using multi-modal attention transformers. We train the model using imitation learning over a dataset containing robot trajectories modified by language commands, and treat the trajectory generation process as a sequence prediction problem, analogously to how language generation architectures operate. We evaluate the system in multiple simulated trajectory scenarios, and show a significant performance increase of our model over baseline approaches. In addition, our real-world experiments with a robot arm show that users significantly prefer our natural language interface over traditional methods such as kinesthetic teaching or cost-function programming. Our study shows how the field of robotics can take advantage of large pre-trained language models towards creating more intuitive interfaces between robots and machines. Project webpage: https://arthurfender bucker.github.io/NL_ trajectory_reshaper/
翻訳日:2022-03-28 23:24:27 公開日:2022-03-25
# (参考訳) 声調言語の自動翻訳 [全文訳有]

Automatic Song Translation for Tonal Languages ( http://arxiv.org/abs/2203.13420v1 )

ライセンス: CC BY 4.0
Fenfei Guo, Chen Zhang, Zhirui Zhang, Qixin He, Kejun Zhang, Jun Xie, Jordan Boyd-Graber(参考訳) 本稿では,声調言語の自動翻訳(AST)を開発し,本来の意味を伝えることに加えて,歌詞の音調を歌の旋律に合わせるというユニークな課題に対処する。 本稿では,効果的なASTの3つの基準 – 意味の保存,歌唱性,知性 – を提案し,これらの基準を設計する。 マンダリンの歌詞翻訳のための新しいベンチマークを開発し,事前学習と3つの復号制約を組み合わせた教師なしASTシステムであるガイド付きAliGnment for Automatic Song Translation (GagaST)を開発した。 自動評価と人的評価の両方で、GagaSTはセマンティクスと歌声のバランスをとることに成功した。

This paper develops automatic song translation (AST) for tonal languages and addresses the unique challenge of aligning words' tones with melody of a song in addition to conveying the original meaning. We propose three criteria for effective AST -- preserving meaning, singability and intelligibility -- and design metrics for these criteria. We develop a new benchmark for English--Mandarin song translation and develop an unsupervised AST system, Guided AliGnment for Automatic Song Translation (GagaST), which combines pre-training with three decoding constraints. Both automatic and human evaluations show GagaST successfully balances semantics and singability.
翻訳日:2022-03-28 23:07:16 公開日:2022-03-25
# (参考訳) ノイズ境界:半教師付きインスタンスセグメンテーションのためのレモンかレモネードか? [全文訳有]

Noisy Boundaries: Lemon or Lemonade for Semi-supervised Instance Segmentation? ( http://arxiv.org/abs/2203.13427v1 )

ライセンス: CC BY 4.0
Zhenyu Wang, Yali Li, Shengjin Wang(参考訳) 現在のインスタンスセグメンテーション法はピクセルレベルのアノテート画像に大きく依存している。 このような完全な注釈付き画像を得るための膨大なコストは、データセットのスケールを制限し、パフォーマンスを制限します。 本稿では,ラベルのない画像を用いて性能を向上させる半教師付きインスタンスセグメンテーションを公式に解決する。 ピクセルレベルの擬似ラベルを割り当てることで,半教師付きインスタンスセグメンテーションのためのフレームワークを構築する。 この枠組みでは、擬似ラベルに関連するノイズ境界が二重辺になっていることを指摘した。 我々はそれらを同時に活用し、抵抗することを提案する。 1)雑音境界の負の効果に対処するため,低分解能特性を利用した耐雑音マスクヘッドを提案する。 2) 積極的影響を高めるために, 境界関連領域内の詳細な情報を学習するための境界保存マップを導入する。 我々は広範な実験によってアプローチを評価する。 監視対象のベースラインを大きなマージンで上回り、シティスケープでは6%以上、cocoでは7%、bdd100kでは4.5%上回っている。 都市景観において,30%のラベル付き画像を用いて同等の性能を実現する。

Current instance segmentation methods rely heavily on pixel-level annotated images. The huge cost to obtain such fully-annotated images restricts the dataset scale and limits the performance. In this paper, we formally address semi-supervised instance segmentation, where unlabeled images are employed to boost the performance. We construct a framework for semi-supervised instance segmentation by assigning pixel-level pseudo labels. Under this framework, we point out that noisy boundaries associated with pseudo labels are double-edged. We propose to exploit and resist them in a unified manner simultaneously: 1) To combat the negative effects of noisy boundaries, we propose a noise-tolerant mask head by leveraging low-resolution features. 2) To enhance the positive impacts, we introduce a boundary-preserving map for learning detailed information within boundary-relevant regions. We evaluate our approach by extensive experiments. It behaves extraordinarily, outperforming the supervised baseline by a large margin, more than 6% on Cityscapes, 7% on COCO and 4.5% on BDD100k. On Cityscapes, our method achieves comparable performance by utilizing only 30% labeled images.
翻訳日:2022-03-28 22:47:05 公開日:2022-03-25
# (参考訳) ベンガル語におけるプラジャリズム検出:テキスト類似性に基づくアプローチ [全文訳有]

Plagiarism Detection in the Bengali Language: A Text Similarity-Based Approach ( http://arxiv.org/abs/2203.13430v1 )

ライセンス: CC BY 4.0
Satyajit Ghosh, Aniruddha Ghosh, Bittaswer Ghosh, and Abhishek Roy(参考訳) 盗作とは、他人の仕事を引き受け、それに対する信用を与えないことを意味する。 プラジアリズムは、学界や研究者の間で最も深刻な問題の一つである。 文書に盗作を検知するツールが複数存在するが、そのほとんどはドメイン固有で、英語のテキストで動作するように設計されているが、盗作は単一の言語のみに限定されない。 ベンガル語はバングラデシュで最も広く話されている言語であり、インドでは3億人の母語話者と3700万人の第二言語話者がいる。 プラジャリズム検出は比較のために大きなコーパスを必要とする。 ベンガル語文学は1300年の歴史を持つ。 そのため、ほとんどのベンガル文学書はまだデジタル化されていない。 そこで我々は,インド国立デジタル図書館からベンガル文学書を収集し,その資料を総合的に抽出し,私たちのコーパスを構築した。 OCRを用いたテキスト抽出では,72.10 %~79.89 %の平均精度が得られた。 レベンシュテイン距離アルゴリズムはプラギアリズムを決定するために用いられる。 我々はエンドユーザー向けのWebアプリケーションを構築し、ベンガル文字のプラジャリズム検出に成功しました。 将来的には、より正確な検出を行うために、より多くの書籍でコーパスを構築することを目指している。

Plagiarism means taking another person's work and not giving any credit to them for it. Plagiarism is one of the most serious problems in academia and among researchers. Even though there are multiple tools available to detect plagiarism in a document but most of them are domain-specific and designed to work in English texts, but plagiarism is not limited to a single language only. Bengali is the most widely spoken language of Bangladesh and the second most spoken language in India with 300 million native speakers and 37 million second-language speakers. Plagiarism detection requires a large corpus for comparison. Bengali Literature has a history of 1300 years. Hence most Bengali Literature books are not yet digitalized properly. As there was no such corpus present for our purpose so we have collected Bengali Literature books from the National Digital Library of India and with a comprehensive methodology extracted texts from it and constructed our corpus. Our experimental results find out average accuracy between 72.10 % - 79.89 % in text extraction using OCR. Levenshtein Distance algorithm is used for determining Plagiarism. We have built a web application for end-user and successfully tested it for Plagiarism detection in Bengali texts. In future, we aim to construct a corpus with more books for more accurate detection.
翻訳日:2022-03-28 22:35:35 公開日:2022-03-25
# (参考訳) 構造化プルーニングと低ランク近似による視覚変換器圧縮 [全文訳有]

Vision Transformer Compression with Structured Pruning and Low Rank Approximation ( http://arxiv.org/abs/2203.13444v1 )

ライセンス: CC BY 4.0
Ankur Kumar(参考訳) 大規模なデータセットでスケールできるため、transformerアーキテクチャが人気を集めている。 そのため、特にデバイス上のデプロイメントでは、モデルのサイズとレイテンシを低減する必要がある。 画像認識タスクに提案した視覚変換器(Dosovitskiy et al., 2021)に着目し, 低階近似やプルーニングなどの異なる圧縮技術の適用について検討する。 具体的には,zhu et al. (2021) で最近提案されている構造的プルーニング法について検討し, フィードフォワードブロックのほとんどが, 精度の低下とともに, このアプローチでプルーニングされていることを発見した。 そこで我々は,低階近似を用いて注目ブロックを圧縮し,前述したプルーニングを用いて,各トランス層におけるフィードフォワードブロックのレートを低くするハイブリッド圧縮手法を提案する。 その結果, 分類誤差が14%, 分類誤差が44%, プルーニングのみに適用した場合の誤差が20%, 50%の圧縮が得られた。 精度ギャップを埋めるためにさらなる拡張を提案するが、将来の作業として残す。

Transformer architecture has gained popularity due to its ability to scale with large dataset. Consequently, there is a need to reduce the model size and latency, especially for on-device deployment. We focus on vision transformer proposed for image recognition task (Dosovitskiy et al., 2021), and explore the application of different compression techniques such as low rank approximation and pruning for this purpose. Specifically, we investigate a structured pruning method proposed recently in Zhu et al. (2021) and find that mostly feedforward blocks are pruned with this approach, that too, with severe degradation in accuracy. We propose a hybrid compression approach to mitigate this where we compress the attention blocks using low rank approximation and use the previously mentioned pruning with a lower rate for feedforward blocks in each transformer layer. Our technique results in 50% compression with 14% relative increase in classification error whereas we obtain 44% compression with 20% relative increase in error when only pruning is applied. We propose further enhancements to bridge the accuracy gap but leave it as a future work.
翻訳日:2022-03-28 22:28:47 公開日:2022-03-25
# (参考訳) 最適停止のためのランダム化政策最適化

Randomized Policy Optimization for Optimal Stopping ( http://arxiv.org/abs/2203.13446v1 )

ライセンス: CC BY 4.0
Xinyi Guan, Velibor V. Mi\v{s}i\'c(参考訳) 最適停止とは、報酬を最大化するために確率的システムをいつ停止するかを決定する問題であり、これは金融、経営管理、医療といった分野において事実上重要である。 既存の高次元の最適停止法は、決定論的線形ポリシー -- 基底関数の重み付き和の符号に基づいて決定論的に停止するポリシー -- を生み出しているが、固定基底関数アーキテクチャによって与えられたこのポリシークラス内で最適なポリシーを見つけることは保証されていない。 本稿では,基本関数の重み付け和によって決定される確率で停止する確率を選択する,ランダム化線形ポリシーに基づく最適停止法を提案する。 穏やかな条件下では、固定基底関数アーキテクチャが与えられた場合、ランダム化された線形ポリシーを最適化することは決定論的線形ポリシーを最適化するのと同じである。 本研究では,データからランダムな線形ポリシーを学習する問題を,滑らかな非凸サンプル平均近似(saa)問題として定式化する。 理論的には、ランダム化政策SAA問題のほぼ確実な収束を証明し、Radecher複雑性に基づくランダム化政策のアウト・オブ・サンプル性能の限界を確立する。 また, SAA 問題は一般のNP-Hard の問題であり, ランダム化政策問題を解くための実践的ヒューリスティックを発達させることを示す。 オプション価格問題インスタンスのベンチマークファミリに関する数値実験により,提案手法が最先端の手法を大幅に上回ることを示す。

Optimal stopping is the problem of determining when to stop a stochastic system in order to maximize reward, which is of practical importance in domains such as finance, operations management and healthcare. Existing methods for high-dimensional optimal stopping that are popular in practice produce deterministic linear policies -- policies that deterministically stop based on the sign of a weighted sum of basis functions -- but are not guaranteed to find the optimal policy within this policy class given a fixed basis function architecture. In this paper, we propose a new methodology for optimal stopping based on randomized linear policies, which choose to stop with a probability that is determined by a weighted sum of basis functions. We motivate these policies by establishing that under mild conditions, given a fixed basis function architecture, optimizing over randomized linear policies is equivalent to optimizing over deterministic linear policies. We formulate the problem of learning randomized linear policies from data as a smooth non-convex sample average approximation (SAA) problem. We theoretically prove the almost sure convergence of our randomized policy SAA problem and establish bounds on the out-of-sample performance of randomized policies obtained from our SAA problem based on Rademacher complexity. We also show that the SAA problem is in general NP-Hard, and consequently develop a practical heuristic for solving our randomized policy problem. Through numerical experiments on a benchmark family of option pricing problem instances, we show that our approach can substantially outperform state-of-the-art methods.
翻訳日:2022-03-28 22:17:31 公開日:2022-03-25
# (参考訳) 制約問題に対する自動設計多目的アルゴリズムのコンポーネントワイズ解析 [全文訳有]

Component-wise Analysis of Automatically Designed Multiobjective Algorithms on Constrained Problems ( http://arxiv.org/abs/2203.13447v1 )

ライセンス: CC BY 4.0
Yuri Lavinas and Gabriela Ochoa and Claus Aranha(参考訳) 多目的アルゴリズムの性能は問題によって異なり、新しいアルゴリズムを開発したり、既存のアルゴリズムを新しい問題に適用することは困難である。 新しい多目的アルゴリズムの開発と適用を単純化するために、コンポーネント部品からの自動設計への関心が高まっている。 これらの自動設計メタヒューリスティックは、人間が開発したものよりも優れている。 しかし、パフォーマンス改善につながる最も影響力のあるコンポーネントは何かはまだ不明である。 本研究は,自動設計アルゴリズムの最終的な構成の影響を調べるための新しい手法を提案する。 本手法は,9つの制約付き問題に対して,iraceパッケージによって設計された分解に基づく多目的進化アルゴリズム(MOEA/D)に応用する。 次に, 探索軌道ネットワーク(stn), 集団の多様性, ハイパーボリュームの観点から, アルゴリズム成分の影響を比較検討した。 その結果、最も影響力のあるコンポーネントは再起動と更新の戦略であり、パフォーマンスが向上し、メトリック値がより異なることが示唆された。 また、それらの相対的な影響は、MOEA/Dが優れている問題では再起動戦略を使わず、MOEA/Dが最悪の問題では更新戦略の方が影響を受けていた。

The performance of multiobjective algorithms varies across problems, making it hard to develop new algorithms or apply existing ones to new problems. To simplify the development and application of new multiobjective algorithms, there has been an increasing interest in their automatic design from component parts. These automatically designed metaheuristics can outperform their human-developed counterparts. However, it is still uncertain what are the most influential components leading to their performance improvement. This study introduces a new methodology to investigate the effects of the final configuration of an automatically designed algorithm. We apply this methodology to a well-performing Multiobjective Evolutionary Algorithm Based on Decomposition (MOEA/D) designed by the irace package on nine constrained problems. We then contrast the impact of the algorithm components in terms of their Search Trajectory Networks (STNs), the diversity of the population, and the hypervolume. Our results indicate that the most influential components were the restart and update strategies, with higher increments in performance and more distinct metric values. Also, their relative influence depends on the problem difficulty: not using the restart strategy was more influential in problems where MOEA/D performs better; while the update strategy was more influential in problems where MOEA/D performs the worst.
翻訳日:2022-03-28 22:16:14 公開日:2022-03-25
# (参考訳) 映像分類とキーフレーム識別のための半教師付き深層学習フレームワーク [全文訳有]

Semi-supervised and Deep learning Frameworks for Video Classification and Key-frame Identification ( http://arxiv.org/abs/2203.13459v1 )

ライセンス: CC BY 4.0
Sohini Roychowdhury(参考訳) ビデオベースのデータと機械学習パイプラインの自動化は、効率的なストレージと検索のためのメタデータ生成や、シーン理解タスクのためのキーフレームの分離など、いくつかの課題をもたらす。 本研究では,コンテンツのシーンの自動分類と,シーン理解タスクの微調整を行うためのフィルタリングフレームを用いて,ビデオストリームにおける手作業によるフレームシフティングのプロセスを自動化する,2つの半教師付き手法を提案する。 最初のルールベースの手法は、事前訓練されたオブジェクト検出器から始まり、前景オブジェクトの確率分布に基づいてシーンタイプ、不確実性、照明カテゴリを各フレームに割り当てる。 次に、高い不確実性と構造的相違性を有するフレームをキーフレームとして分離する。 第2の方法は、フレームエンコーディングのためのsimCLRモデルに依存し、残りのフレームをシーンと照明のカテゴリにラベル付けるために20%のフレームサンプルからラベルスレッディングを行う。 また、エンコードされた特徴空間におけるビデオフレームのクラスタリングは、クラスタ境界におけるキーフレームをさらに分離する。 提案手法は,JAAD と KITTI のパブリックドメインデータセットから自動シーン分類のための64-93%の精度を実現する。 また、すべての入力フレームの10%未満をキーフレームとしてフィルタリングして、アノテーションやマシンビジョンアルゴリズムの微調整のために送信することができる。 これにより、最小限のトレーニング画像を持つ知覚駆動システムの自動トレーニングのために、提案するフレームワークをビデオデータストリームに追加することができる。

Automating video-based data and machine learning pipelines poses several challenges including metadata generation for efficient storage and retrieval and isolation of key-frames for scene understanding tasks. In this work, we present two semi-supervised approaches that automate this process of manual frame sifting in video streams by automatically classifying scenes for content and filtering frames for fine-tuning scene understanding tasks. The first rule-based method starts from a pre-trained object detector and it assigns scene type, uncertainty and lighting categories to each frame based on probability distributions of foreground objects. Next, frames with the highest uncertainty and structural dissimilarity are isolated as key-frames. The second method relies on the simCLR model for frame encoding followed by label-spreading from 20% of frame samples to label the remaining frames for scene and lighting categories. Also, clustering the video frames in the encoded feature space further isolates key-frames at cluster boundaries. The proposed methods achieve 64-93% accuracy for automated scene categorization for outdoor image videos from public domain datasets of JAAD and KITTI. Also, less than 10% of all input frames can be filtered as key-frames that can then be sent for annotation and fine tuning of machine vision algorithms. Thus, the proposed framework can be scaled to additional video data streams for automated training of perception-driven systems with minimal training images.
翻訳日:2022-03-28 22:02:10 公開日:2022-03-25
# (参考訳) 深層移動学習を用いた弾丸による胸部X線の解釈 [全文訳有]

Interpretation of Chest x-rays affected by bullets using deep transfer learning ( http://arxiv.org/abs/2203.13461v1 )

ライセンス: CC BY 4.0
Shaheer Khan, Azib Farooq, Israr Khan, Muhammad Gulraiz Khan, Abdul Razzaq(参考訳) 深層学習の可能性は、特に医用イメージングにおいて驚くべき結果をもたらし、毎日の経過後にその方法論を改善した。 放射線学における深層学習は、異なる疾患を分類、検出、分離する機会を提供する。 提案した研究では,X線を銃弾の影響を受け,局所的に分類する医療画像の非自明な側面について検討した。 異なる分類モデルとローカライゼーションモデルを用いて画像の精度を検証した。 胸部X線の異なる画像に再現されたデータセットを再現した。 提案モデルは胸部x線写真だけでなく、脚、腹部、頭、胸部x線写真に基づくトレーニングデータセットなど他の臓器x線でも動作した。 カスタムモデルは、チューニングパラメータの後に分類とローカライゼーションの目的で使われてきた。 その結果,異なるフレームワークを用いた結果が得られた。 これはこの分野への啓蒙研究に役立つかもしれない。 我々の知る限りでは、深層学習を用いた弾丸による放射線写真の検出と分類に関する最初の研究である。

The potential of deep learning, especially in medical imaging, initiated astonishing results and improved the methodologies after every passing day. Deep learning in radiology provides the opportunity to classify, detect and segment different diseases automatically. In the proposed study, we worked on a non-trivial aspect of medical imaging where we classified and localized the X-Rays affected by bullets. We tested Images on different classification and localization models to get considerable accuracy. The replicated data set used in the study was replicated on different images of chest X-Rays. The proposed model worked not only on chest radiographs but other body organs X-rays like leg, abdomen, head, even the training dataset based on chest radiographs. Custom models have been used for classification and localization purposes after tuning parameters. Finally, the results of our findings manifested using different frameworks. This might assist the research enlightening towards this field. To the best of our knowledge, this is the first study on the detection and classification of radiographs affected by bullets using deep learning.
翻訳日:2022-03-28 21:46:07 公開日:2022-03-25
# (参考訳) CAD:Few-Shot分類の改善のための差別的特徴の適応

CAD: Co-Adapting Discriminative Features for Improved Few-Shot Classification ( http://arxiv.org/abs/2203.13465v1 )

ライセンス: CC BY 4.0
Philip Chikontwe, Soopil Kim, Sang Hyun Park(参考訳) 少数のラベル付きサンプルを与えられた未確認のクラスに適応できるモデルを学ぶことを目的としている。 最近のアプローチでは、特徴抽出器を事前学習し、その後、エピソディックメタラーニングのための微調整を行う。 他の方法は空間的特徴を利用して、分類器を共同で訓練しながらピクセルレベルの対応を学習する。 しかし、このようなアプローチによる結果は限界的な改善を示している。 本稿では, 変圧器方式の自己注意機構に着想を得て, 複数ショット分類のためのクロスアタッチド・リウェイト識別機能を提案する。 グローバルプーリング後のサポートとクェリイメージのベース表現を前提として、機能と横断を2つの側面でプロジェクションする単一の共有モジュールを紹介します。 (i)サポートのためのクエリ、および (ii)クエリのサポート。 モジュールは特徴間の注意スコアを計算し、後にプロジェクションヘッドが続く元の表現に追加される同じクラスの特徴の注意プール表現を生成する。 これは両側面の機能を効果的に再重み付けする(i&i)。 二 メートル法に基づくメタラーニングの改善を促進する機能を作成すること。 公開ベンチマークに関する広範な実験では,最先端の手法を3%~5%上回る結果が得られた。

Few-shot classification is a challenging problem that aims to learn a model that can adapt to unseen classes given a few labeled samples. Recent approaches pre-train a feature extractor, and then fine-tune for episodic meta-learning. Other methods leverage spatial features to learn pixel-level correspondence while jointly training a classifier. However, results using such approaches show marginal improvements. In this paper, inspired by the transformer style self-attention mechanism, we propose a strategy to cross-attend and re-weight discriminative features for few-shot classification. Given a base representation of support and query images after global pooling, we introduce a single shared module that projects features and cross-attends in two aspects: (i) query to support, and (ii) support to query. The module computes attention scores between features to produce an attention pooled representation of features in the same class that is later added to the original representation followed by a projection head. This effectively re-weights features in both aspects (i & ii) to produce features that better facilitate improved metric-based meta-learning. Extensive experiments on public benchmarks show our approach outperforms state-of-the-art methods by 3%~5%.
翻訳日:2022-03-28 21:36:12 公開日:2022-03-25
# (参考訳) インタラクティブなスタイル転送:すべてあなたのパレットです [全文訳有]

Interactive Style Transfer: All is Your Palette ( http://arxiv.org/abs/2203.13470v1 )

ライセンス: CC BY 4.0
Zheng Lin, Zhao Zhang, Kang-Rui Zhang, Bo Ren, Ming-Ming Cheng(参考訳) ニューラルスタイルトランスファー(nst)は、参照スタイルをコンテンツイメージに転送することで、印象的なアートワークを作成できる。 現在の画像から画像へのNST法は細かい制御が不足しており、しばしば芸術的な編集によって要求される。 そこで本稿では,この制限を緩和するために,ユーザがインタラクティブに調和型画像を作成するための描画型インタラクティブスタイル転送(ist)手法を提案する。 私たちのISTメソッドは、どこからでもブラシやディップスタイルとして機能し、ターゲットのコンテンツイメージの任意の領域にペイントします。 動作範囲を決定するために, ブラシの相互作用位置周りの顔料としてスタイルを取り, 類似度マップに従ってスタイルや内容画像の拡散を行う流体シミュレーションアルゴリズムを定式化する。 我々のIST法はNSTの創造的次元を拡大する。 ディッピングや絵画によって、1つのスタイルのイメージを駆使しても、何千ものアイキャッチ作品を生み出すことができる。 デモビデオは追加ファイルまたはhttp://mmcheng.net/i st.com/で利用可能である。

Neural style transfer (NST) can create impressive artworks by transferring reference style to content image. Current image-to-image NST methods are short of fine-grained controls, which are often demanded by artistic editing. To mitigate this limitation, we propose a drawing-like interactive style transfer (IST) method, by which users can interactively create a harmonious-style image. Our IST method can serve as a brush, dip style from anywhere, and then paint to any region of the target content image. To determine the action scope, we formulate a fluid simulation algorithm, which takes styles as pigments around the position of brush interaction, and diffusion in style or content images according to the similarity maps. Our IST method expands the creative dimension of NST. By dipping and painting, even employing one style image can produce thousands of eye-catching works. The demo video is available in supplementary files or in http://mmcheng.net/i st.
翻訳日:2022-03-28 21:35:14 公開日:2022-03-25
# (参考訳) 補助材料:動的拡張グラフモデルを用いた生涯生成モデル

Supplemental Material: Lifelong Generative Modelling Using Dynamic Expansion Graph Model ( http://arxiv.org/abs/2203.13503v1 )

ライセンス: CC BY 4.0
Fei Ye and Adrian G. Bors(参考訳) 本稿では,動的拡張グラフモデルを用いた生涯生成モデリングのための付録を提供する。 この付録には、さらに視覚的な結果と、挑戦的なデータセットの数値的な結果が含まれている。 また,提案する理論解析フレームワークの詳細な証明も提供する。 ソースコードはhttps://github.com/d tuzi123/Expansion-Gr aph-Modelにある。

In this article, we provide the appendix for Lifelong Generative Modelling Using Dynamic Expansion Graph Model. This appendix includes additional visual results as well as the numerical results on the challenging datasets. In addition, we also provide detailed proofs for the proposed theoretical analysis framework. The source code can be found in https://github.com/d tuzi123/Expansion-Gr aph-Model.
翻訳日:2022-03-28 21:23:20 公開日:2022-03-25
# (参考訳) 新型コロナウイルス感染環境におけるマスク型生産戦略の分析 [全文訳有]

Analysis of the Production Strategy of Mask Types in the COVID-19 Environment ( http://arxiv.org/abs/2203.13506v1 )

ライセンス: CC BY 4.0
Xiangri Lu, Zhanqing Wang, Hongbin Ma(参考訳) 2019年12月に新型コロナウイルスが流行して以来、使い捨ての医療用マスクやkn95マスクなどの医療用防護具は、国民にとって不可欠な資源となっている。 社会のあらゆる分野の企業は医療マスクの生産も変えてきた。 感染拡大後、医療用マスクの適切な製造時期の選択方法や、どの医療用マスクを生産するかは、短期間で予防・規制においてプラスの役割を果たす。 この点において, 使い捨て医療用マスクとkn95マスクの関連データを用いて, 対応するマスクタイプを生産するための適切なノードを決定するために, 進化的ゲーム競合分析を行う。 マスクタイプの生産戦略の研究と分析の後、作業と生産の再開を導く方法に肯定的な効果がある。

Since the outbreak of the COVID-19 in December 2019, medical protective equipment such as disposable medical masks and KN95 masks have become essential resources for the public. Enterprises in all sectors of society have also transformed the production of medical masks. After the outbreak, how to choose the right time to produce medical protective masks, and what type of medical masks to produce will play a positive role in preventing and controlling the epidemic in a short time. In this regard, the evolutionary game competition analysis will be conducted through the relevant data of disposable medical masks and KN95 masks to determine the appropriate nodes for the production of corresponding mask types. After the research and analysis of the production strategy of mask types, it has a positive effect on how to guide the resumption of work and production.
翻訳日:2022-03-28 21:21:17 公開日:2022-03-25
# (参考訳) 文書理解のためのグラフ注意ネットワークに基づくマルチモーダル事前学習 [全文訳有]

Multimodal Pre-training Based on Graph Attention Network for Document Understanding ( http://arxiv.org/abs/2203.13530v1 )

ライセンス: CC BY 4.0
Zhenrong Zhang, Jiefeng Ma, Jun Du, Licheng Wang and Jianshu Zhang(参考訳) ドキュメントインテリジェンス 比較的新しい研究トピックとして、多くのビジネスアプリケーションをサポートする。 主なタスクは、文書を自動的に読み、理解し、分析することである。 しかし、文書の形式(請求書、レポート、フォームなど)やレイアウトの多様性のため、機械に文書を理解させることは困難である。 本稿では,様々な文書理解タスクのためのマルチモーダルグラフ注目モデルであるgraphdocを提案する。 graphdocはテキスト、レイアウト、画像情報を同時に利用するマルチモーダルフレームワークで事前トレーニングされる。 文書において、テキストブロックはその周囲のコンテキストに大きく依存するため、注意機構にグラフ構造を注入し、各入力ノードがその近傍にのみ参加できるように、グラフ注意層を形成する。 各グラフ注目層の入力ノードは、文書画像における意味的に意味のある領域からテキスト的、視覚的、位置的特徴からなる。 ゲート融合層によって各ノードのマルチモーダル機能融合を行う。 各ノード間のコンテキスト化はグラフアテンション層によってモデル化される。 GraphDocは、Masked Sentence Modelingタスクを通じて、320kの未ラベルドキュメントから一般的な表現を学ぶ。 公開データセットの大規模な実験結果から,GraphDocは最先端のパフォーマンスを実現し,提案手法の有効性を示す。

Document intelligence as a relatively new research topic supports many business applications. Its main task is to automatically read, understand, and analyze documents. However, due to the diversity of formats (invoices, reports, forms, etc.) and layouts in documents, it is difficult to make machines understand documents. In this paper, we present the GraphDoc, a multimodal graph attention-based model for various document understanding tasks. GraphDoc is pre-trained in a multimodal framework by utilizing text, layout, and image information simultaneously. In a document, a text block relies heavily on its surrounding contexts, so we inject the graph structure into the attention mechanism to form a graph attention layer so that each input node can only attend to its neighborhoods. The input nodes of each graph attention layer are composed of textual, visual, and positional features from semantically meaningful regions in a document image. We do the multimodal feature fusion of each node by the gate fusion layer. The contextualization between each node is modeled by the graph attention layer. GraphDoc learns a generic representation from only 320k unlabeled documents via the Masked Sentence Modeling task. Extensive experimental results on the publicly available datasets show that GraphDoc achieves state-of-the-art performance, which demonstrates the effectiveness of our proposed method.
翻訳日:2022-03-28 21:15:49 公開日:2022-03-25
# (参考訳) EnHDC:脳にインスパイアされた超次元コンピューティングのためのアンサンブル学習 [全文訳有]

EnHDC: Ensemble Learning for Brain-Inspired Hyperdimensional Computing ( http://arxiv.org/abs/2203.13542v1 )

ライセンス: CC BY 4.0
Ruixuan Wang, Dongning Ma, Xun Jiao(参考訳) アンサンブル学習は、弱い学習者のグループを利用して強い学習者を形成する古典的な学習方法であり、モデルの正確性を高めることを目的としている。 近年,脳にインスパイアされた超次元コンピューティング(HDC)は,人間の活動認識や音声認識,生体医療信号の分類など,様々な領域で成功を収めている。 HDCは脳の認知を模倣し、高次元ベクトル(例えば10000次元)を活用し、完全なホログラフィック表現と(擬似)ランダム性を持つ。 本稿では,HDCの文脈におけるアンサンブル学習への最初の取り組みと,EnHDCと呼ばれる最初のアンサンブルHDCモデルを提案する。 EnHDCは多数決に基づく機構を使用して、複数の基本HDC分類器の予測結果を相乗的に統合する。 ベース分類器の多様性を高めるため,ベース分類器間の符号化機構,寸法,データ幅設定を異にする。 広範囲のアプリケーションにEnHDCを適用することで、1つのHDC分類器に対して平均3.2\%の精度でEnHDCが達成できることを示す。 さらに,1000次元など次元が縮小されたenhdcは,高次元のベースラインhdc(例えば10000次元)の精度に匹敵する,あるいは超越することができることを示した。 これにより、低消費電力コンピューティングプラットフォーム上でHDCを実現する上で鍵となるHDCモデルのストレージ要求が20倍削減される。

Ensemble learning is a classical learning method utilizing a group of weak learners to form a strong learner, which aims to increase the accuracy of the model. Recently, brain-inspired hyperdimensional computing (HDC) becomes an emerging computational paradigm that has achieved success in various domains such as human activity recognition, voice recognition, and bio-medical signal classification. HDC mimics the brain cognition and leverages high-dimensional vectors (e.g., 10000 dimensions) with fully distributed holographic representation and (pseudo-)randomness. This paper presents the first effort in exploring ensemble learning in the context of HDC and proposes the first ensemble HDC model referred to as EnHDC. EnHDC uses a majority voting-based mechanism to synergistically integrate the prediction outcomes of multiple base HDC classifiers. To enhance the diversity of base classifiers, we vary the encoding mechanisms, dimensions, and data width settings among base classifiers. By applying EnHDC on a wide range of applications, results show that the EnHDC can achieve on average 3.2\% accuracy improvement over a single HDC classifier. Further, we show that EnHDC with reduced dimensionality, e.g., 1000 dimensions, can achieve similar or even surpass the accuracy of baseline HDC with higher dimensionality, e.g., 10000 dimensions. This leads to a 20\% reduction of storage requirement of HDC model, which is key to enabling HDC on low-power computing platforms.
翻訳日:2022-03-28 20:57:15 公開日:2022-03-25
# (参考訳) ニューラルマシン翻訳における目標側形態のモデル化:戦略の比較

Modeling Target-Side Morphology in Neural Machine Translation: A Comparison of Strategies ( http://arxiv.org/abs/2203.13550v1 )

ライセンス: CC BY 4.0
Marion Weller-Di Marco, Matthias Huck, Alexander Fraser(参考訳) 形態的に豊かな言語は機械翻訳に困難をもたらす。 最先端のニューラルネットワークのような並列トレーニングデータからの統計的学習に依存する機械翻訳エンジンは、特に出力言語側でリッチな形態学の課題に直面している。 データ駆動機械翻訳における、リッチな目標側形態の鍵となる課題は、(1)大きな語彙とデータスパーシティを伴う、異なる異なる異なる語の表面形態の大量発生である。 2) 頻度の低い数式は、通常、訓練コーパスには現れず、閉語彙系はこれらの観測されていない変種を生成できない。 3) 言語的合意は, 入力に対して, 対象側の形態・シアンティック・ウェルフォードネスと意味的妥当性の両面から, 入力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。 本稿では,2つの言語処理手法,補題タグ戦略と言語情報による単語分割戦略を再検討する。 実験は、異なる大きさの3つの学習コーパス条件の下で、英語とドイツ語の翻訳タスクで実施した。 トランスフォーマのベースラインが強くなると、ドメイン内変換時のshre-rnnエンコーダ-デコーダモデルよりも改善の余地が少なくなることがわかった。 しかし,同一システムがドメイン外入力テキストに適用された場合,対象側形態の言語モデルがトランスフォーマーモデルに有用であることが判明した。 また、私たちのアプローチをチェコ語翻訳に適用することに成功した。

Morphologically rich languages pose difficulties to machine translation. Machine translation engines that rely on statistical learning from parallel training data, such as state-of-the-art neural systems, face challenges especially with rich morphology on the output language side. Key challenges of rich target-side morphology in data-driven machine translation include: (1) A large amount of differently inflected word surface forms entails a larger vocabulary and thus data sparsity. (2) Some inflected forms of infrequent terms typically do not appear in the training corpus, which makes closed-vocabulary systems unable to generate these unobserved variants. (3) Linguistic agreement requires the system to correctly match the grammatical categories between inflected word forms in the output sentence, both in terms of target-side morpho-syntactic wellformedness and semantic adequacy with respect to the input. In this paper, we re-investigate two target-side linguistic processing techniques: a lemma-tag strategy and a linguistically informed word segmentation strategy. Our experiments are conducted on a English-German translation task under three training corpus conditions of different magnitudes. We find that a stronger Transformer baseline leaves less room for improvement than a shallow-RNN encoder-decoder model when translating in-domain. However, we find that linguistic modeling of target-side morphology does benefit the Transformer model when the same system is applied to out-of-domain input text. We also successfully apply our approach to English to Czech translation.
翻訳日:2022-03-28 20:42:09 公開日:2022-03-25
# (参考訳) スペクトルクラスタリングを用いた遺伝子機能予測のための特徴抽出 [全文訳有]

Feature extraction using Spectral Clustering for Gene Function Prediction ( http://arxiv.org/abs/2203.13551v1 )

ライセンス: CC BY 4.0
Miguel Romero, Oscar Ram\'irez, Jorge Finke, Camilo Rocha(参考訳) 遺伝子アノテーションは、特定の生物の遺伝子と機能(例えば生物学的過程)の間の未知の関連を予測する問題に対処する。 近年の進歩にもかかわらず、生物学的実験に大きく依存するアノテーションの手順によって要求されるコストと時間は非常に高いままである。 本稿では,クラスタ分析と階層型マルチラベル分類(HMC)を組み合わせたアノテーション問題に対する,シリコアプローチの新たなアプローチを提案する。 このアプローチでは、スペクトルクラスタリングを使用して、遺伝子共発現ネットワーク(GCN)から新機能を抽出し、予測タスクを充実させる。 hmcは遺伝子機能の階層構造を考える複数の推定子を構築するために用いられる。 提案手法は,世界で最も支配的かつ生産的な作物のひとつであるゼア・メイの事例研究に適用できる。 この結果は、遺伝子アノテーションの時間とコストを削減するために、シリコアプローチがいかに重要かを示している。 より具体的に言うと、彼らはその重要性を強調している。 一 遺伝子アノテートのためのGCNにおける遺伝子関係の構造を表す新しい特徴の構築、及び (ii)生物過程の構造を考慮して、一貫した予測を得る。

Gene annotation addresses the problem of predicting unknown associations between gene and functions (e.g., biological processes) of a specific organism. Despite recent advances, the cost and time demanded by annotation procedures that rely largely on in vivo biological experiments remain prohibitively high. This paper presents a novel in silico approach for to the annotation problem that combines cluster analysis and hierarchical multi-label classification (HMC). The approach uses spectral clustering to extract new features from the gene co-expression network (GCN) and enrich the prediction task. HMC is used to build multiple estimators that consider the hierarchical structure of gene functions. The proposed approach is applied to a case study on Zea mays, one of the most dominant and productive crops in the world. The results illustrate how in silico approaches are key to reduce the time and costs of gene annotation. More specifically, they highlight the importance of: (i) building new features that represent the structure of gene relationships in GCNs to annotate genes; and (ii) taking into account the structure of biological processes to obtain consistent predictions.
翻訳日:2022-03-28 20:41:02 公開日:2022-03-25
# (参考訳) 画像分割のための分割正規化付きニューラルネットワークと都市景観データセットへの応用 [全文訳有]

Neural Networks with Divisive normalization for image segmentation with application in cityscapes dataset ( http://arxiv.org/abs/2203.13558v1 )

ライセンス: CC BY 4.0
Pablo Hern\'andez-C\'amara, Valero Laparra, Jes\'us Malo (Image Processing Lab., Universitat de Val\`encia)(参考訳) コンピュータビジョンにおける重要な問題の1つは適応である:モデルは入力の可変性に従うには厳密すぎる。 感覚神経科学における適応を説明する標準計算は分裂正規化であり、画像多様体に魅力的な効果を持つ。 本研究では,現在のディープネットワークにおける分割正規化を含むことにより,画像の非インフォーマティブな変化に対してより不変となることを示す。 特に、イメージセグメンテーションのためのU-Netアーキテクチャに焦点を当てる。 実験により、U-Netアーキテクチャに分割正規化を組み込むことで、従来のU-Netに対してより良いセグメンテーション結果が得られることが示された。 悪天候下で取得した画像を扱う場合、利上げは着実に増加する。 Cityscapes と Foggy Cityscapes のデータセットの結果に加えて、これらの利点は反応の可視化によって説明される: 分割正規化によって誘導される等化は、対照的な点と照明の局所的な変化に、より不変な特徴をもたらす。

One of the key problems in computer vision is adaptation: models are too rigid to follow the variability of the inputs. The canonical computation that explains adaptation in sensory neuroscience is divisive normalization, and it has appealing effects on image manifolds. In this work we show that including divisive normalization in current deep networks makes them more invariant to non-informative changes in the images. In particular, we focus on U-Net architectures for image segmentation. Experiments show that the inclusion of divisive normalization in the U-Net architecture leads to better segmentation results with respect to conventional U-Net. The gain increases steadily when dealing with images acquired in bad weather conditions. In addition to the results on the Cityscapes and Foggy Cityscapes datasets, we explain these advantages through visualization of the responses: the equalization induced by the divisive normalization leads to more invariant features to local changes in contrast and illumination.
翻訳日:2022-03-28 20:20:56 公開日:2022-03-25
# (参考訳) 非パラメトリック条件局所独立試験

Nonparametric Conditional Local Independence Testing ( http://arxiv.org/abs/2203.13559v1 )

ライセンス: CC BY 4.0
Alexander Mangulad Christgau, Lasse Petersen, Niels Richard Hansen(参考訳) 条件付き局所独立性は連続時間確率過程間の独立関係である。 1つのプロセスの進化が、追加プロセスの履歴から他のプロセスに直接的な影響を受けているかを説明し、プロセス間の因果関係の記述と学習に重要である。 しかし、条件付き地域独立の非パラメトリックテストは行われていない。 二重機械学習に基づく非パラメトリックテストを提案する。 このテストは、確率積分の期待として定義される機能目標パラメータに基づいている。 条件付き局所独立性の仮説の下では、確率積分はゼロ平均マルティンゲールであり、対象パラメータは常にゼロに等しい。 対象パラメータの推定値としてテスト統計を導入し,サンプル分割やクロスフィッティングを用いることで,その分布限界がガウスマーチンゲールであることを示す。 その分散関数は一貫して推定でき、特定の不定値テスト統計とその漸近分布を導出する。 時間に依存した共変量を持つ余分なコックスモデルに基づく例は、この理論を説明するために広く用いられ、この例に基づくシミュレーションは、テストが動作するためには、二重機械学習とサンプル分割がいかに必要かを示している。 さらに,これらの手法を併用した場合,実験は限定的なパラメトリック仮定を伴わずに良好に動作することを示す。

Conditional local independence is an independence relation among continuous time stochastic processes. It describes whether the evolution of one process is directly influenced by another process given the histories of additional processes, and it is important for the description and learning of causal relations among processes. However, no nonparametric test of conditional local independence has been available. We propose such a nonparametric test based on double machine learning. The test is based on a functional target parameter defined as the expectation of a stochastic integral. Under the hypothesis of conditional local independence the stochastic integral is a zero-mean martingale, and the target parameter is constantly equal to zero. We introduce the test statistic as an estimator of the target parameter and show that by using sample splitting or cross-fitting, its distributional limit is a Gaussian martingale under the hypothesis. Its variance function can be estimated consistently, and we derive specific univariate test statistics and their asymptotic distributions. An example based on a marginalized Cox model with time-dependent covariates is used throughout to illustrate the theory, and simulations based on this example show how double machine learning as well as sample splitting are needed for the test to work. Moreover, the simulation study shows that when both of these techniques are used in combination, the test works well without restrictive parametric assumptions.
翻訳日:2022-03-28 20:14:26 公開日:2022-03-25
# (参考訳) MISC:感情支援のためのCOMET統合戦略意識モデル [全文訳有]

MISC: A MIxed Strategy-Aware Model Integrating COMET for Emotional Support Conversation ( http://arxiv.org/abs/2203.13560v1 )

ライセンス: CC BY 4.0
Quan Tu, Yanran Li, Jianwei Cui, Bin Wang, Ji-Rong Wen and Rui Yan(参考訳) 既存の方法を感情支援会話に適用する -- 必要な人に対して貴重な支援を提供する -- には、2つの大きな制限がある。 (a)通常、会話レベルの感情ラベルを用いるが、これはユーザーの瞬間的な精神状態を捉えるには大きすぎる。 b) 利用者の苦悩を緩やかに減らすのではなく,反応に共感を表現することに集中している。 この問題に対処するために,まずユーザの細かな感情状態を推測し,戦略の混合を用いて巧みに反応する,新しいモデルである \textbf{misc} を提案する。 ベンチマークデータセットにおける実験結果は,提案手法の有効性を示し,細粒度感情理解と混合戦略モデリングの利点を明らかにする。 我々のコードとデータは \url{https://github.com/m orecry/MISC} にある。

Applying existing methods to emotional support conversation -- which provides valuable assistance to people who are in need -- has two major limitations: (a) they generally employ a conversation-level emotion label, which is too coarse-grained to capture user's instant mental state; (b) most of them focus on expressing empathy in the response(s) rather than gradually reducing user's distress. To address the problems, we propose a novel model \textbf{MISC}, which firstly infers the user's fine-grained emotional status, and then responds skillfully using a mixture of strategy. Experimental results on the benchmark dataset demonstrate the effectiveness of our method and reveal the benefits of fine-grained emotion understanding as well as mixed-up strategy modeling. Our code and data could be found in \url{https://github.com/m orecry/MISC}.
翻訳日:2022-03-28 20:13:08 公開日:2022-03-25
# (参考訳) パーソナライズWeb検索戦略の分類と比較 [全文訳有]

Personalize Web Searching Strategies Classification and Comparison ( http://arxiv.org/abs/2203.13561v1 )

ライセンス: CC BY 4.0
Mariya Evtimova-Gardair, Ivan Momtchev(参考訳) パーソナライゼーションは、適切な情報を見つける必要があるユーザのセマンティックWeb検索において、非常に重要な方向になりつつある。 本稿では,Webパーソナライゼーションの分類を提案し,セマンティックWeb検索ツールについて検討する。 ユーザー興味プロファイルの構築はパーソナライズに不可欠である。 今日ではセマンティックWebツールは、オントロジーをパーソナライズに利用しています。 セマンティックWeb検索ツールのほとんどがエージェント技術を使って実装している点に注意する必要がある。

Personalization is becoming very important direction in semantic web search for the users that needs to find appropriate information. In this paper, a classification of web personalization is proposed and semantic web search tools are investigated. Building user interest profile is essential for personalizing. Nowadays, semantic web tools use ontologies for personalization because of their advantages. It is important to mention that most of the semantic web search tools use agent technologies for implementation.
翻訳日:2022-03-28 19:57:49 公開日:2022-03-25
# (参考訳) スロット型変圧器を用いた時間的抽象化の教師なし学習 [全文訳有]

Unsupervised Learning of Temporal Abstractions with Slot-based Transformers ( http://arxiv.org/abs/2203.13573v1 )

ライセンス: CC BY 4.0
Anand Gopalakrishnan, Kazuki Irie, J\"urgen Schmidhuber, Sjoerd van Steenkiste(参考訳) 再利用可能なサブルーチンの発見は、複雑な強化学習問題の意思決定と計画を容易にする。 従来のアプローチでは、政策の実行から集められた状態-行動軌跡を観察することで、純粋に教師なしの方法でそのような時間的抽象化を学習することを提案した。 しかし、現在の制限は、それぞれの軌道を全く連続的に処理することであり、新しい入射情報に照らして、サブルーチン境界点に関する以前の決定を修正できないことである。 本研究では,SloTTArを提案する。Slot Attentionモジュールとシーケンス処理トランスフォーマーを統合し,非教師付き方式でサブルーチン数を学習するための適応計算を行う。 我々は,SloTTArが境界点探索において,可変量のサブルーチンを含むシーケンスであっても,既存のベンチマークのトレーニングを最大7倍高速に行うことができることを示す。

The discovery of reusable sub-routines simplifies decision-making and planning in complex reinforcement learning problems. Previous approaches propose to learn such temporal abstractions in a purely unsupervised fashion through observing state-action trajectories gathered from executing a policy. However, a current limitation is that they process each trajectory in an entirely sequential manner, which prevents them from revising earlier decisions about sub-routine boundary points in light of new incoming information. In this work we propose SloTTAr, a fully parallel approach that integrates sequence processing Transformers with a Slot Attention module and adaptive computation for learning about the number of such sub-routines in an unsupervised fashion. We demonstrate how SloTTAr is capable of outperforming strong baselines in terms of boundary point discovery, even for sequences containing variable amounts of sub-routines, while being up to 7x faster to train on existing benchmarks.
翻訳日:2022-03-28 19:52:18 公開日:2022-03-25
# (参考訳) 自動音声認識のための音響モデルに対するデータセットの影響 [全文訳有]

Impact of Dataset on Acoustic Models for Automatic Speech Recognition ( http://arxiv.org/abs/2203.13590v1 )

ライセンス: CC BY 4.0
Siddhesh Singh(参考訳) 音声認識において、GMM-HMMは音響モデリングに広く用いられてきた。 現在のディープラーニングの発展に伴い、音響モデルからのガウス混合モデル(GMM)はディープニューラルネットワーク(DNN-HMM音響モデル)に置き換えられた。 GMMモデルは、ハイブリッドディープニューラルネットワークモデルのトレーニングデータのアライメントを作成するために広く使用されているため、正確なアライメントを作成する上で重要なタスクである。 トレーニングデータセットのサイズ、トレーニングデータ拡張、モデルハイパーパラメータなど、多くの要因がモデル学習に影響を与える。 従来の機械学習では、より大きなデータセットはパフォーマンスが向上する傾向にあり、小さなデータセットは過度に適合する傾向にある。 音声データの収集とその正確な書き起こしは、言語によって異なる重要な課題であり、ほとんどの場合、大きな組織に限定される可能性がある。 さらに、利用可能な大規模データセットの場合、そのようなデータを使ったモデルのトレーニングには追加の時間と計算リソースが必要になる。 オープンソースデータセット上での最先端のASRモデルの精度に関するデータは公開されているが、データセットのサイズが音響モデルに与える影響についての研究は容易ではない。 本研究の目的は,データセットサイズの変化が各種GMM-HMM音響モデルの性能と計算コストに与える影響を検討することである。

In Automatic Speech Recognition, GMM-HMM had been widely used for acoustic modelling. With the current advancement of deep learning, the Gaussian Mixture Model (GMM) from acoustic models has been replaced with Deep Neural Network, namely DNN-HMM Acoustic Models. The GMM models are widely used to create the alignments of the training data for the hybrid deep neural network model, thus making it an important task to create accurate alignments. Many factors such as training dataset size, training data augmentation, model hyperparameters, etc., affect the model learning. Traditionally in machine learning, larger datasets tend to have better performance, while smaller datasets tend to trigger over-fitting. The collection of speech data and their accurate transcriptions is a significant challenge that varies over different languages, and in most cases, it might be limited to big organizations. Moreover, in the case of available large datasets, training a model using such data requires additional time and computing resources, which may not be available. While the data about the accuracy of state-of-the-art ASR models on open-source datasets are published, the study about the impact of the size of a dataset on acoustic models is not readily available. This work aims to investigate the impact of dataset size variations on the performance of various GMM-HMM Acoustic Models and their respective computational costs.
翻訳日:2022-03-28 19:26:22 公開日:2022-03-25
# (参考訳) 報酬から関係ルールを学ぶ [全文訳有]

Learning Relational Rules from Rewards ( http://arxiv.org/abs/2203.13599v1 )

ライセンス: CC BY 4.0
Guillermo Puebla, Leonidas A. A. Doumas(参考訳) 人間はオブジェクトとそれらの関係の観点から世界を認識する。 実際、任意の対のオブジェクトには、それらに適用される無数の関係があります。 認知システムは、手作業の特徴付けに有用な関係をどのように学習するか? そして、どのようにしてこれらの表現を使用して環境と効果的に相互作用するリレーショナルポリシーを構築することができるのか? 本稿では,関係強化学習(relational reinforcement learning, rrl)と呼ばれるシンボリック機械学習のサブフィールドのレンズを通して,この問題を理解することを提案する。 提案手法の可能性を実証するため,RRLで開発された関数近似器に基づいて,関係ポリシー学習の簡易モデルを構築した。 私たちはAtariの3つのゲームで、Breakout、Pong、Demon Attackといった潜在的な関係を考慮し、モデルをトレーニングし、テストしました。 各ゲームでは,適切なリレーショナル表現を選択し,インクリメンタルにリレーショナルポリシを構築することができた。 本稿では,関係モデルと類似推論モデルとの関係と,その限界と今後の研究の方向性について考察する。

Humans perceive the world in terms of objects and relations between them. In fact, for any given pair of objects, there is a myriad of relations that apply to them. How does the cognitive system learn which relations are useful to characterize the task at hand? And how can it use these representations to build a relational policy to interact effectively with the environment? In this paper we proposed that this problem can be understood through the lens of a sub-field of symbolic machine learning called relational reinforcement learning (RRL). To demonstrate the potential of our approach, we build a simple model of relational policy learning based on a function approximator developed in RRL. We trained and tested our model in three Atari games that required to consider an increasingly number of potential relations: Breakout, Pong and Demon Attack. In each game, our model was able to select adequate relational representations and build a relational policy incrementally. We discuss the relationship between our model with models of relational and analogical reasoning, as well as its limitations and future directions of research.
翻訳日:2022-03-28 19:20:14 公開日:2022-03-25
# (参考訳) ZS4IE: 単純言語化によるゼロショット情報抽出ツールキット [全文訳有]

ZS4IE: A toolkit for Zero-Shot Information Extraction with simple Verbalizations ( http://arxiv.org/abs/2203.13602v1 )

ライセンス: CC BY-SA 4.0
Oscar Sainz, Haoling Qiu, Oier Lopez de Lacalle, Eneko Agirre and Bonan Min(参考訳) 情報抽出(IE)アナリストのための現在のワークフローには、関心の実体/関係の定義と注釈付き例によるトレーニングコーパスが含まれる。 このデモでは、アナリストがエンティティ/リレーションを直接言語化する新しいワークフローを紹介します。 本稿では,ユーザインタフェースを用いたツールキットの設計と実装,および,ユーザの作業のタイプ5~15分でゼロショット学習において,システムが非常に優れた性能を発揮することを示す4つのIEタスクの実験を紹介する。 デモシステムはhttps://github.com/B BN-E/ZS4IEで公開されている。 デモビデオはhttps://vimeo.com/67 6138340。

The current workflow for Information Extraction (IE) analysts involves the definition of the entities/relations of interest and a training corpus with annotated examples. In this demonstration we introduce a new workflow where the analyst directly verbalizes the entities/relations, which are then used by a Textual Entailment model to perform zero-shot IE. We present the design and implementation of a toolkit with a user interface, as well as experiments on four IE tasks that show that the system achieves very good performance at zero-shot learning using only 5--15 minutes per type of a user's effort. Our demonstration system is open-sourced at https://github.com/B BN-E/ZS4IE . A demonstration video is available at https://vimeo.com/67 6138340 .
翻訳日:2022-03-28 19:01:04 公開日:2022-03-25
# (参考訳) 形式的意味論と時間計画のための形式的検証 [全文訳有]

Formal Semantics and Formally Verified Validation for Temporal Planning ( http://arxiv.org/abs/2203.13604v1 )

ライセンス: CC BY 4.0
Mohammad Abdulaziz, Lukas Koller(参考訳) 時間計画のための簡潔で簡潔な意味論を提示する。 このセマンティクスは対話型定理証明器 Isabelle/HOL の論理で開発・形式化されている。 これらのセマンティクスから時間計画のための検証アルゴリズムを導出し、イザベル/ホルの形式的証明を用いて、この検証アルゴリズムが我々のセマンティクスを実装していることを示す。 検証アルゴリズムを実験的に評価し,実用的であることを示す。

We present a simple and concise semantics for temporal planning. Our semantics are developed and formalised in the logic of the interactive theorem prover Isabelle/HOL. We derive from those semantics a validation algorithm for temporal planning and show, using a formal proof in Isabelle/HOL, that this validation algorithm implements our semantics. We experimentally evaluate our verified validation algorithm and show that it is practical.
翻訳日:2022-03-28 18:49:22 公開日:2022-03-25
# (参考訳) 無人航空機によるネットワークカバレッジ最適化のための高速かつ効率的な生成逆ネットワークアルゴリズム [全文訳有]

Fast and computationally efficient generative adversarial network algorithm for unmanned aerial vehicle-based network coverage optimization ( http://arxiv.org/abs/2203.13607v1 )

ライセンス: CC BY-SA 4.0
Marek Ru\v{z}i\v{c}ka, Marcel Volo\v{s}in, Juraj Gazda, Taras Maksymyuk, Longzhe Han, Mischa Dohler(参考訳) モバイルネットワークにおける動的な交通需要の課題は、無人航空機に基づく移動セルによって解決される。 今後,無人航空機の膨大な可能性を考慮し,カバレッジ最適化のための新しいヒューリスティックアルゴリズムを提案する。 提案アルゴリズムは,一意の多層和プーリング損失関数を持つ条件付き生成逆ニューラルネットワークに基づいて実装された。 提案手法の性能を評価するために,最適コアセットアルゴリズムと準最適スパイラルアルゴリズムとの比較を行った。 シミュレーションの結果,提案手法はユーザ数によらず二次複雑性を維持しつつ,大域的最適値と不可分な差を持つ準最適解に収束することがわかった。

The challenge of dynamic traffic demand in mobile networks is tackled by moving cells based on unmanned aerial vehicles. Considering the tremendous potential of unmanned aerial vehicles in the future, we propose a new heuristic algorithm for coverage optimization. The proposed algorithm is implemented based on a conditional generative adversarial neural network, with a unique multilayer sum-pooling loss function. To assess the performance of the proposed approach, we compare it with the optimal core-set algorithm and quasi-optimal spiral algorithm. Simulation results show that the proposed approach converges to the quasi-optimal solution with a negligible difference from the global optimum while maintaining a quadratic complexity regardless of the number of users.
翻訳日:2022-03-28 18:16:24 公開日:2022-03-25
# (参考訳) DeLoRes:低リソース音声表現学習のための遅延空間のデコレーション [全文訳有]

DeLoRes: Decorrelating Latent Spaces for Low-Resource Audio Representation Learning ( http://arxiv.org/abs/2203.13628v1 )

ライセンス: CC BY 4.0
Sreyan Ghosh and Ashish Seth and S Umesh(参考訳) 本稿では,コンピュータビジョンのための自己教師型学習の最近の進歩に触発され,DeLoRes学習フレームワークを通じて,DeLoRes-SとDeLoRes-Mという2つの新しい汎用音声表現学習手法を導入する。 私たちの主な目的は、ネットワークがリソースに制約された設定(データと計算の両方)で表現を学習できるようにすることです。 Barlow Twins の目的関数からインスピレーションを得て,入力された音声サンプルの歪みに不変な埋め込みを学習し,サンプルの非冗長な情報を含むことを確かめる。 これを実現するために、オーディオファイルからサンプリングされたオーディオセグメントの歪んだバージョンで供給される2つの同一ネットワークの出力間の相互相関行列を測定し、可能な限りアイデンティティマトリックスに近づける。 私たちはこれをDeLoRes学習フレームワークと呼び、DeLoRes-SとDeLoRes-Mで異なる方法で採用しています。 自己教師付き学習には,大規模オーディオセットデータセットの小さなサブセットとfsd50kの組み合わせを用い,最先端アルゴリズムと比較して,半分未満のパラメータで学習することができる。 評価のために,これらの学習された表現を,音声,音楽,動物音を含む11の下流分類タスクに転送し,デロレス-mを用いた線形評価の11タスクのうち7タスクについて最新結果を得るとともに,先行技術と比較した場合に総データのほんの一部しか使用していない場合でも,デロレス-sによる競合結果を示す。 転送学習評価設定では,DeLoRes-SとDeLoRes-Mの双方に対して,DeLoRes-Mが4つのタスクで最先端を達成し,極めて競争力のある結果を示した。

Inspired by the recent progress in self-supervised learning for computer vision, in this paper, through the DeLoRes learning framework, we introduce two new general-purpose audio representation learning approaches, the DeLoRes-S and DeLoRes-M. Our main objective is to make our network learn representations in a resource-constrained setting (both data and compute), that can generalize well across a diverse set of downstream tasks. Inspired from the Barlow Twins objective function, we propose to learn embeddings that are invariant to distortions of an input audio sample, while making sure that they contain non-redundant information about the sample. To achieve this, we measure the cross-correlation matrix between the outputs of two identical networks fed with distorted versions of an audio segment sampled from an audio file and make it as close to the identity matrix as possible. We call this the DeLoRes learning framework, which we employ in different fashions with the DeLoRes-S and DeLoRes-M. We use a combination of a small subset of the large-scale AudioSet dataset and FSD50K for self-supervised learning and are able to learn with less than half the parameters compared to state-of-the-art algorithms. For evaluation, we transfer these learned representations to 11 downstream classification tasks, including speech, music, and animal sounds, and achieve state-of-the-art results on 7 out of 11 tasks on linear evaluation with DeLoRes-M and show competitive results with DeLoRes-S, even when pre-trained using only a fraction of the total data when compared to prior art. Our transfer learning evaluation setup also shows extremely competitive results for both DeLoRes-S and DeLoRes-M, with DeLoRes-M achieving state-of-the-art in 4 tasks.
翻訳日:2022-03-28 18:05:12 公開日:2022-03-25
# (参考訳) stretchbev: stretching future instance prediction の空間的および時間的予測

StretchBEV: Stretching Future Instance Prediction Spatially and Temporally ( http://arxiv.org/abs/2203.13641v1 )

ライセンス: CC BY 4.0
Adil Kaan Akan, Fatma G\"uney(参考訳) 自動運転車では、周囲のエージェントの位置と動きから未来を予測することが、計画にとって重要な要件である。 近年,複数のカメラから知覚されるリッチな感覚情報を,小型の鳥の目視表現に融合して予測を行うことで,知覚と予測の新しい定式化が進められている。 しかし、将来の予測の質は時間とともに低下し、複数の可能な予測によってより長い時間軸に拡張される。 本研究では, 確率的時間モデルを用いて, 将来の予測における本質的な不確実性に対処する。 本モデルは,各時間ステップにおける確率的残差更新により,潜時空間の時間ダイナミクスを学習する。 学習した各段階の分布から抽出することにより,従来よりも精度のよい将来予測が得られ,特に空間的により広い領域と時間的に長い時間的地平線を延ばすことが可能である。 各ステップの別々の処理にもかかわらず、我々のモデルは力学の学習と将来の予測の生成を分離することで効率的である。

In self-driving, predicting future in terms of location and motion of all the agents around the vehicle is a crucial requirement for planning. Recently, a new joint formulation of perception and prediction has emerged by fusing rich sensory information perceived from multiple cameras into a compact bird's-eye view representation to perform prediction. However, the quality of future predictions degrades over time while extending to longer time horizons due to multiple plausible predictions. In this work, we address this inherent uncertainty in future predictions with a stochastic temporal model. Our model learns temporal dynamics in a latent space through stochastic residual updates at each time step. By sampling from a learned distribution at each time step, we obtain more diverse future predictions that are also more accurate compared to previous work, especially stretching both spatially further regions in the scene and temporally over longer time horizons. Despite separate processing of each time step, our model is still efficient through decoupling of the learning of dynamics and the generation of future predictions.
翻訳日:2022-03-28 17:45:26 公開日:2022-03-25
# (参考訳) 文脈における音声テキスト検索 [全文訳有]

Audio-text Retrieval in Context ( http://arxiv.org/abs/2203.13645v1 )

ライセンス: CC BY 4.0
Siyu Lou, Xuenan Xu, Mengyue Wu, Kai Yu(参考訳) 自然言語記述に基づく音声テキスト検索は難しい課題である。 不適切なデータ条件下で長いシーケンス間の相互モダリティアライメントを学ぶことを含む。 本研究では,音声・テキストのアライメントを改善するために,複数のオーディオ機能とシーケンスアグリゲーション手法について検討する。 さらに,質的分析を通じて,文脈検索において意味マッピングが時間的関係よりも重要であることを確認する。 事前学習された音声機能とディスクリプタに基づく集約手法を用いて,文脈音声テキスト検索システムを構築する。 具体的には,大規模な音響イベントデータセットとNetRVLADプーリングで事前トレーニングされたPANNの機能を利用する。 実験はAudioCapsとCLOTHOデータセットで行われ、その結果は以前の最先端システムと比較される。 提案システムでは,リコール,中央値,平均ランクなどすべての指標において,双方向音声テキスト検索において大きな改善が得られた。

Audio-text retrieval based on natural language descriptions is a challenging task. It involves learning cross-modality alignments between long sequences under inadequate data conditions. In this work, we investigate several audio features as well as sequence aggregation methods for better audio-text alignment. Moreover, through a qualitative analysis we observe that semantic mapping is more important than temporal relations in contextual retrieval. Using pre-trained audio features and a descriptor-based aggregation method, we build our contextual audio-text retrieval system. Specifically, we utilize PANNs features pre-trained on a large sound event dataset and NetRVLAD pooling, which directly works with averaged descriptors. Experiments are conducted on the AudioCaps and CLOTHO datasets, and results are compared with the previous state-of-the-art system. With our proposed system, a significant improvement has been achieved on bidirectional audio-text retrieval, on all metrics including recall, median and mean rank.
翻訳日:2022-03-28 17:44:31 公開日:2022-03-25
# (参考訳) Gransformer: Transformerベースのグラフ生成 [全文訳有]

Gransformer: Transformer-based Graph Generation ( http://arxiv.org/abs/2203.13655v1 )

ライセンス: CC BY 4.0
Ahmad Khajenezhad and Seyed Ali Osia and Mahmood Karimian and Hamid Beigy(参考訳) トランスフォーマーは、自然言語処理や機械ビジョンなどの様々なタスクで現代のモデルで広く使われている。 本稿では,変換器を利用したグラフ生成アルゴリズムであるGransformerを提案する。 単純な自己回帰トランスフォーマーエンコーダを拡張し,効率的な修正によりグラフの構造情報を活用する。 注意機構は、各ノード間のエッジの有無を考慮するように変更される。 また、注目と位置符号化の両方に適用可能なグラフベースの親しみ度尺度も導入する。 この自己回帰的基準は、メッセージパッシングアルゴリズムにインスパイアされ、グラフの構造情報を含んでいる。 出力層では、密度推定にマスク付きオートエンコーダを用いて依存エッジの生成を効率的にモデル化する。 また,モデルが孤立ノードを生成するのを防ぐ手法を提案する。 この手法を実世界の2つのデータセット上で評価し、最先端の自己回帰グラフ生成手法と比較する。 実験により,提案手法は再帰モデルやグラフ畳み込みネットワークなど,これらの手法との比較を行った。

Transformers have become widely used in modern models for various tasks such as natural language processing and machine vision. This paper, proposes Gransformer, an algorithm for generating graphs that takes advantage of the transformer. We extend a simple autoregressive transformer encoder to exploit the structural information of the graph through efficient modifications. The attention mechanism is modified to consider the presence or absence of edges between each pair of nodes. We also introduce a graph-based familiarity measure that applies to both the attention and the positional coding. This autoregressive criterion, inspired by message passing algorithms, contains structural information about the graph. In the output layer, we also use a masked autoencoder for density estimation to efficiently model the generation of dependent edges. We also propose a technique to prevent the model from generating isolated nodes. We evaluate this method on two real-world datasets and compare it with some state-of-the-art autoregressive graph generation methods. Experimental results have shown that the proposed method performs comparative to these methods, including recurrent models and graph convolutional networks.
翻訳日:2022-03-28 17:34:45 公開日:2022-03-25
# (参考訳) MDsrv -- 分子動力学シミュレーションの視覚的共有と解析 [全文訳有]

MDsrv -- visual sharing and analysis of molecular dynamics simulations ( http://arxiv.org/abs/2203.13658v1 )

ライセンス: CC BY 4.0
Michelle Kampfrath, Ren\'e Staritzbichler, Guillermo P\'erez Hern\'andez, Alexander S. Rose, Johanna K.S. Tiemann, Gerik Scheuermann, Daniel Wiegreffe, Peter W. Hildebrand(参考訳) 分子動力学シミュレーションは、分子の時間分解運動を原子分解能で計算し可視化するための実証された技術である。 MDsrvはMDトラジェクトリをストリームし、高度なスキルを必要とせず、インタラクティブな探索と協調的な視覚分析を容易にするツールである。 mdsrvを強化し、mdトラックのアップロードと共有をさらに単純化し、オンライン視聴と分析を改善しました。 新しいインスタンスでは、MDsrvはセッションの作成を単純化し、事前セットされた表現と視点とのMDトラジェクトリの交換を可能にする。 重要なイノベーションは、mdsrvがリモートデータセットからのトラジェクタにアクセスして視覚化できるようになったことだ。 さらに、シーケンスや構造アライメント、距離測定、RMSD計算などの初期分析も実施されており、視覚解析を任意にサポートする。 最後に、MDsrvはより速く、より効率的な大きな軌道の可視化を提供する。

Molecular dynamics simulation is a proven technique for computing and visualizing the time-resolved motion of macromolecules at atomic resolution. The MDsrv is a tool that streams MD trajectories and displays them interactively in web browsers without requiring advanced skills, facilitating interactive exploration and collaborative visual analysis. We have now enhanced the MDsrv to further simplify the upload and sharing of MD trajectories and improve their online viewing and analysis. With the new instance, the MDsrv simplifies the creation of sessions, which allows the exchange of MD trajectories with preset representations and perspectives. An important innovation is that the MDsrv can now access and visualize trajectories from remote datasets, which greatly expands its applicability and use, as the data no longer needs to be accessible on a local server. In addition, initial analyses such as sequence or structure alignments, distance measurements, or RMSD calculations have been implemented, which optionally support visual analysis. Finally, the MDsrv now offers a faster and more efficient visualization of even large trajectories.
翻訳日:2022-03-28 17:17:45 公開日:2022-03-25
# (参考訳) ディリクレ過程ガウス混合モデルにおけるサブクラスタサンプリングの共通障害モードとディープラーニングソリューション [全文訳有]

Common Failure Modes of Subcluster-based Sampling in Dirichlet Process Gaussian Mixture Models -- and a Deep-learning Solution ( http://arxiv.org/abs/2203.13661v1 )

ライセンス: CC BY 4.0
Vlad Winter, Or Dinari, Oren Freifeld(参考訳) Dirichlet Process Gaussian Mixture Model (DPGMM) は、クラスタ数が不明なときにデータをクラスタリングするためによく用いられる。 1つの主要なDPGMM推論パラダイムはサンプリングに依存する。 ここでは,Chang and Fisher III (2013) が提案し,Dinari et al. (2019) が改良した既知の最先端のサンプルを考察し,その故障モードを分析し,その改善方法を示す。 具体的には、新しいクラスタが生成されるたびに、ラベルがランダムに初期化される2つのサブクラスタで拡張される。 進化すると、サブクラスタは親クラスタの分割を提案するのに役立つ。 ランダムな初期化は多くの場合問題であり、非効率なサンプリング装置を損なう。 具体的には、この初期化が望ましい分割が受け入れられる前に、不適切な分割提案や、あるいは過剰なイテレーションにつながる傾向があることを実証する。 これにより収束が遅くなり、クラスタリングを損なう可能性がある。 本稿では,サブクラスタ初期化サブルーチンに対する2つの代替オプションを提案する。 1つは直感的なヒューリスティック、もう1つはディープラーニングに基づく。 提案手法がより良い分割をもたらし、結果として性能、結果、安定性が大幅に向上することを示す。

The Dirichlet Process Gaussian Mixture Model (DPGMM) is often used to cluster data when the number of clusters is unknown. One main DPGMM inference paradigm relies on sampling. Here we consider a known state-of-art sampler (proposed by Chang and Fisher III (2013) and improved by Dinari et al. (2019)), analyze its failure modes, and show how to improve it, often drastically. Concretely, in that sampler, whenever a new cluster is formed it is augmented with two subclusters whose labels are initialized at random. Upon their evolution, the subclusters serve to propose a split of the parent cluster. We show that the random initialization is often problematic and hurts the otherwise-effective sampler. Specifically, we demonstrate that this initialization tends to lead to poor split proposals and/or too many iterations before a desired split is accepted. This slows convergence and can damage the clustering. As a remedy, we propose two drop-in-replacement options for the subcluster-initializ ation subroutine. The first is an intuitive heuristic while the second is based on deep learning. We show that the proposed approach yields better splits, which in turn translate to substantial improvements in performance, results, and stability.
翻訳日:2022-03-28 17:05:51 公開日:2022-03-25
# (参考訳) イベントとフレームからの高密度連続時間光流れ [全文訳有]

Dense Continuous-Time Optical Flow from Events and Frames ( http://arxiv.org/abs/2203.13674v1 )

ライセンス: CC BY-SA 4.0
Mathias Gehrig and Manasi Muglikar and Davide Scaramuzza(参考訳) 本稿では,高密度連続時間光流推定法を提案する。 従来の高密度光フロー法は2つの画像間の画素の変位を計算する。 情報不足のため、これらの手法は2つの画像間の盲点時間で画素軌跡を復元できない。 本研究では,イベントカメラからのイベントを付加することにより,画素ごとの連続時間光フローを計算可能であることを示す。 イベントは、その非同期性とマイクロ秒応答時間のために、画像空間の動きに関する時間的詳細情報を提供する。 これらの利点を利用して、パラメータ化されたB\'ezier曲線を通した連続時間における画素軌跡の密度を推定する。 これを実現するために,我々は,この課題に対して強い帰納的バイアスを持つニューラルネットワークを構築するために,複数のイノベーションを導入する。 次に、b\'ezier曲線を用いて、軌道に沿って複数のタイムスタンプでこれらの相関ボリュームをインデックスする。 第3に、検索された相関を用いてb\'ezier曲線表現を反復的に更新する。 本手法は, 画像対を任意に含み, さらなる性能向上を図ることができる。 提案手法は,DSEC-Flowにおいて既存の画像ベースおよびイベントベース手法を11.5%低下させる。 最後に,本手法が唯一成功した手法である画素軌道回帰のための新しい合成データセットMultiFlowを提案する。

We present a method for estimating dense continuous-time optical flow. Traditional dense optical flow methods compute the pixel displacement between two images. Due to missing information, these approaches cannot recover the pixel trajectories in the blind time between two images. In this work, we show that it is possible to compute per-pixel, continuous-time optical flow by additionally using events from an event camera. Events provide temporally fine-grained information about movement in image space due to their asynchronous nature and microsecond response time. We leverage these benefits to predict pixel trajectories densely in continuous-time via parameterized B\'ezier curves. To achieve this, we introduce multiple innovations to build a neural network with strong inductive biases for this task: First, we build multiple sequential correlation volumes in time using event data. Second, we use B\'ezier curves to index these correlation volumes at multiple timestamps along the trajectory. Third, we use the retrieved correlation to update the B\'ezier curve representations iteratively. Our method can optionally include image pairs to boost performance further. The proposed approach outperforms existing image-based and event-based methods by 11.5 % lower EPE on DSEC-Flow. Finally, we introduce a novel synthetic dataset MultiFlow for pixel trajectory regression on which our method is currently the only successful approach.
翻訳日:2022-03-28 16:42:11 公開日:2022-03-25
# (参考訳) TerraByteクライアント: テラバイトの植物データへのアクセスを提供する [全文訳有]

The TerraByte Client: providing access to terabytes of plant data ( http://arxiv.org/abs/2203.13691v1 )

ライセンス: CC BY 4.0
Michael A. Beck, Christopher P. Bidinosti, Christopher J. Henry, Manisha Ajmani(参考訳) 本稿では,Compute Canadaでホストされているデータポータルからユーザ定義の植物データセットをダウンロードするソフトウェアであるTerraByte Clientを紹介する。 その目的のために、クライアントは2つの重要な機能を提供している: (1)どのデータが利用可能かの概要と、そのデータのサンプルを視覚的にチェックするための簡単な方法を提供する。 そのため、クライアントはデータベースにクエリの結果を受信し、検索基準を満たす画像の数を表示する。 さらに、サンプルを数秒でダウンロードして、データがユーザのニーズに合っていることを確認することもできる。 (2)ユーザは指定されたデータを自分のドライブにダウンロードすることができる。 このデータはサーバサイドにチャンクしてユーザのエンドシステムに送信され、そこで自動的に個々のファイルに抽出される。 最初のデータチャンクは、利用可能な帯域幅やデータの種類によって、1分以下の短い待ち時間後に検査することができる。 TerraByte Clientは、使いやすいグラフィカルなユーザインターフェースを備え、エンドツーエンドの暗号化を使用する。 ユーザインターフェースは低レベルのクライアント上に構築されます。 このアーキテクチャは、クライアントプログラムをオープンソースにすることで、ユーザが独自のユーザインターフェースを開発したり、クライアントの機能を直接使用したりすることが可能になります。 直接利用の例としては、機械学習モデルのトレーニングなど、大きなアプリケーション内でオンデマンドで特定のデータをダウンロードすることがある。

In this paper we demonstrate the TerraByte Client, a software to download user-defined plant datasets from a data portal hosted at Compute Canada. To that end the client offers two key functionalities: (1) It allows the user to get an overview on what data is available and a quick way to visually check samples of that data. For this the client receives the results of queries to a database and displays the number of images that fulfill the search criteria. Furthermore, a sample can be downloaded within seconds to confirm that the data suits the user's needs. (2) The user can then download the specified data to their own drive. This data is prepared into chunks server-side and sent to the user's end-system, where it is automatically extracted into individual files. The first chunks of data are available for inspection after a brief waiting period of a minute or less depending on available bandwidth and type of data. The TerraByte Client has a full graphical user interface for easy usage and uses end-to-end encryption. The user interface is built on top of a low-level client. This architecture in combination of offering the client program open-source makes it possible for the user to develop their own user interface or use the client's functionality directly. An example for direct usage could be to download specific data on demand within a larger application, such as training machine learning models.
翻訳日:2022-03-28 16:22:40 公開日:2022-03-25
# (参考訳) 可変長人間の動作生成のための入射神経表現

Implicit Neural Representations for Variable Length Human Motion Generation ( http://arxiv.org/abs/2203.13694v1 )

ライセンス: CC BY 4.0
Pablo Cervantes and Yusuke Sekikawa and Ikuro Sato and Koichi Shinoda(参考訳) 変動型暗黙的ニューラル表現(INR)を用いた動作条件付き人体動作生成法を提案する。 変分形式は、inrsのアクション条件分布を可能にし、そこから簡単に表現をサンプリングして新しい人間の動き列を生成することができる。 InRの一部が時間的埋め込みを伴う任意の長さの配列全体に対して最適化されているため、提案手法は構成により可変長シーケンスを生成する。 対照的に、以前の研究では可変長列のモデル化が困難であった。 我々は、トランスフォーマーデコーダを用いた手法が、生成した動きのリアリズムと多様性の観点から、HumanAct12, NTU-RGBD, UESTCデータセット上のすべての関連手法より優れていることを確認した。 驚いたことに、MPPデコーダを用いた我々の方法でさえ、最先端のトランスフォーマーベースのオートエンコーダよりも一貫して優れている。 特に,本手法が生成する可変長運動は,本手法が生成する固定長運動よりも現実性と多様性の点で優れていることを示す。

We propose an action-conditional human motion generation method using variational implicit neural representations (INR). The variational formalism enables action-conditional distributions of INRs, from which one can easily sample representations to generate novel human motion sequences. Our method offers variable-length sequence generation by construction because a part of INR is optimized for a whole sequence of arbitrary length with temporal embeddings. In contrast, previous works reported difficulties with modeling variable-length sequences. We confirm that our method with a Transformer decoder outperforms all relevant methods on HumanAct12, NTU-RGBD, and UESTC datasets in terms of realism and diversity of generated motions. Surprisingly, even our method with an MLP decoder consistently outperforms the state-of-the-art Transformer-based auto-encoder. In particular, we show that variable-length motions generated by our method are better than fixed-length motions generated by the state-of-the-art method in terms of realism and diversity.
翻訳日:2022-03-28 16:14:16 公開日:2022-03-25
# (参考訳) unsupervised image deraining: 最適化モデル駆動のディープcnn [全文訳有]

Unsupervised Image Deraining: Optimization Model Driven Deep CNN ( http://arxiv.org/abs/2203.13699v1 )

ライセンス: CC BY 4.0
Changfeng Yu, Yi Chang, Yi Li, Xile Zhao, Luxin Yan(参考訳) 深部畳み込みニューラルネットワークは、単一画像雨天除去において大きな進歩を遂げた。 しかし、データ駆動学習の手法のほとんどは、完全な教師付きまたは半教師付きであり、予期せぬほど、実際の雨を扱う際の大幅なパフォーマンス低下に苦しんでいる。 これらのデータ駆動学習手法は代表的であるが、実際の雨では貧弱である。 逆は、モデル駆動の教師なし最適化手法に当てはまる。 これらの問題を解決するために,実雨除去のための一般化と表現のメリットを継承する統一的教師なし学習フレームワークを提案する。 具体的には, 自然クリーン画像が等方性である一方で, 方向性雨のストリークが異方的であるという, 単純かつ重要な領域知識を発見し, 最適化モデルのエネルギー関数に構造的相違を定式化する。 そこで本研究では,提案するネットワーク上で最適化モデルの教師なし損失関数を強制する最適化モデル駆動型ディープcnnを設計する。 さらに、ネットワークのアーキテクチャは、より優れた特徴表現を持つ最適化モデルの主要な役割を模倣している。 一方で、ディープネットワークを利用して表現を改善します。 一方、最適化モデルの教師なし損失を利用して、より良い一般化を行う。 全体として、教師なし学習フレームワークは、優れた一般化と表現を実現している: 少数の実際の雨画像(入力)と物理的意味ネットワーク(アーキテクチャ)を持つ教師なしトレーニング(loss)。 人工雨と実世界の降雨データセットに関する広範な実験は,提案手法の優越性を示している。

The deep convolutional neural network has achieved significant progress for single image rain streak removal. However, most of the data-driven learning methods are full-supervised or semi-supervised, unexpectedly suffering from significant performance drops when dealing with real rain. These data-driven learning methods are representative yet generalize poor for real rain. The opposite holds true for the model-driven unsupervised optimization methods. To overcome these problems, we propose a unified unsupervised learning framework which inherits the generalization and representation merits for real rain removal. Specifically, we first discover a simple yet important domain knowledge that directional rain streak is anisotropic while the natural clean image is isotropic, and formulate the structural discrepancy into the energy function of the optimization model. Consequently, we design an optimization model-driven deep CNN in which the unsupervised loss function of the optimization model is enforced on the proposed network for better generalization. In addition, the architecture of the network mimics the main role of the optimization models with better feature representation. On one hand, we take advantage of the deep network to improve the representation. On the other hand, we utilize the unsupervised loss of the optimization model for better generalization. Overall, the unsupervised learning framework achieves good generalization and representation: unsupervised training (loss) with only a few real rainy images (input) and physical meaning network (architecture). Extensive experiments on synthetic and real-world rain datasets show the superiority of the proposed method.
翻訳日:2022-03-28 16:13:13 公開日:2022-03-25
# (参考訳) 微細組織のデジタルフィンガープリント [全文訳有]

Digital Fingerprinting of Microstructures ( http://arxiv.org/abs/2203.13718v1 )

ライセンス: CC BY 4.0
Michael D. White, Alexander Tarakanov, Christopher P. Race, Philip J. Withers, Kody J.H. Law(参考訳) マイクロ構造情報の効率的なフィンガープリント方法を見つけることは、データ中心の機械学習アプローチを活用するための重要なステップである。 統計フレームワークは、画像の集団を圧縮した特徴付けのために体系的に開発され、特殊なケースとして古典的なコンピュータビジョン手法を含む。 焦点は材料の微細構造である。 究極の目標は、さまざまな高スループット設計/メイク/テストシナリオのコンテキストにおいて、サンプルイメージを素早く指紋化することです。 これには、品質管理のためのミクロ構造間の格差の定量化、微細構造分類、画像データから材料特性の予測、および特定の特性を持つ新しい材料を設計するための潜在的な処理経路の特定が含まれる。 本稿では,教師あり,半教師なし,教師なし学習など,関連する機械学習タスクにおいて,構造分類を考察し,その特徴を活用した。 このアプローチは2つの異なるデータセットに適用され、さまざまな側面を説明し、その結果に基づいていくつかの推奨がなされる。 特に、imagenetデータセットで事前学習された畳み込みニューラルネットワーク(cnns)を用いた転送学習を利用する手法は、他の手法よりも優れる。 さらに,これらのCNNに基づく指紋の次元性低下は,教師付き学習手法の分類精度に無視的な影響を及ぼすことが示された。 ラベル付き画像しか持たない大規模なデータセットが存在する場合、未ラベルデータへのグラフベースのラベル伝搬は、未ラベルデータを捨てて教師付き学習を行うよりも好ましい。 特に、ポアソン学習によるラベル伝播は低ラベルレートで非常に効果的であることが示されている。

Finding efficient means of fingerprinting microstructural information is a critical step towards harnessing data-centric machine learning approaches. A statistical framework is systematically developed for compressed characterisation of a population of images, which includes some classical computer vision methods as special cases. The focus is on materials microstructure. The ultimate purpose is to rapidly fingerprint sample images in the context of various high-throughput design/make/test scenarios. This includes, but is not limited to, quantification of the disparity between microstructures for quality control, classifying microstructures, predicting materials properties from image data and identifying potential processing routes to engineer new materials with specific properties. Here, we consider microstructure classification and utilise the resulting features over a range of related machine learning tasks, namely supervised, semi-supervised, and unsupervised learning. The approach is applied to two distinct datasets to illustrate various aspects and some recommendations are made based on the findings. In particular, methods that leverage transfer learning with convolutional neural networks (CNNs), pretrained on the ImageNet dataset, are generally shown to outperform other methods. Additionally, dimensionality reduction of these CNN-based fingerprints is shown to have negligible impact on classification accuracy for the supervised learning approaches considered. In situations where there is a large dataset with only a handful of images labelled, graph-based label propagation to unlabelled data is shown to be favourable over discarding unlabelled data and performing supervised learning. In particular, label propagation by Poisson learning is shown to be highly effective at low label rates.
翻訳日:2022-03-28 15:58:32 公開日:2022-03-25
# (参考訳) 地震画像のセグメンテーションを用いた塩検出 [全文訳有]

Salt Detection Using Segmentation of Seismic Image ( http://arxiv.org/abs/2203.13721v1 )

ライセンス: CC0 1.0
Mrinmoy Sarkar(参考訳) 本研究は, 深層畳み込みニューラルネットワーク(dcnn)を用いて, 地球表面下の塩分検出のための地震像を分割する手法を提案する。 鉱業を始めるには,塩分濃度の検出が重要である。 そのため、地球表面下の塩の正確な位置を検出するために、地震画像が用いられる。 しかし,塩鉱床の正確な位置を正確に検出することは困難である。 それゆえ、プロの地震イメージングはまだ、塩体の専門家による解釈を必要とする。 これは非常に主観的で、非常に可変なレンダリングをもたらす。 したがって、最も正確な地震画像と3dレンダリングを作成するには、表面ターゲットが塩であるかどうかを自動的に正確に識別するロバストなアルゴリズムが必要である。 DCNNの性能は画像の物体認識によく知られ、確立されているので、DCNNは特定の問題に対して非常に良い選択であり、各ピクセルが塩とラベル付けされているかどうかのデータセットに適用できる。 このアルゴリズムの結果は有望である。

In this project, a state-of-the-art deep convolution neural network (DCNN) is presented to segment seismic images for salt detection below the earth's surface. Detection of salt location is very important for starting mining. Hence, a seismic image is used to detect the exact salt location under the earth's surface. However, precisely detecting the exact location of salt deposits is difficult. Therefore, professional seismic imaging still requires expert human interpretation of salt bodies. This leads to very subjective, highly variable renderings. Hence, to create the most accurate seismic images and 3D renderings, we need a robust algorithm that automatically and accurately identifies if a surface target is a salt or not. Since the performance of DCNN is well-known and well-established for object recognition in images, DCNN is a very good choice for this particular problem and being successfully applied to a dataset of seismic images in which each pixel is labeled as salt or not. The result of this algorithm is promising.
翻訳日:2022-03-28 15:28:23 公開日:2022-03-25
# (参考訳) 極端学習機械による高速蛍光寿命画像解析 [全文訳有]

Fast fluorescence lifetime imaging analysis via extreme learning machine ( http://arxiv.org/abs/2203.13754v1 )

ライセンス: CC BY 4.0
Zhenya Zang, Dong Xiao, Quan Wang, Zinuo Li, Wujun Xie, Yu Chen, David Day Uei Li(参考訳) 本稿ではextreme learning machine(elm)を用いた蛍光寿命イメージング顕微鏡(flim)の高速・高精度解析法を提案する。 ELMと既存のアルゴリズムを評価するために、広範囲のメトリクスを使用した。 まず,これらのアルゴリズムを合成データセットを用いて比較した。 その結果,ELMは低光子条件でも高い忠実度が得られることがわかった。 その後,金ナノセンサを装着したヒト前立腺癌細胞から終生成分を抽出し,EMMが反復的適合性および非適合性アルゴリズムよりも優れていることを示した。 ELMと計算効率のよいニューラルネットワークを比較することで、EMMはトレーニングや推論時間が少なく、同等の精度を達成できる。 トレーニングフェーズ中にEMMのバックプロパゲーションプロセスがないため、トレーニング速度は既存のニューラルネットワークアプローチよりもはるかに高い。 提案された戦略は、オンライントレーニングによるエッジコンピューティングを約束する。

We present a fast and accurate analytical method for fluorescence lifetime imaging microscopy (FLIM) using the extreme learning machine (ELM). We used extensive metrics to evaluate ELM and existing algorithms. First, we compared these algorithms using synthetic datasets. Results indicate that ELM can obtain higher fidelity, even in low-photon conditions. Afterwards, we used ELM to retrieve lifetime components from human prostate cancer cells loaded with gold nanosensors, showing that ELM also outperforms the iterative fitting and non-fitting algorithms. By comparing ELM with a computational efficient neural network, ELM achieves comparable accuracy with less training and inference time. As there is no back-propagation process for ELM during the training phase, the training speed is much higher than existing neural network approaches. The proposed strategy is promising for edge computing with online training.
翻訳日:2022-03-28 15:22:53 公開日:2022-03-25
# (参考訳) インテリジェンス理解に向けた世界自己モデル [全文訳有]

A World-Self Model Towards Understanding Intelligence ( http://arxiv.org/abs/2203.13762v1 )

ライセンス: CC BY 4.0
Yutao Yue(参考訳) 人工知能は様々なタスクで大きな成功を収めてきたが、人工知能と人間の知性の間には大きなギャップがあり、知能の性質はまだ暗黒状態にあることは疑問の余地はない。 本研究は、まず、この種の研究における議論の範囲と調査の粒度の重要性を強調する。 我々は、人間と人工知能を慎重に比較し、人間の知能の特定の側面(aspect3)が知覚と認知をつなぐ鍵であり、新しいモデルの欠如は、知能の理解と次のレベルの実装を妨げていると提案する。 概念(concept)というより広い考え方、人工知能の新しいモデルワールド・セルフ・モデル(wsm)の原則と数学的枠組み、そして最終的にwsmに基づく知性の統一的な汎用的枠組みを提示する。 特定の問題を解決することや、特定のインテリジェンスについて議論することに集中するのではなく、私たちの仕事は、タスクや調査システムとは独立して、一般的なインテリジェンス現象の性質をよりよく理解することを目的としています。

Artificial intelligence has achieved tremendous successes in various tasks, while it is still out of question that there are big gaps between artificial and human intelligence, and the nature of intelligence is still in darkness. In this work we will first stress the importance of scope of discussion and granularity of investigation for this type of research. We will carefully compare human and artificial intelligence, and propose that a certain aspect (Aspect 3) of human intelligence is the key to connect perception and cognition, and the lack of a new model is preventing the understanding and next-level implementation of intelligence. We will present the broader idea of "concept", the principles and mathematical frameworks of the new model World-Self Model (WSM) of intelligence, and finally an unified general framework of intelligence based on WSM. Rather than focusing on solving a specific problem or discussing a certain kind of intelligence, our work is instead towards a better understanding of the nature of the general phenomenon of intelligence, independent of the kind of task or system of investigation.
翻訳日:2022-03-28 15:05:32 公開日:2022-03-25
# ベイズ正規化を用いた大規模線形システム同定におけるコリニアリティ対応

Dealing with collinearity in large-scale linear system identification using Bayesian regularization ( http://arxiv.org/abs/2203.13633v1 )

ライセンス: Link先を確認
Wenqi Cao and Gianluigi Pillonetto(参考訳) 出力が多くの相関入力の結果である可能性のある大規模線形系と安定系の同定を考察する。 したがって、重度の条件が推定問題に影響を及ぼす可能性がある。 これは、フィードバックや代数ループに遭遇できる多くのサブユニットの相互接続によって与えられる複雑な物理系をモデル化する場合にしばしば発生するシナリオである。 我々は,任意のインパルス応答をゼロ平均ガウス過程の実現としてモデル化するベイズ正規化に基づく戦略を開発する。 安定なスプライン共分散は、インパルス応答の滑らかな指数減衰に関する情報を含むために用いられる。 次に,新しいマルコフ連鎖モンテカルロスキームを設計し,コリニアリティを扱い,インパルス応答の後方を効率的に再構成する。 これは、異なる入力に影響を及ぼすコリニアリティのレベルに基づいてパラメータ空間の重複するブロックを更新するgibbsサンプリングのバリエーションに基づいている。 数百のインパルス応答がシステムを形成し、入力相関が非常に高いアプローチの良さをテストするために、数値実験が行われる。

We consider the identification of large-scale linear and stable dynamic systems whose outputs may be the result of many correlated inputs. Hence, severe ill-conditioning may affect the estimation problem. This is a scenario often arising when modeling complex physical systems given by the interconnection of many sub-units where feedback and algebraic loops can be encountered. We develop a strategy based on Bayesian regularization where any impulse response is modeled as the realization of a zero-mean Gaussian process. The stable spline covariance is used to include information on smooth exponential decay of the impulse responses. We then design a new Markov chain Monte Carlo scheme that deals with collinearity and is able to efficiently reconstruct the posterior of the impulse responses. It is based on a variation of Gibbs sampling which updates possibly overlapping blocks of the parameter space on the basis of the level of collinearity affecting the different inputs. Numerical experiments are included to test the goodness of the approach where hundreds of impulse responses form the system and inputs correlation may be very high.
翻訳日:2022-03-28 14:44:01 公開日:2022-03-25
# 機械学習に基づくコミュニティ検出のための目的関数選択

Machine-Learning Based Objective Function Selection for Community Detection ( http://arxiv.org/abs/2203.13495v1 )

ライセンス: Link先を確認
Asa Bornstein, Amir Rubin and Danny Hendler(参考訳) NECTARはノード中心のovErlapping Community deTection AlgoRithmで、2016年にCohen氏らによって発表された。 al.alは、呼び出されるネットワークに基づいて、最適化する機能を持つ2つの目的関数の間を動的に選択する。 このアプローチは、Cohenらによって示されているように、コミュニティ検出に重複する6つの最先端アルゴリズムより優れている。 本研究では,NECTARアルゴリズムを拡張したNECTAR-MLを提案する。NECTAR-MLは,対象関数の選択を自動化する機械学習モデルを用いて,15,755の合成および7つの実世界のネットワークのデータセット上で訓練および評価を行う。 分析の結果、約90%のケースにおいて、我々のモデルは正しい目的関数を選択することができた。 我々はNECTARとNECTAR-MLの競合解析を行った。 NECTAR-MLは、NECTARの最高の目的関数を選択する能力を大幅に上回った。 また,NECTAR-MLと,最先端の多目的コミュニティ検出アルゴリズムの競合解析を行った。 NECTAR-MLは、平均検出品質において両方のアルゴリズムより優れていた。 多目的EA(MOEA)は、MOPを解決するための最も一般的なアプローチと考えられており、NECTAR-MLがそれらを著しく上回るという事実は、MLに基づく目的関数選択の有効性を示している。

NECTAR, a Node-centric ovErlapping Community deTection AlgoRithm, presented in 2016 by Cohen et. al, chooses dynamically between two objective functions which function to optimize, based on the network on which it is invoked. This approach, as shown by Cohen et al., outperforms six state-of-the-art algorithms for overlapping community detection. In this work, we present NECTAR-ML, an extension of the NECTAR algorithm that uses a machine-learning based model for automating the selection of the objective function, trained and evaluated on a dataset of 15,755 synthetic and 7 real-world networks. Our analysis shows that in approximately 90% of the cases our model was able to successfully select the correct objective function. We conducted a competitive analysis of NECTAR and NECTAR-ML. NECTAR-ML was shown to significantly outperform NECTAR's ability to select the best objective function. We also conducted a competitive analysis of NECTAR-ML and two additional state-of-the-art multi-objective community detection algorithms. NECTAR-ML outperformed both algorithms in terms of average detection quality. Multiobjective EAs (MOEAs) are considered to be the most popular approach to solve MOP and the fact that NECTAR-ML significantly outperforms them demonstrates the effectiveness of ML-based objective function selection.
翻訳日:2022-03-28 14:43:22 公開日:2022-03-25
# 小型量子コンピュータを用いた高次元量子学習

High Dimensional Quantum Learning With Small Quantum Computers ( http://arxiv.org/abs/2203.13739v1 )

ライセンス: Link先を確認
Simon C. Marshall, Casper Gyurik and Vedran Dunjko(参考訳) 量子コンピュータは機械学習を強化するという大きな約束を持っているが、現在の量子ビット数は、この約束の実現を制限する。 この制限を定式化するために、この制限技術は、必要な回路よりも少ないキュービットのマシンを用いて量子回路を評価するために適用することができる。 これらの手法は、小さなマシン上の多数の小さな回路を評価し、それを多項式に組み合わせてより大きなマシンの出力を再現する。 この方式は一般的な回路よりも多くの回路評価を必要とする。 しかし,これらのサブ回路の多くは超流動的であり,全回路を見積もるのに十分な総和が十分である可能性について検討する。 我々は、回路評価をはるかに少なくして、より大きな回路の出力を近似できる機械学習モデルを構築する。 データ次元よりもはるかに小さいシミュレーション量子コンピュータを用いて、我々のモデルを数値認識のタスクに適用することに成功した。 このモデルは、5量子ビットコンピュータへのシミュレーションアクセスでランダムな10量子PQCを近似するタスクにも適用され、比較的控えめな数の回路であっても、ニューラルネットワークの試みよりも10量子PQCの出力を正確に近似することができる。 提案手法は, NISQ 時代を通じて大規模データに量子モデルを実装するのに有用である。

Quantum computers hold great promise to enhance machine learning, but their current qubit counts restrict the realisation of this promise. In an attempt to placate this limitation techniques can be applied for evaluating a quantum circuit using a machine with fewer qubits than the circuit naively requires. These techniques work by evaluating many smaller circuits on the smaller machine, that are then combined in a polynomial to replicate the output of the larger machine. This scheme requires more circuit evaluations than are practical for general circuits. However, we investigate the possibility that for certain applications many of these subcircuits are superfluous, and that a much smaller sum is sufficient to estimate the full circuit. We construct a machine learning model that may be capable of approximating the outputs of the larger circuit with much fewer circuit evaluations. We successfully apply our model to the task of digit recognition, using simulated quantum computers much smaller than the data dimension. The model is also applied to the task of approximating a random 10 qubit PQC with simulated access to a 5 qubit computer, even with only relatively modest number of circuits our model provides an accurate approximation of the 10 qubit PQCs output, superior to a neural network attempt. The developed method might be useful for implementing quantum models on larger data throughout the NISQ era.
翻訳日:2022-03-28 14:43:02 公開日:2022-03-25
# JAX-FLUIDS:圧縮性二相流に対する完全微分可能な高次計算流体力学解法

JAX-FLUIDS: A fully-differentiable high-order computational fluid dynamics solver for compressible two-phase flows ( http://arxiv.org/abs/2203.13760v1 )

ライセンス: Link先を確認
Deniz A. Bezgin, Aaron B. Buhendwa, Nikolaus A. Adams(参考訳) 物理系は偏微分方程式(PDE)によって支配される。 ナビエ・ストークス方程式は流体の流れを記述し、複雑な時空間相互作用を持つ非線形物理系を表す。 流体流動は自然と工学の応用において一様であり、それらの正確なシミュレーションはこれらのプロセスに関する洞察を与えるのに不可欠である。 PDEは一般に数値解法で解決されるが、近年の機械学習(ML)の成功により、ML手法はPDEの解を見つけるための新しい方法をもたらすことが示されている。 計算流体力学(CFD)では、MLがますます多くなっている。 しかし、現在まで、汎用的なML-CFDパッケージが存在しない。 1)最先端の数値計算方法 2)CFDによるMLのシームレスなハイブリッド化 3)自動分化(AD)機能。 特にADは、勾配情報を提供し、既存の新しいCFDモデルの最適化を可能にするため、ML-CFD研究に不可欠である。 本研究では,圧縮性二相流に対する完全微分可能CFD PythonソルバであるJAX-FLUIDSを提案する。 JAX-FLUIDSは3次元乱流、圧縮性効果、二相流などの現象を伴う複雑な流体力学のシミュレーションを可能にする。 jax で完全に書かれており、既存の ml モデルを提案フレームワークに組み込むことは簡単である。 さらに、JAX-FLUIDSはエンドツーエンドの最適化を可能にします。 すなわち、MLモデルはCFDアルゴリズム全体を通して逆伝播される勾配で最適化することができ、従って、基礎となるPDEの情報だけでなく、応用数値法も含む。 JAX-FLUIDSのようなPythonパッケージは、MLとCFDの交差点での研究を促進するために不可欠であり、微分可能な流体力学の時代への道を開くかもしれない。

Physical systems are governed by partial differential equations (PDEs). The Navier-Stokes equations describe fluid flows and are representative of nonlinear physical systems with complex spatio-temporal interactions. Fluid flows are omnipresent in nature and engineering applications, and their accurate simulation is essential for providing insights into these processes. While PDEs are typically solved with numerical methods, the recent success of machine learning (ML) has shown that ML methods can provide novel avenues of finding solutions to PDEs. ML is becoming more and more present in computational fluid dynamics (CFD). However, up to this date, there does not exist a general-purpose ML-CFD package which provides 1) powerful state-of-the-art numerical methods, 2) seamless hybridization of ML with CFD, and 3) automatic differentiation (AD) capabilities. AD in particular is essential to ML-CFD research as it provides gradient information and enables optimization of preexisting and novel CFD models. In this work, we propose JAX-FLUIDS: a comprehensive fully-differentiable CFD Python solver for compressible two-phase flows. JAX-FLUIDS allows the simulation of complex fluid dynamics with phenomena like three-dimensional turbulence, compressibility effects, and two-phase flows. Written entirely in JAX, it is straightforward to include existing ML models into the proposed framework. Furthermore, JAX-FLUIDS enables end-to-end optimization. I.e., ML models can be optimized with gradients that are backpropagated through the entire CFD algorithm, and therefore contain not only information of the underlying PDE but also of the applied numerical methods. We believe that a Python package like JAX-FLUIDS is crucial to facilitate research at the intersection of ML and CFD and may pave the way for an era of differentiable fluid dynamics.
翻訳日:2022-03-28 14:42:41 公開日:2022-03-25
# 分極多重拡散型計算:分極符号化拡散型ネットワークによる線形変換群の全最適実装

Polarization Multiplexed Diffractive Computing: All-Optical Implementation of a Group of Linear Transformations Through a Polarization-Encoded Diffractive Network ( http://arxiv.org/abs/2203.13482v1 )

ライセンス: Link先を確認
Jingxi Li, Yi-Chun Hung, Onur Kulce, Deniz Mengu, Aydogan Ozcan(参考訳) 光コンピューティングの研究は、機械学習の革新的な進歩により、近年大きな注目を集めている。 異なるアプローチでは、全光学的統計的推論と受動自由空間光層を用いた任意の線形変換のために空間工学的透過曲面からなる回折光ネットワークが実証されている。 本稿では,偏光多重化拡散型プロセッサを導入し,深層学習を用いて訓練した単一拡散型ネットワークを通じて,任意選択線形変換を全光学的に行う。 この枠組みでは、等方性を有するトレーニング可能な透過型回折材料間に、予め選択された線形偏光子アレイを配置し、入出力偏光状態の異なる組合せに、異なる対象線形変換(複素値)を一意に割り当てる。 この偏光多重回折ネットワークの伝送層は、異なる入出力偏光結合に割り当てられた複素値線形変換のそれぞれに対応する入出力フィールドの数千の例を用いて、ディープラーニングとエラーバックプロパゲーションによって訓練され、最適化される。 Our results and analysis reveal that a single diffractive network can successfully approximate and all-optically implement a group of arbitrarily-selected target transformations with a negligible error when the number of trainable diffractive features/neurons (N) approaches N_p x N_i x N_o, where N_i and N_o represent the number of pixels at the input and output fields-of-view, respectively, and N_p refers to the number of unique linear transformations assigned to different input/output polarization combinations. この偏光多重化全光回折プロセッサは、光学計算や偏光ベースのマシンビジョンタスクに様々な応用をすることができる。

Research on optical computing has recently attracted significant attention due to the transformative advances in machine learning. Among different approaches, diffractive optical networks composed of spatially-engineered transmissive surfaces have been demonstrated for all-optical statistical inference and performing arbitrary linear transformations using passive, free-space optical layers. Here, we introduce a polarization multiplexed diffractive processor to all-optically perform multiple, arbitrarily-selected linear transformations through a single diffractive network trained using deep learning. In this framework, an array of pre-selected linear polarizers is positioned between trainable transmissive diffractive materials that are isotropic, and different target linear transformations (complex-valued) are uniquely assigned to different combinations of input/output polarization states. The transmission layers of this polarization multiplexed diffractive network are trained and optimized via deep learning and error-backpropagatio n by using thousands of examples of the input/output fields corresponding to each one of the complex-valued linear transformations assigned to different input/output polarization combinations. Our results and analysis reveal that a single diffractive network can successfully approximate and all-optically implement a group of arbitrarily-selected target transformations with a negligible error when the number of trainable diffractive features/neurons (N) approaches N_p x N_i x N_o, where N_i and N_o represent the number of pixels at the input and output fields-of-view, respectively, and N_p refers to the number of unique linear transformations assigned to different input/output polarization combinations. This polarization-multipl exed all-optical diffractive processor can find various applications in optical computing and polarization-based machine vision tasks.
翻訳日:2022-03-28 14:40:33 公開日:2022-03-25
# SeCo: 未知の音楽ビジュアルサウンドを一貫性ガイダンスで分離する

SeCo: Separating Unknown Musical Visual Sounds with Consistency Guidance ( http://arxiv.org/abs/2203.13535v1 )

ライセンス: Link先を確認
Xinchi Zhou, Dongzhan Zhou, Wanli Ouyang, Hang Zhou, Ziwei Liu, and Di Hu(参考訳) 近年,視覚的分離作業における深層学習の成功を目撃している。 しかしながら、既存の作業は、トレーニングとテストデータセットが同じ楽器カテゴリを共有するような、同様の設定に従っているため、このタスクの汎用性はある程度制限される。 本研究は、未知楽器の分離、すなわち、訓練段階と試験段階のカテゴリーが相互に重複しない、より一般的で困難なシナリオに焦点を当てる。 この新しい設定に取り組むため,我々は,一貫性の制約を生かして未知のカテゴリの分離を実現するsepament-with-consis tency(seco)フレームワークを提案する。 さらに, 新たなメロディーの豊かな特徴を捉えるために, 新たなパラメータのコストを伴わずに, 安定した拡張を実現するオンラインマッチング戦略を考案した。 実験により,セコフレームワークは新たな楽曲カテゴリに強い適応能力を示し,ベースライン手法よりも優れた性能を示した。

Recent years have witnessed the success of deep learning on the visual sound separation task. However, existing works follow similar settings where the training and testing datasets share the same musical instrument categories, which to some extent limits the versatility of this task. In this work, we focus on a more general and challenging scenario, namely the separation of unknown musical instruments, where the categories in training and testing phases have no overlap with each other. To tackle this new setting, we propose the Separation-with-Cons istency (SeCo) framework, which can accomplish the separation on unknown categories by exploiting the consistency constraints. Furthermore, to capture richer characteristics of the novel melodies, we devise an online matching strategy, which can bring stable enhancements with no cost of extra parameters. Experiments demonstrate that our SeCo framework exhibits strong adaptation ability on the novel musical categories and outperforms the baseline methods by a significant margin.
翻訳日:2022-03-28 14:40:06 公開日:2022-03-25
# 構造化および非構造化制約付きナビゲート可能なグラフ駆動ネイティブハイブリッドクエリ

Navigable Proximity Graph-Driven Native Hybrid Queries with Structured and Unstructured Constraints ( http://arxiv.org/abs/2203.13601v1 )

ライセンス: Link先を確認
Mengzhao Wang, Lingwei Lv, Xiaoliang Xu, Yuxiang Wang, Qiang Yue, Jiongkang Ni(参考訳) 研究の関心が高まるにつれて、ベクトル類似性探索はデータマイニング、コンピュータビジョン、情報検索など様々な分野に適用される。 一連のオブジェクト(イメージのセットなど)とクエリオブジェクトを使えば、各オブジェクトを簡単に特徴ベクトルに変換して、ベクトル類似性検索を適用して、最も類似したオブジェクトを取得することができます。 しかし、元のベクトル類似性検索は、未構造化クエリ制約(すなわち、クエリオブジェクトの特徴ベクトル)だけでなく、構造化クエリ制約(すなわち、所望の興味のある属性)も入力する、 \textit{hybrid query} を十分にサポートできない。 ハイブリッドクエリ処理は、オブジェクトに類似した機能ベクトルでこれらのオブジェクトを識別し、与えられた属性制約を満たすことを目的としている。 近年,属性フィルタリングとベクトル類似性探索を別々に行い,その結果をマージすることで,ハイブリッドクエリを目的としていないため,効率と精度を抑える手法が試みられている。 本稿では,ハイブリッドクエリのための特別な\textit{composite index and joint pruning}モジュールを提供する,近接グラフ(pg)に基づくネイティブハイブリッドクエリ(nhq)フレームワークを提案する。 このフレームワーク上で既存の様々なPGを簡単にデプロイし、ハイブリッドクエリを効率的に処理します。 さらに、エッジ選択とルーティング戦略を最適化した2つの新しいナビゲート型PG(NPG)を提案し、既存のPGよりも全体的な性能が向上した。 その後、提案されたNPGをNHQにデプロイして、2つのハイブリッドクエリメソッドを構築しました。これは、すべての実験データセット(同じ \textit{Recall} の下で10$\times$高速)において、最先端の競合よりも大幅に優れています。 我々のコードとデータセットは \url{https://github.com/A shenOn3/NHQ} でリリースされた。

As research interest surges, vector similarity search is applied in multiple fields, including data mining, computer vision, and information retrieval. {Given a set of objects (e.g., a set of images) and a query object, we can easily transform each object into a feature vector and apply the vector similarity search to retrieve the most similar objects. However, the original vector similarity search cannot well support \textit{hybrid queries}, where users not only input unstructured query constraint (i.e., the feature vector of query object) but also structured query constraint (i.e., the desired attributes of interest). Hybrid query processing aims at identifying these objects with similar feature vectors to query object and satisfying the given attribute constraints. Recent efforts have attempted to answer a hybrid query by performing attribute filtering and vector similarity search separately and then merging the results later, which limits efficiency and accuracy because they are not purpose-built for hybrid queries.} In this paper, we propose a native hybrid query (NHQ) framework based on proximity graph (PG), which provides the specialized \textit{composite index and joint pruning} modules for hybrid queries. We easily deploy existing various PGs on this framework to process hybrid queries efficiently. Moreover, we present two novel navigable PGs (NPGs) with optimized edge selection and routing strategies, which obtain better overall performance than existing PGs. After that, we deploy the proposed NPGs in NHQ to form two hybrid query methods, which significantly outperform the state-of-the-art competitors on all experimental datasets (10$\times$ faster under the same \textit{Recall}), including eight public and one in-house real-world datasets. Our code and datasets have been released at \url{https://github.com/A shenOn3/NHQ}.
翻訳日:2022-03-28 14:39:50 公開日:2022-03-25
# l^p\)-ノルム相の解法におけるプリコンディショニング法の性能について

On the performance of preconditioned methods to solve \(L^p\)-norm phase unwrapping ( http://arxiv.org/abs/2203.13675v1 )

ライセンス: Link先を確認
Ricardo Legarda-Saenz, Carlos Brito-Loeza, Arturo Espinosa-Romero(参考訳) 本稿では,$L^p$-norm相アンラッピング法の性能向上のために,適切なプレコンディショニング手法の解析と評価を行う。 文献でよく見られる5つのプレコンディショニング手法を検討し,その性能をラップフェーズマップの異なるサイズで解析する。 キーワード。 -位相アンラッピング、$L^p$-norm法、プレコンディショニング技術。

In this paper, we analyze and evaluate suitable preconditioning techniques to improve the performance of the $L^p$-norm phase unwrapping method. We consider five preconditioning techniques commonly found in the literature, and analyze their performance with different sizes of wrapped-phase maps. Keywords.- Phase unwrapping, $L^p$-norm based method, Preconditioning techniques.
翻訳日:2022-03-28 14:39:15 公開日:2022-03-25
# nashニューラルネットワーク : 最適行動からユーティリティを推測する

Nash Neural Networks : Inferring Utilities from Optimal Behaviour ( http://arxiv.org/abs/2203.13432v1 )

ライセンス: Link先を確認
John J. Molina, Simon K. Schnyder, Matthew S. Turner, Ryoichi Yamamoto(参考訳) 我々は,Nash平衡を持つ差分ゲームにおいて,理性的な個人がどのように振る舞うかを観察し,基礎となる有用性を推定できる物理情報ニューラルネットワークの新たなタイプとして,ナッシュニューラルネットワーク(N^3$)を提案する。 我々は、集団と個人の両方のダイナミクスが知られているが、特定の状態にある単位時間当たりのコストを特定するペイオフ関数は知られていないと仮定する。 我々は,対応する最適制御問題のオイラー・ラグランジュ方程式を満たし,最適制御を自己整合的に決定するようにネットワークを構築する。 このようにして、未知のペイオフ関数を教師なしの方法で学習することができる。 我々はこのN^3$を、感染状況や感染コストに応じて個人が社会的距離を選択できる流行時の最適な行動の研究に応用した。 単純なsirモデルのための合成データに対してネットワークをトレーニングした結果,ゲームダイナミクスが尊重されるように,隠れたペイオフ関数を正確に再現することが可能であった。 当社のアプローチは,行動データからユーティリティを推定し,科学,工学,経済学,政府の計画における幅広い問題の研究に応用できるため,広範囲の応用が期待できる。

We propose Nash Neural Networks ($N^3$) as a new type of Physics Informed Neural Network that is able to infer the underlying utility from observations of how rational individuals behave in a differential game with a Nash equilibrium. We assume that the dynamics for both the population and the individual are known, but not the payoff function, which specifies the cost per unit time of being in any particular state. We construct our network in such a way that the Euler-Lagrange equations of the corresponding optimal control problem are satisfied and the optimal control is self-consistently determined. In this way, we are able to learn the unknown payoff function in an unsupervised manner. We have applied the $N^3$ to study the optimal behaviour during epidemics, in which individuals can choose to socially distance depending on the state of the pandemic and the cost of being infected. Training our network against synthetic data for a simple SIR model, we showed that it is possible to accurately reproduce the hidden payoff function, in such a way that the game dynamics are respected. Our approach will have far-reaching applications, as it allows one to infer utilities from behavioural data, and can thus be applied to study a wide array of problems in science, engineering, economics and government planning.
翻訳日:2022-03-28 14:38:53 公開日:2022-03-25
# EmotionNAS:音声感情認識のための2ストリームアーキテクチャ検索

EmotionNAS: Two-stream Architecture Search for Speech Emotion Recognition ( http://arxiv.org/abs/2203.13617v1 )

ライセンス: Link先を確認
Haiyang Sun, Zheng Lian, Bin Liu, Ying Li, Licai Sun, Cong Cai, Jianhua Tao, Meng Wang, Yuan Cheng(参考訳) 音声感情認識(SER)は人間とコンピュータの相互作用において重要な研究課題である。 既存の作品は、主に手作業で設計されたモデルに基づいている。 その大きな成功にもかかわらず、これらの手法は歴史的経験に大きく依存しており、時間を要するが可能な全ての構造を使い果たせない。 そこで本研究では,serのためのニューラル・アーキテクチャ・サーチ(nas)ベースのフレームワーク「emotionnas」を提案する。 我々は、スペクトルとwav2vecの機能を入力として、次にNASを使ってこれらの特徴を個別にネットワーク構造を最適化する。 さらに,決定レベルの融合により,これらの特徴に補完的な情報を組み込む。 IEMOCAPの実験結果から,本手法は既存のSERの最先端戦略よりも優れていることが示された。

Speech emotion recognition (SER) is a crucial research topic in human-computer interactions. Existing works are mainly based on manually designed models. Despite their great success, these methods heavily rely on historical experience, which are time-consuming but cannot exhaust all possible structures. To address this problem, we propose a neural architecture search (NAS) based framework for SER, called "EmotionNAS". We take spectrogram and wav2vec features as the inputs, followed with NAS to optimize the network structure for these features separately. We further incorporate complementary information in these features through decision-level fusion. Experimental results on IEMOCAP demonstrate that our method succeeds over existing state-of-the-art strategies on SER.
翻訳日:2022-03-28 14:38:30 公開日:2022-03-25
# (参考訳) 人口密集地域におけるuavのビジュアルベースセーフランディング:仮想環境におけるリアルタイム検証 [全文訳有]

Visual-based Safe Landing for UAVs in Populated Areas: Real-time Validation in Virtual Environments ( http://arxiv.org/abs/2203.13792v1 )

ライセンス: CC BY 4.0
Hector Tovanche-Picon, Javier Gonzalez-Trejo, Angel Flores-Abad and Diego Mercado-Ravell(参考訳) 人口密集地における無人航空機(uav)の安全な自律着陸は、特に緊急着陸時の都市展開の成功にとって重要な側面である。 それでも、実際のシナリオにおける自律着陸の検証は、人を傷つけるリスクの高い課題である。 そこで本研究では,写真現実仮想環境を用いた視覚に基づく自律着陸のリアルタイム安全かつ徹底的な評価のためのフレームワークを提案する。 我々は,ドローンのシミュレーションにunreal graphics engineとairsimプラグインを併用し,居住シナリオにおける安全着陸ゾーン(slz)の視覚的検出に基づく自律着陸戦略を評価することを提案する。 そこで我々は,「ベスト」なSLZを選択するための2つの異なる基準について検討し,移動者を含む都会の人々の異なる分布の下で,異なるシナリオや状況下で仮想ドローンを自律着陸させる際の評価を行った。 着陸戦略の性能を定量的に評価し、この課題における今後の作業と比較するためのベースラインを確立し、重要な回数のランダム化イテレーションを通して解析する。 この研究は、自律着陸アルゴリズムを使用することで、人間にかかわる事故を防ぐことができることを示唆している。

Safe autonomous landing for Unmanned Aerial Vehicles (UAVs) in populated areas is a crucial aspect for successful urban deployment, particularly in emergency landing situations. Nonetheless, validating autonomous landing in real scenarios is a challenging task involving a high risk of injuring people. In this work, we propose a framework for real-time safe and thorough evaluation of vision-based autonomous landing in populated scenarios, using photo-realistic virtual environments. We propose to use the Unreal graphics engine coupled with the AirSim plugin for drone's simulation, and evaluate autonomous landing strategies based on visual detection of Safe Landing Zones (SLZ) in populated scenarios. Then, we study two different criteria for selecting the "best" SLZ, and evaluate them during autonomous landing of a virtual drone in different scenarios and conditions, under different distributions of people in urban scenes, including moving people. We evaluate different metrics to quantify the performance of the landing strategies, establishing a baseline for comparison with future works in this challenging task, and analyze them through an important number of randomized iterations. The study suggests that the use of the autonomous landing algorithms considerably helps to prevent accidents involving humans, which may allow to unleash the full potential of drones in urban environments near to people.
翻訳日:2022-03-28 14:36:56 公開日:2022-03-25
# 新型コロナウイルス(covid-19)パンデミック時の体験に基づく視覚創造における色彩の使用とその感情的関係の分析

Analysis of the use of color and its emotional relationship in visual creations based on experiences during the context of the COVID-19 pandemic ( http://arxiv.org/abs/2203.13770v1 )

ライセンス: Link先を確認
C\'esar Gonz\'alez-Mart\'in and Miguel Carrasco and Germ\'an Oviedo(参考訳) 色は環境を理解し評価するのに役立つ複雑なコミュニケーション要素です。 芸術的創造のレベルでは、この構成要素は構成の形式的側面と象徴的重みの両方に影響を与え、コミュニケーションしたいメッセージの構成と伝達に直接影響を与え、特定の感情的な反応を生み出す。 新型コロナウイルス(COVID-19)パンデミックの間、人々はこのイベントの主観的な体験を伝える無数の画像を生成した。 InstagramアカウントCAM(The COVID Art Museum)に作成された画像のレポジトリを用いて,この文脈における色の使用とその感情的関係を理解するための方法論を提案する。 プロセスは2つの段階を並列に考慮し、それを結合する。 まず、畳み込みニューラルネットワークを用いて、CAMデータセット画像から感情を抽出し、分類する。 第2に、クラスタリングプロセスを通じて色とその調和を抽出する。 両方のプロセスが完了したら、結果を組み合わせて、色、調和、感情の使用に関する広範な議論を生み出します。 その結果,試料中では温かい色が一般的であり,相補的な色よりもアナログ組成が好まれることがわかった。 感情とこれらの構成との関係は、アルゴリズムのa preiの結果と色特性(he, クロマ, ライティング)の感情関係分析によって強化された肯定的な感情の傾向を示す。

Color is a complex communicative element that helps us understand and evaluate our environment. At the level of artistic creation, this component influences both the formal aspects of the composition and the symbolic weight, directly affecting the construction and transmission of the message that you want to communicate, creating a specific emotional reaction. During the COVID-19 pandemic, people generated countless images transmitting this event's subjective experiences. Using the repository of images created in the Instagram account CAM (The COVID Art Museum), we propose a methodology to understand the use of color and its emotional relationship in this context. The process considers two stages in parallel that are then combined. First, emotions are extracted and classified from the CAM dataset images through a convolutional neural network. Second, we extract the colors and their harmonies through a clustering process. Once both processes are completed, we combine the results generating an expanded discussion on the usage of color, harmonies, and emotion. The results indicate that warm colors are prevalent in the sample, with a preference for analog compositions over complementary ones. The relationship between emotions and these compositions shows a trend in positive emotions, reinforced by the results of the algorithm a priori and the emotional relationship analysis of the attributes of color (hue, chroma, and lighting).
翻訳日:2022-03-28 14:25:19 公開日:2022-03-25
# 流儀乗り換えモデルにおける宝くじの遊び

Playing Lottery Tickets in Style Transfer Models ( http://arxiv.org/abs/2203.13802v1 )

ライセンス: Link先を確認
Meihao Kong, Jing Huo, Wenbin Li, Jing Wu, Yu-Kun Lai, Yang Gao(参考訳) スタイル転送は大きな成功を収め、フレキシブルなアプリケーションシナリオのため、学術コミュニティと産業コミュニティの両方から幅広い注目を集めている。 しかしながら、かなり大きなVGGベースのオートエンコーダに依存しているため、既存のスタイル転送モデルは、リソース制約されたデバイスに対するアプリケーションを制限する高いパラメータの複雑さを持つ。 残念ながら、スタイル転送モデルの圧縮は研究されていない。 並行して、抽選券仮説 (LTH) の研究は、独立して訓練された際、元のフルネットワークよりも同等またはそれ以上の性能で達成できる、非常にスパースなサブネットワークを見つける大きな可能性を示している。 本研究では,このようなトレーニング可能なネットワークがスタイル伝達モデルにも存在するかどうかを検証するための,最初の実証的研究を行う。 幅広いスタイル転送手法から,グローバルトランスフォーメーションとローカルトランスフォーメーションのアプローチをそれぞれ表現した,主要なテストベッドとして,最も人気のあるスタイルトランスファーモデル2つ,すなわちadainとsertを選択した。 広範な実験と包括的分析を通じて,以下の結論を導いた。 1)VGGエンコーダの修正と比較すると,ネットワーク全体のトレーニングにより,スタイル転送モデルの方が有利である。 2) AdaINの89.2%, SANetの73.7%において, 最もスパースなサブネットワークが, 反復等級プルーニングを用いており, スタイル転送モデルも宝くじを奏でる可能性が示唆されている。 3) 機能変換モジュールは、サブネットワークのマッチングの存在や品質に影響を与えることなく、スパーザーモデルを取得するためにprunするべきです。 (4) AdaIN, SANetに加えて, LST, MANet, AdaAttN, MCCNet などのモデルでも抽選券をプレイでき, LTH が様々なスタイルの転送モデルに一般化可能であることを示す。

Style transfer has achieved great success and attracted a wide range of attention from both academic and industrial communities due to its flexible application scenarios. However, the dependence on pretty large VGG based autoencoder leads to existing style transfer models have a high parameter complexities which limits the application for resource-constrained devices. Unfortunately, the compression of style transfer model has less been explored. In parallel, study on the lottery ticket hypothesis (LTH) has shown great potential in finding extremely sparse matching subnetworks which can achieve on par or even better performance than original full networks when trained in isolation. In this work, we perform the first empirical study to verify whether such trainable networks also exist in style transfer models. From a wide range of style transfer methods, we choose two of the most popular style transfer models as the main testbeds, i.e., AdaIN and SANet, representing approaches of global and local transformation based style transfer respectively. Through extensive experiments and comprehensive analysis, we draw the following main conclusions. (1) Compared with fixing VGG encoder, style transfer models can benefit more from training the whole network together. (2) Using iterative magnitude pruning, we find the most sparse matching subnetworks at 89.2% in AdaIN and 73.7% in SANet, which suggests that style transfer models can play lottery tickets too. (3) Feature transformation module should also be pruned to get a sparser model without affecting the existence and quality of matching subnetworks. (4) Besides AdaIN and SANet, other models such as LST, MANet, AdaAttN and MCCNet can also play lottert tickets, which shows that LTH can be generalized to various style transfer models.
翻訳日:2022-03-28 14:24:58 公開日:2022-03-25
# AutoAvatar:動的アバターモデリングのための自己回帰型ニューラルネットワーク

AutoAvatar: Autoregressive Neural Fields for Dynamic Avatar Modeling ( http://arxiv.org/abs/2203.13817v1 )

ライセンス: Link先を確認
Ziqian Bai, Timur Bagautdinov, Javier Romero, Michael Zollh\"ofer, Ping Tan, Shunsuke Saito(参考訳) 暗黙の表面のようなニューラルネットワークは、最近、明示的な時間的対応なしに生スキャンからアバターモデリングを可能にした。 本研究では, 自己回帰モデルを用いて, この概念をさらに拡張し, 軟部変形などの動的効果を捉える。 自己回帰モデルは自然にダイナミクスを扱うことができるが、明示的な状態復号化はメモリの要求のために実現不可能であるため、暗黙の表現に適用するのは自明ではない。 本研究では,初めて暗黙のアバターの自己回帰モデリングを可能にする。 メモリボトルネックを低減し、動的暗黙的表面を効率的にモデル化するために、パラメトリック人体モデルの明示的表面と暗黙的状態を関連付ける明瞭な観察点の概念を導入する。 明瞭な観測点上に定義された高さ場の集合として暗黙曲面を符号化することは、潜在表現よりもはるかに優れた一般化をもたらすことを示す。 実験の結果,本手法は芸術の状態を上回り,目に見えない動きに対しても高い動的変形が得られることがわかった。 https://zqbai-jeremy .github.io/autoavata r

Neural fields such as implicit surfaces have recently enabled avatar modeling from raw scans without explicit temporal correspondences. In this work, we exploit autoregressive modeling to further extend this notion to capture dynamic effects, such as soft-tissue deformations. Although autoregressive models are naturally capable of handling dynamics, it is non-trivial to apply them to implicit representations, as explicit state decoding is infeasible due to prohibitive memory requirements. In this work, for the first time, we enable autoregressive modeling of implicit avatars. To reduce the memory bottleneck and efficiently model dynamic implicit surfaces, we introduce the notion of articulated observer points, which relate implicit states to the explicit surface of a parametric human body model. We demonstrate that encoding implicit surfaces as a set of height fields defined on articulated observer points leads to significantly better generalization compared to a latent representation. The experiments show that our approach outperforms the state of the art, achieving plausible dynamic deformations even for unseen motions. https://zqbai-jeremy .github.io/autoavata r
翻訳日:2022-03-28 14:24:28 公開日:2022-03-25
# (参考訳) FReSCO: ディープアーティファクト抑圧とセグメンテーションを用いた低遅延心出力モニタリングのためのフロー再構成とセグメンテーション [全文訳有]

FReSCO: Flow Reconstruction and Segmentation for low latency Cardiac Output monitoring using deep artifact suppression and segmentation ( http://arxiv.org/abs/2203.13729v1 )

ライセンス: CC BY 4.0
Olivier Jaubert, Javier Montalt-Tordera, James Brown, Daniel Knight, Simon Arridge, Jennifer Steeden and Vivek Muthurangu(参考訳) 目的: 心臓出力(CO)のリアルタイムモニタリングには, 従来実行が困難であったリアルタイム位相コントラストMR(PCMR)の低遅延再構成とセグメント化が必要である。 本稿では「低遅延心出力モニタリングのためのフロー再構成とセグメンテーション」のためのディープラーニングフレームワークを提案する。 方法: ディープアーティファクト抑圧とセグメンテーションu-netは独立に訓練された。 ブレスホールドスパイラルPCMRデータ(n=516)を可変密度スパイラルサンプリングパターンを用いて合成アンサンプし,アーティファクト抑制U-netのトレーニング用エイリアスデータを生成する。 データのサブセット(n=96)がセグメント化され、セグメント化U-netのトレーニングに使用された。 安静時,運動時,回復期の健常者10名を対象に,トレーニングしたモデル(FReSCO)を低遅延でリアルタイムスパイラルPCMRを前向きに取得し,再構成し,セグメンテーションした。 FReSCOを用いて得られたCOを基準安息COと比較し,CS(Compressed Sensing)COをエクササイズした。 結果: FReSCOは前向きにスキャナーで実証された。 心拍数、脳卒中量、coは平均レイテンシ622msで可視化できる。 安静時の基準 (Bias = -0.21+-0.50 L/min, p=0.246) やピーク時のCS (Bias=0.12+-0.48 L/min, p=0.458) に有意差はなかった。 結語:FReSCOは運動中のCOのリアルタイムモニタリングに成功し,各種ストレスに対する血行動態の評価に有用なツールとなった。

Purpose: Real-time monitoring of cardiac output (CO) requires low latency reconstruction and segmentation of real-time phase contrast MR (PCMR), which has previously been difficult to perform. Here we propose a deep learning framework for 'Flow Reconstruction and Segmentation for low latency Cardiac Output monitoring' (FReSCO). Methods: Deep artifact suppression and segmentation U-Nets were independently trained. Breath hold spiral PCMR data (n=516) was synthetically undersampled using a variable density spiral sampling pattern and gridded to create aliased data for training of the artifact suppression U-net. A subset of the data (n=96) was segmented and used to train the segmentation U-net. Real-time spiral PCMR was prospectively acquired and then reconstructed and segmented using the trained models (FReSCO) at low latency at the scanner in 10 healthy subjects during rest, exercise and recovery periods. CO obtained via FReSCO was compared to a reference rest CO and rest and exercise Compressed Sensing (CS) CO. Results: FReSCO was demonstrated prospectively at the scanner. Beat-to-beat heartrate, stroke volume and CO could be visualized with a mean latency of 622ms. No significant differences were noted when compared to reference at rest (Bias = -0.21+-0.50 L/min, p=0.246) or CS at peak exercise (Bias=0.12+-0.48 L/min, p=0.458). Conclusion: FReSCO was successfully demonstrated for real-time monitoring of CO during exercise and could provide a convenient tool for assessment of the hemodynamic response to a range of stressors.
翻訳日:2022-03-28 14:21:35 公開日:2022-03-25
# グラフ要約を用いた知識グラフによる質問応答の改善

Improving Question Answering over Knowledge Graphs Using Graph Summarization ( http://arxiv.org/abs/2203.13570v1 )

ライセンス: Link先を確認
Sirui Li, Kok Kai Wong, Dengya Zhu, Chun Che Fung(参考訳) 知識グラフ(KG)上の質問回答システム(QA)は、KGに含まれる3つのトリプルを使って、自然言語の質問に自動的に答える。 鍵となるアイデアは、kg の質問や実体を低次元埋め込みとして表現することである。 従来のKGQAは知識グラフ埋め込み(KGE)とディープラーニング(DL)メソッドを使ってエンティティを表現しようとした。 しかし、KGEは表現的特徴を捉えるには浅すぎ、DLメソッドは独立して3つの処理を行う。 最近、Graph Convolutional Network (GCN) はエンティティの埋め込みに優れていた。 しかし、gcn を kgqas に使用するのは非効率であり、gcn は近隣を集約する際に全ての関係を等しく扱う。 また、以前のKGQAを使用すると問題が発生する可能性がある:ほとんどの場合、質問には不確実な数の回答がある。 上記の問題に対処するため,リカレント畳み込みニューラルネットワーク(RCNN)とGCNを用いたグラフ要約手法を提案する。 GCNとRCNNの組み合わせにより、埋め込みは問題に関連する関係とともに伝播し、より良い回答が得られる。 提案するグラフ要約手法は, kgqaが不確定な回答数で質問に答えられないという問題に対処できる。 本稿では,最も一般的な質問タイプである単一関連質問に対して,提案手法を実証した。 RCNN と GCN を用いたグラフ要約手法により,GCN と比較してよい結果が得られることを示した。 提案手法は,質問が不確実な回答数を持つ場合の実際の回答のリコールを大幅に改善する。

Question Answering (QA) systems over Knowledge Graphs (KGs) (KGQA) automatically answer natural language questions using triples contained in a KG. The key idea is to represent questions and entities of a KG as low-dimensional embeddings. Previous KGQAs have attempted to represent entities using Knowledge Graph Embedding (KGE) and Deep Learning (DL) methods. However, KGEs are too shallow to capture the expressive features and DL methods process each triple independently. Recently, Graph Convolutional Network (GCN) has shown to be excellent in providing entity embeddings. However, using GCNs to KGQAs is inefficient because GCNs treat all relations equally when aggregating neighbourhoods. Also, a problem could occur when using previous KGQAs: in most cases, questions often have an uncertain number of answers. To address the above issues, we propose a graph summarization technique using Recurrent Convolutional Neural Network (RCNN) and GCN. The combination of GCN and RCNN ensures that the embeddings are propagated together with the relations relevant to the question, and thus better answers. The proposed graph summarization technique can be used to tackle the issue that KGQAs cannot answer questions with an uncertain number of answers. In this paper, we demonstrated the proposed technique on the most common type of questions, which is single-relation questions. Experiments have demonstrated that the proposed graph summarization technique using RCNN and GCN can provide better results when compared to the GCN. The proposed graph summarization technique significantly improves the recall of actual answers when the questions have an uncertain number of answers.
翻訳日:2022-03-28 14:12:20 公開日:2022-03-25
# 力学系における物理情報ニューラルネットワークの訓練の難しさの理解

Understanding the Difficulty of Training Physics-Informed Neural Networks on Dynamical Systems ( http://arxiv.org/abs/2203.13648v1 )

ライセンス: Link先を確認
Franz M. Rohrhofer, Stefan Posch, Clemens G\"o{\ss}nitzer, Bernhard C. Geiger(参考訳) 物理情報ニューラルネットワーク(PINN)は、微分方程式によって支配される問題の解決にデータと物理的制約をシームレスに統合する。 ラベル付きトレーニングデータの少ない設定では、それらの最適化は埋め込み物理損失関数の複雑さに依存する。 PINNで頻繁に報告される収束問題に関して、基本的な2つの疑問が議論されている。 そしてなぜドメインメソッドがPINNの収束挙動を改善するのか? 力学系の固定点近傍の物理損失関数について検討することにより,これらの疑問に答える。 単純な力学系の実験では、物理損失残差は固定点近傍で自明に最小化されている。 その結果,非物理系力学に対応する解は,物理損失の展望と最適化において支配的であることがわかった。 計算領域の削減は、最適化の複雑さと非物理的解に閉じ込められる確率を低下させる。

Physics-informed neural networks (PINNs) seamlessly integrate data and physical constraints into the solving of problems governed by differential equations. In settings with little labeled training data, their optimization relies on the complexity of the embedded physics loss function. Two fundamental questions arise in any discussion of frequently reported convergence issues in PINNs: Why does the optimization often converge to solutions that lack physical behavior? And why do reduced domain methods improve convergence behavior in PINNs? We answer these questions by studying the physics loss function in the vicinity of fixed points of dynamical systems. Experiments on a simple dynamical system demonstrate that physics loss residuals are trivially minimized in the vicinity of fixed points. As a result we observe that solutions corresponding to nonphysical system dynamics can be dominant in the physics loss landscape and optimization. We find that reducing the computational domain lowers the optimization complexity and chance of getting trapped with nonphysical solutions.
翻訳日:2022-03-28 14:11:55 公開日:2022-03-25
# HYDRA:高速かつ正確な時系列分類のための畳み込みカーネルの競合

HYDRA: Competing convolutional kernels for fast and accurate time series classification ( http://arxiv.org/abs/2203.13652v1 )

ライセンス: Link先を確認
Angus Dempster, Daniel F. Schmidt, Geoffrey I. Webb(参考訳) 本稿では,時系列におけるシンボルパターンの抽出とカウントを含む時系列分類のための辞書手法と,畳み込みカーネル(ROCKETとその変種)を用いて入力時系列を変換する手法との単純な接続を示す。 一つのハイパーパラメータを調整することで、辞書法に似たモデルとROCKETに似たモデルの間で次々に移動可能であることを示す。 本稿では,競合する畳み込み型カーネルを用いた時系列分類のための簡易かつ高速,高精度な辞書手法であるhydraを提案する。 HYDRAは既存の辞書手法よりも高速で正確であり、ROCKETとその変種と組み合わせることで、これらの手法の精度をさらに向上することができる。

We demonstrate a simple connection between dictionary methods for time series classification, which involve extracting and counting symbolic patterns in time series, and methods based on transforming input time series using convolutional kernels, namely ROCKET and its variants. We show that by adjusting a single hyperparameter it is possible to move by degrees between models resembling dictionary methods and models resembling ROCKET. We present HYDRA, a simple, fast, and accurate dictionary method for time series classification using competing convolutional kernels, combining key aspects of both ROCKET and conventional dictionary methods. HYDRA is faster and more accurate than the most accurate existing dictionary methods, and can be combined with ROCKET and its variants to further improve the accuracy of these methods.
翻訳日:2022-03-28 14:11:42 公開日:2022-03-25
# FLUTE: 高性能フェデレーション学習シミュレーションのためのスケーラブルで拡張可能なフレームワーク

FLUTE: A Scalable, Extensible Framework for High-Performance Federated Learning Simulations ( http://arxiv.org/abs/2203.13789v1 )

ライセンス: Link先を確認
Dimitrios Dimitriadis, Mirian Hipolito Garcia, Daniel Madrigal Diaz, Andre Manoel, Robert Sim(参考訳) 本稿では,連合学習研究とオフラインシミュレーションのための高性能オープンソースプラットフォームflute(federated learning utilities and tools for experimentation)について紹介する。 FLUTEの目標は、新しい最適化、プライバシ、コミュニケーション戦略を含む、新しいフェデレーション学習アルゴリズムの高速なプロトタイピングとシミュレーションを可能にすることである。 我々は、FLUTEのアーキテクチャを説明し、任意のフェデレートされたモデリングスキームを実現し、プラットフォームを他の最先端プラットフォームと比較し、最適化、プライバシ、スケーラビリティなど、アクティブな研究のコア領域における実験に使えるFLUTEの特徴について述べる。 本稿では,テキスト予測と音声認識の一連の実験において,差分プライバシーの追加,量子化,スケーリング,さまざまな最適化とフェデレーションアプローチなど,プラットフォームの有効性を実証する。

In this paper we introduce "Federated Learning Utilities and Tools for Experimentation" ; (FLUTE), a high-performance open source platform for federated learning research and offline simulations. The goal of FLUTE is to enable rapid prototyping and simulation of new federated learning algorithms at scale, including novel optimization, privacy, and communications strategies. We describe the architecture of FLUTE, enabling arbitrary federated modeling schemes to be realized, we compare the platform with other state-of-the-art platforms, and we describe available features of FLUTE for experimentation in core areas of active research, such as optimization, privacy and scalability. We demonstrate the effectiveness of the platform with a series of experiments for text prediction and speech recognition, including the addition of differential privacy, quantization, scaling and a variety of optimization and federation approaches.
翻訳日:2022-03-28 14:11:28 公開日:2022-03-25
# 機械学習アプリケーションのためのCode Smells

Code Smells for Machine Learning Applications ( http://arxiv.org/abs/2203.13746v1 )

ライセンス: Link先を確認
Haiyin Zhang, Lu\'is Cruz, Arie van Deursen(参考訳) 近年、機械学習の人気が高まっている。 機械学習技術は学界で熱く研究され、ビジネス価値を生み出すために業界で応用されている。 しかし、機械学習アプリケーションではコード品質に関するガイドラインが欠落している。 特に、この領域ではコードの臭いはめったに研究されていない。 機械学習のコードは、通常、オーバーアーキシングシステムの小さな部分として統合されるが、通常は、コア機能において重要な役割を果たす。 したがって、長期的に問題を避けるためには、コード品質の確保が不可欠である。 本稿では,論文,灰色文献,githubコミット,stack overflowポストなど,さまざまなソースから収集された22の機械学習特有のコードの臭いのリストを提案し,同定する。 それぞれの臭いを、そのコンテキスト、長期的な潜在的な問題、そして提案されたソリューションの説明で特定します。 さらに,これらをそれぞれのパイプラインステージと,学術文献とグレイ文学の両方から得られた証拠にリンクする。 code smell catalogは、データサイエンティストや開発者が高品質の機械学習アプリケーションコードを作成し、維持するのに役立つ。

The popularity of machine learning has wildly expanded in recent years. Machine learning techniques have been heatedly studied in academia and applied in the industry to create business value. However, there is a lack of guidelines for code quality in machine learning applications. In particular, code smells have rarely been studied in this domain. Although machine learning code is usually integrated as a small part of an overarching system, it usually plays an important role in its core functionality. Hence ensuring code quality is quintessential to avoid issues in the long run. This paper proposes and identifies a list of 22 machine learning-specific code smells collected from various sources, including papers, grey literature, GitHub commits, and Stack Overflow posts. We pinpoint each smell with a description of its context, potential issues in the long run, and proposed solutions. In addition, we link them to their respective pipeline stage and the evidence from both academic and grey literature. The code smell catalog helps data scientists and developers produce and maintain high-quality machine learning application code.
翻訳日:2022-03-28 14:11:12 公開日:2022-03-25
# youtube上の偽情報フィルターバブルの監査:バブルバーストと最近の行動変化

An Audit of Misinformation Filter Bubbles on YouTube: Bubble Bursting and Recent Behavior Changes ( http://arxiv.org/abs/2203.13769v1 )

ライセンス: Link先を確認
Matus Tomlein, Branislav Pecher, Jakub Simko, Ivan Srba, Robert Moro, Elena Stefancova, Michal Kompan, Andrea Hrckova, Juraj Podrouzek, Maria Bielikova(参考訳) 適応系における誤情報フィルタバブルの悪影響は、研究者によってしばらく前から知られている。 いくつかの研究で、特にyoutube上では、提供されたアイテムから間違った選択を選択するだけで、ユーザーが偽情報フィルターバブルに入る速度が調査された。 しかし、これまでバブルを破裂させるのに何が必要か、すなわちバブルの囲いを逆転させる研究は行われていない。 本稿では,事前にプログラムされたエージェント(YouTubeユーザとして行動する)が,誤情報宣伝コンテンツ(様々なトピック)を見て誤情報フィルタバブルを掘り下げる研究について述べる。 そして、誤報を流すコンテンツを見ることで、エージェントはバブルを破裂させ、よりバランスのとれたレコメンデーションミックスに到達しようとします。 エージェントが遭遇した検索結果とレコメンデーションを記録し,誤報の有無について分析した。 私たちの重要な発見は、フィルターバブルの破裂が可能であることです。 また, フィルタ気泡が実際に現れることはないことを観察した。 また,前回の研究では直接比較を行った。 残念なことに、YouTubeの最近の誓約にもかかわらず、誤報の発生についてあまり改善は見つからなかった。

The negative effects of misinformation filter bubbles in adaptive systems have been known to researchers for some time. Several studies investigated, most prominently on YouTube, how fast a user can get into a misinformation filter bubble simply by selecting wrong choices from the items offered. Yet, no studies so far have investigated what it takes to burst the bubble, i.e., revert the bubble enclosure. We present a study in which pre-programmed agents (acting as YouTube users) delve into misinformation filter bubbles by watching misinformation promoting content (for various topics). Then, by watching misinformation debunking content, the agents try to burst the bubbles and reach more balanced recommendation mixes. We recorded the search results and recommendations, which the agents encountered, and analyzed them for the presence of misinformation. Our key finding is that bursting of a filter bubble is possible, albeit it manifests differently from topic to topic. Moreover, we observe that filter bubbles do not truly appear in some situations. We also draw a direct comparison with a previous study. Sadly, we did not find much improvements in misinformation occurrences, despite recent pledges by YouTube.
翻訳日:2022-03-28 14:09:46 公開日:2022-03-25
# EmoCaps:会話感情認識のための感情カプセルベースモデル

EmoCaps: Emotion Capsule based Model for Conversational Emotion Recognition ( http://arxiv.org/abs/2203.13504v1 )

ライセンス: Link先を確認
Zaijing Li, Fengxiao Tang, Ming Zhao, Yusen Zhu(参考訳) 会話中の感情認識(ERC)は、話者の状態を分析し、会話中の感情を識別することを目的としている。 ERCにおける最近の研究は文脈モデリングに焦点を当てているが、文脈的感情傾向の表現は無視されている。 マルチモーダル情報と発話の感情傾向を効果的に抽出するために,異なるモーダルから多モーダル感情ベクトルを抽出し,文ベクトルを融合して感情カプセルとするEmoformerという構造を提案する。 さらに、EmoCapsと呼ばれるエンドツーエンドのERCモデルを設計し、Emoformer構造を通して感情ベクトルを抽出し、文脈分析モデルから感情分類結果を得る。 2つのベンチマークデータセットによる実験を通じて、既存の最先端モデルよりも優れたパフォーマンスを示す。

Emotion recognition in conversation (ERC) aims to analyze the speaker's state and identify their emotion in the conversation. Recent works in ERC focus on context modeling but ignore the representation of contextual emotional tendency. In order to extract multi-modal information and the emotional tendency of the utterance effectively, we propose a new structure named Emoformer to extract multi-modal emotion vectors from different modalities and fuse them with sentence vector to be an emotion capsule. Furthermore, we design an end-to-end ERC model called EmoCaps, which extracts emotion vectors through the Emoformer structure and obtain the emotion classification results from a context analysis model. Through the experiments with two benchmark datasets, our model shows better performance than the existing state-of-the-art models.
翻訳日:2022-03-28 14:09:07 公開日:2022-03-25
# SEM画像からの微細構造表面の再構成 : デジタル画像相関(DIC)の代替として

Microstructure Surface Reconstruction from SEM Images: An Alternative to Digital Image Correlation (DIC) ( http://arxiv.org/abs/2203.13438v1 )

ライセンス: Link先を確認
Khalid El-Awady(参考訳) 疲労試験およびき裂発生時の材料表面の3次元モデルを構築した。 具体的には,実験の終了時に試料の複数ビューから表面深度(平面侵入と押出)と横方向(平面内)の動きを再構成し,その逆光流の伝播を時間軸に組み合わせ,中間的な単一ビュー画像を利用する。 これらの測定は物質ひずみテンソルにマッピングでき、物質の寿命を理解し、故障を予測するのに役立つ。 このアプローチは、材料表面に適用されるスペックルパターンの追跡に依存する、一般的に使用されるデジタル画像相関(dic)技術に代わるものを提供する。 DICは平面内(2D)測定しか生成しないが、我々のアプローチは3Dで非侵襲的である(材料にパターンを適用する必要はない)。

We reconstruct a 3D model of the surface of a material undergoing fatigue testing and experiencing cracking. Specifically we reconstruct the surface depth (out of plane intrusions and extrusions) and lateral (in-plane) motion from multiple views of the sample at the end of the experiment, combined with a reverse optical flow propagation backwards in time that utilizes interim single view images. These measurements can be mapped to a material strain tensor which helps to understand material life and predict failure. This approach offers an alternative to the commonly used Digital Image Correlation (DIC) technique which relies on tracking a speckle pattern applied to the material surface. DIC only produces in-plane (2D) measurements whereas our approach is 3D and non-invasive (requires no pattern being applied to the material).
翻訳日:2022-03-28 14:08:22 公開日:2022-03-25
# パンドラ:偏光支援による放射能の神経分解

PANDORA: Polarization-Aided Neural Decomposition Of Radiance ( http://arxiv.org/abs/2203.13458v1 )

ライセンス: Link先を確認
Akshat Dave, Yongyi Zhao, Ashok Veeraraghavan(参考訳) 物体の形状と外観を逆レンダリング(inverse rendering)としても知られる複数の画像から再構成することは、コンピュータグラフィックスと視覚における根本的な問題である。 逆レンダリングは、撮影された画像が未知の照明条件、素材特性、シーン形状の複雑な機能であるため、本質的に不適切である。 座標ベースニューラルネットワークとしてのシーン特性の最近の進歩は、印象的な幾何学的再構成と新規ビュー合成をもたらすニューラルネットワークの逆レンダリングを促進している。 我々の重要な洞察は、偏光は表面の正規度に強く依存するので、偏光は神経逆レンダリングに有用なキューであり、拡散とスペクトル反射率に異なることである。 商品化、オンチップ、偏光センサの登場により、偏光を捉えられるようになった。 そこで我々は,暗黙のニューラル表現に基づく偏光逆レンダリング手法であるPANDORAを提案する。 オブジェクトの多視点偏光画像から、PANDORAはオブジェクトの3次元幾何学を共同で抽出し、外部放射を拡散とスペクトルに分離し、オブジェクトの照明インシデントを推定する。 PANDORAは最先端の放射分解技術より優れていることを示す。 PANDORAは、テクスチャアーチファクトから解放されたクリーンな表面再構成を出力し、強い特異性を正確にモデル化し、実用的な非構造化シナリオの下で照明を推定する。

Reconstructing an object's geometry and appearance from multiple images, also known as inverse rendering, is a fundamental problem in computer graphics and vision. Inverse rendering is inherently ill-posed because the captured image is an intricate function of unknown lighting conditions, material properties and scene geometry. Recent progress in representing scene properties as coordinate-based neural networks have facilitated neural inverse rendering resulting in impressive geometry reconstruction and novel-view synthesis. Our key insight is that polarization is a useful cue for neural inverse rendering as polarization strongly depends on surface normals and is distinct for diffuse and specular reflectance. With the advent of commodity, on-chip, polarization sensors, capturing polarization has become practical. Thus, we propose PANDORA, a polarimetric inverse rendering approach based on implicit neural representations. From multi-view polarization images of an object, PANDORA jointly extracts the object's 3D geometry, separates the outgoing radiance into diffuse and specular and estimates the illumination incident on the object. We show that PANDORA outperforms state-of-the-art radiance decomposition techniques. PANDORA outputs clean surface reconstructions free from texture artefacts, models strong specularities accurately and estimates illumination under practical unstructured scenarios.
翻訳日:2022-03-28 14:08:07 公開日:2022-03-25
# 深部圧縮画像テンソルのRD最適化トリトプレーン符号化

RD-Optimized Trit-Plane Coding of Deep Compressed Image Latent Tensors ( http://arxiv.org/abs/2203.13467v1 )

ライセンス: Link先を確認
Seungmin Jeon and Jae-Han Lee and Chang-Su Kim(参考訳) DPICTは、きめ細かいスケーラビリティをサポートする最初の学習ベースのイメージコーデックである。 本稿では,トライトプレーンスライシングとRD優先伝送という,DPICTの2つの重要なコンポーネントを効率的に実装する方法について述べる。 DPICTでは、画像を潜時テンソルに変換し、三進数(三進数)のテンソルを表現し、三進数の減少順序でトリットを符号化する。 エントロピー符号化には、エンコーダとデコーダの両方で高速な複雑さを必要とするトリオの確率を計算する必要がある。 複雑性を低減するために,確率の並列計算方式を開発し,擬似符号を用いて詳細に記述する。 さらに,本論文では,DPICTにおけるトライトプレーンスライシングと代替ビットプレーンスライシングを比較した。 実験結果から, 並列計算により時間複雑性が著しく減少し, トリトプレーンスライシングはビットプレーンスライシングよりも高い速度歪み性能が得られることがわかった。

DPICT is the first learning-based image codec supporting fine granular scalability. In this paper, we describe how to implement two key components of DPICT efficiently: trit-plane slicing and RD-prioritized transmission. In DPICT, we transform an image into a latent tensor, represent the tensor in ternary digits (trits), and encode the trits in the decreasing order of significance. For entropy encoding, we should compute the probability of each trit, which demands high time complexity in both the encoder and the decoder. To reduce the complexity, we develop a parallel computing scheme for the probabilities and describe it in detail with pseudo-codes. Moreover, in this paper, we compare the trit-plane slicing in DPICT with the alternative bit-plane slicing. Experimental results show that the time complexity is reduced significantly by the parallel computing and that the trit-plane slicing provides better rate-distortion performances than the bit-plane slicing.
翻訳日:2022-03-28 14:07:45 公開日:2022-03-25
# カテゴリーレベルオブジェクトポス推定のための視覚的ナビゲーション

A Visual Navigation Perspective for Category-Level Object Pose Estimation ( http://arxiv.org/abs/2203.13572v1 )

ライセンス: Link先を確認
Jiaxin Guo, Fangxun Zhong, Rong Xiong, Yunhui Liu, Yue Wang, Yiyi Liao(参考訳) 本稿では,単眼画像に基づくカテゴリーレベルの物体ポーズ推定について検討する。 ポーズ認識生成モデルの最近の進歩は、分析バイシンセシスを用いてこの課題に対処する方法を舗装している。 この考え方は、生成された画像が観察に最もよく一致するまで、生成モデルのポーズ、形状、外観などの潜伏変数の集合を逐次更新することである。 しかしながら、収束と効率性はこの推論手順の2つの課題である。 本稿では,視覚ナビゲーションの観点から解析・合成の推測をより深く見ていくとともに,このタスクに最適なナビゲーションポリシーは何であるかを検討する。 勾配降下,強化学習,模倣学習の3つの戦略を,収束性,堅牢性,効率性の観点から徹底した比較により評価した。 さらに,単純なハイブリッドアプローチが効率的かつ効率的なソリューションとなることを示す。 さらに,これらの戦略を最先端の手法と比較し,既成のポーズ認識生成モデルを活用した合成および実世界のデータセットにおいて優れた性能を示す。

This paper studies category-level object pose estimation based on a single monocular image. Recent advances in pose-aware generative models have paved the way for addressing this challenging task using analysis-by-synthesi s. The idea is to sequentially update a set of latent variables, e.g., pose, shape, and appearance, of the generative model until the generated image best agrees with the observation. However, convergence and efficiency are two challenges of this inference procedure. In this paper, we take a deeper look at the inference of analysis-by-synthesi s from the perspective of visual navigation, and investigate what is a good navigation policy for this specific task. We evaluate three different strategies, including gradient descent, reinforcement learning and imitation learning, via thorough comparisons in terms of convergence, robustness and efficiency. Moreover, we show that a simple hybrid approach leads to an effective and efficient solution. We further compare these strategies to state-of-the-art methods, and demonstrate superior performance on synthetic and real-world datasets leveraging off-the-shelf pose-aware generative models.
翻訳日:2022-03-28 14:07:26 公開日:2022-03-25
# (参考訳) 連続動的NeRF:スプライン-NeRF [全文訳有]

Continuous Dynamic-NeRF: Spline-NeRF ( http://arxiv.org/abs/2203.13800v1 )

ライセンス: CC BY 4.0
Julian Knodt(参考訳) 移動シーンの再構築や時間ステップ間の補間といった問題において,時間とともに連続関数を再構築する問題は重要である。 ディープラーニングを使用する以前のアプローチは、レコンストラクションがほぼ連続であることを保証するために正規化に依存している。 しかし、配列長が大きくなると、正規化が難しくなり、正規化によってのみ学習することが難しくなる。 古典的なベジアースプラインに基づく関数再構成のための新しいアーキテクチャを提案する。これは$c^0$と$c^1$-連続性を保証するもので、ここで$c^0$連続性は$\forall c:\lim\limits_{x\to c} f(x) = f(c)$である。 アーキテクチャを実証するために,ニューラルラジアンス場を用いて動的シーンを再構成するが,我々のアプローチが一般的であり,様々な問題に適用できることが期待できる。 制御点$\beta$でパラメータ化されたBezier Spline $B(\beta, t\in[0,1])$を回復する。 Bezier Splinesを使用することで、再構成が$C^0$と$C^1$連続であることを保証する。 多層パーセプトロン(MLP)で$\beta$を再構成し、機械学習と古典的なアニメーション技術を組み合わせた。 すべてのコードはhttps://github.com/J ulianKnodt/nerf_atla sで入手できる。

The problem of reconstructing continuous functions over time is important for problems such as reconstructing moving scenes, and interpolating between time steps. Previous approaches that use deep-learning rely on regularization to ensure that reconstructions are approximately continuous, which works well on short sequences. As sequence length grows, though, it becomes more difficult to regularize, and it becomes less feasible to learn only through regularization. We propose a new architecture for function reconstruction based on classical Bezier splines, which ensures $C^0$ and $C^1$-continuity, where $C^0$ continuity is that $\forall c:\lim\limits_{x\to c} f(x) = f(c)$, or more intuitively that there are no breaks at any point in the function. In order to demonstrate our architecture, we reconstruct dynamic scenes using Neural Radiance Fields, but hope it is clear that our approach is general and can be applied to a variety of problems. We recover a Bezier spline $B(\beta, t\in[0,1])$, parametrized by the control points $\beta$. Using Bezier splines ensures reconstructions have $C^0$ and $C^1$ continuity, allowing for guaranteed interpolation over time. We reconstruct $\beta$ with a multi-layer perceptron (MLP), blending machine learning with classical animation techniques. All code is available at https://github.com/J ulianKnodt/nerf_atla s, and datasets are from prior work.
翻訳日:2022-03-28 14:05:52 公開日:2022-03-25
# 光リモートセンシング画像における有意物体検出のための隣接コンテキスト調整ネットワーク

Adjacent Context Coordination Network for Salient Object Detection in Optical Remote Sensing Images ( http://arxiv.org/abs/2203.13664v1 )

ライセンス: Link先を確認
Gongyang Li and Zhi Liu and Dan Zeng and Weisi Lin and Haibin Ling(参考訳) 光学リモートセンシング画像(RSI)における正準物体検出(SOD)は、光学RSIを理解する上で新たなトピックである。 しかし、光学RSIと自然シーン画像(NSI)の違いにより、光学RSIに直接NSI-SOD法を適用しても良好な結果が得られない。 本稿では, RSI-SODのためのエンコーダ・デコーダアーキテクチャにおいて, 隣接した特徴のコーディネートを探索する新しいアジャセントコンテキストコーディネートネットワーク(ACCoNet)を提案する。 具体的には、ACCoNetはエンコーダ、Adjacent Context Coordination Modules (ACCoMs)、デコーダの3つの部分で構成される。 ACCoNetのキーコンポーネントとして、ACCoMはエンコーダの出力特徴の健全な領域を活性化し、デコーダに送信する。 ACCoMにはローカルブランチと隣接する2つのブランチがあり、複数のレベルの特徴を同時に調整する。 局所分枝は順応的にサルエント領域を強調し、隣接する分枝はサルエント領域を強化するために隣接するレベルのグローバル情報を導入する。 さらに、古典的なデコーダブロック(すなわち複数のカスケード畳み込み層)の機能を拡張するために、それを2つの分岐で拡張し、デコーダ内のコンテキスト情報をキャプチャする分岐集約ブロックを提案する。 2つのベンチマークデータセットに対する大規模な実験によると、提案されたACCoNetは、9つの評価基準の下で22の最先端メソッドを上回り、1つのNVIDIA Titan X GPU上で81fpsまで動作する。 このメソッドのコードと結果は、https://github.com/m athlee/acconetで入手できます。

Salient object detection (SOD) in optical remote sensing images (RSIs), or RSI-SOD, is an emerging topic in understanding optical RSIs. However, due to the difference between optical RSIs and natural scene images (NSIs), directly applying NSI-SOD methods to optical RSIs fails to achieve satisfactory results. In this paper, we propose a novel Adjacent Context Coordination Network (ACCoNet) to explore the coordination of adjacent features in an encoder-decoder architecture for RSI-SOD. Specifically, ACCoNet consists of three parts: an encoder, Adjacent Context Coordination Modules (ACCoMs), and a decoder. As the key component of ACCoNet, ACCoM activates the salient regions of output features of the encoder and transmits them to the decoder. ACCoM contains a local branch and two adjacent branches to coordinate the multi-level features simultaneously. The local branch highlights the salient regions in an adaptive way, while the adjacent branches introduce global information of adjacent levels to enhance salient regions. Additionally, to extend the capabilities of the classic decoder block (i.e., several cascaded convolutional layers), we extend it with two bifurcations and propose a Bifurcation-Aggregat ion Block to capture the contextual information in the decoder. Extensive experiments on two benchmark datasets demonstrate that the proposed ACCoNet outperforms 22 state-of-the-art methods under nine evaluation metrics, and runs up to 81 fps on a single NVIDIA Titan X GPU. The code and results of our method are available at https://github.com/M athLee/ACCoNet.
翻訳日:2022-03-28 13:57:58 公開日:2022-03-25
# 監視映像における異常事象検出のための弱監視訓練のクラスタリング

Clustering Aided Weakly Supervised Training to Detect Anomalous Events in Surveillance Videos ( http://arxiv.org/abs/2203.13704v1 )

ライセンス: Link先を確認
Muhammad Zaigham Zaheer, Arif Mahmood, Marcella Astrid, Seung-Ik Lee(参考訳) 映像レベルラベルのみを用いた実世界の異常事象検出のための学習システムは,ノイズラベルの存在や,トレーニングデータにおける異常事象の発生が稀であることから,課題となっている。 本稿では,バッチ間相関を低減させるランダムバッチ選択機構と,トレーニングバッチで利用可能な全情報を利用してビデオの正規領域における異常スコアを最小化する正規性抑制ブロックを含む複数の寄与を有する弱教師付き異常検出システムを提案する。 また,ラベルノイズを緩和し,異常領域と正常領域の表現学習を改善するために,クラスタリング損失ブロックを提案する。 このブロックは、バックボーンネットワークが通常のイベントと異常なイベントを表す2つの異なる特徴クラスタを生成することを奨励する。 UCF-Crime, ShanghaiTech, UCSD Ped2を含む3つの一般的な異常検出データセットを用いて提案手法の大規模解析を行った。 実験により,本手法の異常検出性能が向上した。

Formulating learning systems for the detection of real-world anomalous events using only video-level labels is a challenging task mainly due to the presence of noisy labels as well as the rare occurrence of anomalous events in the training data. We propose a weakly supervised anomaly detection system which has multiple contributions including a random batch selection mechanism to reduce inter-batch correlation and a normalcy suppression block which learns to minimize anomaly scores over normal regions of a video by utilizing the overall information available in a training batch. In addition, a clustering loss block is proposed to mitigate the label noise and to improve the representation learning for the anomalous and normal regions. This block encourages the backbone network to produce two distinct feature clusters representing normal and anomalous events. Extensive analysis of the proposed approach is provided using three popular anomaly detection datasets including UCF-Crime, ShanghaiTech, and UCSD Ped2. The experiments demonstrate a superior anomaly detection capability of our approach.
翻訳日:2022-03-28 13:57:26 公開日:2022-03-25
# 擬似異常を用いた逆学習ワンクラスノベルティ検出の安定化

Stabilizing Adversarially Learned One-Class Novelty Detection Using Pseudo Anomalies ( http://arxiv.org/abs/2203.13716v1 )

ライセンス: Link先を確認
Muhammad Zaigham Zaheer, Jin Ha Lee, Arif Mahmood, Marcella Astrid, Seung-Ik Lee(参考訳) 近年, 逆学習したジェネレータの復元損失と識別器の分類損失を用いて, 異常スコアを定式化した。 トレーニングデータにおける異常例の有効性は、そのようなネットワークの最適化を困難にしている。 敵対的なトレーニングによって、これらのモデルのパフォーマンスは各トレーニングステップで劇的に変動し、最適なポイントでのトレーニングを停止することが困難になる。 本研究では,このような不安定さを克服するロバストな異常検出フレームワークを提案する。判別器の基本的な役割を,実データと偽データとの識別から,良質と悪い品質の復元を区別する。 そこで本研究では,現在の状態と,同じジェネレータの古い状態を利用して,良質で品質の悪い復元例を作成する手法を提案する。 判別器はこれらの例に基づいて訓練され、異常データの再構成によく見られる微妙な歪みを検出する。 さらに,モデルのトレーニングを停止し,高い性能を保証するための効率的な汎用的基準を提案する。 画像とビデオに基づく異常検出, 診断, ネットワークセキュリティなど, 複数の領域にまたがる6つのデータセットを対象とした大規模な実験を行った。

Recently, anomaly scores have been formulated using reconstruction loss of the adversarially learned generators and/or classification loss of discriminators. Unavailability of anomaly examples in the training data makes optimization of such networks challenging. Attributed to the adversarial training, performance of such models fluctuates drastically with each training step, making it difficult to halt the training at an optimal point. In the current study, we propose a robust anomaly detection framework that overcomes such instability by transforming the fundamental role of the discriminator from identifying real vs. fake data to distinguishing good vs. bad quality reconstructions. For this purpose, we propose a method that utilizes the current state as well as an old state of the same generator to create good and bad quality reconstruction examples. The discriminator is trained on these examples to detect the subtle distortions that are often present in the reconstructions of anomalous data. In addition, we propose an efficient generic criterion to stop the training of our model, ensuring elevated performance. Extensive experiments performed on six datasets across multiple domains including image and video based anomaly detection, medical diagnosis, and network security, have demonstrated excellent performance of our approach.
翻訳日:2022-03-28 13:57:09 公開日:2022-03-25
# 空間的マルチ条件画像生成

Spatially Multi-conditional Image Generation ( http://arxiv.org/abs/2203.13812v1 )

ライセンス: Link先を確認
Ritika Chakraborty, Nikola Popovic, Danda Pani Paudel, Thomas Probst, Luc Van Gool(参考訳) ほとんどのシナリオでは、条件付き画像生成は、画像理解プロセスの反転と考えることができる。 汎用的な画像理解は複数のタスクの解決を伴うため、マルチコンディショニングによる画像生成を目標とするのが自然である。 しかし、(実際には)利用可能なコンディショニングラベルの多様性とスパース性のため、多条件画像生成は非常に難しい問題である。 本研究では,空間的多条件ラベルの不均一性と空間的疎結合性に対処する新しいニューラルアーキテクチャを提案する。 セマンティクスや深さなどによる空間的条件付けの選択は、画像生成プロセスをより良く制御するための約束によって行われます。 提案手法では,利用可能なラベルを入力トークンとして受信し,ラベルの学習された均質な空間にマージするトランスフォーマチックアーキテクチャを用いる。 マージされたラベルは、条件付き生成逆行訓練による画像生成に使用される。 このプロセスでは、提案したピクセル単位の操作アーキテクチャにより、不足ラベルに対応する入力トークンを所望の場所にドロップするだけでラベルの空間が処理される。 3つのベンチマークデータセットに対する実験により,提案手法の最先端および比較ベースラインに対する明らかな優位性を示した。

In most scenarios, conditional image generation can be thought of as an inversion of the image understanding process. Since generic image understanding involves the solving of multiple tasks, it is natural to aim at the generation of images via multi-conditioning. However, multi-conditional image generation is a very challenging problem due to the heterogeneity and the sparsity of the (in practice) available conditioning labels. In this work, we propose a novel neural architecture to address the problem of heterogeneity and sparsity of the spatially multi-conditional labels. Our choice of spatial conditioning, such as by semantics and depth, is driven by the promise it holds for better control of the image generation process. The proposed method uses a transformer-like architecture operating pixel-wise, which receives the available labels as input tokens to merge them in a learned homogeneous space of labels. The merged labels are then used for image generation via conditional generative adversarial training. In this process, the sparsity of the labels is handled by simply dropping the input tokens corresponding to the missing labels at the desired locations, thanks to the proposed pixel-wise operating architecture. Our experiments on three benchmark datasets demonstrate the clear superiority of our method over the state-of-the-art and the compared baselines.
翻訳日:2022-03-28 13:56:49 公開日:2022-03-25
# 人間中心知覚のためのマルチモーダル・プレトレーニング

Versatile Multi-Modal Pre-Training for Human-Centric Perception ( http://arxiv.org/abs/2203.13815v1 )

ライセンス: Link先を確認
Fangzhou Hong, Liang Pan, Zhongang Cai, Ziwei Liu(参考訳) 人間中心の知覚は視覚とグラフィックにおいて重要な役割を果たす。 しかし、データアノテーションは違法に高価だ。 したがって、データ効率の低いダウンストリームタスク転送の基盤となる多目的プレトレインモデルを持つことが望ましい。 この目的のために,人間のデータ(例えば,RGB,深さ,2Dキーポイント)のマルチモーダルな性質を有効表現学習に活用するHuman-Centric Multi-Modal Contrastive Learning framework HCMoCoを提案する。 目的は2つの主要な課題である、マルチモダリティデータに対する高密度プレトレイン、スパースな人間の事前使用である。 この課題に対処するために、連続的および順序的特徴分布と構造的意味一貫性を特徴とする様相不変の潜在空間を階層的に学習することにより、Dense In-sample Contrastive Learning and Sparse Structure-aware Contrastive Learningターゲットを設計する。 HCMoCoは異種データセットを組み合わせることで、さまざまなモダリティのための事前トレーニングを提供する。 異なるモードの4つの下流タスクに関する大規模な実験は、特にデータ効率のよい設定でHCMoCoの有効性を示す(DensePose EstimationとHuman Parsingの改善は7.16%と12%)。 さらに,クロスモダリティの監督と欠如モダリティ推論を探求し,クロスモダリティ関連と推論の強い能力を検証することで,hcmocoの汎用性を示す。

Human-centric perception plays a vital role in vision and graphics. But their data annotations are prohibitively expensive. Therefore, it is desirable to have a versatile pre-train model that serves as a foundation for data-efficient downstream tasks transfer. To this end, we propose the Human-Centric Multi-Modal Contrastive Learning framework HCMoCo that leverages the multi-modal nature of human data (e.g. RGB, depth, 2D keypoints) for effective representation learning. The objective comes with two main challenges: dense pre-train for multi-modality data, efficient usage of sparse human priors. To tackle the challenges, we design the novel Dense Intra-sample Contrastive Learning and Sparse Structure-aware Contrastive Learning targets by hierarchically learning a modal-invariant latent space featured with continuous and ordinal feature distribution and structure-aware semantic consistency. HCMoCo provides pre-train for different modalities by combining heterogeneous datasets, which allows efficient usage of existing task-specific human data. Extensive experiments on four downstream tasks of different modalities demonstrate the effectiveness of HCMoCo, especially under data-efficient settings (7.16% and 12% improvement on DensePose Estimation and Human Parsing). Moreover, we demonstrate the versatility of HCMoCo by exploring cross-modality supervision and missing-modality inference, validating its strong ability in cross-modal association and reasoning.
翻訳日:2022-03-28 13:56:31 公開日:2022-03-25
# UKP-SQUARE: 質問回答調査のためのオンラインプラットフォーム

UKP-SQUARE: An Online Platform for Question Answering Research ( http://arxiv.org/abs/2203.13693v1 )

ライセンス: Link先を確認
Tim Baumg\"artner, Kexin Wang, Rachneet Sachdeva, Max Eichler, Gregor Geigle, Clifton Poth, Hannah Sterz, Haritz Puerto, Leonardo F. R. Ribeiro, Jonas Pfeiffer, Nils Reimers, G\"ozde G\"ul \c{S}ahin, Iryna Gurevych(参考訳) NLPと情報検索の最近の進歩は、異なるフォーマット(例えば、抽出的、抽象的)の様々な質問応答タスクに発展し、異なるモデルアーキテクチャ(例えば、生成的、識別的)とセットアップ(例えば、検索なし)を必要とする。 単一のドメインやモデル,あるいはセットアップを考慮した,パワフルで特殊なQAパイプライン(“スキル”と呼ぶ)が多数存在するにも関わらず,そのようなパイプラインを簡単に探索して比較することが可能で,必要に応じて拡張可能なフレームワークは存在しないのです。 この問題に対処するため、UKP-SQUAREは研究者向けの拡張可能なオンラインQAプラットフォームで、ユーザフレンドリーなWebインターフェースと統合された行動テストを通じて、モダンスキルの大規模なコレクションをクエリし分析することができる。 さらに、QAの研究者たちは、さまざまなモデル(Transformers、Adapters、ONNX)、データストア、検索技術(スパースやシーク)をサポートするマイクロサービスを使用して、独自のスキルを開発し、管理し、共有することができます。 UKP-SQUAREはhttps://square.ukp-l ab.deで入手できる。

Recent advances in NLP and information retrieval have given rise to a diverse set of question answering tasks that are of different formats (e.g., extractive, abstractive), require different model architectures (e.g., generative, discriminative), and setups (e.g., with or without retrieval). Despite having a large number of powerful, specialized QA pipelines (which we refer to as Skills) that consider a single domain, model or setup, there exists no framework where users can easily explore and compare such pipelines and can extend them according to their needs. To address this issue, we present UKP-SQUARE, an extensible online QA platform for researchers which allows users to query and analyze a large collection of modern Skills via a user-friendly web interface and integrated behavioural tests. In addition, QA researchers can develop, manage, and share their custom Skills using our microservices that support a wide range of models (Transformers, Adapters, ONNX), datastores and retrieval techniques (e.g., sparse and dense). UKP-SQUARE is available on https://square.ukp-l ab.de.
翻訳日:2022-03-28 13:55:59 公開日:2022-03-25
# 戦略分類のための学習損失

Learning Losses for Strategic Classification ( http://arxiv.org/abs/2203.13421v1 )

ライセンス: Link先を確認
Tosca Lechner and Ruth Urner(参考訳) 戦略的分類(すなわち、機能の戦略的操作の可能性に基づく分類)は、機械学習とゲーム理論コミュニティの両方から多くの注目を集めている。 ほとんどの研究は、このような操作の下で最適な決定規則の特性を分析することに重点を置いている。 私たちの研究では、戦略的操作に堅牢な優れた決定ルールを学ぶのに必要な、サンプルの複雑さに焦点をあてて、学習理論的な視点を取ります。 この分析は,最終決定規則の精度と,その操作に対する脆弱性を考慮に入れた,新たな損失関数であるemph{strategic operation loss}を導入することで行う。 我々は、関数クラスと演算グラフの複雑さの観点から、操作可能な既知のグラフのサンプル複雑性を解析する。 さらに,対象エージェントの未知操作能力の下での学習研究を初期化する。 伝達学習理論の手法を用いて,操作グラフの類似度尺度を定義し,操作グラフの小さな変化に対して学習結果が頑健であることを示す。 最後に,類似度尺度に対するエージェントの操作能力の学習(サンプルの複雑さ)を分析し,未知操作グラフに対する戦略的分類の新たな保証を提供する。

Strategic classification, i.e. classification under possible strategic manipulations of features, has received a lot of attention from both the machine learning and the game theory community. Most works focus on analysing properties of the optimal decision rule under such manipulations. In our work we take a learning theoretic perspective, focusing on the sample complexity needed to learn a good decision rule which is robust to strategic manipulation. We perform this analysis by introducing a novel loss function, the \emph{strategic manipulation loss}, which takes into account both the accuracy of the final decision rule and its vulnerability to manipulation. We analyse the sample complexity for a known graph of possible manipulations in terms of the complexity of the function class and the manipulation graph. Additionally, we initialize the study of learning under unknown manipulation capabilities of the involved agents. Using techniques from transfer learning theory, we define a similarity measure for manipulation graphs and show that learning outcomes are robust with respect to small changes in the manipulation graph. Lastly, we analyse the (sample complexity of) learning of the manipulation capability of agents with respect to this similarity measure, providing novel guarantees for strategic classification with respect to an unknown manipulation graph.
翻訳日:2022-03-28 13:53:12 公開日:2022-03-25
# 深層アクティブラーニングの比較調査

A Comparative Survey of Deep Active Learning ( http://arxiv.org/abs/2203.13450v1 )

ライセンス: Link先を確認
Xueying Zhan, Qingzhong Wang, Kuan-hao Huang, Haoyi Xiong, Dejing Dou, Antoni B. Chan(参考訳) active learning (al)は、ラベル付けのための大きなラベルのないデータプールからデータサンプルを順次選択することによって、ラベル付けコストを削減する一連のテクニックである。 一方、ディープラーニング(DL)はデータ処理であり、DLモデルの性能は、より多くのトレーニングデータとともに単調にスケールする。 そのため,近年DAL(Deep Active Learning)は,高額なラベル付けコストを最小化しつつ,モデル性能を最大化するための実現可能なソリューションとして成長している。 数多くの方法が登場し、dalに関する文献レビューが以前にも出されている。 しかし, DAL 手法の各種手法の性能比較は依然として不十分であり, このギャップを埋める作業を行っている。 本稿では,DALに関連する研究を調査,分類し,頻繁に使用されるデータセットとDALアルゴリズムの比較実験を構築する。 さらに、DALの有効性に影響を与えるいくつかの要因(例えば、バッチサイズ、トレーニングプロセスにおけるエポック数など)を探索し、研究者が独自のDAL実験を設計したり、DAL関連のアプリケーションを実行したりできるようにする。 我々は、多くの高度に暗黙的なDAL関連手法を再実装し、DALツールキットであるDeepAL+を構築し、それを一般公開する。

Active Learning (AL) is a set of techniques for reducing labeling cost by sequentially selecting data samples from a large unlabeled data pool for labeling. Meanwhile, Deep Learning (DL) is data-hungry, and the performance of DL models scales monotonically with more training data. Therefore, in recent years, Deep Active Learning (DAL) has risen as feasible solutions for maximizing model performance while minimizing the expensive labeling cost. Abundant methods have sprung up and literature reviews of DAL have been presented before. However, the performance comparison of different branches of DAL methods under various tasks is still insufficient and our work fills this gap. In this paper, we survey and categorize DAL-related work and construct comparative experiments across frequently used datasets and DAL algorithms. Additionally, we explore some factors (e.g., batch size, number of epochs in the training process) that influence the efficacy of DAL, which provides better references for researchers to design their own DAL experiments or carry out DAL-related applications. We construct a DAL toolkit, DeepAL+, by re-implementing many highly-cited DAL-related methods, and it will be released to the public.
翻訳日:2022-03-28 13:52:53 公開日:2022-03-25
# MKQ-BERT:4ビット重みと活性化を持つ量子化BERT

MKQ-BERT: Quantized BERT with 4-bits Weights and Activations ( http://arxiv.org/abs/2203.13483v1 )

ライセンス: Link先を確認
Hanlin Tang, Xipeng Zhang, Kai Liu, Jianchen Zhu, Zhanhui Kang(参考訳) 近年、BERTのような事前訓練されたトランスフォーマーベースの言語モデルは、多くの自然言語処理(NLP)タスクにおいて従来の手法よりも優れていることが示されている。 しかし、これらのモデルをデプロイするための計算コストは、リソース制限されたデバイスでは禁じられている。 この計算オーバーヘッドを軽減する方法の1つは、元のモデルをより少ないビットの表現に定量化することであり、以前の研究は、BERTの重みとアクティベーションを最大8ビットに定量化できることを示した。 本研究では、圧縮レベルをさらに改善し、量子化に4ビットを使用するMKQ-BERTを提案する。 mkq-bertでは, 高度蒸留戦略を組み合わせることで, 量子化スケールの勾配を計算する新しい方法を提案する。 一方、MKQ-BERTは既存のBERT量子化法より優れており、同じ圧縮レベルで高い精度を実現する。 一方、我々は4ビットBERTのデプロイに成功し、推論のエンドツーエンドのスピードアップを実現した最初の作品です。 その結果、モデル精度を低下させることなく5.3倍のビット削減が可能であり、トランスベースモデルでは1つのint4層の推論速度がfloat32層よりも15倍高速であることが示唆された。

Recently, pre-trained Transformer based language models, such as BERT, have shown great superiority over the traditional methods in many Natural Language Processing (NLP) tasks. However, the computational cost for deploying these models is prohibitive on resource-restricted devices. One method to alleviate this computation overhead is to quantize the original model into fewer bits representation, and previous work has proved that we can at most quantize both weights and activations of BERT into 8-bits, without degrading its performance. In this work, we propose MKQ-BERT, which further improves the compression level and uses 4-bits for quantization. In MKQ-BERT, we propose a novel way for computing the gradient of the quantization scale, combined with an advanced distillation strategy. On the one hand, we prove that MKQ-BERT outperforms the existing BERT quantization methods for achieving a higher accuracy under the same compression level. On the other hand, we are the first work that successfully deploys the 4-bits BERT and achieves an end-to-end speedup for inference. Our results suggest that we could achieve 5.3x of bits reduction without degrading the model accuracy, and the inference speed of one int4 layer is 15x faster than a float32 layer in Transformer based model.
翻訳日:2022-03-28 13:52:34 公開日:2022-03-25
# 階層的パーソナライゼーションモデルを用いたスパースフェデレーション学習

Sparse Federated Learning with Hierarchical Personalization Models ( http://arxiv.org/abs/2203.13517v1 )

ライセンス: Link先を確認
Xiaofeng Liu, Yinchuan Li, Yunfeng Shao, Qing Wang(参考訳) フェデレーション学習(federated learning, fl)は、iot(internet of things)、ワイヤレスネットワーク、モバイルデバイス、自動運転車、人間の活動で広く使われている。 FL法はユーザのプライバシデータを収集することなく,プライバシセーフで信頼性の高い協調トレーニングを実現することができるが,トレーニングとデプロイメントの両面で多くの課題に悩まされている。 flの主な課題は、さまざまな参加者からのデータの統計的多様性に起因する非i.i.dコトレーニングデータの難しさと、中央サーバとクライアント間の過大なトラフィック量と長い通信遅延によるアプリケーション展開の難しさである。 そこで本稿では,階層型パーソナライズモデル(sfedhp)を用いた疎flスキームを提案する。近似l1ノルムと階層型近距離マッピングの特性を含むクライアントの損失関数を最小化し,ネットワークに必要な通信負荷と計算負荷を低減し,統計多様性データの性能を向上させる。 収束解析により,sfedhpのスパース制約は,通信コストが大幅に削減される一方で,収束速度を小さく抑えることが判明した。 実験により,この疎密な階層型パーソナライズアーキテクチャの利点を,クライアントエッジクラウドの階層型FedAvgや最先端パーソナライズ手法と比較した。

Federated learning (FL) is widely used in the Internet of Things (IoT), wireless networks, mobile devices, autonomous vehicles, and human activity due to its excellent potential in cybersecurity and privacy security. Though FL method can achieve privacy-safe and reliable collaborative training without collecting users' privacy data, it suffers from many challenges during both training and deployment. The main challenges in FL are the difficulty of non-i.i.d co-training data caused by the statistical diversity of the data from various participants, and the difficulty of application deployment caused by the excessive traffic volume and long communication delay between the central server and the client. To address these problems, we propose a sparse FL scheme with hierarchical personalization models (sFedHP), which minimizes clients' loss functions including the properties of an approximated L1-norm and the hierarchical proximal mapping, to reduce the communicational and computational loads required in the network, while improving the performance on statistical diversity data. Convergence analysis shows that the sparse constraint in sFedHP only reduces the convergence speed to a small extent, while the communication cost is greatly reduced. Experimentally, we demonstrate the benefits of this sparse hierarchical personalization architecture compared with the client-edge-cloud hierarchical FedAvg and the state-of-the-art personalization methods.
翻訳日:2022-03-28 13:52:10 公開日:2022-03-25
# 解釈性のための前処理報酬関数

Preprocessing Reward Functions for Interpretability ( http://arxiv.org/abs/2203.13553v1 )

ライセンス: Link先を確認
Erik Jenner, Adam Gleave(参考訳) 多くの現実世界のアプリケーションでは、報酬関数は手動で指定するには複雑すぎる。 このような場合、報酬関数は人間のフィードバックから学ぶ必要がある。 学習した報酬はユーザの好みを表現できない可能性があるため、学習した報酬関数をデプロイ前に検証できることが重要です。 有望なアプローチの1つは、ユーザーの意図から潜在的な逸脱を見つけるために報酬機能に解釈可能性ツールを適用することである。 既存の研究では、学習した報酬関数を理解するために汎用解釈ツールを適用している。 報酬関数の本質的な構造を利用して、まずそれらをより単純だが等価な報酬関数に前処理し、それを視覚化する。 このような報酬前処理のための汎用フレームワークを導入し,具体的な前処理アルゴリズムを提案する。 経験的な評価から,前処理された報酬は,元の報酬よりもはるかに理解しやすいことが分かりました。

In many real-world applications, the reward function is too complex to be manually specified. In such cases, reward functions must instead be learned from human feedback. Since the learned reward may fail to represent user preferences, it is important to be able to validate the learned reward function prior to deployment. One promising approach is to apply interpretability tools to the reward function to spot potential deviations from the user's intention. Existing work has applied general-purpose interpretability tools to understand learned reward functions. We propose exploiting the intrinsic structure of reward functions by first preprocessing them into simpler but equivalent reward functions, which are then visualized. We introduce a general framework for such reward preprocessing and propose concrete preprocessing algorithms. Our empirical evaluation shows that preprocessed rewards are often significantly easier to understand than the original reward.
翻訳日:2022-03-28 13:51:42 公開日:2022-03-25
# 電力予測モデル構築のためのインテリジェントエンドツーエンドニューラルネットワーク探索フレームワーク

An Intelligent End-to-End Neural Architecture Search Framework for Electricity Forecasting Model Development ( http://arxiv.org/abs/2203.13563v1 )

ライセンス: Link先を確認
Jin Yang, Yingying Huang, Guangxin Jiang, Ying Chen(参考訳) 近年、電力系統の時系列電力予測のためのディープラーニング(DL)モデルの開発が急激な成長を見せている。 しかし,提案したモデルのほとんどは,設計者固有の知識と経験に基づいて設計されており,提案したニューラルアーキテクチャの適合性は明らかにされていない。 さらに、これらのモデルは、その構造の柔軟な設計のため、動的に変化するデータパターンに自己調整することはできない。 最近の研究では、電力予測分野において最適化された構造を持つネットワークを得るためのニューラルネットワーク探索(nas)技術の適用を検討したが、その訓練プロセスは非常に時間がかかり、計算コストが高く、知的ではないため、電力予測分野におけるnasの適用はまだ初期段階であることを示している。 本研究では,時系列電気予測モデルの開発を目的とした,インテリジェント自動アーキテクチャ探索(IAAS)フレームワークを提案する。 提案フレームワークは,ネットワーク関数保存変換操作と強化学習(RL)に基づくネットワーク変換制御という,2つの主要コンポーネントを含む。 第1部では,時系列データ内の隠れた時間パターンを捉えるために,再帰的ニューラルネットワーク(rnn)の理論的機能保存変換を文献に導入する。 第2のコンポーネントでは,3つのrlベースのトランスフォーメーションアクタとネットプールを開発し,高品質のニューラルネットワークをインテリジェントかつ効果的に検索する。 2つの公用電力負荷データセットと2つの風力負荷データセットに関する総合的な実験を行った結果、IAASフレームワークは精度と安定性の予測において、既存の10のモデルや手法を大きく上回っていることを示した。

Recent years have witnessed an exponential growth in developing deep learning (DL) models for the time-series electricity forecasting in power systems. However, most of the proposed models are designed based on the designers' inherent knowledge and experience without elaborating on the suitability of the proposed neural architectures. Moreover, these models cannot be self-adjusted to the dynamically changing data patterns due to an inflexible design of their structures. Even though several latest studies have considered application of the neural architecture search (NAS) technique for obtaining a network with an optimized structure in the electricity forecasting sector, their training process is quite time-consuming, computationally expensive and not intelligent, indicating that the NAS application in electricity forecasting area is still at an infancy phase. In this research study, we propose an intelligent automated architecture search (IAAS) framework for the development of time-series electricity forecasting models. The proposed framework contains two primary components, i.e., network function-preserving transformation operation and reinforcement learning (RL)-based network transformation control. In the first component, we introduce a theoretical function-preserving transformation of recurrent neural networks (RNN) to the literature for capturing the hidden temporal patterns within the time-series data. In the second component, we develop three RL-based transformation actors and a net pool to intelligently and effectively search a high-quality neural architecture. After conducting comprehensive experiments on two publicly-available electricity load datasets and two wind power datasets, we demonstrate that the proposed IAAS framework significantly outperforms the ten existing models or methods in terms of forecasting accuracy and stability.
翻訳日:2022-03-28 13:51:30 公開日:2022-03-25
# (参考訳) 価値の異文化間差異に対する事前学習言語モデルの探索 [全文訳有]

Probing Pre-Trained Language Models for Cross-Cultural Differences in Values ( http://arxiv.org/abs/2203.13722v1 )

ライセンス: CC BY 4.0
Arnav Arora, Lucie-Aim\'ee Kaffee, Isabelle Augenstein(参考訳) 言語は人々が持つ社会的、文化的、政治的価値に関する情報を埋め込む。 以前の研究は、事前学習言語モデル(PTLM)で符号化された社会的および潜在的に有害なバイアスを調査してきた。 しかし、これらのモデルに埋め込まれた価値が文化によってどのように変化するのか、体系的な研究は行われていない。 本稿では,これらのモデルに文化のどの価値が組み込まれているのか,既存の理論や異文化間価値調査と一致しているかを調査するためのプローブを紹介する。 PTLMは文化全体における価値の差異を捉えているが、確立した価値調査と弱く一致している。 本稿では,異文化間におけるミスアライメントモデルの利用と,PTLMと価値調査の整合性について論じる。

Language embeds information about social, cultural, and political values people hold. Prior work has explored social and potentially harmful biases encoded in Pre-Trained Language models (PTLMs). However, there has been no systematic study investigating how values embedded in these models vary across cultures. In this paper, we introduce probes to study which values across cultures are embedded in these models, and whether they align with existing theories and cross-cultural value surveys. We find that PTLMs capture differences in values across cultures, but those only weakly align with established value surveys. We discuss implications of using mis-aligned models in cross-cultural settings, as well as ways of aligning PTLMs with value surveys.
翻訳日:2022-03-28 13:50:01 公開日:2022-03-25
# 意味セグメンテーションのためのマルチスケールおよびクロススケールコントラスト学習

Multi-scale and Cross-scale Contrastive Learning for Semantic Segmentation ( http://arxiv.org/abs/2203.13409v1 )

ライセンス: Link先を確認
Theodoros Pissas, Claudio S. Ravasio, Lyndon Da Cruz, Christos Bergeles(参考訳) 本研究は,セマンティックセグメンテーションのための教師ありコントラスト学習を考える。 私たちのアプローチはモデル非依存です。 セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。 我々の重要な方法論は、モデルエンコーダの複数の段階から発せられる特徴空間からのサンプルを活用することであり、データ拡張もオンラインメモリバンクも必要とせず、多様なサンプルを得ることができる。 このような拡張を可能にするために,エンコーダの特徴に対して,複数のスケールでコントラスト的損失を適用可能な,効率的かつ効率的なサンプリングプロセスを導入する。 さらに,まずエンコーダのマルチスケール表現を共通特徴空間にマッピングすることにより,高分解能な局所特徴と低分解能なグローバル特徴をリンクするクロススケールコントラスト学習を導入することにより,教師付き局所的制約の新たな形式をインスタンス化する。 CNNとTransformerのバックボーンを併用した各種モデル(DeepLabV3, HRNet, OCRNet, UPerNet)の性能は, 自然(Cityscapes, PascalContext, ADE20K)と外科(CaDIS)の4つのデータセットで評価された。

This work considers supervised contrastive learning for semantic segmentation. Our approach is model agnostic. We apply contrastive learning to enhance the discriminative power of the multi-scale features extracted by semantic segmentation networks. Our key methodological insight is to leverage samples from the feature spaces emanating from multiple stages of a model's encoder itself requiring neither data augmentation nor online memory banks to obtain a diverse set of samples. To allow for such an extension we introduce an efficient and effective sampling process, that enables applying contrastive losses over the encoder's features at multiple scales. Furthermore, by first mapping the encoder's multi-scale representations to a common feature space, we instantiate a novel form of supervised local-global constraint by introducing cross-scale contrastive learning linking high-resolution local features to low-resolution global features. Combined, our multi-scale and cross-scale contrastive losses boost performance of various models (DeepLabV3, HRNet, OCRNet, UPerNet) with both CNN and Transformer backbones, when evaluated on 4 diverse datasets from natural (Cityscapes, PascalContext, ADE20K) but also surgical (CaDIS) domains.
翻訳日:2022-03-28 13:34:35 公開日:2022-03-25
# 自己監督型予測学習:視覚場面における音源定位の否定的自由化手法

Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes ( http://arxiv.org/abs/2203.13412v1 )

ライセンス: Link先を確認
Zengjie Song, Yuxi Wang, Junsong Fan, Tieniu Tan, Zhaoxiang Zhang(参考訳) 視覚シーンにおける音源定位は、所定の画像内の音を放射する物体を局所化することを目的としている。 印象的なローカライゼーションのパフォーマンスを示す最近の作品は、通常、コントラスト学習フレームワークに依存している。 しかし、これらの手法で一般的に採用されているランダムな負のサンプリングは、音声特徴と視覚特徴の相違を招き、局所化の曖昧さを引き起こす可能性がある。 本稿では,従来の文献に従わず,明示的な正のマイニングによる音像定位法である自己監督予測学習(SSPL)を提案する。 具体的には,まず1つのビデオフレームの2つの拡張ビューに音源を優雅に関連付ける3ストリームネットワークを考案し,音声と視覚的特徴のセマンティックコヒーレントな類似性をもたらす。 第2に,音声・視覚機能アライメントのための新しい予測符号化モジュールを提案する。 このようなモジュールはSSPLがプログレッシブな方法で対象物に集中するのを補助し、ポジティブペア学習の困難を効果的に軽減する。 実験の結果、SSPLは2つの標準音像定位ベンチマークにおいて最先端の手法よりも優れていることがわかった。 特に、SSPLはSoundNet-Flickrの8.6% cIoUと3.4% AUCの大幅な改善を実現している。 コードは、https://github.com/z jsong/SSPL.comで入手できる。

Sound source localization in visual scenes aims to localize objects emitting the sound in a given image. Recent works showing impressive localization performance typically rely on the contrastive learning framework. However, the random sampling of negatives, as commonly adopted in these methods, can result in misalignment between audio and visual features and thus inducing ambiguity in localization. In this paper, instead of following previous literature, we propose Self-Supervised Predictive Learning (SSPL), a negative-free method for sound localization via explicit positive mining. Specifically, we first devise a three-stream network to elegantly associate sound source with two augmented views of one corresponding video frame, leading to semantically coherent similarities between audio and visual features. Second, we introduce a novel predictive coding module for audio-visual feature alignment. Such a module assists SSPL to focus on target objects in a progressive manner and effectively lowers the positive-pair learning difficulty. Experiments show surprising results that SSPL outperforms the state-of-the-art approach on two standard sound localization benchmarks. In particular, SSPL achieves significant improvements of 8.6% cIoU and 3.4% AUC on SoundNet-Flickr compared to the previous best. Code is available at: https://github.com/z jsong/SSPL.
翻訳日:2022-03-28 13:34:05 公開日:2022-03-25
# 携帯端末における顔表情, 妥当性, 覚醒, 行動単位のフレームレベル予測

Frame-level Prediction of Facial Expressions, Valence, Arousal and Action Units for Mobile Devices ( http://arxiv.org/abs/2203.13436v1 )

ライセンス: Link先を確認
Andrey V. Savchenko(参考訳) 本稿では,実時間映像に基づく顔感情分析,すなわち表情認識,原子価の予測,行動単位点の覚醒と検出の問題について考察する。 本稿では,AffectNetで事前学習した1つのEfficientNetモデルを用いて,顔の特徴を抽出し,フレームレベルの感情認識アルゴリズムを提案する。 その結果,モバイル端末上での動画分析においても,本手法は実装される可能性がある。 第3回Affective Behavior Analysis in-the-wild(ABAW)コンペティションによる大規模Aff-Wild2データベースの実験結果から,VggFaceベースラインと比較して,我々の単純なモデルの方がはるかに優れていることが示された。 特に,i-task式分類,Valence-Arousal Estimation and Expression Classificationにおける検証セットの精度が 0.15-0.2 である。 単純さから、このアプローチは4つのサブチャレントすべてに対する新しいベースラインと見なすことができます。

In this paper, we consider the problem of real-time video-based facial emotion analytics, namely, facial expression recognition, prediction of valence and arousal and detection of action unit points. We propose the novel frame-level emotion recognition algorithm by extracting facial features with the single EfficientNet model pre-trained on AffectNet. As a result, our approach may be implemented even for video analytics on mobile devices. Experimental results for the large scale Aff-Wild2 database from the third Affective Behavior Analysis in-the-wild (ABAW) Competition demonstrate that our simple model is significantly better when compared to the VggFace baseline. In particular, our method is characterized by 0.15-0.2 higher performance measures for validation sets in uni-task Expression Classification, Valence-Arousal Estimation and Expression Classification. Due to simplicity, our approach may be considered as a new baseline for all four sub-challenges.
翻訳日:2022-03-28 13:33:40 公開日:2022-03-25
# BCOT: マーカーレス高精度3Dオブジェクト追跡ベンチマーク

BCOT: A Markerless High-Precision 3D Object Tracking Benchmark ( http://arxiv.org/abs/2203.13437v1 )

ライセンス: Link先を確認
Jiachen Li, Bin Wang, Shiqiang Zhu, Xin Cao, Fan Zhong, Wenxuan Chen, Te Li, Jason Gu, Xueying Qin(参考訳) テンプレートベースの3dオブジェクトトラッキングは、マーカーを使わずに実際の動画オブジェクトの正確な3dポーズをアノテートできないため、まだ実シーンの高精度なベンチマークが欠けている。 本稿では,実動物体の正確な3次元ポーズを推定するマルチビュー手法を提案し,双眼鏡データを用いて,モノクロテクスチャレス3次元物体追跡のための新しいベンチマークを構築する。 提案手法はマーカーを必要とせず、カメラは同期で、クロスビューやキャリブレーションとして比較的固定される必要がある。 オブジェクト中心モデルに基づいて、全てのビューにおける形状再投影制約を最小化することにより、オブジェクトのポーズを協調的に最適化する。 新しいベンチマークデータセットには、20のテクスチャレスオブジェクト、22のシーン、404の動画シーケンス、126Kの画像が含まれています。 理論解析および検証実験により、アノテーションエラーは2mm未満であることが保証されている。 我々は,現在最先端の3Dオブジェクト追跡手法をデータセットで再評価し,実シーンでのパフォーマンスランキングを報告する。 BCOTベンチマークとコードはhttps://ar3dv.github .io/BCOT-Benchmark/で確認できます。

Template-based 3D object tracking still lacks a high-precision benchmark of real scenes due to the difficulty of annotating the accurate 3D poses of real moving video objects without using markers. In this paper, we present a multi-view approach to estimate the accurate 3D poses of real moving objects, and then use binocular data to construct a new benchmark for monocular textureless 3D object tracking. The proposed method requires no markers, and the cameras only need to be synchronous, relatively fixed as cross-view and calibrated. Based on our object-centered model, we jointly optimize the object pose by minimizing shape re-projection constraints in all views, which greatly improves the accuracy compared with the single-view approach, and is even more accurate than the depth-based method. Our new benchmark dataset contains 20 textureless objects, 22 scenes, 404 video sequences and 126K images captured in real scenes. The annotation error is guaranteed to be less than 2mm, according to both theoretical analysis and validation experiments. We re-evaluate the state-of-the-art 3D object tracking methods with our dataset, reporting their performance ranking in real scenes. Our BCOT benchmark and code can be found at https://ar3dv.github .io/BCOT-Benchmark/.
翻訳日:2022-03-28 13:32:03 公開日:2022-03-25
# mdan: 視覚感情分析のための多レベル依存注意ネットワーク

MDAN: Multi-level Dependent Attention Network for Visual Emotion Analysis ( http://arxiv.org/abs/2203.13443v1 )

ライセンス: Link先を確認
Liwen Xu, Zhengtao Wang, Bin Wu, Simon Lui(参考訳) 視覚感情分析(VEA)が注目を集めている。 VEAの最大の課題の1つは、画像内の視覚的手がかりと、画像によって表現される感情の間の感情的ギャップを埋めることである。 感情の粒度が増加するにつれて、感情的ギャップも増加する。 既存の深いアプローチは、感情の階層的関係を異なる感情レベルと分類すべき感情の感情レベルを考慮せずに、世界規模で感情の差別を直接学習することでギャップを埋めようとしている。 本稿では,感情階層と異なる感情レベルと意味レベルとの相関性を活用するために,2つの分枝を持つマルチレベル依存注意ネットワーク(mdan)を提案する。 ボトムアップ・ブランチは感情の最も高いレベルで直接学習し、感情の階層を厳密に追従し、低い感情レベルの感情を予測する。 対照的にトップダウンのブランチは、意味レベルと感情レベル、すなわちAffective Semantic Mappingを1対1でマッピングすることで、感情ギャップを解消しようとする。 各意味レベルでは、局所分類器は対応する感情レベルで感情の識別を学習する。 最後に、グローバルラーニングとローカルラーニングを統一したディープフレームワークに統合し、ネットワークを最適化する。 さらに,感情的ギャップを解消しつつ,チャネル依存性や空間的注意を適切に抽出・活用するために,マルチヘッドクロスチャネルアテンションモジュールとレベル依存クラスアクティベーションマップモジュールという2つのアテンションモジュールを慎重に設計した。 最後に、提案したディープフレームワークは、6つのVEAベンチマークで新しい最先端性能を取得し、25クラスの分類精度でWEBEMOデータセットで+3.85%という大きなマージンで既存の最先端メソッドを上回ります。

Visual Emotion Analysis (VEA) is attracting increasing attention. One of the biggest challenges of VEA is to bridge the affective gap between visual clues in a picture and the emotion expressed by the picture. As the granularity of emotions increases, the affective gap increases as well. Existing deep approaches try to bridge the gap by directly learning discrimination among emotions globally in one shot without considering the hierarchical relationship among emotions at different affective levels and the affective level of emotions to be classified. In this paper, we present the Multi-level Dependent Attention Network (MDAN) with two branches, to leverage the emotion hierarchy and the correlation between different affective levels and semantic levels. The bottom-up branch directly learns emotions at the highest affective level and strictly follows the emotion hierarchy while predicting emotions at lower affective levels. In contrast, the top-down branch attempt to disentangle the affective gap by one-to-one mapping between semantic levels and affective levels, namely, Affective Semantic Mapping. At each semantic level, a local classifier learns discrimination among emotions at the corresponding affective level. Finally, We integrate global learning and local learning into a unified deep framework and optimize the network simultaneously. Moreover, to properly extract and leverage channel dependencies and spatial attention while disentangling the affective gap, we carefully designed two attention modules: the Multi-head Cross Channel Attention module and the Level-dependent Class Activation Map module. Finally, the proposed deep framework obtains new state-of-the-art performance on six VEA benchmarks, where it outperforms existing state-of-the-art methods by a large margin, e.g., +3.85% on the WEBEmo dataset at 25 classes classification accuracy.
翻訳日:2022-03-28 13:31:40 公開日:2022-03-25
# PCAに基づく知識蒸留による軽量・コンテンツスタイルの光現実性伝達モデル

PCA-Based Knowledge Distillation Towards Lightweight and Content-Style Balanced Photorealistic Style Transfer Models ( http://arxiv.org/abs/2203.13452v1 )

ライセンス: Link先を確認
Tai-Yin Chiu, Danna Gurari(参考訳) photorealistic style transferとは、参照画像のスタイルを別の画像に転送することであり、その結果は妥当な写真に思える。 私たちの研究は、既存のモデルは大きなサイズのため遅いという観察にインスパイアされています。 我々は,PCAを用いた知識蒸留を導入し,軽量モデルを蒸留し,理論による動機付けを示す。 我々の知る限り、これは光写実的スタイル伝達のための最初の知識蒸留法である。 我々の実験は、6つの画像解像度で異なるバックボーンアーキテクチャ、VGGとMobileNetで使用するための汎用性を実証した。 既存のモデルと比較して,我々のトップパフォーマンスモデルは,パラメータの少なくとも1倍の速度で5~20倍高速で動作する。 また, 蒸留モデルでは, 既存のモデルよりもスタイライゼーション強度とコンテンツ保存のバランスが良好である。 メソッドとモデルの再生成をサポートするため、コード共有は \textit{https://github.com/c hiutaiyin/PCA-Knowle dge-Distillation} で行う。

Photorealistic style transfer entails transferring the style of a reference image to another image so the result seems like a plausible photo. Our work is inspired by the observation that existing models are slow due to their large sizes. We introduce PCA-based knowledge distillation to distill lightweight models and show it is motivated by theory. To our knowledge, this is the first knowledge distillation method for photorealistic style transfer. Our experiments demonstrate its versatility for use with different backbone architectures, VGG and MobileNet, across six image resolutions. Compared to existing models, our top-performing model runs at speeds 5-20x faster using at most 1\% of the parameters. Additionally, our distilled models achieve a better balance between stylization strength and content preservation than existing models. To support reproducing our method and models, we share the code at \textit{https://github.com/c hiutaiyin/PCA-Knowle dge-Distillation}.
翻訳日:2022-03-28 13:31:09 公開日:2022-03-25
# CNN LEGO:畳み込みニューラルネットワークの分解と組み立て

CNN LEGO: Disassembling and Assembling Convolutional Neural Network ( http://arxiv.org/abs/2203.13453v1 )

ライセンス: Link先を確認
Jiacong Hu (1), Jing Gao (1), Zunlei Feng (1), Lechao Cheng (2), Jie Lei (3), Hujun Bao (1), Mingli Song (1) ((1) Zhejiang University, (2) Zhejiang Lab, (3) Zhejiang University Of Technology)(参考訳) 人間の視覚知覚機構を模倣する畳み込みニューラルネットワーク(cnn)は、多くのコンピュータビジョン領域でうまく使われている。 視覚知覚機構は初期[7,20]において形態、色、運動、深さ等を同期的に処理し、最終認識のためにすべての情報を統合する[38]。 さらに、人間の視覚システム[20]には、異なるサブディビジョンや異なるタスクが含まれています。 上記の視覚知覚機構に触発されて,モデル分解・組み立て(MDA-Task)と呼ばれる新しいタスクを探索し,深部モデルを独立したパーツに分解し,LEGO玩具などの演奏コストを伴わずに新たな深部モデルに組み立てる。 そこで本稿では,CNN分類器を分解するための特徴経路帰属手法 (FRAT) を提案する。 FRATでは、予測クラス確率 w.r.t. の特徴写像の正の微分を用いて各層における臨界特徴を特定する。 そして、2つの隣接するパラメータ層間の経路を橋渡しするために、臨界特徴と前/後パラメータ層との関連性解析を採用する。 組み立てフェーズでは、各レイヤのクラス毎のコンポーネントが、特定のタスクのための新しいディープモデルに組み立てられる。 集約的な実験により、組み立てられたCNN分類器は、ファインチューンなしで元の分類器と密接な精度を達成でき、1エポックなファインチューンで過剰なオリジナル性能を達成できることが示された。 さらに,モデル決定経路の可視化,モデル圧縮,知識蒸留,トランスファー学習,インクリメンタル学習などにおけるmda-taskの幅広い応用を検証するために,大規模な実験も行っています。

Convolutional Neural Network (CNN), which mimics human visual perception mechanism, has been successfully used in many computer vision areas. Some psychophysical studies show that the visual perception mechanism synchronously processes the form, color, movement, depth, etc., in the initial stage [7,20] and then integrates all information for final recognition [38]. What's more, the human visual system [20] contains different subdivisions or different tasks. Inspired by the above visual perception mechanism, we investigate a new task, termed as Model Disassembling and Assembling (MDA-Task), which can disassemble the deep models into independent parts and assemble those parts into a new deep model without performance cost like playing LEGO toys. To this end, we propose a feature route attribution technique (FRAT) for disassembling CNN classifiers in this paper. In FRAT, the positive derivatives of predicted class probability w.r.t. the feature maps are adopted to locate the critical features in each layer. Then, relevance analysis between the critical features and preceding/subsequent parameter layers is adopted to bridge the route between two adjacent parameter layers. In the assembling phase, class-wise components of each layer are assembled into a new deep model for a specific task. Extensive experiments demonstrate that the assembled CNN classifier can achieve close accuracy with the original classifier without any fine-tune, and excess original performance with one-epoch fine-tune. What's more, we also conduct massive experiments to verify the broad application of MDA-Task on model decision route visualization, model compression, knowledge distillation, transfer learning, incremental learning, and so on.
翻訳日:2022-03-28 13:30:52 公開日:2022-03-25
# 空間運動による対向移動性の向上

Improving Adversarial Transferability with Spatial Momentum ( http://arxiv.org/abs/2203.13479v1 )

ライセンス: Link先を確認
Guoqiu Wang, Xingxing Wei, Huanqian Yan(参考訳) ディープニューラルネットワーク(DNN)は、敵の例に弱い。 多くの敵攻撃手法は、ホワイトボックス設定下では良好な攻撃成功率を達成するが、他のDNNモデルを攻撃する場合の転送性は低い。 運動量ベース攻撃(mi-fgsm)は移動性を改善する効果的な方法の一つである。 運動量項を反復過程に統合し、各ピクセルに勾配の時間相関を加えることで更新方向を安定化することができる。 我々は、この時間的モーメントだけでは十分ではなく、画像内の空間領域からの勾配、すなわち、対象画素を中心とするコンテキストピクセルからの勾配も安定化に重要であると主張する。 そこで,本稿では,空間運動量反復fgsm攻撃(smi-fgsm)と呼ばれる新しい手法を提案する。 SMI-FGSMはMI-FGSMに統合され、時間領域と空間領域の両方から勾配の更新方向を同時に安定化する。 最後の方法はSM$^2$I-FGSMと呼ばれる。 imagenetデータセットで広範な実験が行われ、sm$^2$i-fgsmが転送性をさらに高めることを示した。 複数の主流の無防備モデルや防衛モデルに対して最高の転送可能性の成功率を達成し、最先端の手法を大きなマージンで上回っている。

Deep Neural Networks (DNN) are vulnerable to adversarial examples. Although many adversarial attack methods achieve satisfactory attack success rates under the white-box setting, they usually show poor transferability when attacking other DNN models. Momentum-based attack (MI-FGSM) is one effective method to improve transferability. It integrates the momentum term into the iterative process, which can stabilize the update directions by adding the gradients' temporal correlation for each pixel. We argue that only this temporal momentum is not enough, the gradients from the spatial domain within an image, i.e. gradients from the context pixels centered on the target pixel are also important to the stabilization. For that, in this paper, we propose a novel method named Spatial Momentum Iterative FGSM Attack (SMI-FGSM), which introduces the mechanism of momentum accumulation from temporal domain to spatial domain by considering the context gradient information from different regions within the image. SMI-FGSM is then integrated with MI-FGSM to simultaneously stabilize the gradients' update direction from both the temporal and spatial domain. The final method is called SM$^2$I-FGSM. Extensive experiments are conducted on the ImageNet dataset and results show that SM$^2$I-FGSM indeed further enhances the transferability. It achieves the best transferability success rate for multiple mainstream undefended and defended models, which outperforms the state-of-the-art methods by a large margin.
翻訳日:2022-03-28 13:30:22 公開日:2022-03-25
# 比較学習: 単発学習のためのバイアテンションネットワーク

Compare learning: bi-attention network for few-shot learning ( http://arxiv.org/abs/2203.13487v1 )

ライセンス: Link先を確認
Li Ke, Meng Pan, Weigao Wen, Dong Li(参考訳) ディープニューラルネットワークは、少数のサンプルのみを使用して過度に適合する傾向があるため、ラベル付きデータの少ない学習は、視覚認識の重要な課題である。 距離学習と呼ばれる数少ない学習方法の1つは、まず、画像のペアが同じカテゴリに属しているかどうかを判断するために、深距離メトリックを学習し、限られたラベルを持つ他のテストセットのインスタンスにトレーニングされたメトリックを適用することで、この課題に対処している。 この方法は少数のサンプルを最大限に活用し、オーバーフィッティングを効果的に制限する。 しかし、現存するメトリックネットワークは通常、ベクトル間の微妙な違いを世界規模で捉えるのに十分な精度の線形分類器や畳み込みニューラルネットワーク(CNN)を用いる。 本稿では, インスタンスの埋め込みの類似性を正確に, グローバルかつ効率的に測定できる, Bi-attention Network という新しい手法を提案する。 モデルの有効性を2つのベンチマークで検証する。 実験の結果,本手法はベースラインモデルよりも精度と収束速度が向上した。

Learning with few labeled data is a key challenge for visual recognition, as deep neural networks tend to overfit using a few samples only. One of the Few-shot learning methods called metric learning addresses this challenge by first learning a deep distance metric to determine whether a pair of images belong to the same category, then applying the trained metric to instances from other test set with limited labels. This method makes the most of the few samples and limits the overfitting effectively. However, extant metric networks usually employ Linear classifiers or Convolutional neural networks (CNN) that are not precise enough to globally capture the subtle differences between vectors. In this paper, we propose a novel approach named Bi-attention network to compare the instances, which can measure the similarity between embeddings of instances precisely, globally and efficiently. We verify the effectiveness of our model on two benchmarks. Experiments show that our approach achieved improved accuracy and convergence speed over baseline models.
翻訳日:2022-03-28 13:29:59 公開日:2022-03-25
# 弱教師付き物体定位と意味セグメンテーションのためのクラス非依存活性化マップの対比学習

Contrastive learning of Class-agnostic Activation Map for Weakly Supervised Object Localization and Semantic Segmentation ( http://arxiv.org/abs/2203.13505v1 )

ライセンス: Link先を確認
Jinheng Xie, Jianfeng Xiang, Junliang Chen, Xianxu Hou, Xiaodong Zhao, Linlin Shen(参考訳) 画像分類ネットワークによって生成されるクラスアクティベーションマップ(CAM)は、弱い教師付きオブジェクトローカライゼーション(WSOL)と意味的セグメンテーション(WSSS)に広く使われているが、そのような分類器は通常、識別対象領域に焦点を当てている。 本稿では,画像レベルの監視を伴わずに,ラベル付き画像データのみを用いたクラス非依存型活性化マップ(C$^2$AM)生成のためのコントラスト学習を提案する。 中心となる考え方は、観察から来ている。 一 前景物の意味情報は、通常、その背景と異なるもの 二 類似した外観又は類似した色/テクスチャを有する背景オブジェクトは、特徴空間に類似した表現を有すること。 上記の関係に基づいて正のペアと負のペアを形成し、新しいコントラスト損失を用いたクラス非依存のアクティベーションマップを用いて、ネットワークを前景と背景を分離させる。 ネットワークは画像前景を識別するために誘導されるため,本手法で学習したクラス非依存のアクティベーションマップは,より完全なオブジェクト領域を生成する。 C$^2$AMクラスに依存しないオブジェクト境界ボックスからオブジェクトローカライゼーションとバックグラウンドキューを抽出し,セマンティックセグメンテーションのための分類ネットワークによって生成されたCAMを改良した。 CUB-200-2011、ImageNet-1K、PASCAL VOC2012データセットの大規模な実験は、WSOLとWSSSの両方が提案されたC$2$AMの恩恵を受けることを示した。

While class activation map (CAM) generated by image classification network has been widely used for weakly supervised object localization (WSOL) and semantic segmentation (WSSS), such classifiers usually focus on discriminative object regions. In this paper, we propose Contrastive learning for Class-agnostic Activation Map (C$^2$AM) generation only using unlabeled image data, without the involvement of image-level supervision. The core idea comes from the observation that i) semantic information of foreground objects usually differs from their backgrounds; ii) foreground objects with similar appearance or background with similar color/texture have similar representations in the feature space. We form the positive and negative pairs based on the above relations and force the network to disentangle foreground and background with a class-agnostic activation map using a novel contrastive loss. As the network is guided to discriminate cross-image foreground-backgroun d, the class-agnostic activation maps learned by our approach generate more complete object regions. We successfully extracted from C$^2$AM class-agnostic object bounding boxes for object localization and background cues to refine CAM generated by classification network for semantic segmentation. Extensive experiments on CUB-200-2011, ImageNet-1K, and PASCAL VOC2012 datasets show that both WSOL and WSSS can benefit from the proposed C$^2$AM.
翻訳日:2022-03-28 13:28:30 公開日:2022-03-25
# 高性能変圧器追跡

High-Performance Transformer Tracking ( http://arxiv.org/abs/2203.13533v1 )

ライセンス: Link先を確認
Xin Chen, Bin Yan, Jiawen Zhu, Dong Wang, Huchuan Lu(参考訳) 相関は、特に最近のシームズベースのトラッカーにおいて、追跡分野において重要な役割を担っている。 相関演算はテンプレートと検索領域の類似性を考慮するための単純な融合手法である。 しかし、相関処理は局所線形マッチングプロセスであり、意味情報を失い、局所最適に陥りやすいため、高精度追跡アルゴリズムの設計のボトルネックとなる可能性がある。 本研究では, 相関よりも優れた特徴融合法が存在するかどうかを判断するために, Transformer にインスパイアされた新しい注目型特徴融合ネットワークを提案する。 このネットワークは、テンプレートと注目を用いて検索領域の特徴を効果的に結合する。 具体的には、自己アテンションに基づくエゴコンテキスト拡張モジュールと、クロスアテンションに基づくクロス機能拡張モジュールを含む。 まず、シームズ様の特徴抽出バックボーン、設計された注意に基づく融合機構、分類と回帰ヘッドに基づくトランスフォーマートラッキング(TransT)手法を提案する。 TransTベースラインに基づいて,正確なマスクを生成するセグメンテーションブランチを設計する。 最後に,マルチテンプレート設計によるTransTの拡張と,TransT-Mと命名されたIoU予測ヘッドにより,TransTのより強力なバージョンを提案する。 実験の結果,TransT法とTransT-M法は7つの一般的なデータセットに対して有望な結果が得られることがわかった。 コードとモデルはhttps://github.com/c henxin-dlut/transt-m で入手できる。

Correlation has a critical role in the tracking field, especially in recent popular Siamese-based trackers. The correlation operation is a simple fusion manner to consider the similarity between the template and the search region. However, the correlation operation is a local linear matching process, losing semantic information and falling into local optimum easily, which may be the bottleneck of designing high-accuracy tracking algorithms. In this work, to determine whether a better feature fusion method exists than correlation, a novel attention-based feature fusion network, inspired by Transformer, is presented. This network effectively combines the template and the search region features using attention. Specifically, the proposed method includes an ego-context augment module based on self-attention and a cross-feature augment module based on cross-attention. First, we present a Transformer tracking (named TransT) method based on the Siamese-like feature extraction backbone, the designed attention-based fusion mechanism, and the classification and regression head. Based on the TransT baseline, we further design a segmentation branch to generate an accurate mask. Finally, we propose a stronger version of TransT by extending TransT with a multi-template design and an IoU prediction head, named TransT-M. Experiments show that our TransT and TransT-M methods achieve promising results on seven popular datasets. Code and models are available at https://github.com/c henxin-dlut/TransT-M .
翻訳日:2022-03-28 13:28:00 公開日:2022-03-25
# 階層型クロスタッチトランスによる効率的な視覚追跡

Efficient Visual Tracking via Hierarchical Cross-Attention Transformer ( http://arxiv.org/abs/2203.13537v1 )

ライセンス: Link先を確認
Xin Chen, Dong Wang, Dongdong Li, Huchuan Lu(参考訳) 近年,目標追跡は精度に大きな進歩を遂げている。 この開発は主に強力なネットワーク(トランスフォーマーなど)と追加モジュール(オンライン更新や改善モジュールなど)によるものである。 しかし、追跡速度にはあまり注意が払われていない。 ほとんどの最先端トラッカーは、強力なGPU上でのリアルタイム速度に満足している。 しかし、特に限られたリソースを持つエッジプラットフォームを使用する場合、実際のアプリケーションは、追跡速度のより高い要求を必要とする。 本研究では,HCATと呼ばれる階層型クロスアテンショントランスを用いた効率的なトラッキング手法を提案する。 当社のモデルは、GPUで約195fps、CPUで45fps、NVidia Jetson AGX XavierのエッジAIプラットフォームで55fpsで動作します。 実験の結果, HCATはLaSOT, GOT-10k, TrackingNet, NFS, OTB100, UAV123, VOT2020で有望な結果を得た。 コードとモデルはhttps://github.com/c henxin-dlut/hcatで入手できる。

In recent years, target tracking has made great progress in accuracy. This development is mainly attributed to powerful networks (such as transformers) and additional modules (such as online update and refinement modules). However, less attention has been paid to tracking speed. Most state-of-the-art trackers are satisfied with the real-time speed on powerful GPUs. However, practical applications necessitate higher requirements for tracking speed, especially when edge platforms with limited resources are used. In this work, we present an efficient tracking method via a hierarchical cross-attention transformer named HCAT. Our model runs about 195 fps on GPU, 45 fps on CPU, and 55 fps on the edge AI platform of NVidia Jetson AGX Xavier. Experiments show that our HCAT achieves promising results on LaSOT, GOT-10k, TrackingNet, NFS, OTB100, UAV123, and VOT2020. Code and models are available at https://github.com/c henxin-dlut/HCAT.
翻訳日:2022-03-28 13:27:38 公開日:2022-03-25
# 連続的なテスト時間ドメイン適応

Continual Test-Time Domain Adaptation ( http://arxiv.org/abs/2203.13591v1 )

ライセンス: Link先を確認
Qin Wang, Olga Fink, Luc Van Gool, Dengxin Dai(参考訳) テスト時ドメイン適応は、ソースデータを使用しずに、ソース事前訓練されたモデルをターゲットドメインに適応することを目的としている。 既存の作業は、主にターゲットドメインが静的な場合を考える。 しかし、実世界のマシン認識システムは、時間とともに対象領域の分布が変化する非定常かつ継続的に変化する環境で実行されている。 既存の方法は、主に自己学習とエントロピー正規化に基づいており、これらの非定常環境に悩まされる可能性がある。 対象領域における時間的な分布シフトのため、擬似ラベルは信頼できない。 ノイズの多い擬似ラベルは、さらにエラーの蓄積と破滅的な忘れに繋がる可能性がある。 これらの課題に対処するため,2つの部分からなる連続的なテスト時間適応手法~(CoTTA)を提案する。 まず,より精度の高い重み推定と拡張平均予測を用いて,誤差の蓄積を減らすことを提案する。 一方,破滅的な記憶をなくすために,ニューロンのごく一部を各イテレーションで訓練済みの重みに確率的に復元し,長期的知識の保存に役立てることを提案する。 提案手法は,ネットワーク内のすべてのパラメータの長期適応を可能にする。 CoTTAは実装が容易で、市販の事前訓練モデルに簡単に組み込める。 提案手法は, 4つの分類タスクと, 既存の手法に勝る連続的なテスト時間適応のためのセグメンテーションタスクに有効であることを示す。 私たちのコードは \url{https://qin.ee/cotta } で利用可能です。

Test-time domain adaptation aims to adapt a source pre-trained model to a target domain without using any source data. Existing works mainly consider the case where the target domain is static. However, real-world machine perception systems are running in non-stationary and continually changing environments where the target domain distribution can change over time. Existing methods, which are mostly based on self-training and entropy regularization, can suffer from these non-stationary environments. Due to the distribution shift over time in the target domain, pseudo-labels become unreliable. The noisy pseudo-labels can further lead to error accumulation and catastrophic forgetting. To tackle these issues, we propose a continual test-time adaptation approach~(CoTTA) which comprises two parts. Firstly, we propose to reduce the error accumulation by using weight-averaged and augmentation-average d predictions which are often more accurate. On the other hand, to avoid catastrophic forgetting, we propose to stochastically restore a small part of the neurons to the source pre-trained weights during each iteration to help preserve source knowledge in the long-term. The proposed method enables the long-term adaptation for all parameters in the network. CoTTA is easy to implement and can be readily incorporated in off-the-shelf pre-trained models. We demonstrate the effectiveness of our approach on four classification tasks and a segmentation task for continual test-time adaptation, on which we outperform existing methods. Our code is available at \url{https://qin.ee/cotta }.
翻訳日:2022-03-28 13:27:24 公開日:2022-03-25
# Rope3D: 自律走行用ロッドサイド知覚データセットと単眼3D物体検出タスク

Rope3D: TheRoadside Perception Dataset for Autonomous Driving and Monocular 3D Object Detection Task ( http://arxiv.org/abs/2203.13608v1 )

ライセンス: Link先を確認
Xiaoqing Ye, Mao Shu, Hanyu Li, Yifeng Shi, Yingying Li, Guangjie Wang, Xiao Tan, Errui Ding(参考訳) 自動運転のための同時認識データセットは、主に車両に搭載されたセンサーによる正面視に限られる。 いずれも、見過ごされた道端の知覚タスクのために設計されたものではない。 一方、路面カメラから取得したデータは、より安全でインテリジェントな自動運転システムを促進すると信じられている正面視データよりも強みがある。 道路側知覚の進展を早めるため,新たな視点から,道路側知覚の難易度の高い3dデータセットを初めて提示する。 データセットは、さまざまなシーンで50万のイメージと1.5万以上の3dオブジェクトで構成されており、曖昧なマウント位置、カメラ仕様、視点、さまざまな環境条件を備えたさまざまなカメラを含む、さまざまな設定でキャプチャされる。 厳密な2d-3d共同アノテーションと包括的なデータ分析を行い,メトリクスと評価機能を備えた新しい3dロードサイド知覚ベンチマークを構築した。 さらに, 既存の3次元物体検出手法を調整し, 形状制約を活用し, 様々なセンサ, 視点による内在的曖昧さを解決することを提案する。 私たちのデータセットはhttps://thudair.baai .ac.cn/ropeで利用可能です。

Concurrent perception datasets for autonomous driving are mainly limited to frontal view with sensors mounted on the vehicle. None of them is designed for the overlooked roadside perception tasks. On the other hand, the data captured from roadside cameras have strengths over frontal-view data, which is believed to facilitate a safer and more intelligent autonomous driving system. To accelerate the progress of roadside perception, we present the first high-diversity challenging Roadside Perception 3D dataset- Rope3D from a novel view. The dataset consists of 50k images and over 1.5M 3D objects in various scenes, which are captured under different settings including various cameras with ambiguous mounting positions, camera specifications, viewpoints, and different environmental conditions. We conduct strict 2D-3D joint annotation and comprehensive data analysis, as well as set up a new 3D roadside perception benchmark with metrics and evaluation devkit. Furthermore, we tailor the existing frontal-view monocular 3D object detection approaches and propose to leverage the geometry constraint to solve the inherent ambiguities caused by various sensors, viewpoints. Our dataset is available on https://thudair.baai .ac.cn/rope.
翻訳日:2022-03-28 13:27:02 公開日:2022-03-25
# 時間的行動ローカライゼーションタスクのための教師なし事前学習

Unsupervised Pre-training for Temporal Action Localization Tasks ( http://arxiv.org/abs/2203.13609v1 )

ライセンス: Link先を確認
Can Zhang, Tianyu Yang, Junwu Weng, Meng Cao, Jue Wang, Yuexian Zou(参考訳) 教師なしビデオ表現学習は近年顕著な成果を上げている。 しかし,既存の手法のほとんどはビデオ分類に最適化されている。 これらの事前学習モデルは、ビデオレベルの分類とクリップレベルのローカライゼーションの相違により、時間的ローカライゼーションタスクに準最適である。 このギャップを埋めるために、我々はPseudo Action Localization (PAL) と呼ばれる自己教師型プリテキストタスクを、時間的アクションローカライゼーションタスク(UP-TAL)のための教師なしプリトレイン機能エンコーダに提案する。 具体的には、まず1つのビデオから複数のクリップを含む時間領域をランダムに選択し、他の2つのビデオの異なる時間的位置に貼り付ける。 前提課題は、2つの合成ビデオからペーストした擬似行動領域の特徴を調整し、両者の合意を最大化することである。 既存の教師なしビデオ表現学習手法と比較すると,時間的同変コントラスト学習パラダイムを時間的に密集し,スケールアウェアな方法で導入することで,下流のtalタスクに適応する。 大規模な実験により,PALは大規模未ラベル映像データを用いて既存のTAL法の性能を大幅に向上させることができることがわかった。 私たちのコードとモデルはhttps://github.com/z hang-can/UP-TAL.comで公開されます。

Unsupervised video representation learning has made remarkable achievements in recent years. However, most existing methods are designed and optimized for video classification. These pre-trained models can be sub-optimal for temporal localization tasks due to the inherent discrepancy between video-level classification and clip-level localization. To bridge this gap, we make the first attempt to propose a self-supervised pretext task, coined as Pseudo Action Localization (PAL) to Unsupervisedly Pre-train feature encoders for Temporal Action Localization tasks (UP-TAL). Specifically, we first randomly select temporal regions, each of which contains multiple clips, from one video as pseudo actions and then paste them onto different temporal positions of the other two videos. The pretext task is to align the features of pasted pseudo action regions from two synthetic videos and maximize the agreement between them. Compared to the existing unsupervised video representation learning approaches, our PAL adapts better to downstream TAL tasks by introducing a temporal equivariant contrastive learning paradigm in a temporally dense and scale-aware manner. Extensive experiments show that PAL can utilize large-scale unlabeled video data to significantly boost the performance of existing TAL methods. Our codes and models will be made publicly available at https://github.com/z hang-can/UP-TAL.
翻訳日:2022-03-28 13:26:44 公開日:2022-03-25
# 弱監督下での異常な活動に適応する学習

Learning to Adapt to Unseen Abnormal Activities under Weak Supervision ( http://arxiv.org/abs/2203.13610v1 )

ライセンス: Link先を確認
Jaeyoo Park, Junha Kim, Bohyung Han(参考訳) 本稿では,ビデオにおける弱教師付き異常検出のためのメタラーニングフレームワークを提案する。 我々の研究は、既存の手法が一般化の貧弱さから様々な見当たらない例に苦しむという事実に動機づけられている。 メタラーニング方式を備えた異常検出器は,モデルの初期化点に導くことにより限界を緩和し,より良い最適化を行う。 UCF-CrimeとShanghaiTechの2つの挑戦的データセット上でのフレームワークの性能を評価する。 実験結果から,本アルゴリズムは弱教師付き環境での異常事象の局所化を促進できることが示された。 技術的貢献に加えて、UCF-Crimeデータセットに欠落したラベルのアノテーションを実行し、タスクを効果的に評価する。

We present a meta-learning framework for weakly supervised anomaly detection in videos, where the detector learns to adapt to unseen types of abnormal activities effectively when only video-level annotations of binary labels are available. Our work is motivated by the fact that existing methods suffer from poor generalization to diverse unseen examples. We claim that an anomaly detector equipped with a meta-learning scheme alleviates the limitation by leading the model to an initialization point for better optimization. We evaluate the performance of our framework on two challenging datasets, UCF-Crime and ShanghaiTech. The experimental results demonstrate that our algorithm boosts the capability to localize unseen abnormal events in a weakly supervised setting. Besides the technical contributions, we perform the annotation of missing labels in the UCF-Crime dataset and make our task evaluated effectively.
翻訳日:2022-03-28 13:26:06 公開日:2022-03-25
# ビデオにおける行動認識のためのクラスインクリメンタル学習

Class-Incremental Learning for Action Recognition in Videos ( http://arxiv.org/abs/2203.13611v1 )

ライセンス: Link先を確認
Jaeyoo Park, Minsoo Kang, Bohyung Han(参考訳) 我々は,連続学習の普及にもかかわらず積極的に研究されていない映像認識のためのクラスインクリメンタル学習の文脈において,破滅的な忘れ方問題に取り組む。 当社のフレームワークは,タイムチャネル重要度マップを導入し,知識蒸留によるサンプル表現の学習に重要度マップを活用することで,この課題に対処しています。 また、目的関数に正規化スキームを組み込み、ビデオ中の異なる時間ステップから得られる個々の特徴を非相関にし、破滅的忘れを緩和することで精度を向上させる。 提案手法は,uff101,hmdb51,その他v2データセット上に構築したクラスインクリメンタルな行動認識ベンチマークを新たに分割し,従来の画像データのための連続学習手法と比較し,提案手法の有効性を実証する。

We tackle catastrophic forgetting problem in the context of class-incremental learning for video recognition, which has not been explored actively despite the popularity of continual learning. Our framework addresses this challenging task by introducing time-channel importance maps and exploiting the importance maps for learning the representations of incoming examples via knowledge distillation. We also incorporate a regularization scheme in our objective function, which encourages individual features obtained from different time steps in a video to be uncorrelated and eventually improves accuracy by alleviating catastrophic forgetting. We evaluate the proposed approach on brand-new splits of class-incremental action recognition benchmarks constructed upon the UCF101, HMDB51, and Something-Something V2 datasets, and demonstrate the effectiveness of our algorithm in comparison to the existing continual learning methods that are originally designed for image data.
翻訳日:2022-03-28 13:25:51 公開日:2022-03-25
# Dot-Product Attention は対向的パッチロバスト性に悪影響を及ぼす

Give Me Your Attention: Dot-Product Attention Considered Harmful for Adversarial Patch Robustness ( http://arxiv.org/abs/2203.13639v1 )

ライセンス: Link先を確認
Giulio Lovisotto, Nicole Finnie, Mauricio Munoz, Chaithanya Kumar Mummadi, Jan Hendrik Metzen(参考訳) 視覚変換器などの注意に基づくニューラルアーキテクチャは、画像認識に革命をもたらしている。 彼らの主な利点は、シーンのすべての部分を共同で推論できることである。 本稿では,(大規模に)dot-product attentionのグローバル推論が,敵のパッチ攻撃に直面する大きな脆弱性の原因となる可能性を示す。 我々は、この脆弱性を理論的に理解し、敵のパッチの制御下で、すべてのクエリの注意を単一のキートークンに誤って向ける能力に関連付ける。 本稿では,この脆弱性を的確に狙う敵パッチ作成のための新たな敵目標を提案する。 提案手法は,一般的な画像分類 (ViTs と DeiTs) とオブジェクト検出モデル (DETR) に対するパッチ攻撃の有効性を示す。 入力の0.5%を占める敵のパッチは、ImageNet上のViTの0%という低い精度につながり、MS COCO上のDETRのmAPを3%以下に抑えることができる。

Neural architectures based on attention such as vision transformers are revolutionizing image recognition. Their main benefit is that attention allows reasoning about all parts of a scene jointly. In this paper, we show how the global reasoning of (scaled) dot-product attention can be the source of a major vulnerability when confronted with adversarial patch attacks. We provide a theoretical understanding of this vulnerability and relate it to an adversary's ability to misdirect the attention of all queries to a single key token under the control of the adversarial patch. We propose novel adversarial objectives for crafting adversarial patches which target this vulnerability explicitly. We show the effectiveness of the proposed patch attacks on popular image classification (ViTs and DeiTs) and object detection models (DETR). We find that adversarial patches occupying 0.5% of the input can lead to robust accuracies as low as 0% for ViT on ImageNet, and reduce the mAP of DETR on MS COCO to less than 3%.
翻訳日:2022-03-28 13:25:33 公開日:2022-03-25
# (参考訳) 代謝物アノテーションのためのアンサンブルスペクトル予測(esp)モデル [全文訳有]

Ensemble Spectral Prediction (ESP) Model for Metabolite Annotation ( http://arxiv.org/abs/2203.13783v1 )

ライセンス: CC BY 4.0
Xinmeng Li, Hao Zhu, Li-ping Liu, Soha Hassoun(参考訳) メタボロミクスにおける鍵となる課題は、生物学的サンプルから測定されたスペクトルに化学的なアイデンティティを付与することである。 現在では、少数の測定しかアイデンティティを割り当てることができない。 アノテーション問題に対処するために、候補分子をスペクトルにマッピングし、クエリスペクトルを分子候補にマッピングする2つの補完的な計算手法が登場した。 本質的に、クエリスペクトルを最もよく説明するスペクトルを持つ候補分子が標的分子として推奨される。 どちらのアプローチでも候補のランク付けは基本であるが、対象分子を決定するのにランク学習のタスクを利用した先行研究は行われていない。 本稿では,メタボライトアノテーションのための新しい機械学習モデルであるアンサンブルスペクトル予測(esp)を提案する。 ESPは、マルチレイヤパーセプトロン(MLP)ネットワークとグラフニューラルネットワーク(GNN)を利用する、以前のニューラルネットワークベースのアノテーションモデルを活用する。 ESP は MLP と GNN に基づくモデルのランキング結果に基づいて,MLP と GNN のスペクトル予測器の出力の重み付けを学習し,クエリ分子のスペクトル予測を生成する。 重要なことに、トレーニングデータは、モデルトレーニング中に候補セットを提供する分子式によって階層化される。 さらに,マルチヘッドアテンション機構とトピック分布のマルチタスキングによるピーク依存性を考慮したベースラインMLPとGNNモデルを改良した。 ESPは、それぞれMLPとGNNのベースラインよりも平均ランクを41%改善し、最先端のニューラルネットワークアプローチよりも顕著なパフォーマンス向上を示している。 本研究では,ESPや他のモデルに対するアノテーション性能が,候補集合内の分子数と対象分子との類似性の強い機能であることを示す。

A key challenge in metabolomics is annotating measured spectra from a biological sample with chemical identities. Currently, only a small fraction of measurements can be assigned identities. Two complementary computational approaches have emerged to address the annotation problem: mapping candidate molecules to spectra, and mapping query spectra to molecular candidates. In essence, the candidate molecule with the spectrum that best explains the query spectrum is recommended as the target molecule. Despite candidate ranking being fundamental in both approaches, no prior works utilized rank learning tasks in determining the target molecule. We propose a novel machine learning model, Ensemble Spectral Prediction (ESP), for metabolite annotation. ESP takes advantage of prior neural network-based annotation models that utilize multilayer perceptron (MLP) networks and Graph Neural Networks (GNNs). Based on the ranking results of the MLP and GNN-based models, ESP learns a weighting for the outputs of MLP and GNN spectral predictors to generate a spectral prediction for a query molecule. Importantly, training data is stratified by molecular formula to provide candidate sets during model training. Further, baseline MLP and GNN models are enhanced by considering peak dependencies through multi-head attention mechanism and multi-tasking on spectral topic distributions. ESP improves average rank by 41% and 30% over the MLP and GNN baselines, respectively, demonstrating remarkable performance gain over state-of-the-art neural network approaches. We show that annotation performance, for ESP and other models, is a strong function of the number of molecules in the candidate set and their similarity to the target molecule.
翻訳日:2022-03-28 13:24:28 公開日:2022-03-25
# 出発するバンディットを持つレコメンダシステムにおけるアトリビューションのモデル化

Modeling Attrition in Recommender Systems with Departing Bandits ( http://arxiv.org/abs/2203.13423v1 )

ライセンス: Link先を確認
Omer Ben-Porat, Lee Cohen, Liu Leqi, Zachary C. Lipton, Yishay Mansour(参考訳) 伝統的に、レコメンダシステムがマルチアームのバンディットとして形式化された場合、レコメンダシステムのポリシーは報酬に影響を与えるが、インタラクションの長さには影響しない。 しかし、現実世界のシステムでは、不満を抱いたユーザーは立ち去る(二度と戻らない)。 本稿では,このような政策依存の地平線を捉えた,新しいマルチアームバンディット設定を提案する。 私たちのセットアップは、ユーザタイプの有限セットと、Bernoulliのペイオフを備えた複数のアームで構成されています。 各タプル(ユーザータイプ、アーム)は(未知の)報酬確率に対応する。 各ユーザのタイプは最初は不明で、レコメンデーションへの応答を通じてのみ推測できる。 さらに、ユーザの推奨に不満がある場合は、システムを離れる可能性がある。 まず、全てのユーザが同じタイプを共有し、最近の UCB ベースのアルゴリズムが最適であることを示す。 次に、ユーザが2つのタイプに分けられる、より困難なケースに進みます。 ナイーブなアプローチでは、この設定を処理できないが、$T$がユーザ数である場合に、$\tilde{O}(\sqrt{T})$ regretを達成する効率的な学習アルゴリズムを提供する。

Traditionally, when recommender systems are formalized as multi-armed bandits, the policy of the recommender system influences the rewards accrued, but not the length of interaction. However, in real-world systems, dissatisfied users may depart (and never come back). In this work, we propose a novel multi-armed bandit setup that captures such policy-dependent horizons. Our setup consists of a finite set of user types, and multiple arms with Bernoulli payoffs. Each (user type, arm) tuple corresponds to an (unknown) reward probability. Each user's type is initially unknown and can only be inferred through their response to recommendations. Moreover, if a user is dissatisfied with their recommendation, they might depart the system. We first address the case where all users share the same type, demonstrating that a recent UCB-based algorithm is optimal. We then move forward to the more challenging case, where users are divided among two types. While naive approaches cannot handle this setting, we provide an efficient learning algorithm that achieves $\tilde{O}(\sqrt{T})$ regret, where $T$ is the number of users.
翻訳日:2022-03-28 13:08:52 公開日:2022-03-25
# p$一般化したprobit回帰とsketchingとcoresetsによるスケーラブルな最大度推定

$p$-Generalized Probit Regression and Scalable Maximum Likelihood Estimation via Sketching and Coresets ( http://arxiv.org/abs/2203.13568v1 )

ライセンス: Link先を確認
Alexander Munteanu, Simon Omlor, Christian Peters(参考訳) 我々は,バイナリ応答の一般化線形モデルである$p$一般化プロビット回帰モデルについて検討した。 標準のprobitモデルを拡張し、標準の通常のcdfであるリンク関数を$p$一般化正規分布で$p\in[1, \infty)$に置き換える。 p$ 一般化正規分布 \citep{sub23} はデータにより柔軟に適合するため、統計モデリングに特に興味を持つ。 尾の挙動はパラメータ $p$ の選択によって制御できるが、これはモデルの異常値に対する感度に影響する。 特別な例としては、ラプラス、ガウス、一様分布がある。 さらに,1+\varepsilon)$という大容量データに対して,p$一般化されたプロビット回帰に対する最大確率推定器を,スケッチ技法と重要部分サンプリングを組み合わせることで効率的に近似し,coresetと呼ばれる小さなデータ要約を得る方法を示す。

We study the $p$-generalized probit regression model, which is a generalized linear model for binary responses. It extends the standard probit model by replacing its link function, the standard normal cdf, by a $p$-generalized normal distribution for $p\in[1, \infty)$. The $p$-generalized normal distributions \citep{Sub23} are of special interest in statistical modeling because they fit much more flexibly to data. Their tail behavior can be controlled by choice of the parameter $p$, which influences the model's sensitivity to outliers. Special cases include the Laplace, the Gaussian, and the uniform distributions. We further show how the maximum likelihood estimator for $p$-generalized probit regression can be approximated efficiently up to a factor of $(1+\varepsilon)$ on large data by combining sketching techniques with importance subsampling to obtain a small data summary called coreset.
翻訳日:2022-03-28 13:08:34 公開日:2022-03-25
# エンドツーエンド最適化による逐次データ予測のためのハイブリッドフレームワーク

A Hybrid Framework for Sequential Data Prediction with End-to-End Optimization ( http://arxiv.org/abs/2203.13787v1 )

ライセンス: Link先を確認
Mustafa E. Ayd{\i}n, Suleyman S. Kozat(参考訳) 本稿では, オンライン環境における非線形予測について検討し, エンドツーエンドアーキテクチャ, ハンドデザイン機能の必要性, 従来の非線形予測/回帰手法による手動モデル選択の課題を効果的に緩和するハイブリッドモデルを提案する。 特に,逐次的信号から特徴を抽出するために再帰的構造を用い,状態情報,すなわち履歴,ブースト決定木を保存し,最終的な出力を生成する。 接続はエンドツーエンドであり、確率勾配勾配を用いたアーキテクチャ全体を協調的に最適化し、後方通過更新方程式も提供する。 特に、逐次データからの適応的特徴抽出にLSTM(Recurrent Neural Network)と、効果的な教師付き回帰のために勾配強化機構(soft GBDT)を用いる。 私たちのフレームワークは汎用的なので、他のディープラーニングアーキテクチャを特徴抽出(rnnやgrusなど)に、機械学習アルゴリズムを微分可能であれば意思決定に使用できます。 本稿では, 合成データに対するアルゴリズムの学習挙動と, 各種実生活データセットに対する従来の手法による性能改善について述べる。 さらに,提案手法のソースコードをオープンに公開し,さらなる研究を促進する。

We investigate nonlinear prediction in an online setting and introduce a hybrid model that effectively mitigates, via an end-to-end architecture, the need for hand-designed features and manual model selection issues of conventional nonlinear prediction/regressio n methods. In particular, we use recursive structures to extract features from sequential signals, while preserving the state information, i.e., the history, and boosted decision trees to produce the final output. The connection is in an end-to-end fashion and we jointly optimize the whole architecture using stochastic gradient descent, for which we also provide the backward pass update equations. In particular, we employ a recurrent neural network (LSTM) for adaptive feature extraction from sequential data and a gradient boosting machinery (soft GBDT) for effective supervised regression. Our framework is generic so that one can use other deep learning architectures for feature extraction (such as RNNs and GRUs) and machine learning algorithms for decision making as long as they are differentiable. We demonstrate the learning behavior of our algorithm on synthetic data and the significant performance improvements over the conventional methods over various real life datasets. Furthermore, we openly share the source code of the proposed method to facilitate further research.
翻訳日:2022-03-28 13:07:55 公開日:2022-03-25
# 可変画像アニメーションのための3次元GANインバージョン

3D GAN Inversion for Controllable Portrait Image Animation ( http://arxiv.org/abs/2203.13441v1 )

ライセンス: Link先を確認
Connor Z. Lin, David B. Lindell, Eric R. Chan, and Gordon Wetzstein(参考訳) 毎日何百万もの人間の顔の画像が撮影されるが、これらの写真は、一定のポーズ、表情、外観を持つ個人の類似性を表している。 ポートレート画像アニメーションは、被写体の類似性やアイデンティティのフォトリアリスティックな再構築を維持しながら、単一の画像からこれらの属性のポストキャプチャー調整を可能にする。 ポートレート・イメージ・アニメーションの現在の手法は、通常2次元のワープ操作や2次元生成対向ネットワーク(GAN)の操作に基づいており、マルチビューの一貫性を強制する明確なメカニズムが欠如している。 これらの方法は、特にカメラに対する視点が変更された場合、被写体のアイデンティティを著しく変える可能性がある。 本研究では,画像のポーズを多視点整合性で明示的に制御できる3D GANを新たに開発した。 本研究では,3次元モーファブルモデルを用いて表現を柔軟に操作するための監督戦略を提案し,ganの潜在空間内で補間することにより,年齢や髪型などの外観属性の編集もサポートすることを示す。 ポートレート画像アニメーションの手法は,属性編集をサポートしながら,画像品質,アイデンティティ保存,ポーズ転送の点で,従来の手法よりも優れていた。

Millions of images of human faces are captured every single day; but these photographs portray the likeness of an individual with a fixed pose, expression, and appearance. Portrait image animation enables the post-capture adjustment of these attributes from a single image while maintaining a photorealistic reconstruction of the subject's likeness or identity. Still, current methods for portrait image animation are typically based on 2D warping operations or manipulations of a 2D generative adversarial network (GAN) and lack explicit mechanisms to enforce multi-view consistency. Thus these methods may significantly alter the identity of the subject, especially when the viewpoint relative to the camera is changed. In this work, we leverage newly developed 3D GANs, which allow explicit control over the pose of the image subject with multi-view consistency. We propose a supervision strategy to flexibly manipulate expressions with 3D morphable models, and we show that the proposed method also supports editing appearance attributes, such as age or hairstyle, by interpolating within the latent space of the GAN. The proposed technique for portrait image animation outperforms previous methods in terms of image quality, identity preservation, and pose transfer while also supporting attribute editing.
翻訳日:2022-03-28 13:07:07 公開日:2022-03-25
# 確率的軌道予測のための非確率サンプリングネットワーク

Non-Probability Sampling Network for Stochastic Human Trajectory Prediction ( http://arxiv.org/abs/2203.13471v1 )

ライセンス: Link先を確認
Inhwan Bae, Jin-Hwi Park, Hae-Gon Jeon(参考訳) マルチモーダルな性質を捉えることは、確率的歩行者軌道予測に必須であり、将来の軌道の有限集合を推定する。 推定軌道は、推定ステップにおける歩行者の潜在的な決定の観測経路と潜在ベクトルに基づく。 しかし、確率的アプローチは、潜在ベクトルのランダムサンプリングにより、同じデータとパラメータの設定に対して様々な結果を与える。 本稿では,予測サンプルと社会的受容可能な経路から確率分布を再構成し,比較することにより問題を解析する。 この解析を通じて,すべての確率モデルの推論はランダムサンプリングに偏り,有限サンプルから現実的なパスを生成することができないことを観察した。 無限のサンプルが得られない限り、この問題は解決できないが、実際は不可能である。 本稿では,従来のランダムサンプリングの代替として,サンプリング空間の均一なカバレッジを確保するQuasi-Monte Carlo (QMC)法を提案する。 同じ有限個のサンプル数で、qmcは全てのマルチモーダル予測結果を改善する。 学習可能なサンプリングネットワークを既存のネットワークに組み込んで軌道予測を行う。 この目的のために,歩行者の過去の経路と社会的相互作用を用いてサンプルシーケンスを生成する,非常に小さなネットワーク(約5Kパラメータ)であるNon-Probability Sampling Network (NPSN)を提案する。 大規模な実験により、NPSNは公共歩行者軌道予測ベンチマークの予測精度(最大60%)と信頼性の両方を著しく改善できることを確認した。 コードはhttps://github.com/i nhwanbae/NPSNで公開されている。

Capturing multimodal natures is essential for stochastic pedestrian trajectory prediction, to infer a finite set of future trajectories. The inferred trajectories are based on observation paths and the latent vectors of potential decisions of pedestrians in the inference step. However, stochastic approaches provide varying results for the same data and parameter settings, due to the random sampling of the latent vector. In this paper, we analyze the problem by reconstructing and comparing probabilistic distributions from prediction samples and socially-acceptable paths, respectively. Through this analysis, we observe that the inferences of all stochastic models are biased toward the random sampling, and fail to generate a set of realistic paths from finite samples. The problem cannot be resolved unless an infinite number of samples is available, which is infeasible in practice. We introduce that the Quasi-Monte Carlo (QMC) method, ensuring uniform coverage on the sampling space, as an alternative to the conventional random sampling. With the same finite number of samples, the QMC improves all the multimodal prediction results. We take an additional step ahead by incorporating a learnable sampling network into the existing networks for trajectory prediction. For this purpose, we propose the Non-Probability Sampling Network (NPSN), a very small network (~5K parameters) that generates purposive sample sequences using the past paths of pedestrians and their social interactions. Extensive experiments confirm that NPSN can significantly improve both the prediction accuracy (up to 60%) and reliability of the public pedestrian trajectory prediction benchmark. Code is publicly available at https://github.com/i nhwanbae/NPSN .
翻訳日:2022-03-28 13:06:48 公開日:2022-03-25
# ST-FL:COVID-19セグメンテーションのためのフェデレートラーニングにおけるスタイル転送前処理

ST-FL: Style Transfer Preprocessing in Federated Learning for COVID-19 Segmentation ( http://arxiv.org/abs/2203.13680v1 )

ライセンス: Link先を確認
Antonios Georgiadis, Varun Babbar, Fran Silavong, Sean Moran, Rob Otter(参考訳) 胸部ctスキャンは、新型コロナウイルスの診断や深層学習において低コスト、迅速、客観性を示しており、これらの画像の分析と解釈を支援することに大きな期待が持たれている。 ほとんどの病院や国は、社内データを使って独自のモデルを訓練できるが、実験的な証拠は、これらのモデルが新しい目に見えないケースでテストされた場合、不適切なパフォーマンスを示す。 プライバシー規制のため、病院と国家間の医療データ共有は極めて困難である。 そこで本稿では,ganによるフェデレート学習モデルであるst-fl(style transfer federated learning)を提案する。 フェデレートラーニング(FL)は、異なるプライベートデータサイロにある異種データセットから、集中型モデルをセキュアに学習することを可能にする。 FLクライアントノード上での広範囲なデータ品質の変化は、COVID-19胸部CT画像分割のためのサブ最適化FLモデルにつながることを示す。 ST-FLは、クライアントノードで高度に可変なデータ品質に直面して堅牢な、新しいFLフレームワークである。 このロバスト性は、フェデレーションの各クライアントにおいて、任意の品質イメージを同じターゲット品質にマッピングし、現実世界のflユースケースで明らかな厳しいデータ変動性に対抗する、デノージング・サイクガンモデルによって達成される。 各クライアントには、すべてのクライアントで同じターゲットスタイルが提供され、独自のデノイザをトレーニングする。 定性的かつ定量的な結果から,このflモデルは,すべてのトレーニングデータに対して集中的にアクセス可能なモデルと,場合によっては比較可能な性能を持つことが示唆された。

Chest Computational Tomography (CT) scans present low cost, speed and objectivity for COVID-19 diagnosis and deep learning methods have shown great promise in assisting the analysis and interpretation of these images. Most hospitals or countries can train their own models using in-house data, however empirical evidence shows that those models perform poorly when tested on new unseen cases, surfacing the need for coordinated global collaboration. Due to privacy regulations, medical data sharing between hospitals and nations is extremely difficult. We propose a GAN-augmented federated learning model, dubbed ST-FL (Style Transfer Federated Learning), for COVID-19 image segmentation. Federated learning (FL) permits a centralised model to be learned in a secure manner from heterogeneous datasets located in disparate private data silos. We demonstrate that the widely varying data quality on FL client nodes leads to a sub-optimal centralised FL model for COVID-19 chest CT image segmentation. ST-FL is a novel FL framework that is robust in the face of highly variable data quality at client nodes. The robustness is achieved by a denoising CycleGAN model at each client of the federation that maps arbitrary quality images into the same target quality, counteracting the severe data variability evident in real-world FL use-cases. Each client is provided with the target style, which is the same for all clients, and trains their own denoiser. Our qualitative and quantitative results suggest that this FL model performs comparably to, and in some cases better than, a model that has centralised access to all the training data.
翻訳日:2022-03-28 13:05:06 公開日:2022-03-25
# 学習速度分布マップによるリスク対応オフロードナビゲーション

Risk-Aware Off-Road Navigation via a Learned Speed Distribution Map ( http://arxiv.org/abs/2203.13429v1 )

ライセンス: Link先を確認
Xiaoyi Cai, Michael Everett, Jonathan Fink, Jonathan P. How(参考訳) オフロード環境での運動計画では、シーンの幾何学と意味論の両方を推論する必要がある(例えば、ロボットは柔らかい茂みを通り抜けることができるが、倒れた丸太は動かない)。 近年の多くの作品において、世界は限られた数の意味圏に分類されており、ロボットがオフロード地形を横断できる能力(すなわち速度)を捉えるには不十分である。 代わりに、データから学習し、解釈可能性と直感的なチューニングを提供し、コストマップの形で様々な計画パラダイムと容易に統合できるロボットの速度のみに基づく、トラバーサビリティの新たな表現を提案する。 具体的には、経験豊富な軌跡のデータセットから、提案アルゴリズムはロボットが達成できる速度の分布を予測し、環境セマンティクスと命令された速度に基づいて予測する。 学習速度分布マップは、リスクの条件値(CVaR)に基づいてリスク認識コスト項付きコストマップに変換される。 数値シミュレーションにより,提案するリスク対応計画アルゴリズムは,期待行動のみを考慮した手法に比べて平均時間対ゴール速度が速く,プランナーはやや遅いが,変動の少ない動作に調整可能であることが示された。 さらに、このアプローチは完全な自律スタックに統合され、高忠実なUnity環境で実証され、ナビゲーションの成功率を30%改善することが示されている。

Motion planning in off-road environments requires reasoning about both the geometry and semantics of the scene (e.g., a robot may be able to drive through soft bushes but not a fallen log). In many recent works, the world is classified into a finite number of semantic categories that often are not sufficient to capture the ability (i.e., the speed) with which a robot can traverse off-road terrain. Instead, this work proposes a new representation of traversability based exclusively on robot speed that can be learned from data, offers interpretability and intuitive tuning, and can be easily integrated with a variety of planning paradigms in the form of a costmap. Specifically, given a dataset of experienced trajectories, the proposed algorithm learns to predict a distribution of speeds the robot could achieve, conditioned on the environment semantics and commanded speed. The learned speed distribution map is converted into costmaps with a risk-aware cost term based on conditional value at risk (CVaR). Numerical simulations demonstrate that the proposed risk-aware planning algorithm leads to faster average time-to-goals compared to a method that only considers expected behavior, and the planner can be tuned for slightly slower, but less variable behavior. Furthermore, the approach is integrated into a full autonomy stack and demonstrated in a high-fidelity Unity environment and is shown to provide a 30\% improvement in the success rate of navigation.
翻訳日:2022-03-28 13:04:37 公開日:2022-03-25
# BDDM:高速かつ高品質な音声合成のためのバイラテラルDenoising Diffusion Model

BDDM: Bilateral Denoising Diffusion Models for Fast and High-Quality Speech Synthesis ( http://arxiv.org/abs/2203.13508v1 )

ライセンス: Link先を確認
Max W. Y. Lam, Jun Wang, Dan Su, Dong Yu(参考訳) 拡散確率モデル(DPM)とその拡張は、競争的生成モデルとして現れるが、効率的なサンプリングの課題に直面している。 本稿では,前処理と逆処理の両方をスケジュールネットワークとスコアネットワークでパラメータ化し,新たな二元的モデリング目標でトレーニングできる新しい二元的認知拡散モデル(BDDM)を提案する。 新たなサロゲートの目標は,従来のサロゲートよりもログ周縁確率の上限を低くすることができることを示した。 また、BDDMは任意のDPMから事前学習したスコアネットワークパラメータを継承し、スケジュールネットワークの高速かつ安定した学習とサンプリングのためのノイズスケジュールの最適化を可能にする。 実験の結果,BDDMは3段階のサンプリングステップで高忠実度オーディオサンプルを生成することができることがわかった。 さらに、他の最先端拡散ベースのニューラルボコーダと比較して、BDDMsは人間の音声と区別できない同等または高い品質のサンプルを生成し、特に7つのサンプリングステップ(WaveGradより143倍、DiffWaveより28.6倍速い)しか生成しない。 私たちはコードをhttps://github.com/t encent-ailab/bddmでリリースします。

Diffusion probabilistic models (DPMs) and their extensions have emerged as competitive generative models yet confront challenges of efficient sampling. We propose a new bilateral denoising diffusion model (BDDM) that parameterizes both the forward and reverse processes with a schedule network and a score network, which can train with a novel bilateral modeling objective. We show that the new surrogate objective can achieve a lower bound of the log marginal likelihood tighter than a conventional surrogate. We also find that BDDM allows inheriting pre-trained score network parameters from any DPMs and consequently enables speedy and stable learning of the schedule network and optimization of a noise schedule for sampling. Our experiments demonstrate that BDDMs can generate high-fidelity audio samples with as few as three sampling steps. Moreover, compared to other state-of-the-art diffusion-based neural vocoders, BDDMs produce comparable or higher quality samples indistinguishable from human speech, notably with only seven sampling steps (143x faster than WaveGrad and 28.6x faster than DiffWave). We release our code at https://github.com/t encent-ailab/bddm.
翻訳日:2022-03-28 13:04:13 公開日:2022-03-25
# GPT-D: 人工知能モデルによる認知症関連言語異常のモデル化

GPT-D: Inducing Dementia-related Linguistic Anomalies by Deliberate Degradation of Artificial Neural Language Models ( http://arxiv.org/abs/2203.13397v1 )

ライセンス: Link先を確認
Changye Li, David Knopman, Weizhe Xu, Trevor Cohen and Serguei Pakhomov(参考訳) 多数のモデルパラメータを微調整する深層学習(DL)技術は、認知的健康な個人によって生み出される言語とアルツハイマー病(AD)の言語を識別するタスクにおいて、素晴らしいパフォーマンスをもたらした。 しかし、研究用に公開されている小さな参照セットを超えて一般化する能力について疑問が残る。 モデルパラメータを直接フィッティングする方法として,一般英語テキストに事前学習したトランスフォーマーdlモデル(gpt-2)と自己の人為的劣化バージョン(gpt-d)とを組み合わせることにより,認知的健康な個人と障害者の言語における2つのモデルの<textit{perplexities} の比率を計算する新しい手法を提案する。 この手法は、広く使われている「Cookie Theft」画像記述タスクから得られたテキストデータに対する最先端のパフォーマンスにアプローチする。 さらに、gpt-dはadに関連する特徴が知られているテキストを生成し、認知症関連言語異常の誘発を示す。 我々の研究は、生成型ニューラル言語モデルの内部動作、それらが生成する言語、および認知症が人間の言語および言語特性に与える影響のより深い理解に向けた一歩である。

Deep learning (DL) techniques involving fine-tuning large numbers of model parameters have delivered impressive performance on the task of discriminating between language produced by cognitively healthy individuals, and those with Alzheimer's disease (AD). However, questions remain about their ability to generalize beyond the small reference sets that are publicly available for research. As an alternative to fitting model parameters directly, we propose a novel method by which a Transformer DL model (GPT-2) pre-trained on general English text is paired with an artificially degraded version of itself (GPT-D), to compute the ratio between these two models' \textit{perplexities} on language from cognitively healthy and impaired individuals. This technique approaches state-of-the-art performance on text data from a widely used "Cookie Theft" picture description task, and unlike established alternatives also generalizes well to spontaneous conversations. Furthermore, GPT-D generates text with characteristics known to be associated with AD, demonstrating the induction of dementia-related linguistic anomalies. Our study is a step toward better understanding of the relationships between the inner workings of generative neural language models, the language that they produce, and the deleterious effects of dementia on human speech and language characteristics.
翻訳日:2022-03-28 13:03:20 公開日:2022-03-25
# バランスを取る:対称分類タスクのための事前学習モデルにおける不整合を緩和する

Striking a Balance: Alleviating Inconsistency in Pre-trained Models for Symmetric Classification Tasks ( http://arxiv.org/abs/2203.13491v1 )

ライセンス: Link先を確認
Ashutosh Kumar, Aditya Joshi(参考訳) 下流分類のための微調整済みモデルが従来のNLPのパラダイムであるが、多くの場合、タスク固有のニュアンスは結果のモデルでは捕捉されない。 具体的には、2つの入力を受け取り、出力が入力の順序の不変性を要求するタスクに対して、予測されたラベルまたは信頼スコアに矛盾がしばしば観測される。 このモデルの欠点を浮き彫りにし、対称分類の不整合を緩和するために一貫性損失関数を適用する。 その結果,精度の低下を伴わない3つのパラフレーズ検出データセットに対する予測の整合性が改善された。 我々は,6つのデータセット(対称と非対称の両方)の分類性能を調べ,このアプローチの長所と限界を明らかにした。

While fine-tuning pre-trained models for downstream classification is the conventional paradigm in NLP, often task-specific nuances may not get captured in the resultant models. Specifically, for tasks that take two inputs and require the output to be invariant of the order of the inputs, inconsistency is often observed in the predicted labels or confidence scores. We highlight this model shortcoming and apply a consistency loss function to alleviate inconsistency in symmetric classification. Our results show an improved consistency in predictions for three paraphrase detection datasets without a significant drop in the accuracy scores. We examine the classification performance of six datasets (both symmetric and non-symmetric) to showcase the strengths and limitations of our approach.
翻訳日:2022-03-28 13:02:41 公開日:2022-03-25
# 低リソース機械翻訳におけるサブワード正規化モデルの単一モデルアンサンブル

Single Model Ensemble for Subword Regularized Models in Low-Resource Machine Translation ( http://arxiv.org/abs/2203.13528v1 )

ライセンス: Link先を確認
Sho Takase, Tatsuya Hiraoka, Naoaki Okazaki(参考訳) サブワード正則化はトレーニング中に複数のサブワードセグメンテーションを使用して、ニューラルネットワーク翻訳モデルのロバスト性を改善する。 従来のサブワード正規化では、トレーニングプロセスでは複数のセグメンテーションを使用するが、推論では1つのセグメンテーションのみを使用する。 本研究では,この相違に対処するための推論戦略を提案する。 提案手法は, 最有力セグメンテーションと複数のサンプルセグメンテーションを含む複数のセグメンテーションを用いることにより, 辺縁化確率を近似する。 提案した戦略はいくつかのセグメントから予測を集約するので、トレーニングに追加のコストを必要としない単一のモデルアンサンブルと見なすことができる。 実験の結果,低リソース機械翻訳タスクにおけるサブワード正規化により学習したモデルの性能が向上した。

Subword regularizations use multiple subword segmentations during training to improve the robustness of neural machine translation models. In previous subword regularizations, we use multiple segmentations in the training process but use only one segmentation in the inference. In this study, we propose an inference strategy to address this discrepancy. The proposed strategy approximates the marginalized likelihood by using multiple segmentations including the most plausible segmentation and several sampled segmentations. Because the proposed strategy aggregates predictions from several segmentations, we can regard it as a single model ensemble that does not require any additional cost for training. Experimental results show that the proposed strategy improves the performance of models trained with subword regularization in low-resource machine translation tasks.
翻訳日:2022-03-28 13:02:28 公開日:2022-03-25
# 一貫性トレーニングによる半教師付き形式変換

Semi-Supervised Formality Style Transfer with Consistency Training ( http://arxiv.org/abs/2203.13620v1 )

ライセンス: Link先を確認
Ao Liu, An Wang, Naoaki Okazaki(参考訳) fst(formality style transfer)とは、形式的な文を意味を変更せずに形式的な文に変換する作業である。 既存の並列データセットのデータ共有問題に対処するため、従来の研究では、FSTモデルはターゲット側の未ラベル文から主に恩恵を受けるため、追加の未ラベルデータを利用するサイクル再構成スキームを採用する傾向があった。 そこで本研究では,整合性学習に基づくソース側の未ラベル文をより効果的に活用するための,シンプルで効果的な半教師付きフレームワークを提案する。 特に本手法では,ソース側非公式文から得られた疑似パラレルデータをモデルに強制的に加え,摂動文に対して類似の出力を生成する。 さらに,様々なデータ摂動法の効果を実験的に検証し,効率的なデータフィルタリング手法を提案する。 GYAFCベンチマークによる実験結果から, 並列データの40%以下であっても, 最先端の結果が得られることが示された。

Formality style transfer (FST) is a task that involves paraphrasing an informal sentence into a formal one without altering its meaning. To address the data-scarcity problem of existing parallel datasets, previous studies tend to adopt a cycle-reconstruction scheme to utilize additional unlabeled data, where the FST model mainly benefits from target-side unlabeled sentences. In this work, we propose a simple yet effective semi-supervised framework to better utilize source-side unlabeled sentences based on consistency training. Specifically, our approach augments pseudo-parallel data obtained from a source-side informal sentence by enforcing the model to generate similar outputs for its perturbed version. Moreover, we empirically examined the effects of various data perturbation methods and propose effective data filtering strategies to improve our framework. Experimental results on the GYAFC benchmark demonstrate that our approach can achieve state-of-the-art results, even with less than 40% of the parallel data.
翻訳日:2022-03-28 13:01:30 公開日:2022-03-25
# (参考訳) 運動不確定性拡散による確率軌道予測 [全文訳有]

Stochastic Trajectory Prediction via Motion Indeterminacy Diffusion ( http://arxiv.org/abs/2203.13777v1 )

ライセンス: CC BY 4.0
Tianpei Gu, Guangyi Chen, Junlong Li, Chunze Lin, Yongming Rao, Jie Zhou, Jiwen Lu(参考訳) 人間の行動は不確定性の性質を持ち、将来の運動状態のマルチモダリティをモデル化するために歩行者追跡予測システムを必要とする。 マルチモダリティを表すために通常潜伏変数を用いる既存の確率的軌道予測法とは異なり、不定点から定点への人間の動き変化の過程を明示的にシミュレートする。 本稿では,移動不確定性拡散(MID)の逆過程として軌道予測タスクを定式化するための新しい枠組みを提案する。 この過程は、観測軌道によって条件付けられたパラメータ化されたマルコフ連鎖で学習される。 チェーンの長さを調整し、不確定性の程度を制御し、予測の多様性と決定性のバランスをとることができる。 具体的には,歴史行動情報と社会的相互作用を状態埋め込みとしてエンコードし,トラジェクタの時間的依存性を捉えるトランスフォーマティブに基づく拡散モデルを考案する。 スタンフォード・ドローンやETH/UCYデータセットなど,人間の軌道予測ベンチマークに関する大規模な実験は,本手法の優位性を実証している。 コードはhttps://github.com/g utianpei/MIDで入手できる。

Human behavior has the nature of indeterminacy, which requires the pedestrian trajectory prediction system to model the multi-modality of future motion states. Unlike existing stochastic trajectory prediction methods which usually use a latent variable to represent multi-modality, we explicitly simulate the process of human motion variation from indeterminate to determinate. In this paper, we present a new framework to formulate the trajectory prediction task as a reverse process of motion indeterminacy diffusion (MID), in which we progressively discard indeterminacy from all the walkable areas until reaching the desired trajectory. This process is learned with a parameterized Markov chain conditioned by the observed trajectories. We can adjust the length of the chain to control the degree of indeterminacy and balance the diversity and determinacy of the predictions. Specifically, we encode the history behavior information and the social interactions as a state embedding and devise a Transformer-based diffusion model to capture the temporal dependencies of trajectories. Extensive experiments on the human trajectory prediction benchmarks including the Stanford Drone and ETH/UCY datasets demonstrate the superiority of our method. Code is available at https://github.com/g utianpei/MID.
翻訳日:2022-03-28 12:58:18 公開日:2022-03-25
# 低次元対向摂動の起源

Origins of Low-dimensional Adversarial Perturbations ( http://arxiv.org/abs/2203.13779v1 )

ライセンス: Link先を確認
Elvis Dohmatob, Chuan Guo, Morgane Goibert(参考訳) 本稿では,分類における低次元逆摂動現象の厳密な研究を開始する。 これらは敵対的摂動であり、古典的な設定とは異なり、攻撃者の探索は特徴空間の低次元部分空間に限定される。 その目的は、攻撃者が選択したサブスペースからの摂動の追加によって、指定されたクラスからの入力のゼロでない部分で決定を覆すように分類器を騙すことである。 部分空間の次元$k$は特徴空間の次元$d$よりもはるかに小さいのが望ましいが、摂動のノルムは典型的なデータ点のノルムと比べて無視できる。 本研究では,特定のフィードフォワードニューラルネットワーク(例えば,十分にスムーズなReLUアクティベーション関数)によって検証される,非常に一般的な規則性条件下でのバイナリ分類モデルと,任意の部分空間の不正化率に対する解析的下限を考察する。 これらの境界は、愚か化率がモデルのマージン(すなわち、試験点におけるその勾配の$L_2$-normに対する出力の比率)と与えられた部分空間とモデルのw.r.t.入力の勾配とのアライメントに依存していることを明確に示している。 本研究では,低次元逆摂動を効率的に生成するためのヒューリスティック手法の最近の成功を理論的に説明する。 さらに,実験により理論的結果を確認した。

In this note, we initiate a rigorous study of the phenomenon of low-dimensional adversarial perturbations in classification. These are adversarial perturbations wherein, unlike the classical setting, the attacker's search is limited to a low-dimensional subspace of the feature space. The goal is to fool the classifier into flipping its decision on a nonzero fraction of inputs from a designated class, upon the addition of perturbations from a subspace chosen by the attacker and fixed once and for all. It is desirable that the dimension $k$ of the subspace be much smaller than the dimension $d$ of the feature space, while the norm of the perturbations should be negligible compared to the norm of a typical data point. In this work, we consider binary classification models under very general regularity conditions, which are verified by certain feedforward neural networks (e.g., with sufficiently smooth, or else ReLU activation function), and compute analytical lower-bounds for the fooling rate of any subspace. These bounds explicitly highlight the dependence that the fooling rate has on the margin of the model (i.e., the ratio of the output to its $L_2$-norm of its gradient at a test point), and on the alignment of the given subspace with the gradients of the model w.r.t. inputs. Our results provide a theoretical explanation for the recent success of heuristic methods for efficiently generating low-dimensional adversarial perturbations. Moreover, our theoretical results are confirmed by experiments.
翻訳日:2022-03-28 12:40:01 公開日:2022-03-25
# 変形可能な蝶:高度に構造化されスパースな線形変換

Deformable Butterfly: A Highly Structured and Sparse Linear Transform ( http://arxiv.org/abs/2203.13556v1 )

ライセンス: Link先を確認
Rui Lin, Jie Ran, King Hung Chiu, Graziano Chesi, and Ngai Wong(参考訳) Deformable Butterfly (DeBut) と呼ばれる新しい線形変換を導入し、従来のバタフライ行列を一般化し、様々な入力出力次元に適応させることができる。 従来の蝶のきめ細かい粒度の学習可能な階層を継承し、ニューラルネットワークにデプロイすると、DeBut層の顕著な構造と空間がネットワーク圧縮の新しい方法を構成する。 我々は,標準完全連結層および畳み込み層のドロップイン置換としてデビューを応用し,ニューラルネットワークの均質化においてその優位性を実証し,その精度を損なうことなく,軽量や低推論の複雑さといった優れた特性を提示する。 DeBut層の無数の変形から生じる自然の複雑さと精度のトレードオフは、分析的および実用的な研究のための新しい部屋を開く。 コードとAppendixは、https://github.com/r uilin0212/DeBut.comで公開されている。

We introduce a new kind of linear transform named Deformable Butterfly (DeBut) that generalizes the conventional butterfly matrices and can be adapted to various input-output dimensions. It inherits the fine-to-coarse-grain ed learnable hierarchy of traditional butterflies and when deployed to neural networks, the prominent structures and sparsity in a DeBut layer constitutes a new way for network compression. We apply DeBut as a drop-in replacement of standard fully connected and convolutional layers, and demonstrate its superiority in homogenizing a neural network and rendering it favorable properties such as light weight and low inference complexity, without compromising accuracy. The natural complexity-accuracy tradeoff arising from the myriad deformations of a DeBut layer also opens up new rooms for analytical and practical research. The codes and Appendix are publicly available at: https://github.com/r uilin0212/DeBut.
翻訳日:2022-03-28 12:39:09 公開日:2022-03-25
# 位相整合等級プルーニングを有する軽量グラフ畳み込みネットワーク

Lightweight Graph Convolutional Networks with Topologically Consistent Magnitude Pruning ( http://arxiv.org/abs/2203.13616v1 )

ライセンス: Link先を確認
Hichem Sahbi(参考訳) グラフ畳み込みネットワーク(GCN)は現在、不規則データによる学習で主流である。 これらのモデルは、コンテキストとノード間関係をキャプチャするメッセージパッシングとアテンションメカニズムに依存している。 マルチヘッドの注目により、GCNは高度に正確だがサイズが大きすぎる。 しかし、ハイレジームでのプルーニングは通常、弱一般化を伴う位相的に一貫性のないネットワークにつながる。 本稿では,軽量GCN設計のための新しい手法を提案する。 提案手法は, トポロジ的整合性を確保しつつ, 最大等級のサブネットワークを解析し, 選択する。 後者は、選択したサブネットの評価に実際に寄与するアクセス可能かつ共アクセス可能な接続のみを選択して得られる。 挑戦的なFPHAデータセットを用いて行った実験は、特に非常に高いプルーニング条件下で、トポロジカルに一貫したプルーニング手法のかなりの利益を示している。

Graph convolution networks (GCNs) are currently mainstream in learning with irregular data. These models rely on message passing and attention mechanisms that capture context and node-to-node relationships. With multi-head attention, GCNs become highly accurate but oversized, and their deployment on cheap devices requires their pruning. However, pruning at high regimes usually leads to topologically inconsistent networks with weak generalization. In this paper, we devise a novel method for lightweight GCN design. Our proposed approach parses and selects subnetworks with the highest magnitudes while guaranteeing their topological consistency. The latter is obtained by selecting only accessible and co-accessible connections which actually contribute in the evaluation of the selected subnetworks. Experiments conducted on the challenging FPHA dataset show the substantial gain of our topologically consistent pruning method especially at very high pruning regimes.
翻訳日:2022-03-28 12:38:54 公開日:2022-03-25
# 双方向結合ネットワークを用いたネットワーク幅探索

Searching for Network Width with Bilaterally Coupled Network ( http://arxiv.org/abs/2203.13714v1 )

ライセンス: Link先を確認
Xiu Su, Shan You, Jiyang Xie, Fei Wang, Chen Qian, Changshui Zhang, Chang Xu(参考訳) 近年、よりコンパクトなネットワーク幅の探索は、ハードウェア制約下で畳み込みニューラルネットワーク(cnns)を展開するためのチャネルプルーニングの効果的な方法となっている。 探索を実現するために、通常、ワンショットスーパーネットを利用して、ネットワーク幅の異なる性能を効率的に評価する。 しかし、現在の手法は主に、各幅の評価のための \textit{unilaterally augmented} (UA) の原則に従っており、スーパーネットにおけるチャネルのトレーニングの不公平性を誘導する。 本稿では,この問題を解決するために,バイラテラル結合ネットワーク (BCNet) と呼ばれる新しいスーパーネットを提案する。 bcnetでは、各チャネルは十分に訓練され、同じネットワーク幅に責任があるため、各ネットワーク幅をより正確に評価することができる。 さらに、冗長な検索スペースを削減し、BCNetV2を拡張スーパーネットとして提示し、チャネルに対する厳密なトレーニングフェアネスを確保することを提案する。 さらに,bcnetを訓練するための確率的補完戦略を活用し,進化的探索の性能を高めるために先行的な初期個体群サンプリング手法を提案する。 また, 幅探索アルゴリズムの精度向上のために, channel-bench-macro というマクロ構造に関する最初のオープンソース幅ベンチマークを提案する。 CIFAR-10とImageNetデータセットのベンチマーク実験により,我々の手法は,他のベースライン手法よりも最先端あるいは競合的な性能を達成できることが示唆された。 さらに,ネットワーク幅を改良することでNASモデルの性能をさらに向上することが判明した。 例えば、同じフロップス予算で得られた efficientnet-b0 は imagenet データセット上で 77.53\% top-1 精度を達成し、オリジナルの設定性能を 0.65\% 上回った。

Searching for a more compact network width recently serves as an effective way of channel pruning for the deployment of convolutional neural networks (CNNs) under hardware constraints. To fulfill the searching, a one-shot supernet is usually leveraged to efficiently evaluate the performance \wrt~different network widths. However, current methods mainly follow a \textit{unilaterally augmented} (UA) principle for the evaluation of each width, which induces the training unfairness of channels in supernet. In this paper, we introduce a new supernet called Bilaterally Coupled Network (BCNet) to address this issue. In BCNet, each channel is fairly trained and responsible for the same amount of network widths, thus each network width can be evaluated more accurately. Besides, we propose to reduce the redundant search space and present the BCNetV2 as the enhanced supernet to ensure rigorous training fairness over channels. Furthermore, we leverage a stochastic complementary strategy for training the BCNet, and propose a prior initial population sampling method to boost the performance of the evolutionary search. We also propose the first open-source width benchmark on macro structures named Channel-Bench-Macro for the better comparison of width search algorithms. Extensive experiments on benchmark CIFAR-10 and ImageNet datasets indicate that our method can achieve state-of-the-art or competing performance over other baseline methods. Moreover, our method turns out to further boost the performance of NAS models by refining their network widths. For example, with the same FLOPs budget, our obtained EfficientNet-B0 achieves 77.53\% Top-1 accuracy on ImageNet dataset, surpassing the performance of original setting by 0.65\%.
翻訳日:2022-03-28 12:38:39 公開日:2022-03-25
# 効率的なVDVAE: より少ない

Efficient-VDVAE: Less is more ( http://arxiv.org/abs/2203.13751v1 )

ライセンス: Link先を確認
Louay Hazami, Rayhane Mama, Ragavan Thurairatnam(参考訳) 階層型VAEは近年,最大推定のための信頼性の高い選択肢として出現している。 しかし、不安定な問題や計算要求がこの地域の研究を妨げている。 私たちは、非常に深いvaeをシンプルに修正して、最大2.6\times$を速くし、最大20\times$のメモリ負荷を節約し、トレーニング中に安定性を向上させます。 これらの変更にもかかわらず、我々のモデルは、私たちが評価した7ドルの一般的な画像データセットに対して、現在の最先端モデルと比べて、同等またはより良い負のログライクなパフォーマンスを達成する。 また,5ビット量子化による望ましくないバイアスによる階層的VAEの性能の測定方法として,5ビットベンチマークの使用に反対している。 さらに、階層型VAEの潜時空間次元の約3.5%は、性能を損なわずに画像情報のほとんどを符号化するのに十分であり、下流タスクにおける階層型VAEの潜時空間を効率的に活用するために扉を開くことを実証的に実証した。 私たちはソースコードとモデルをhttps://github.com/R ayhane-mamah/Efficie nt-VDVAEでリリースしています。

Hierarchical VAEs have emerged in recent years as a reliable option for maximum likelihood estimation. However, instability issues and demanding computational requirements have hindered research progress in the area. We present simple modifications to the Very Deep VAE to make it converge up to $2.6\times$ faster, save up to $20\times$ in memory load and improve stability during training. Despite these changes, our models achieve comparable or better negative log-likelihood performance than current state-of-the-art models on all $7$ commonly used image datasets we evaluated on. We also make an argument against using 5-bit benchmarks as a way to measure hierarchical VAE's performance due to undesirable biases caused by the 5-bit quantization. Additionally, we empirically demonstrate that roughly $3\%$ of the hierarchical VAE's latent space dimensions is sufficient to encode most of the image information, without loss of performance, opening up the doors to efficiently leverage the hierarchical VAEs' latent space in downstream tasks. We release our source code and models at https://github.com/R ayhane-mamah/Efficie nt-VDVAE .
翻訳日:2022-03-28 12:38:09 公開日:2022-03-25
# プログラム合成のための会話パラダイム

A Conversational Paradigm for Program Synthesis ( http://arxiv.org/abs/2203.13474v1 )

ライセンス: Link先を確認
Erik Nijkamp, Bo Pang, Hiroaki Hayashi, Lifu Tu, Huan Wang, Yingbo Zhou, Silvio Savarese, Caiming Xiong(参考訳) プログラム合成は、与えられた問題仕様に対する解決策としてコンピュータプログラムを生成する。 そこで本研究では,大規模言語モデルを用いた対話型プログラム合成手法を提案する。 我々の新しいアプローチは、ユーザとシステム間のマルチターン会話として仕様とプログラムを書く過程をキャストする。 仕様を自然言語で表現し、所望のプログラムを条件付きサンプリングしたシーケンス予測問題としてプログラム合成を扱う。 自然言語とプログラミング言語のデータに基づいて、codegenと呼ばれる大規模な言語モデルをトレーニングします。 データに対する監督の弱さと、データサイズとモデルサイズのスケールアップにより、単純な自己回帰言語モデリングから会話能力が生まれる。 対話型プログラム合成におけるモデル動作を研究するために,ユーザとモデル間のマルチターン対話による多段階合成を必要とするマルチターンプログラミングベンチマーク(MTPB)を開発した。 本研究は,会話能力の出現と,提案した会話プログラム合成パラダイムの有効性を示すものである。 さらに、私たちのモデルであるCodeGen(TPU-v4でトレーニングされた最大16Bのパラメータ)は、OpenAIのCodex on the HumanEvalベンチマークを上回っています。 トレーニングライブラリのJaxFormerには、オープンソースとして利用可能なチェックポイントを含める予定です。

Program synthesis strives to generate a computer program as a solution to a given problem specification. We propose a conversational program synthesis approach via large language models, which addresses the challenges of searching over a vast program space and user intent specification faced in prior approaches. Our new approach casts the process of writing a specification and program as a multi-turn conversation between a user and a system. It treats program synthesis as a sequence prediction problem, in which the specification is expressed in natural language and the desired program is conditionally sampled. We train a family of large language models, called CodeGen, on natural language and programming language data. With weak supervision in the data and the scaling up of data size and model size, conversational capacities emerge from the simple autoregressive language modeling. To study the model behavior on conversational program synthesis, we develop a multi-turn programming benchmark (MTPB), where solving each problem requires multi-step synthesis via multi-turn conversation between the user and the model. Our findings show the emergence of conversational capabilities and the effectiveness of the proposed conversational program synthesis paradigm. In addition, our model CodeGen (with up to 16B parameters trained on TPU-v4) outperforms OpenAI's Codex on the HumanEval benchmark. We plan to make the training library JaxFormer including checkpoints available as open source.
翻訳日:2022-03-28 12:36:04 公開日:2022-03-25
# グラフニューラルネットワークを用いたスパース報酬の処理

Dealing with Sparse Rewards Using Graph Neural Networks ( http://arxiv.org/abs/2203.13424v1 )

ライセンス: Link先を確認
Matvey Gerasyov, Ilya Makarov(参考訳) 部分的に観察可能な環境での深層強化学習は、それ自体は難しい作業であり、スパース報酬信号によってさらに複雑になる可能性がある。 三次元環境におけるナビゲーションに関わるほとんどのタスクは、エージェントに極めて限られた情報を提供する。 通常、エージェントは環境から視覚的観察入力を受け取り、エピソードの終わりに一度報酬が与えられる。 優れた報酬関数は、そのようなタスクに対する強化学習アルゴリズムの収束を大幅に改善することができる。 報酬信号の密度を高める古典的なアプローチは、それを補足的な報酬で増やすことである。 この技法は報酬形成と呼ばれる。 本研究では,グラフ畳み込みネットワークに基づく報酬生成手法の2つの改良点を提案する。 我々は,3次元環境におけるナビゲーション作業におけるソリューションの有効性を,少ない報酬で実証的に検証した。 また,注意機構を特徴とする解については,学習した注意が3次元環境における重要な遷移に対応するエッジに集中していることを示すことができる。

Deep reinforcement learning in partially observable environments is a difficult task in itself, and can be further complicated by a sparse reward signal. Most tasks involving navigation in three-dimensional environments provide the agent with extremely limited information. Typically, the agent receives a visual observation input from the environment and is rewarded once at the end of the episode. A good reward function could substantially improve the convergence of reinforcement learning algorithms for such tasks. The classic approach to increase the density of the reward signal is to augment it with supplementary rewards. This technique is called the reward shaping. In this study, we propose two modifications of one of the recent reward shaping methods based on graph convolutional networks: the first involving advanced aggregation functions, and the second utilizing the attention mechanism. We empirically validate the effectiveness of our solutions for the task of navigation in a 3D environment with sparse rewards. For the solution featuring attention mechanism, we are also able to show that the learned attention is concentrated on edges corresponding to important transitions in 3D environment.
翻訳日:2022-03-28 12:35:47 公開日:2022-03-25
# MIMに基づくGANから異常検出:生成的対向ネットワークに対する事象確率の影響

From MIM-Based GAN to Anomaly Detection:Event Probability Influence on Generative Adversarial Networks ( http://arxiv.org/abs/2203.13464v1 )

ライセンス: Link先を確認
Rui She and Pingyi Fan(参考訳) ディープラーニング技術を異常検出に導入するためには,GAN(Generative Adversarial Networks)がアルゴリズム設計や現実的なアプリケーションにおいて重要な役割を担うと考えられる。 GANの観点では、目的関数に反映される事象確率は、GANベースの異常検出において重要な役割を果たす事象生成に影響を及ぼす。 元のGANにおけるKulback-Leiblerの発散などの情報メトリクスは、目的関数を異なる事象確率に対して異なる感度を持つようにし、データ生成に影響を与えることにより、GANベースの異常検出を洗練する機会を提供する。 本稿では、データ生成に優れた特徴を理論的に論じるMIMベースのGANとして、指数情報メトリクスをGANに導入する。 さらに,MIMに基づくGANを用いた異常検出手法を提案するとともに,確率事象発生の観点から教師なし学習事例の原理を説明する。 本手法は, 環境, 医療, 生化学的異常などのモノのインターネット(IoT)の異常を検出することを約束しているため, オンラインODDSリポジトリから複数のデータセットを用いて, その性能を評価し, 他の手法と比較する。

In order to introduce deep learning technologies into anomaly detection, Generative Adversarial Networks (GANs) are considered as important roles in the algorithm design and realistic applications. In terms of GANs, event probability reflected in the objective function, has an impact on the event generation which plays a crucial part in GAN-based anomaly detection. The information metric, e.g. Kullback-Leibler divergence in the original GAN, makes the objective function have different sensitivity on different event probability, which provides an opportunity to refine GAN-based anomaly detection by influencing data generation. In this paper, we introduce the exponential information metric into the GAN, referred to as MIM-based GAN, whose superior characteristics on data generation are discussed in theory. Furthermore, we propose an anomaly detection method with MIM-based GAN, as well as explain its principle for the unsupervised learning case from the viewpoint of probability event generation. Since this method is promising to detect anomalies in Internet of Things (IoT), such as environmental, medical and biochemical outliers, we make use of several datasets from the online ODDS repository to evaluate its performance and compare it with other methods.
翻訳日:2022-03-28 12:35:33 公開日:2022-03-25
# LAMBDA:検索空間量子化によるブラックボックス不平等の解集合をカバーする

LAMBDA: Covering the Solution Set of Black-Box Inequality by Search Space Quantization ( http://arxiv.org/abs/2203.13708v1 )

ライセンス: Link先を確認
Lihao Liu, Tianyue Feng, Xingyu Xing, Junyi Chen(参考訳) ブラックボックス関数は、明示的な情報しか提供しない複雑な問題をモデル化するために広く使われている。 ブラックボックス関数の最適化に関する既存の研究にもかかわらず、ブラックボックス関数の不等式を満たす解集合は、多くの実用的な状況において1つだけより重要な役割を果たす。 ブラックボックスの目的関数に対する限定的な評価を通じて可能な限り解集合を被覆することは、本論文のブラックボックスカバレッジ(bbc)問題として定義される。 この問題をサンプルベースの検索パラダイムで定式化し,混乱行列解析を用いたカバレッジ基準を構築した。 さらに, LAMBDA (Latent-Action Monte-Carlo Beam Search with Density Adaption) を提案する。 LAMBDAは、検索空間を受理されたサブ空間に再帰的に分割することで、素早く設定されたソリューションに焦点を合わせることができる。 la-mctsと比較すると、lambdaは最適化のサンプリングバイアスを克服し、さらなる探索を得るために密度情報を導入する。 ベンチマークの結果、LAMBDAはすべてのベースラインで最先端のパフォーマンスを達成し、Random Searchの95%のカバレッジを得るには少なくとも33倍高速だった。 また、LAMBDAは仮想テストにおける自律システムの検証において有望な未来を持っていることを示す実験もある。

Black-box functions are broadly used to model complex problems that provide no explicit information but the input and output. Despite existing studies of black-box function optimization, the solution set satisfying an inequality with a black-box function plays a more significant role than only one optimum in many practical situations. Covering as much as possible of the solution set through limited evaluations to the black-box objective function is defined as the Black-Box Coverage (BBC) problem in this paper. We formalized this problem in a sample-based search paradigm and constructed a coverage criterion with Confusion Matrix Analysis. Further, we propose LAMBDA (Latent-Action Monte-Carlo Beam Search with Density Adaption) to solve BBC problems. LAMBDA can focus around the solution set quickly by recursively partitioning the search space into accepted and rejected sub-spaces. Compared with La-MCTS, LAMBDA introduces density information to overcome the sampling bias of optimization and obtain more exploration. Benchmarking shows, LAMBDA achieved state-of-the-art performance among all baselines and was at most 33x faster to get 95% coverage than Random Search. Experiments also demonstrate that LAMBDA has a promising future in the verification of autonomous systems in virtual tests.
翻訳日:2022-03-28 12:35:13 公開日:2022-03-25
# (参考訳) 音声認識のための連鎖型判別オートエンコーダ [全文訳有]

Chain-based Discriminative Autoencoders for Speech Recognition ( http://arxiv.org/abs/2203.13687v1 )

ライセンス: CC BY 4.0
Hung-Shin Lee, Pin-Tuan Huang, Yao-Fei Cheng, Hsin-Min Wang(参考訳) 先行研究では,音声認識のための判別オートエンコーダ(dcae)を提案する。 DcAEは2つのトレーニングスキームを1つにまとめる。 まず、DcAEはエンコーダとデコーダのマッピングを学習することを目的としており、再構成された音声と入力された音声との2乗誤差を最小限に抑える。 第2に、符号層において、基底真理ラベルと予測された三音素状態スコアとのカテゴリ間クロスエントロピーを最小化することにより、フレームベースの音声埋め込みを得る。 DcAEは、様々なTDNNモデルをエンコーダとして扱うことで、カルディツールキットに基づいて開発されている。 本稿では,DcAEの3つの新しいバージョンを提案する。 まず,分類的クロスエントロピーと地上の真理と予測された三音状態列の相互情報の両方を考慮した新たな目的関数を用いる。 DcAEは鎖ベースのDcAE(c-DcAE)と呼ばれる。 頑健な音声認識に適用するために、我々はc-DcAEを階層構造と並列構造に拡張し、hc-DcAEとpc-DcAEをもたらす。 これら2つのモデルにおいて、再構成された雑音音声と入力雑音音声との誤差と、拡張音声と参照クリーン音声との誤差とを目的関数に取り入れる。 WSJ と Aurora-4 コーパスの実験結果から,我々の DcAE モデルがベースラインシステムより優れていることが示された。

In our previous work, we proposed a discriminative autoencoder (DcAE) for speech recognition. DcAE combines two training schemes into one. First, since DcAE aims to learn encoder-decoder mappings, the squared error between the reconstructed speech and the input speech is minimized. Second, in the code layer, frame-based phonetic embeddings are obtained by minimizing the categorical cross-entropy between ground truth labels and predicted triphone-state scores. DcAE is developed based on the Kaldi toolkit by treating various TDNN models as encoders. In this paper, we further propose three new versions of DcAE. First, a new objective function that considers both categorical cross-entropy and mutual information between ground truth and predicted triphone-state sequences is used. The resulting DcAE is called a chain-based DcAE (c-DcAE). For application to robust speech recognition, we further extend c-DcAE to hierarchical and parallel structures, resulting in hc-DcAE and pc-DcAE. In these two models, both the error between the reconstructed noisy speech and the input noisy speech and the error between the enhanced speech and the reference clean speech are taken into the objective function. Experimental results on the WSJ and Aurora-4 corpora show that our DcAE models outperform baseline systems.
翻訳日:2022-03-28 12:33:12 公開日:2022-03-25
# スイニングトランスを用いた顔表情認識

Facial Expression Recognition with Swin Transformer ( http://arxiv.org/abs/2203.13472v1 )

ライセンス: Link先を確認
Jun-Hwa Kim, Namho Kim, Chee Sun Won(参考訳) 人間の表情を認識するタスクは、医療や医療を含む様々な人間関連システムにおいて重要な役割を果たす。 近年のディープラーニングの成功と大量の注釈付きデータのアクセシビリティにより、表情認識の研究は、オーディオ視覚データセットを用いた現実のシナリオで利用できるほど成熟した。 本稿では,Aff-Wild2 Expressionデータセットの帯域内オーディオ視覚データセットに対して,Swin Transformerに基づく顔認識手法を提案する。 具体的には,マルチモーダル情報を表情認識に融合させるために,音声映像に3つのネットワーク(ビジュアルストリーム,テンポラリストリーム,オーディオストリーム)を用いる。 aff-wild2データセットの実験結果は,提案するマルチモーダル手法の有効性を示している。

The task of recognizing human facial expressions plays a vital role in various human-related systems, including health care and medical fields. With the recent success of deep learning and the accessibility of a large amount of annotated data, facial expression recognition research has been mature enough to be utilized in real-world scenarios with audio-visual datasets. In this paper, we introduce Swin transformer-based facial expression approach for an in-the-wild audio-visual dataset of the Aff-Wild2 Expression dataset. Specifically, we employ a three-stream network (i.e., Visual stream, Temporal stream, and Audio stream) for the audio-visual videos to fuse the multi-modal information into facial expression recognition. Experimental results on the Aff-Wild2 dataset show the effectiveness of our proposed multi-modal approaches.
翻訳日:2022-03-28 12:20:09 公開日:2022-03-25
# 高速ハイブリッド画像再ターゲティング

Fast Hybrid Image Retargeting ( http://arxiv.org/abs/2203.13595v1 )

ライセンス: Link先を確認
Daniel Valdez-Balderas, Oleg Muraveynyk, Timothy Smith(参考訳) 画像再ターゲティングは、コンテンツの保存と目に見える歪みの最小化を目指して、画像のアスペクト比を変化させる。 画像と表示のアスペクト比が多種多様であるため、高速で高品質な手法が現在特に重要である。 そこで本研究では,コンテンツアウェア・クロッピングを用いて変形歪みを定量化し制限する再ターゲティング手法を提案する。 提案手法のパイプラインは以下のステップで構成されている。 まず、深部意味セグメンテーションおよび塩分検出モデルを用いて、ソース画像の重要性マップを生成する。 そして、軸方向の変形を用いて予備整合メッシュを演算し、歪み測定を用いて強化して低整合変形を確保する。 最後に、コンテンツ認識クロッピングアルゴリズムを用いて再ターゲティング画像を生成する。 本手法を評価するために,retargetmeベンチマークを用いてユーザ調査を行った。 実験の結果,提案手法は実行時間のごく一部で実行しながら,最近の手法よりも優れていることがわかった。

Image retargeting changes the aspect ratio of images while aiming to preserve content and minimise noticeable distortion. Fast and high-quality methods are particularly relevant at present, due to the large variety of image and display aspect ratios. We propose a retargeting method that quantifies and limits warping distortions with the use of content-aware cropping. The pipeline of the proposed approach consists of the following steps. First, an importance map of a source image is generated using deep semantic segmentation and saliency detection models. Then, a preliminary warping mesh is computed using axis aligned deformations, enhanced with the use of a distortion measure to ensure low warping deformations. Finally, the retargeted image is produced using a content-aware cropping algorithm. In order to evaluate our method, we perform a user study based on the RetargetMe benchmark. Experimental analyses show that our method outperforms recent approaches, while running in a fraction of their execution time.
翻訳日:2022-03-28 12:19:57 公開日:2022-03-25
# L3Cube-MahaHate: ツイートベースのMarathi Hate音声検出データセットとBERTモデル

L3Cube-MahaHate: A Tweet-based Marathi Hate Speech Detection Dataset and BERT models ( http://arxiv.org/abs/2203.13778v1 )

ライセンス: Link先を確認
Abhishek Velankar, Hrushikesh Patil, Amol Gore, Shubham Salunke, Raviraj Joshi(参考訳) ソーシャルメディアプラットフォームは、多くの人々が自分の考えや意見を表現するためによく使われている。 しかし、これらのプラットフォームは相当量の憎悪や虐待的なコンテンツにも貢献している。 したがって,これらのプラットフォーム上でのヘイトスピーチの拡散を抑制することが重要である。 インドでは、マラーティ語は広く使われている言語の一つである。 本稿では,マラタイにおける最初のHate Speech DatasetであるL3Cube-MahaHateを紹介する。 データセットはtwitterから収集され、手動で注釈付けされる。 私たちのデータセットは、25,000以上の異なるツイートからなり、憎しみ、攻撃的、挑発的、そしてそうでない4つの主要なクラスにラベル付けされています。 本稿では,データの収集とアノテートに使用されるアプローチと,プロセス中に直面する課題について述べる。 最後に,CNN,LSTM,Transforme rに基づくディープラーニングモデルを用いて,ベースライン分類結果を示す。 我々は,MahaBERT,IndicBERT, mBERT,xlm-RoBERTaといったBERTの単言語モデルおよび多言語モデルについて検討し,単言語モデルが多言語モデルよりも優れていることを示す。 MahaBERTモデルはL3Cube-MahaHate Corpusで最高の結果を提供する。 データとモデルはhttps://github.com/l 3cube-pune/marathinl pで入手できる。

Social media platforms are used by a large number of people prominently to express their thoughts and opinions. However, these platforms have contributed to a substantial amount of hateful and abusive content as well. Therefore, it is important to curb the spread of hate speech on these platforms. In India, Marathi is one of the most popular languages used by a wide audience. In this work, we present L3Cube-MahaHate, the first major Hate Speech Dataset in Marathi. The dataset is curated from Twitter, annotated manually. Our dataset consists of over 25000 distinct tweets labeled into four major classes i.e hate, offensive, profane, and not. We present the approaches used for collecting and annotating the data and the challenges faced during the process. Finally, we present baseline classification results using deep learning models based on CNN, LSTM, and Transformers. We explore mono-lingual and multi-lingual variants of BERT like MahaBERT, IndicBERT, mBERT, and xlm-RoBERTa and show that mono-lingual models perform better than their multi-lingual counterparts. The MahaBERT model provides the best results on L3Cube-MahaHate Corpus. The data and models are available at https://github.com/l 3cube-pune/MarathiNL P .
翻訳日:2022-03-28 12:19:22 公開日:2022-03-25
# r/c建築物の地震被害予測のための機械学習アルゴリズムの比較評価

A Comparative Evaluation of Machine Learning Algorithms for the Prediction of R/C Buildings' Seismic Damage ( http://arxiv.org/abs/2203.13449v1 )

ライセンス: Link先を確認
Konstantinos Demertzis, Konstantinos Kostinakis, Konstantinos Morfidis and Lazaros Iliadis(参考訳) 建築物の耐震性評価と構造的損傷の判定は, 近代科学的研究の最前線にある。 それ以来、いくつかの研究者が、時間を要する解析を行わずに強震動を受ける建物の損傷応答を推定するために、いくつかの手順を提案している。 これらの手順、例えば、フレジティ曲線の構成は、通常、統計理論の適用に基づく方法を利用する。 過去数十年間、コンピュータのパワーは増加し、機械学習アルゴリズムの採用に基づく現代のソフトコンピューティング手法の開発につながった。 本稿では,r/c建築物の地震応答を適切に予測するために,各種機械学習手法の能力比較を行った。 トレーニングデータセットは、3つの異なる石造りの埋蔵物分布を持つ90の3次元R/C建築物の非線形時間履歴解析により作成され、65の地震にさらされる。 地震被害は最大層間ドリフト比で表される。 大規模な比較研究は、最も効率的な機械学習アルゴリズムによって利用される。 実験の結果,LightGBM手法はトレーニングの安定性,全体的な性能,建物損傷の予測能力を推定する決定係数を著しく向上させることがわかった。 極めて緊急な問題のため、民間の保護機構は、彼らの技術システムにおいて科学的方法論と、提案されたもののような適切な技術やモデリングツールを取り入れる必要がある。

Seismic assessment of buildings and determination of their structural damage is at the forefront of modern scientific research. Since now, several researchers have proposed a number of procedures, in an attempt to estimate the damage response of the buildings subjected to strong ground motions, without conducting time-consuming analyses. These procedures, e.g. construction of fragility curves, usually utilize methods based on the application of statistical theory. In the last decades, the increase of the computers' power has led to the development of modern soft computing methods based on the adoption of Machine Learning algorithms. The present paper attempts an extensive comparative evaluation of the capability of various Machine Learning methods to adequately predict the seismic response of R/C buildings. The training dataset is created by means of Nonlinear Time History Analyses of 90 3D R/C buildings with three different masonry infills' distributions, which are subjected to 65 earthquakes. The seismic damage is expressed in terms of the Maximum Interstory Drift Ratio. A large-scale comparison study is utilized by the most efficient Machine Learning algorithms. The experimentation shows that the LightGBM approach produces training stability, high overall performance and a remarkable coefficient of determination to estimate the ability to predict the buildings' damage response. Due to the extremely urgent issue, civil protection mechanisms need to incorporate in their technological systems scientific methodologies and appropriate technical or modeling tools such as the proposed one, which can offer valuable assistance in making optimal decisions.
翻訳日:2022-03-28 12:16:49 公開日:2022-03-25
# スライスドワッサースタイン生成モデルに対する不定形射影最適化

Amortized Projection Optimization for Sliced Wasserstein Generative Models ( http://arxiv.org/abs/2203.13417v1 )

ライセンス: Link先を確認
Khai Nguyen and Nhat Ho(参考訳) スライスされたwasserstein距離を応用する際には、有益な投影方向を求めることが重要な課題である。 しかし、これらの方向を見つけるには、通常、投影方向の空間上の反復最適化手順が必要である。 さらに,2つのミニバッチ確率測度間の距離を数回繰り返す深層学習アプリケーションでは,計算問題がさらに深刻である。 このネストループは、実際の良好な投影に基づくスライスされたワッサーシュタイン距離の使用を防止する主要な課題の1つである。 この課題に対処するために,学習最適化手法や償却最適化手法を用いて,任意の2つのミニバッチ確率測度の情報的方向を予測することを提案する。 私たちの知る限りでは、これはamortized optimizationとsliced wasserstein generative modelを橋渡しした最初の作品です。 特に,線形アモルト化モデル,一般化線形アモルト化モデル,および3種類の新しいミニバッチ損失に対応する非線形アモルト化モデルを導出する。 標準ベンチマークデータセット上での深部生成モデルにおいて,提案したスライス損失の良好な性能を示す。

Seeking informative projecting directions has been an important task in utilizing sliced Wasserstein distance in applications. However, finding these directions usually requires an iterative optimization procedure over the space of projecting directions, which is computationally expensive. Moreover, the computational issue is even more severe in deep learning applications, where computing the distance between two mini-batch probability measures is repeated several times. This nested-loop has been one of the main challenges that prevent the usage of sliced Wasserstein distances based on good projections in practice. To address this challenge, we propose to utilize the learning-to-optimize technique or amortized optimization to predict the informative direction of any given two mini-batch probability measures. To the best of our knowledge, this is the first work that bridges amortized optimization and sliced Wasserstein generative models. In particular, we derive linear amortized models, generalized linear amortized models, and non-linear amortized models which are corresponding to three types of novel mini-batch losses, named amortized sliced Wasserstein. We demonstrate the favorable performance of the proposed sliced losses in deep generative modeling on standard benchmark datasets.
翻訳日:2022-03-28 12:15:54 公開日:2022-03-25
# グラフ依存学習のための一般化境界:調査

Generalization bounds for learning under graph-dependence: A survey ( http://arxiv.org/abs/2203.13534v1 )

ライセンス: Link先を確認
Rui-Ray Zhang, Massih-Reza Amini(参考訳) 伝統的な統計的学習理論は、データが与えられた分布(d)から同一かつ独立に生成されるという仮定に依存している。 一方、独立に分散された仮定は、多くの実アプリケーションにおいて成り立たない。 本研究では,実例が依存する学習環境と,その依存関係がグラフによって特徴づけられることを考察する。 様々なグラフ依存濃度境界を収集し、グラフ依存データから学習するためのラデマッハおよび安定性一般化境界を導出する。 このパラダイムを3つの学習タスクで説明し,今後の作業に向けた研究の方向性を示す。 私たちの知る限りでは、この問題に関する最初の調査である。

Traditional statistical learning theory relies on the assumption that data are identically and independently generated from a given distribution (i.i.d.). The independently distributed assumption, on the other hand, fails to hold in many real applications. In this survey, we consider learning settings in which examples are dependent and their dependence relationship can be characterized by a graph. We collect various graph-dependent concentration bounds, which are then used to derive Rademacher and stability generalization bounds for learning from graph-dependent data. We illustrate this paradigm with three learning tasks and provide some research directions for future work. To the best of our knowledge, this is the first survey on this subject.
翻訳日:2022-03-28 12:15:35 公開日:2022-03-25
# (参考訳) ロバスト音声認識のための音声強調・雑音認識ネットワーク [全文訳有]

Speech-enhanced and Noise-aware Networks for Robust Speech Recognition ( http://arxiv.org/abs/2203.13696v1 )

ライセンス: CC BY 4.0
Hung-Shin Lee, Pin-Yuan Chen, Yu Tsao, Hsin-Min Wang(参考訳) 頑健な自動音声認識にはチャネルミスマッチと雑音干渉の補償が不可欠である。 一般化能力を向上させるため、音響モデルのマルチ条件訓練に強化音声を導入している。 本稿では,2つのカスケードニューラルネットワーク構造に基づく雑音認識学習フレームワークを提案し,音声強調と音声認識を共同で最適化する。 特徴強調モジュールはマルチタスクオートエンコーダで構成され、ノイズの多い音声をクリーンな音声とノイズに分解する。 音響モデルモジュールは、各フレームの高機能化、雑音認識、ノイズを結合することにより、予測された状態列と実際の状態列との交叉エントロピーを最適化し、各特徴拡張されたフレームをトリホン状態にマッピングする。 因子化時間遅延ニューラルネットワーク (tdnn-f) とその畳み込み型 (cnn-tdnnf) に加えて, 2つのシステムはそれぞれ3.90%と3.55%の単語誤り率 (wer) を達成している。 CNN-TDNNF ベースのシステムは,Bigram と Trigram の言語モデルを用いた復号化システムと比較して,それぞれ 15.20% と 33.53% の WER 削減を実現している。 さらに,提案したCNN-TDNNFベースのシステムは,AMIタスクにおけるベースラインCNN-TDNNFシステムよりも優れている。

Compensation for channel mismatch and noise interference is essential for robust automatic speech recognition. Enhanced speech has been introduced into the multi-condition training of acoustic models to improve their generalization ability. In this paper, a noise-aware training framework based on two cascaded neural structures is proposed to jointly optimize speech enhancement and speech recognition. The feature enhancement module is composed of a multi-task autoencoder, where noisy speech is decomposed into clean speech and noise. By concatenating its enhanced, noise-aware, and noisy features for each frame, the acoustic-modeling module maps each feature-augmented frame into a triphone state by optimizing the lattice-free maximum mutual information and cross entropy between the predicted and actual state sequences. On top of the factorized time delay neural network (TDNN-F) and its convolutional variant (CNN-TDNNF), both with SpecAug, the two proposed systems achieve word error rate (WER) of 3.90% and 3.55%, respectively, on the Aurora-4 task. Compared with the best existing systems that use bigram and trigram language models for decoding, the proposed CNN-TDNNF-based system achieves a relative WER reduction of 15.20% and 33.53%, respectively. In addition, the proposed CNN-TDNNF-based system also outperforms the baseline CNN-TDNNF system on the AMI task.
翻訳日:2022-03-28 12:13:55 公開日:2022-03-25
# 実践的コミュニケーションへの格差を媒介する学習

Learning to Mediate Disparities Towards Pragmatic Communication ( http://arxiv.org/abs/2203.13685v1 )

ライセンス: Link先を確認
Yuwei Bao, Sayan Ghosh, Joyce Chai(参考訳) 人間のコミュニケーションは協調的なプロセスです。 話者は、自身の意図を伝えることに加えて、知識の背景、個性、身体的能力など、リスナーを考慮に入れて、コンテンツと言語表現を調整する。 言語コミュニケーションに類似した能力を持つAIエージェントの構築を目指して,Rational Speech Act(RSA)を拡張するフレームワークであるPragmatic Rational Speaker(PRS)を提案する。 prsは、話者の長期記憶システム上に作業メモリに軽量な不均等調整層を付加することにより、話者選好不等を学習し、それに応じて音声を調整する。 長期メモリを修正することで、PSSは様々なタイプのリスナを学習し適応するためにのみ、動作メモリを更新する。 フレームワークを検証するために、参照ゲームにおける様々なタイプの話者-リスナー格差をシミュレートするデータセットを作成する。 我々の経験的結果は、PSSが、リスナーが理解し、協調作業の結果を大幅に改善できる言語にアウトプットをシフトできることを示します。

Human communication is a collaborative process. Speakers, on top of conveying their own intent, adjust the content and language expressions by taking the listeners into account, including their knowledge background, personalities, and physical capabilities. Towards building AI agents with similar abilities in language communication, we propose Pragmatic Rational Speaker (PRS), a framework extending Rational Speech Act (RSA). The PRS attempts to learn the speaker-listener disparity and adjust the speech accordingly, by adding a light-weighted disparity adjustment layer into working memory on top of speaker's long-term memory system. By fixing the long-term memory, the PRS only needs to update its working memory to learn and adapt to different types of listeners. To validate our framework, we create a dataset that simulates different types of speaker-listener disparities in the context of referential games. Our empirical results demonstrate that the PRS is able to shift its output towards the language that listener are able to understand, significantly improve the collaborative task outcome.
翻訳日:2022-03-28 11:59:17 公開日:2022-03-25
# 協調型コントラストエネルギーベースモデルによる対向訓練の生成能力の理解

A Unified Contrastive Energy-based Model for Understanding the Generative Ability of Adversarial Training ( http://arxiv.org/abs/2203.13455v1 )

ライセンス: Link先を確認
Yifei Wang, Yisen Wang, Jiansheng Yang, Zhouchen Lin(参考訳) adversarial training(at)は、ディープニューラルネットワークの堅牢性を高める効果的なアプローチとして知られている。 近年の研究者たちは、ATを用いた頑健なモデルには優れた生成能力があり、リアルな画像を合成できることに気付きました。 本稿では, コントラストエネルギーベースモデル (cem) と呼ばれる統一確率的枠組みを考案することで, この現象を解明する。 一方,頑健性と生成能力の統一的な理解を通じて,atの確率的特徴付けを初めて提供する。 一方、我々の統合フレームワークは、教師なしのシナリオに拡張することができ、教師なしのコントラスト学習をCEMの重要なサンプリングとして解釈することができる。 そこで本研究では,逆学習とサンプリング手法を開発するための原則的手法を提案する。 実験の結果,提案手法は教師なし学習と教師なし学習の両方においてサンプル品質が向上することがわかった。 特に,非教師付き逆サンプリング法は,従来のエネルギーベースモデルよりも優れ,最先端生成モデルに匹敵するcifar-10上で9.61インセプションスコアを達成している。

Adversarial Training (AT) is known as an effective approach to enhance the robustness of deep neural networks. Recently researchers notice that robust models with AT have good generative ability and can synthesize realistic images, while the reason behind it is yet under-explored. In this paper, we demystify this phenomenon by developing a unified probabilistic framework, called Contrastive Energy-based Models (CEM). On the one hand, we provide the first probabilistic characterization of AT through a unified understanding of robustness and generative ability. On the other hand, our unified framework can be extended to the unsupervised scenario, which interprets unsupervised contrastive learning as an important sampling of CEM. Based on these, we propose a principled method to develop adversarial learning and sampling methods. Experiments show that the sampling methods derived from our framework improve the sample quality in both supervised and unsupervised learning. Notably, our unsupervised adversarial sampling method achieves an Inception score of 9.61 on CIFAR-10, which is superior to previous energy-based models and comparable to state-of-the-art generative models.
翻訳日:2022-03-28 11:58:23 公開日:2022-03-25
# Chaos is a Ladder: Augmentation Overlapによるコントラスト学習の新たな理論的理解

Chaos is a Ladder: A New Theoretical Understanding of Contrastive Learning via Augmentation Overlap ( http://arxiv.org/abs/2203.13457v1 )

ライセンス: Link先を確認
Yifei Wang, Qi Zhang, Yisen Wang, Jiansheng Yang, Zhouchen Lin(参考訳) 近年,コントラスト学習は,大規模自己教師あり学習に有望なアプローチとなっている。 しかし、その仕組みに関する理論的理解はまだ不明である。 本稿では,従来の作業では広く採用されていたが,実際にはほとんど実施されていない条件付き独立仮定に頼らず,下流性能の新たな保証を提案する。 我々の新しい理論は、攻撃的なデータ拡張の下で異なるクラス内サンプルの支持がより重なるという洞察に基づいており、正のサンプル(同じサンプルのビュー)を合わせるだけで、クラス内サンプルを対比的に学習することができる。 この拡張重なりの観点から,理論上,より弱い仮定下で下流性能の漸近的に閉じた境界を求め,経験的に下流精度によく適合する教師なしモデル選択距離アークを提案する。 我々の理論は、正のサンプルを整列させる役割は、究極の目標というよりもむしろ代理的なタスクであり、重なり合う拡張ビュー(カオス)は、クラス分離表現を徐々に学習するコントラスト学習の基盤となることを示唆している。 ARCの計算コードはhttps://github.com/z hangq327/ARCで公開されている。

Recently, contrastive learning has risen to be a promising approach for large-scale self-supervised learning. However, theoretical understanding of how it works is still unclear. In this paper, we propose a new guarantee on the downstream performance without resorting to the conditional independence assumption that is widely adopted in previous work but hardly holds in practice. Our new theory hinges on the insight that the support of different intra-class samples will become more overlapped under aggressive data augmentations, thus simply aligning the positive samples (augmented views of the same sample) could make contrastive learning cluster intra-class samples together. Based on this augmentation overlap perspective, theoretically, we obtain asymptotically closed bounds for downstream performance under weaker assumptions, and empirically, we propose an unsupervised model selection metric ARC that aligns well with downstream accuracy. Our theory suggests an alternative understanding of contrastive learning: the role of aligning positive samples is more like a surrogate task than an ultimate goal, and the overlapped augmented views (i.e., the chaos) create a ladder for contrastive learning to gradually learn class-separated representations. The code for computing ARC is available at https://github.com/z hangq327/ARC.
翻訳日:2022-03-28 11:58:05 公開日:2022-03-25
# (参考訳) イベントカメラを用いた空間的状況認識に関する予備的研究 [全文訳有]

A Preliminary Research on Space Situational Awareness Based on Event Cameras ( http://arxiv.org/abs/2203.13093v2 )

ライセンス: CC0 1.0
Kun Xiao, Pengju Li, Guohui Wang, Zhi Li, Yi Chen, Yongfeng Xie, Yuqiang Fang(参考訳) イベントカメラは、従来のカメラとは異なる新しいタイプのセンサーである。 各ピクセルはイベントによって非同期に起動される。 トリガーイベントは、画素に照射された輝度の変化である。 インクリメントまたはデクリメントが特定のしきい値よりも高い場合、イベントは出力される。 従来のカメラと比較して、イベントカメラは高時間分解能、低レイテンシ、高ダイナミックレンジ、低帯域幅、低消費電力の利点がある。 模擬空間照明環境における観測実験を行った。 実験結果から, イベントカメラは, 上記の空間的状況認識の利点をフルに活用できることが示された。 本稿では,まずイベントカメラの基本原理を紹介し,その長所と短所を分析し,観察実験を行い,実験結果を分析し,最後に,イベントカメラに基づく空間状況認識のワークフローについて述べる。

Event camera is a new type of sensor that is different from traditional cameras. Each pixel is triggered asynchronously by an event. The trigger event is the change of the brightness irradiated on the pixel. If the increment or decrement is higher than a certain threshold, the event is output. Compared with traditional cameras, event cameras have the advantages of high temporal resolution, low latency, high dynamic range, low bandwidth and low power consumption. We carried out a series of observation experiments in a simulated space lighting environment. The experimental results show that the event camera can give full play to the above advantages in space situational awareness. This article first introduces the basic principles of the event camera, then analyzes its advantages and disadvantages, then introduces the observation experiment and analyzes the experimental results, and finally, a workflow of space situational awareness based on event cameras is given.
翻訳日:2022-03-28 11:55:29 公開日:2022-03-25
# 顔行動単位を用いた連続的影響に対するランダムフォレスト回帰

Random Forest Regression for continuous affect using Facial Action Units ( http://arxiv.org/abs/2203.12818v2 )

ライセンス: Link先を確認
Saurabh Hinduja and Shaun Canavan and Liza Jivnani and Sk Rahatul Jannat and V Sri Chakra Kumar(参考訳) 本稿では,第3回ワークショップの覚醒とヴァレンストラックへのアプローチと,愛着的行動分析(abaw)に関するコンペについて述べる。 OpenFaceを用いて顔の特徴を抽出し,複数出力のランダムフォレスト回帰器を訓練した。 我々のアプローチはベースラインアプローチに匹敵する性能を示した。

In this paper we describe our approach to the arousal and valence track of the 3rd Workshop and Competition on Affective Behavior Analysis in-the-wild (ABAW). We extracted facial features using OpenFace and used them to train a multiple output random forest regressor. Our approach performed comparable to the baseline approach.
翻訳日:2022-03-28 11:43:31 公開日:2022-03-25
# ターボファンエンジンの排気温度に関する説明可能な人工知能

Explainable Artificial Intelligence for Exhaust Gas Temperature of Turbofan Engines ( http://arxiv.org/abs/2203.13108v2 )

ライセンス: Link先を確認
Marios Kefalas, Juan de Santiago Rojo Jr., Asteris Apostolidis, Dirk van den Herik, Bas van Stein, Thomas B\"ack(参考訳) データ駆動モデリングは、航空工学や商業航空の分野における多くの応用を含む、様々な産業応用において必須のツールである。 これらのモデルは、特定の測定結果においてどのパラメータが重要であるか、または入力パラメータのセットで観察すべきパラメータ値など、重要な洞察を提供する役割を担っている。 しかし、これらのモデルは仮定(定常性など)や「ブラックボックス」(深層ニューラルネットワークなど)に大きく依存しているため、内部動作の解釈性が欠如しており、入力や出力の観点でしか見ることができない。 ブラックボックス」モデルの解釈可能な代替品で、仮定がかなり少ないものはシンボリック回帰(SR)である。 SRは、アプリオリモデル構造に頼ることなく、モデルのパラメータを同時に最適化しながら最適なモデル構造を探索する。 本研究では, 実寿命排気温度(EGT)データにSRを適用し, EGTと他の測定可能なエンジンパラメータ間の有意義な代数的関係を明らかにする。 実験の結果, モデル精度が期待できるとともに, 3{\deg}c の絶対差を, 工学的観点からの一貫性を示すことができた。

Data-driven modeling is an imperative tool in various industrial applications, including many applications in the sectors of aeronautics and commercial aviation. These models are in charge of providing key insights, such as which parameters are important on a specific measured outcome or which parameter values we should expect to observe given a set of input parameters. At the same time, however, these models rely heavily on assumptions (e.g., stationarity) or are "black box" (e.g., deep neural networks), meaning that they lack interpretability of their internal working and can be viewed only in terms of their inputs and outputs. An interpretable alternative to the "black box" models and with considerably less assumptions is symbolic regression (SR). SR searches for the optimal model structure while simultaneously optimizing the model's parameters without relying on an a-priori model structure. In this work, we apply SR on real-life exhaust gas temperature (EGT) data, collected at high frequencies through the entire flight, in order to uncover meaningful algebraic relationships between the EGT and other measurable engine parameters. The experimental results exhibit promising model accuracy, as well as explainability returning an absolute difference of 3{\deg}C compared to the ground truth and demonstrating consistency from an engineering perspective.
翻訳日:2022-03-28 11:43:24 公開日:2022-03-25
# 逆例の自己教師型学習:ディープフェイク検出のための優れた一般化を目指して

Self-supervised Learning of Adversarial Example: Towards Good Generalizations for Deepfake Detection ( http://arxiv.org/abs/2203.12208v2 )

ライセンス: Link先を確認
Liang Chen, Yong Zhang, Yibing Song, Lingqiao Liu, and Jue Wang(参考訳) 近年のディープフェイク検出の研究は、トレーニングとテストの顔偽造が同じデータセットである場合に有望な結果をもたらしている。 しかし、トレーニングデータセットで見当たらないメソッドによって作成された偽造に検出器を一般化しようとすると、問題は依然として困難である。 この研究は、単純な原理から一般化可能なディープフェイク検出に対処する: 一般化可能な表現は様々な種類の偽造に敏感でなければならない。 本稿では, フォージェリ構成のプールで強化されたフォージェリを合成し, モデルにフォージェリ構成の予測を強制することで, フォージェリに対する「感度」を高めることにより, フォージェリの多様性を高めることを提案する。 大規模偽造増補空間を効果的に探究するため,本モデルに最も挑戦する偽造を動的に合成するために,敵対的訓練戦略を用いることを更に提案する。 広範な実験を通して,提案手法が驚くほど効果的であることを示し(第1図参照),現在の最先端手法よりも優れた性能が得られることを示した。 コードは \url{https://github.com/l iangchen527/sladd} で入手できる。

Recent studies in deepfake detection have yielded promising results when the training and testing face forgeries are from the same dataset. However, the problem remains challenging when one tries to generalize the detector to forgeries created by unseen methods in the training dataset. This work addresses the generalizable deepfake detection from a simple principle: a generalizable representation should be sensitive to diverse types of forgeries. Following this principle, we propose to enrich the "diversity" of forgeries by synthesizing augmented forgeries with a pool of forgery configurations and strengthen the "sensitivity" to the forgeries by enforcing the model to predict the forgery configurations. To effectively explore the large forgery augmentation space, we further propose to use the adversarial training strategy to dynamically synthesize the most challenging forgeries to the current model. Through extensive experiments, we show that the proposed strategies are surprisingly effective (see Figure 1), and they could achieve superior performance than the current state-of-the-art methods. Code is available at \url{https://github.com/l iangchen527/SLADD}.
翻訳日:2022-03-28 11:43:03 公開日:2022-03-25
# IA-FaceS:セマンティック顔編集のための双方向手法

IA-FaceS: A Bidirectional Method for Semantic Face Editing ( http://arxiv.org/abs/2203.13097v2 )

ライセンス: Link先を確認
Wenjing Huang, Shikui Tu, Lei Xu(参考訳) 意味的な顔編集は近年大きく進歩している。 潜時空間操作は,ユーザを絵画スキルから解放するために,入力面の潜時符号を変更して顔編集を行う。 しかし、従来の潜時空間操作法は、顔全体を単一の低次元埋め込みに符号化し、眼や鼻などの顔成分の復元能力と制御の柔軟性を制限した。 本稿では,画像中のセグメンテーションマスクやスケッチを必要とせずに,顔属性操作を柔軟かつ制御可能なコンポーネント編集を行う双方向手法としてia-facesを提案する。 再構成能力と制御柔軟性のバランスをとるために、エンコーダを多面構造として設計し、それぞれ、一貫した再構成のための空間特性を持つ高次元テンソルと、セマンティック顔編集のための4つの低次元顔成分埋め込みとを有する。 別々のコンポーネント埋め込みを操作することは、異種属性操作と顔コンポーネントの柔軟な制御を実現するのに役立つ。 関連性の高いコンポーネントをさらに切り離すために、デコーダに対してコンポーネント適応変調(CAM)モジュールを提案する。 セグメンテーションマスクやスケッチのような入力視覚的なガイダンスなしで、セマンティック・シングルアイ編集が最初に開発される。 実験結果によると、IA-FaceSは画像の詳細の維持とフレキシブルな顔操作のバランスを確立する。 定量的および定性的な結果から,提案手法は再構成,顔属性操作,コンポーネント転送において,他の手法よりも優れていた。

Semantic face editing has achieved substantial progress in recent years. Known as a growingly popular method, latent space manipulation performs face editing by changing the latent code of an input face to liberate users from painting skills. However, previous latent space manipulation methods usually encode an entire face into a single low-dimensional embedding, which constrains the reconstruction capacity and the control flexibility of facial components, such as eyes and nose. This paper proposes IA-FaceS as a bidirectional method for disentangled face attribute manipulation as well as flexible, controllable component editing without the need for segmentation masks or sketches in the original image. To strike a balance between the reconstruction capacity and the control flexibility, the encoder is designed as a multi-head structure to yield embeddings for reconstruction and control, respectively: a high-dimensional tensor with spatial properties for consistent reconstruction and four low-dimensional facial component embeddings for semantic face editing. Manipulating the separate component embeddings can help achieve disentangled attribute manipulation and flexible control of facial components. To further disentangle the highly-correlated components, a component adaptive modulation (CAM) module is proposed for the decoder. The semantic single-eye editing is developed for the first time without any input visual guidance, such as segmentation masks or sketches. According to the experimental results, IA-FaceS establishes a good balance between maintaining image details and performing flexible face manipulation. Both quantitative and qualitative results indicate that the proposed method outperforms the other techniques in reconstruction, face attribute manipulation, and component transfer.
翻訳日:2022-03-28 11:42:42 公開日:2022-03-25
# RNNPose:ロバスト対応フィールド推定とポース最適化による6-DoFオブジェクトのリファインダリファインダ

RNNPose: Recurrent 6-DoF Object Pose Refinement with Robust Correspondence Field Estimation and Pose Optimization ( http://arxiv.org/abs/2203.12870v2 )

ライセンス: Link先を確認
Yan Xu, Kwan-Yee Lin, Guofeng Zhang, Xiaogang Wang, Hongsheng Li(参考訳) 単色画像から6-DoFオブジェクトのポーズを直接推定することは困難であり、高精度な推定を実現するには、一般的にポストリファインメントが必要である。 本稿では,オブジェクトポーズのリカレントニューラルネットワーク(recurrent neural network, rnn)に基づくフレームワークを提案する。 繰り返し繰り返しの間、被写体ポーズ補正は、推定対応フィールド(レンダリング画像と観察画像の間)に基づいて非線形最小二乗問題として定式化される。 この問題は、エンドツーエンドトレーニングのための微分可能な levenberg-marquardt (lm) アルゴリズムによって解決される。 各イテレーションで対応フィールド推定とポーズ補正を行い、正確なオブジェクトポーズを復元する。 さらに, 咬合に対するロバスト性を向上させるために, 3次元モデルの学習記述子と観察した2次元画像に基づく一貫性チェック機構を導入する。 LINEMOD, Occlusion-LINEMOD, YCB-Videoデータセットの大規模な実験により, 本手法の有効性を検証し, 最先端の性能を示す。

Direct estimating the 6-DoF object pose from a single color image is challenging, and post-refinement is generally needed to achieve high-precision estimation. In this paper, we propose a framework based on a recurrent neural network (RNN) for object pose refinement, which is robust to erroneous initial poses and occlusions. During the recurrent iterations, object pose refinement is formulated as a non-linear least squares problem based on the estimated correspondence field (between a rendered image and the observed image). The problem is then solved by a differentiable Levenberg-Marquardt (LM) algorithm for end-toend training. The correspondence field estimation and pose refinement are conducted alternatively in each iteration to recover accurate object poses. Furthermore, to improve the robustness to occlusions, we introduce a consistencycheck mechanism based on the learned descriptors of the 3D model and observed 2D image, which downweights the unreliable correspondences during pose optimization. Extensive experiments on LINEMOD, Occlusion-LINEMOD, and YCB-Video datasets validate the effectiveness of our method and demonstrate state-of-the-art performance.
翻訳日:2022-03-28 11:42:14 公開日:2022-03-25