このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220609となっている論文です。

PDF登録状況(公開日: 20220609)

TitleAuthorsAbstract論文公表日・翻訳日
# Blacklight:クエリベースのブラックボックス攻撃に対するニューラルネットワークのスケーラブルな防御

Blacklight: Scalable Defense for Neural Networks against Query-Based Black-Box Attacks ( http://arxiv.org/abs/2006.14042v3 )

ライセンス: Link先を確認
Huiying Li, Shawn Shan, Emily Wenger, Jiayun Zhang, Haitao Zheng, Ben Y. Zhao(参考訳) ディープラーニングシステムは敵の例に弱いことが知られている。 特に、クエリベースのブラックボックス攻撃は、ディープラーニングモデルの知識を必要としないが、クエリを送信してリターンを検査することで、ネットワーク上の敵例を計算することができる。 最近の作業は、これらの攻撃の効率を大幅に改善し、今日のML-as-a-serviceプラットフォームにおける実用性を実証している。 我々は,クエリベースのブラックボックス攻撃に対する新たな防御手法であるblacklightを提案する。 我々の設計を導く基本的な洞察は、敵の例を計算するために、これらの攻撃はネットワーク上で反復的な最適化を行い、入力空間で非常によく似た画像クエリを生成することである。 Blacklightは、確率的コンテンツ指紋で動作する効率的な類似性エンジンを使用して、非常に類似したクエリを検出することで、クエリベースのブラックボックス攻撃を検出する。 我々はBlacklightを8つの最先端攻撃に対して、様々なモデルと画像分類タスクで評価する。 Blacklightは、ほんの数クエリの後に、それらをすべて特定する。 すべての検出されたクエリを拒否することで、攻撃者がアカウント禁止やクエリ拒否の後にクエリを送信し続ける場合でも、攻撃が完了するのを防ぎます。 ブラックライトは、ホワイトボックス攻撃を効率良く近似するブラックボックス攻撃など、いくつかの強力な対策にも耐えられる。 最後に、blacklightがテキスト分類のような他のドメインにどのように一般化するかを説明します。

Deep learning systems are known to be vulnerable to adversarial examples. In particular, query-based black-box attacks do not require knowledge of the deep learning model, but can compute adversarial examples over the network by submitting queries and inspecting returns. Recent work largely improves the efficiency of those attacks, demonstrating their practicality on today's ML-as-a-service platforms. We propose Blacklight, a new defense against query-based black-box adversarial attacks. The fundamental insight driving our design is that, to compute adversarial examples, these attacks perform iterative optimization over the network, producing image queries highly similar in the input space. Blacklight detects query-based black-box attacks by detecting highly similar queries, using an efficient similarity engine operating on probabilistic content fingerprints. We evaluate Blacklight against eight state-of-the-art attacks, across a variety of models and image classification tasks. Blacklight identifies them all, often after only a handful of queries. By rejecting all detected queries, Blacklight prevents any attack to complete, even when attackers persist to submit queries after account ban or query rejection. Blacklight is also robust against several powerful countermeasures, including an optimal black-box attack that approximates white-box attacks in efficiency. Finally, we illustrate how Blacklight generalizes to other domains like text classification.
翻訳日:2022-11-17 12:42:32 公開日:2022-06-09
# ニューラルネットワークにおける補間相転移:遅延学習時の記憶と一般化

The Interpolation Phase Transition in Neural Networks: Memorization and Generalization under Lazy Training ( http://arxiv.org/abs/2007.12826v3 )

ライセンス: Link先を確認
Andrea Montanari and Yiqiao Zhong(参考訳) 現代のニューラルネットワークは、非常に多くのパラメータで構成されており、実際のラベルが純粋なランダムなパラメータに置き換えられたとしても、トレーニングセットを補間することができる。 トレーニングセットを補間しても大きな一般化エラーにはならない。 さらに、過パラメトリゼーションは最適化のランドスケープを単純化するという点で有益である。 本稿では,神経接(nt)領域における2層ニューラルネットワークの文脈におけるこれらの現象について検討する。 我々は、$d$次元の等方共変ベクトルと$N$隠れニューロンを持つ単純なデータモデルを考える。 サンプルサイズ$n$と次元$d$はともに大きいと仮定し、それらは多項式的に関連している。 最初の主な結果は、オーバーパラメータ化した$nd\gg n$ における経験的ntカーネルの固有構造の特徴である。 この特徴付けは、経験的 NT 核の最小固有値が$Nd\gg n$ で 0 から切り離され、従ってネットワークは同じ状態の任意のラベルを正確に補間できることを意味する。 2つ目の主な結果は、特別の場合としてmin-$\ell_2$ノルム補間を含むNTリッジ回帰の一般化誤差の特性である。 我々は、$nd\gg n$ の時点で、テストエラーは無限幅カーネルに対するカーネルリッジ回帰の1つによってよく近似されていることを証明している。 後者は多項式リッジ回帰の誤差によりよく近似され、そこでは活性化関数の高次成分に関連する「自己誘導」項によって正規化パラメータが増加する。 多項式の次数は標本のサイズと次元に依存する(特に$\log n/\log d$)。

Modern neural networks are often operated in a strongly overparametrized regime: they comprise so many parameters that they can interpolate the training set, even if actual labels are replaced by purely random ones. Despite this, they achieve good prediction error on unseen data: interpolating the training set does not lead to a large generalization error. Further, overparametrization appears to be beneficial in that it simplifies the optimization landscape. Here we study these phenomena in the context of two-layers neural networks in the neural tangent (NT) regime. We consider a simple data model, with isotropic covariates vectors in $d$ dimensions, and $N$ hidden neurons. We assume that both the sample size $n$ and the dimension $d$ are large, and they are polynomially related. Our first main result is a characterization of the eigenstructure of the empirical NT kernel in the overparametrized regime $Nd\gg n$. This characterization implies as a corollary that the minimum eigenvalue of the empirical NT kernel is bounded away from zero as soon as $Nd\gg n$, and therefore the network can exactly interpolate arbitrary labels in the same regime. Our second main result is a characterization of the generalization error of NT ridge regression including, as a special case, min-$\ell_2$ norm interpolation. We prove that, as soon as $Nd\gg n$, the test error is well approximated by the one of kernel ridge regression with respect to the infinite-width kernel. The latter is in turn well approximated by the error of polynomial ridge regression, whereby the regularization parameter is increased by a `self-induced' term related to the high-degree components of the activation function. The polynomial degree depends on the sample size and the dimension (in particular on $\log n/\log d$).
翻訳日:2022-11-07 00:52:27 公開日:2022-06-09
# 高速MRIにおける物理誘導ニューラルネットワークのマルチマスク自己教師付き学習

Multi-Mask Self-Supervised Learning for Physics-Guided Neural Networks in Highly Accelerated MRI ( http://arxiv.org/abs/2008.06029v2 )

ライセンス: Link先を確認
Burhaneddin Yaman, Hongyi Gu, Seyed Amir Hossein Hosseini, Omer Burak Demirel, Steen Moeller, Jutta Ellermann, K\^amil U\u{g}urbil, Mehmet Ak\c{c}akaya(参考訳) 自己教師付き学習は、完全にサンプリングされたデータなしでディープラーニングのMRI再構成方法を訓練できることから、大きな可能性を秘めている。 物理誘導型再構成ネットワークにおける現在の自己教師型学習手法は、取得したアンダーサンプ付きデータを2つの不整合集合に分割し、一方がアンロールドネットワークにおけるデータ一貫性(DC)に、もう一方がトレーニング損失を定義するために使用される。 本研究では,完全サンプルデータのデータベースを使わずに,より効率的に取得したデータを用いて物理誘導型再構成ネットワークを訓練する自己教師型学習戦略を提案する。 データアンサンプリング(SSDU)によるマルチマスク自己教師型学習では、取得した測定値にホールドアウトマスキング操作を適用し、各トレーニングサンプルに対して複数の解離集合に分割し、これらのペアのうちの1つをDCユニットに、もう1つを損失を定義するために使用し、より効率的にアンサンプされたデータを使用する。 マルチマスク SSDU は、フルサンプリングされた3次元膝と前方アンサンプされた3次元脳MRIデータセットに適用され、様々な加速度速度とパターン、CG-SENSE やシングルマスク SSDU DL-MRI と比較される。 膝関節MRIでは,提案したマルチマスクSSDUがSSDUより優れ,DL-MRIと密接に連携していることが示された。 臨床読者による研究は、SNRおよびエイリアシングアーティファクトの点において、多マスクSSDUが監督されたDL-MRIより上位であることを示している。 脳MRIの結果から,マルチマスクSSDUはSSDUに比べて再現性が高いことがわかった。 R=8のマルチマスクSSDUは、R=8のシングルマスクSSDUやR=2のCG-SENSEに比べて、再構成が著しく改善することを示す。

Self-supervised learning has shown great promise due to its capability to train deep learning MRI reconstruction methods without fully-sampled data. Current self-supervised learning methods for physics-guided reconstruction networks split acquired undersampled data into two disjoint sets, where one is used for data consistency (DC) in the unrolled network and the other to define the training loss. In this study, we propose an improved self-supervised learning strategy that more efficiently uses the acquired data to train a physics-guided reconstruction network without a database of fully-sampled data. The proposed multi-mask self-supervised learning via data undersampling (SSDU) applies a hold-out masking operation on acquired measurements to split it into multiple pairs of disjoint sets for each training sample, while using one of these pairs for DC units and the other for defining loss, thereby more efficiently using the undersampled data. Multi-mask SSDU is applied on fully-sampled 3D knee and prospectively undersampled 3D brain MRI datasets, for various acceleration rates and patterns, and compared to CG-SENSE and single-mask SSDU DL-MRI, as well as supervised DL-MRI when fully-sampled data is available. Results on knee MRI show that the proposed multi-mask SSDU outperforms SSDU and performs closely with supervised DL-MRI. A clinical reader study further ranks the multi-mask SSDU higher than supervised DL-MRI in terms of SNR and aliasing artifacts. Results on brain MRI show that multi-mask SSDU achieves better reconstruction quality compared to SSDU. Reader study demonstrates that multi-mask SSDU at R=8 significantly improves reconstruction compared to single-mask SSDU at R=8, as well as CG-SENSE at R=2.
翻訳日:2022-10-30 23:04:35 公開日:2022-06-09
# 機械学習のためのワイヤレス

Wireless for Machine Learning ( http://arxiv.org/abs/2008.13492v3 )

ライセンス: Link先を確認
Henrik Hellstr\"om, Jos\'e Mairton B. da Silva Jr, Mohammad Mohammadi Amiri, Mingzhe Chen, Viktoria Fodor, H. Vincent Poor and Carlo Fischione(参考訳) データ生成が有線接続のないデバイスでますます行われるようになると、機械学習(ML)関連のトラフィックは、無線ネットワークでユビキタスになる。 多くの研究が、従来の無線プロトコルはMLをサポートするのに非常に非効率または持続不可能であることを示した。 本調査では、分散データセット上でMLサービスをサポートするように設計された最先端の無線手法について、網羅的にレビューする。 現在、文献にはアナログ・オーバー・ザ・エア計算とMLに最適化されたデジタル無線リソース管理という2つの明確なテーマがある。 このサーベイは、これらのメソッドを包括的に紹介し、最も重要な研究をレビューし、オープンな問題を強調し、アプリケーションのシナリオについて議論する。

As data generation increasingly takes place on devices without a wired connection, machine learning (ML) related traffic will be ubiquitous in wireless networks. Many studies have shown that traditional wireless protocols are highly inefficient or unsustainable to support ML, which creates the need for new wireless communication methods. In this survey, we give an exhaustive review of the state-of-the-art wireless methods that are specifically designed to support ML services over distributed datasets. Currently, there are two clear themes within the literature, analog over-the-air computation and digital radio resource management optimized for ML. This survey gives a comprehensive introduction to these methods, reviews the most important works, highlights open problems, and discusses application scenarios.
翻訳日:2022-10-23 07:35:44 公開日:2022-06-09
# 周期整合活性化最大化を用いた医用画像における臨床判断支援システムの説明

Explaining Clinical Decision Support Systems in Medical Imaging using Cycle-Consistent Activation Maximization ( http://arxiv.org/abs/2010.05759v3 )

ライセンス: Link先を確認
Alexander Katzmann, Oliver Taubmann, Stephen Ahmad, Alexander M\"uhlberg, Michael S\"uhling, Horst-Michael Gro{\ss}(参考訳) ディープニューラルネットワークを用いた臨床判断支援は、着実に関心が高まっているトピックとなっている。 最近の研究は、深層学習が従来の方法よりも医用画像分類に大きな利点をもたらすことを繰り返し示しているが、臨床医は、その基礎となる意思決定プロセスが不透明で理解が難しいと見なされているため、この技術の採用をしばしばためらっている。 近年、これは様々なアプローチによって対処され、より深い洞察を提供するのに成功している。 最も注目すべきは、付加的な機能帰属メソッドは、実践者が「ネットワークが見ているものを見る」ことができるサリエンシーマップを作成することによって、決定を入力空間に伝播させることができることである。 しかし、生成したマップの品質は低下し、限られたデータしか利用できない場合、画像がうるさくなります。 本研究では,より小さなデータセットでも分類器決定の高品質な可視化を実現するサイクルガン活性化最大化に基づく新しい決定説明手法を提案する。 肺病変悪性度分類のためのLIDCデータセット, 超音波乳がん検出のためのBreastMNISTデータセット, RBG画像オブジェクト認識のためのCIFAR-10データセットの2つのサブセットについて検討を行った。 本研究は,医用画像データセットの既存手法よりも明らかに優れており,自然画像設定では第2位である。 提案手法では,深層ニューラルネットワークに基づく臨床意思決定支援システムの理解を深め,総合的な臨床受容を促進することを目的としている。

Clinical decision support using deep neural networks has become a topic of steadily growing interest. While recent work has repeatedly demonstrated that deep learning offers major advantages for medical image classification over traditional methods, clinicians are often hesitant to adopt the technology because its underlying decision-making process is considered to be intransparent and difficult to comprehend. In recent years, this has been addressed by a variety of approaches that have successfully contributed to providing deeper insight. Most notably, additive feature attribution methods are able to propagate decisions back into the input space by creating a saliency map which allows the practitioner to "see what the network sees." However, the quality of the generated maps can become poor and the images noisy if only limited data is available - a typical scenario in clinical contexts. We propose a novel decision explanation scheme based on CycleGAN activation maximization which generates high-quality visualizations of classifier decisions even in smaller data sets. We conducted a user study in which we evaluated our method on the LIDC dataset for lung lesion malignancy classification, the BreastMNIST dataset for ultrasound image breast cancer detection, as well as two subsets of the CIFAR-10 dataset for RBG image object recognition. Within this user study, our method clearly outperformed existing approaches on the medical imaging datasets and ranked second in the natural image setting. With our approach we make a significant contribution towards a better understanding of clinical decision support systems based on deep neural networks and thus aim to foster overall clinical acceptance.
翻訳日:2022-10-09 04:13:32 公開日:2022-06-09
# (参考訳) プロセス知識を融合したAI: ユーザレベルの説明可能性、解釈可能性、安全性を目指して

Process Knowledge-Infused AI: Towards User-level Explainability, Interpretability, and Safety ( http://arxiv.org/abs/2206.13349v1 )

ライセンス: CC BY 4.0
Amit Sheth, Manas Gaur, Kaushik Roy, Revathy Venkataraman, Vedant Khandelwal(参考訳) aiシステムは現実世界のさまざまな領域で広く採用されている。 しかし、パーソナライズされた健康や食品レコメンデーションのための自己管理など、高い価値、敏感、あるいは安全に重要なアプリケーション(例えばアレルギー対応のレシピレコメンデーションなど)では、その採用はありそうにない。 まず第一に、aiシステムは専門家が設定したガイドラインや明確なプロセスに従う必要がある。 例えば、うつ病の重症度を診断するために、精神医療提供者は患者健康アンケート(phq-9)を用いる。 なので、もし診断にAIシステムを使うなら、PHQ-9が示唆する医療ガイドラインを使う必要がある。 同様に、栄養学者の知識とステップは、糖尿病患者を食品計画の開発に導くAIシステムに使用される必要がある。 第二に、現在のAIシステムで典型的なBlackBoxの性質は機能しない。AIシステムのユーザは、人間が理解し、慣れ親しんだ概念を使って構築された、ユーザ理解可能な説明を与える必要がある。 これは、AIシステムに対する信頼と信頼を引き出すための鍵です。 このようなアプリケーションには、データやドメイン知識に加えて、AIシステムはプロセス知識へのアクセスと使用が必要です。

AI systems have been widely adopted across various domains in the real world. However, in high-value, sensitive, or safety-critical applications such as self-management for personalized health or food recommendation with a specific purpose (e.g., allergy-aware recipe recommendations), their adoption is unlikely. Firstly, the AI system needs to follow guidelines or well-defined processes set by experts; the data alone will not be adequate. For example, to diagnose the severity of depression, mental healthcare providers use Patient Health Questionnaire (PHQ-9). So if an AI system were to be used for diagnosis, the medical guideline implied by the PHQ-9 needs to be used. Likewise, a nutritionist's knowledge and steps would need to be used for an AI system that guides a diabetic patient in developing a food plan. Second, the BlackBox nature typical of many current AI systems will not work; the user of an AI system will need to be able to give user-understandable explanations, explanations constructed using concepts that humans can understand and are familiar with. This is the key to eliciting confidence and trust in the AI system. For such applications, in addition to data and domain knowledge, the AI systems need to have access to and use the Process Knowledge, an ordered set of steps that the AI system needs to use or adhere to.
翻訳日:2022-07-04 04:33:24 公開日:2022-06-09
# (参考訳) 会議におけるアクティブスピーカー検出のためのオーディオ・ビデオ融合戦略

Audio-video fusion strategies for active speaker detection in meetings ( http://arxiv.org/abs/2206.10411v1 )

ライセンス: CC BY 4.0
Lionel Pibre, Francisco Madrigal, Cyrille Equoy, Fr\'ed\'eric Lerasle, Thomas Pellegrini, Julien Pinquier, Isabelle Ferran\'e(参考訳) ミーティングはプロフェッショナルなコンテキストにおいて共通の活動であり、ミーティング管理を促進するために高度な機能を持つ音声アシスタントに支援することは依然として困難である。 この文脈では、アクティブな話者検出のようなタスクは、ミーティング参加者間の相互作用をモデル化するための有用な洞察を提供する。 先進的なミーティングアシスタントに関連するアプリケーションコンテキストに触発された私たちは,最高のパフォーマンスを実現するために,音声と視覚情報を組み合わせたいと考えています。 本稿では,2つの視覚的モダリティと,ニューラルネットワークによる音響的モダリティを組み合わせた,アクティブ話者検出のための2種類の融合を提案する。 比較目的では、オーディオ特徴抽出のための古典的教師なしアプローチも用いられる。 顔に焦点をあてた視覚データは,唇および顔のジェスチャーの検出に基づいて,音声活動の検出に極めて適していると考えられる。 そこで,我々のベースラインシステムは視覚データを用いて,外見と動きを同時に符号化する3次元畳み込みニューラルネットワークアーキテクチャを選択した。 このシステムを改善するために,CNNや教師なし話者ダイアリゼーションシステムを用いて音声ストリームを処理することで視覚情報を補足した。 我々は,このシステムをさらに改良し,光学フローによる動きを利用した視覚モダリティ情報を付加した。 提案手法をAMIコーパスという,公開かつ最先端のベンチマークを用いて評価した。 参加者が現在話しているかどうかを判断するために,各システムの合併への貢献を分析した。 得られた結果についても検討した。 さらに,アプリケーションコンテキストにおいて,動作情報の追加は性能を大幅に向上させることを示した。 最後に,注意に基づく融合により,標準偏差を低減しつつ性能が向上することを示した。

Meetings are a common activity in professional contexts, and it remains challenging to endow vocal assistants with advanced functionalities to facilitate meeting management. In this context, a task like active speaker detection can provide useful insights to model interaction between meeting participants. Motivated by our application context related to advanced meeting assistant, we want to combine audio and visual information to achieve the best possible performance. In this paper, we propose two different types of fusion for the detection of the active speaker, combining two visual modalities and an audio modality through neural networks. For comparison purpose, classical unsupervised approaches for audio feature extraction are also used. We expect visual data centered on the face of each participant to be very appropriate for detecting voice activity, based on the detection of lip and facial gestures. Thus, our baseline system uses visual data and we chose a 3D Convolutional Neural Network architecture, which is effective for simultaneously encoding appearance and movement. To improve this system, we supplemented the visual information by processing the audio stream with a CNN or an unsupervised speaker diarization system. We have further improved this system by adding visual modality information using motion through optical flow. We evaluated our proposal with a public and state-of-the-art benchmark: the AMI corpus. We analysed the contribution of each system to the merger carried out in order to determine if a given participant is currently speaking. We also discussed the results we obtained. Besides, we have shown that, for our application context, adding motion information greatly improves performance. Finally, we have shown that attention-based fusion improves performance while reducing the standard deviation.
翻訳日:2022-06-27 01:20:54 公開日:2022-06-09
# (参考訳) CrowdWorkSheets: クラウドソーシングされたデータセットアノテーションに基づく個人および集合IDの会計

CrowdWorkSheets: Accounting for Individual and Collective Identities Underlying Crowdsourced Dataset Annotation ( http://arxiv.org/abs/2206.08931v1 )

ライセンス: CC BY 4.0
Mark Diaz, Ian D. Kivlichan, Rachel Rosen, Dylan K. Baker, Razvan Amironesei, Vinodkumar Prabhakaran, Emily Denton(参考訳) 人間の注釈付きデータは、機械学習(ML)の研究と開発において重要な役割を果たす。 しかし、データセットのアノテーションに入るプロセスや決定に関する倫理的考察はほとんど注目されていない。 本稿では,クラウドソーシングされたデータセットアノテーションに関する倫理的考察に関する知見を提供する文献群を調査した。 これらの知見を合成し,(1)アノテータが誰であるか,(2)アノテータとクラウドソーシングプラットフォームとの関係,そしてその関係がそれらのアノテーションにどのような影響を与えるか,という2つのレイヤに沿って,この分野の課題を整理する。 最後に,データアノテーションパイプラインのさまざまな段階において,重要な決定点の透過的なドキュメント化を容易にするための,新たなフレームワークであるcrowdworksheetsを導入する。タスクの定式化,注釈の選択,プラットフォームとインフラストラクチャの選択,データセットの分析と評価,データセットのリリースとメンテナンスなどだ。

Human annotated data plays a crucial role in machine learning (ML) research and development. However, the ethical considerations around the processes and decisions that go into dataset annotation have not received nearly enough attention. In this paper, we survey an array of literature that provides insights into ethical considerations around crowdsourced dataset annotation. We synthesize these insights, and lay out the challenges in this space along two layers: (1) who the annotator is, and how the annotators' lived experiences can impact their annotations, and (2) the relationship between the annotators and the crowdsourcing platforms, and what that relationship affords them. Finally, we introduce a novel framework, CrowdWorkSheets, for dataset developers to facilitate transparent documentation of key decisions points at various stages of the data annotation pipeline: task formulation, selection of annotators, platform and infrastructure choices, dataset analysis and evaluation, and dataset release and maintenance.
翻訳日:2022-06-27 01:03:43 公開日:2022-06-09
# (参考訳) 主なトレードオフ分析

Principal Trade-off Analysis ( http://arxiv.org/abs/2206.07520v1 )

ライセンス: CC BY 4.0
Alexander Strang, David SeWell, Alexander Kim, Kevin Alcedo, David Rosenbluth(参考訳) 本稿では、ディスクゲーム(連続R-P-Sゲーム)の重み付け和として任意のゲームの表現を可能にする、主成分分析(PCA)に類似した分解法である主トレードオフ解析(PTA)を開発する。 PTAを経験的に生成されたトーナメントグラフに適用すると、独立した戦略的トレードオフを表す直交2次元特徴面への埋め込みのシーケンスが生成される。 各トレードオフは循環競争のモードを生成する。 PCAと同様に、PTAは近似のために計算できるトーナメントグラフの最適低ランク推定を提供する。 巡回競合の複雑さは、重要な巡回モードの数を計算することによって定量化することができる。 ゲーム(Blotto, Pokemon)へのPTAの適用例を示す。 得られた2次元ディスクゲーム表現は視覚化に適しており、容易に解釈可能である。 ブロットでは、PTAはゲーム対称性を特定し、異なる勝利条件に関連する戦略的トレードオフを特定する。 Pokemonの場合、PTA埋め込みはPokemonタイプに自然に対応する埋め込み空間のクラスタを生成する。

This paper develops Principal Trade-off Analysis (PTA), a decomposition method, analogous to Principal Component Analysis (PCA), which permits the representation of any game as the weighted sum of disc games (continuous R-P-S games). Applying PTA to empirically generated tournament graphs produces a sequence of embeddings into orthogonal 2D feature planes representing independent strategic trade-offs. Each trade-off generates a mode of cyclic competition. Like PCA, PTA provides optimal low rank estimates of the tournament graphs that can be truncated for approximation. The complexity of cyclic competition can be quantified by computing the number of significant cyclic modes. We illustrate the PTA via application to a pair of games (Blotto, Pokemon). The resulting 2D disc game representations are shown to be well suited for visualization and are easily interpretable. In Blotto, PTA identifies game symmetries, and specifies strategic trade-offs associated with distinct win conditions. For Pokemon, PTA embeddings produce clusters in the embedding space that naturally correspond to Pokemon types, a design in the game that produces cyclic trade offs.
翻訳日:2022-06-19 23:27:21 公開日:2022-06-09
# (参考訳) マルチモーダル表現を構築するテクニックは重要か? -比較分析

Does a Technique for Building Multimodal Representation Matter? -- Comparative Analysis ( http://arxiv.org/abs/2206.06367v1 )

ライセンス: CC BY 4.0
Maciej Paw{\l}owski, Anna Wr\'oblewska, Sylwia Sysko-Roma\'nczuk(参考訳) 単一のモダリティ(テキスト、画像、音声など)を使って意味のある表現を作ることは、マルチモーダル学習の核となる概念である。 マルチモーダル表現を構築するためのいくつかの技術は成功したが、まだ比較されていない。 したがって、どのテクニックが与えられたシナリオで最高の結果をもたらすと期待できるのか、そのようなテクニックを選択する際に考慮すべき要素は何かは曖昧である。 本稿では,マルチモーダルデータ表現(後期融合,初期融合,スケッチ)を構築するための最も一般的な手法について検討し,それらを分類タスクで比較する。 Amazon Reviews、MovieLens25M、MovieLens1Mの3つのデータセットで実験が行われる。 一般に,マルチモーダル表現により,amazonのレビューでは0.919から0.969,movielens25mでは0.907から0.918まで,ユニモーダルモデルの性能が向上することを確認した。 しかし、両方のMovieLensデータセットの実験は、与えられたタスクに対する有意義な入力データの重要性を示している。 本稿では,マルチモーダル表現を構築する手法の選択が,適切なモダリティの組み合わせを伴い,可能な限り高いモデルの性能を得る上で重要であることを示す。 このような選択は、各モダリティが分析された機械学習(ML)問題、MLタスクのタイプ、トレーニング中のメモリ制約、フェーズ予測などに依存する。

Creating a meaningful representation by fusing single modalities (e.g., text, images, or audio) is the core concept of multimodal learning. Although several techniques for building multimodal representations have been proven successful, they have not been compared yet. Therefore it has been ambiguous which technique can be expected to yield the best results in a given scenario and what factors should be considered while choosing such a technique. This paper explores the most common techniques for building multimodal data representations -- the late fusion, the early fusion, and the sketch, and compares them in classification tasks. Experiments are conducted on three datasets: Amazon Reviews, MovieLens25M, and MovieLens1M datasets. In general, our results confirm that multimodal representations are able to boost the performance of unimodal models from 0.919 to 0.969 of accuracy on Amazon Reviews and 0.907 to 0.918 of AUC on MovieLens25M. However, experiments on both MovieLens datasets indicate the importance of the meaningful input data to the given task. In this article, we show that the choice of the technique for building multimodal representation is crucial to obtain the highest possible model's performance, that comes with the proper modalities combination. Such choice relies on: the influence that each modality has on the analyzed machine learning (ML) problem; the type of the ML task; the memory constraints while training and predicting phase.
翻訳日:2022-06-19 23:02:23 公開日:2022-06-09
# (参考訳) 時空間概念に基づく3次元ConvNetの表現

Spatial-temporal Concept based Explanation of 3D ConvNets ( http://arxiv.org/abs/2206.05275v1 )

ライセンス: CC BY 4.0
Ying Ji, Yu Wang, Kensaku Mori, Jien Kato(参考訳) 近年,2次元画像認識技術の確立に成功している。 一方,映像データの計算コストや複雑性から,3次元映像認識の基盤については比較的研究が進んでいない。 本稿では,3D ConvNetを解釈するための3D ACE(Automatic Concept-based Explanation)フレームワークを提案する。 1)ビデオは高レベルなスーパーボクセルで表現され、人間が理解しやすい。(2)解釈フレームワークは各ボクセルのスコアを推定し、決定過程においてその重要性を反映している。 実験により,提案手法は,重要度レベルの異なる空間的時間的概念を探索し,行動分類などの対象課題に対する概念の影響を深く探究できることを示した。 コードは公開されている。

Recent studies have achieved outstanding success in explaining 2D image recognition ConvNets. On the other hand, due to the computation cost and complexity of video data, the explanation of 3D video recognition ConvNets is relatively less studied. In this paper, we present a 3D ACE (Automatic Concept-based Explanation) framework for interpreting 3D ConvNets. In our approach: (1) videos are represented using high-level supervoxels, which is straightforward for human to understand; and (2) the interpreting framework estimates a score for each voxel, which reflects its importance in the decision procedure. Experiments show that our method can discover spatial-temporal concepts of different importance-levels, and thus can explore the influence of the concepts on a target task, such as action classification, in-depth. The codes are publicly available.
翻訳日:2022-06-19 19:08:01 公開日:2022-06-09
# ターゲットの高機能化に向けて

Towards Target High-Utility Itemsets ( http://arxiv.org/abs/2206.06157v1 )

ライセンス: Link先を確認
Jinbao Miao, Wensheng Gan, Shicheng Wan, Yongdong Wu, Philippe Fournier-Viger(参考訳) 応用インテリジェンスでは、ユーティリティ駆動型パターン探索アルゴリズムがデータベースの洞察力と有用なパターンを識別する。 しかし、これらのパターン発見技術では、パターンの数は膨大であり、ユーザはこれらのパターンにのみ興味を持つことが多い。 したがって、対象とする高可用性アイテムセットマイニングは重要な研究テーマとして登場し、すべてのパターンではなく、対象パターン制約を満たすパターンのサブセットを見つけることを目的としている。 なぜなら、非常に大きな検索空間で効率的に調整されたパターンを見つけるには、ターゲットとなるマイニングアルゴリズムが必要であるからだ。 TargetUMと呼ばれる最初のアルゴリズムが提案され、木構造を用いた後処理と同様のアプローチを採用するが、実行時間とメモリ消費は多くの状況で不満足である。 本稿では,パターンマッチング機構を備えた新しいリストベースアルゴリズムであるthumm(targeted high-utility itemset mining)を提案する。 提案アルゴリズムの性能を最先端アルゴリズムと比較するために,異なるデータセット上で広範な実験を行った。 その結果、THUIMは実行時およびメモリ消費において非常によく機能し、TargetUMと比較して優れたスケーラビリティを有することがわかった。

For applied intelligence, utility-driven pattern discovery algorithms can identify insightful and useful patterns in databases. However, in these techniques for pattern discovery, the number of patterns can be huge, and the user is often only interested in a few of those patterns. Hence, targeted high-utility itemset mining has emerged as a key research topic, where the aim is to find a subset of patterns that meet a targeted pattern constraint instead of all patterns. This is a challenging task because efficiently finding tailored patterns in a very large search space requires a targeted mining algorithm. A first algorithm called TargetUM has been proposed, which adopts an approach similar to post-processing using a tree structure, but the running time and memory consumption are unsatisfactory in many situations. In this paper, we address this issue by proposing a novel list-based algorithm with pattern matching mechanism, named THUIM (Targeted High-Utility Itemset Mining), which can quickly match high-utility itemsets during the mining process to select the targeted patterns. Extensive experiments were conducted on different datasets to compare the performance of the proposed algorithm with state-of-the-art algorithms. Results show that THUIM performs very well in terms of runtime and memory consumption, and has good scalability compared to TargetUM.
翻訳日:2022-06-14 17:06:21 公開日:2022-06-09
# 複雑なエンジニアリングデータセットの概念同定

Concept Identification for Complex Engineering Datasets ( http://arxiv.org/abs/2206.06155v1 )

ライセンス: Link先を確認
Felix Lanfermann and Sebastian Schmitt(参考訳) 設計の合理的なグループ化を可能にするエンジニアリングアプリケーションデータセットに意味のある概念を見つけることは、多くのコンテキストにおいて非常に役立ちます。 同様の特性を持つ異なる設計グループを決定することができ、工学的意思決定プロセスにおいて有用な知識を提供する。 また、特定の特徴を示す特定の設計候補をさらに洗練するための道を開く。 本研究では,既存のエンジニアリングデータセットにおいて意味のある,一貫した概念を定義するアプローチを示す。 データセットの設計は、設計パラメータ、幾何学的特性、および様々な境界条件に対する設計の性能値など、さまざまな特徴によって特徴づけられる。 提案手法では、完全な特徴集合を記述空間と呼ばれるいくつかの部分集合に分割する。 概念の定義は、この分割を尊重し、特定された概念のいくつかの望ましい特性をもたらすが、最先端のクラスタリングや概念識別アプローチでは達成できない。 データセットにおける概念の定義に対する客観的な価値を提供する新しい概念品質尺度が提案されている。 計算流体力学シミュレーションにより3つの異なる操作条件における性能値(リフト・アンド・ドラッグ)が得られた約2500の翼面プロファイルからなる現実的な工学的データセットを考慮し,本測定の有用性を実証した。 概念品質尺度を最大化し、ユーザ嗜好を取り入れつつ記述空間の異なる設定に対して有意義な概念を求める数値最適化手法を用いる。 本研究は,これらの概念を用いて,各概念の特徴を示すデータセットの古参代表を選択できることを示す。

Finding meaningful concepts in engineering application datasets which allow for a sensible grouping of designs is very helpful in many contexts. It allows for determining different groups of designs with similar properties and provides useful knowledge in the engineering decision making process. Also, it opens the route for further refinements of specific design candidates which exhibit certain characteristic features. In this work, an approach to define meaningful and consistent concepts in an existing engineering dataset is presented. The designs in the dataset are characterized by a multitude of features such as design parameters, geometrical properties or performance values of the design for various boundary conditions. In the proposed approach the complete feature set is partitioned into several subsets called description spaces. The definition of the concepts respects this partitioning which leads to several desired properties of the identified concepts, which cannot be achieved with state-of-the-art clustering or concept identification approaches. A novel concept quality measure is proposed, which provides an objective value for a given definition of concepts in a dataset. The usefulness of the measure is demonstrated by considering a realistic engineering dataset consisting of about 2500 airfoil profiles where the performance values (lift and drag) for three different operating conditions were obtained by a computational fluid dynamics simulation. A numerical optimization procedure is employed which maximizes the concept quality measure, and finds meaningful concepts for different setups of the description spaces while also incorporating user preference. It is demonstrated how these concepts can be used to select archetypal representatives of the dataset which exhibit characteristic features of each concept.
翻訳日:2022-06-14 16:28:12 公開日:2022-06-09
# 量子確率情報幾何による量子多体系の効率的変分生成モデリング

Provably efficient variational generative modeling of quantum many-body systems via quantum-probabilistic information geometry ( http://arxiv.org/abs/2206.04663v1 )

ライセンス: Link先を確認
Faris M. Sbahi, Antonio J. Martinez, Sahil Patel, Dmitri Saberi, Jae Hyeon Yoo, Geoffrey Roeder, Guillaume Verdon(参考訳) 量子ハミルトン学習と量子ギブスサンプリングの二重タスクは、物理学や化学における多くの重要な問題に関係している。 低温環境では、これらのタスクのアルゴリズムは、例えばサンプルや時間の複雑さの悪さなど、しばしば難解性に苦しむ。 このような難解性に対処するため、パラメータ化された混合状態に対する量子自然勾配降下の一般化と、ロバストな一階近似アルゴリズム、量子確率ミラー降下を提案する。 そこで我々は,情報幾何学と量子力学のツールを用いて,2つのタスクに対するデータサンプル効率を証明し,古典的フィッシャー効率のセミナル結果を変分量子アルゴリズムに初めて一般化する。 提案手法は, 量子ハミルトンモデルなどのスペクトル分解モデルを含む, モデル選択の柔軟性を実現するため, 従来よりサンプル効率の高い手法を拡張した。 我々の一階アルゴリズムは、古典ミラー降下双対性の新たな量子一般化を用いて導出される。 どちらの結果も計量、すなわちボゴリューボフ・クボ・モリ計量の特別な選択を必要とする。 提案するアルゴリズムを数値的にテストするために,その性能を横磁場イジングモデルの量子ギブスサンプリングタスクにおける既存のベースラインと比較する。 最後に,量子確率過程などの状態列のモデル化に幾何学的局所性を利用した初期化戦略を提案する。 我々は、その効果を実時間と虚数時間の両方に実証的に示し、幅広い潜在的なアプリケーションクラスを定義している。

The dual tasks of quantum Hamiltonian learning and quantum Gibbs sampling are relevant to many important problems in physics and chemistry. In the low temperature regime, algorithms for these tasks often suffer from intractabilities, for example from poor sample- or time-complexity. With the aim of addressing such intractabilities, we introduce a generalization of quantum natural gradient descent to parameterized mixed states, as well as provide a robust first-order approximating algorithm, Quantum-Probabilistic Mirror Descent. We prove data sample efficiency for the dual tasks using tools from information geometry and quantum metrology, thus generalizing the seminal result of classical Fisher efficiency to a variational quantum algorithm for the first time. Our approaches extend previously sample-efficient techniques to allow for flexibility in model choice, including to spectrally-decomposed models like Quantum Hamiltonian-Based Models, which may circumvent intractable time complexities. Our first-order algorithm is derived using a novel quantum generalization of the classical mirror descent duality. Both results require a special choice of metric, namely, the Bogoliubov-Kubo-Mori metric. To test our proposed algorithms numerically, we compare their performance to existing baselines on the task of quantum Gibbs sampling for the transverse field Ising model. Finally, we propose an initialization strategy leveraging geometric locality for the modelling of sequences of states such as those arising from quantum-stochastic processes. We demonstrate its effectiveness empirically for both real and imaginary time evolution while defining a broader class of potential applications.
翻訳日:2022-06-14 15:02:59 公開日:2022-06-09
# (参考訳) MRI画像回復のための一般期待定数近似法

Denoising Generalized Expectation-Consistent Approximation for MRI Image Recovery ( http://arxiv.org/abs/2206.05049v1 )

ライセンス: CC BY 4.0
Saurav K. Shastri, Rizwan Ahmad, Christopher A. Metzler, and Philip Schniter(参考訳) 逆問題を解決するために、凸最適化アルゴリズムの近ステップを、ディープニューラルネットワーク(DNN)を用いてしばしば実装されるアプリケーション固有のデノイザへの呼び出しに置き換えるプラグアンドプレイ法(PnP)が開発された。 このような手法は成功したが、改善できる。 例えば、デノイザーは通常、白色ガウスノイズを除去するように設計/訓練されるが、pnpアルゴリズムにおけるデノイザー入力エラーは通常、白色またはガウスノイズとは程遠い。 近似メッセージパッシング(AMP)法は、白とガウスのデノイザー入力誤差を提供するが、フォワード演算子が大きなランダム行列である場合に限られる。 本研究では,フーリエに基づくフォワード演算子に対して,各イテレーションで予測可能な誤差統計量を提供する一般化期待一貫性(gec)近似に基づくpnpアルゴリズムと,それらの統計量を活用する新しいdnnデノイザーを提案する。 既存のPnP法とAMP法に比較して,MRI画像の回復にアプローチを応用し,その利点を実証する。

To solve inverse problems, plug-and-play (PnP) methods have been developed that replace the proximal step in a convex optimization algorithm with a call to an application-specific denoiser, often implemented using a deep neural network (DNN). Although such methods have been successful, they can be improved. For example, denoisers are usually designed/trained to remove white Gaussian noise, but the denoiser input error in PnP algorithms is usually far from white or Gaussian. Approximate message passing (AMP) methods provide white and Gaussian denoiser input error, but only when the forward operator is a large random matrix. In this work, for Fourier-based forward operators, we propose a PnP algorithm based on generalized expectation-consistent (GEC) approximation -- a close cousin of AMP -- that offers predictable error statistics at each iteration, as well as a new DNN denoiser that leverages those statistics. We apply our approach to magnetic resonance imaging (MRI) image recovery and demonstrate its advantages over existing PnP and AMP methods.
翻訳日:2022-06-14 08:32:38 公開日:2022-06-09
# (参考訳) 分子を伴わない分子動力学:生成的ニューラルネットワークによるタンパク質のコンフォメーション空間の探索

Molecular dynamics without molecules: searching the conformational space of proteins with generative neural networks ( http://arxiv.org/abs/2206.04683v1 )

ライセンス: CC BY 4.0
Gregory Schwing, Luigi L. Palese, Ariel Fern\'andez, Loren Schwiebert, Domenico L. Gatti(参考訳) 全原子と粗粒分子動力学は、タンパク質のコンフォメーション状態を研究するために広く使われている2つの計算ツールである。 しかし、これらの2つのシミュレーション手法は、スーパーコンピューティングリソースにアクセスできないと、これらの状態が検出可能な時間と長さのスケールが達成できないという事実に苦しむ。 このような方法の代替の1つは、分子動力学の原子軌道を物理粒子を欠いた短期バージョンとして符号化し、人工知能を用いて符号化された軌道を伝播させることである。 ここでは,分子動力学トラジェクタのフレームをラマサンドラン盆地クラスのベクトルとして単純なテキスト表現が,各フレーム内のタンパク質の完全な原子論的表現の構造情報をほとんど保持し,異なる種類の生成ニューラルネットの訓練に適した等価な原子レストラジェクタを生成するために使用できることを示す。 代わりに、訓練された生成モデルは、無原子動力学を無限に拡張したり、そのモデル潜在空間における表現からタンパク質のコンフォメーション空間をサンプリングしたりすることができる。 我々はこの手法を分子を使わずに分子動力学として直感的に定義し、従来の分子動力学ではアクセスが難しいタンパク質の物理的関連状態をカバーできることを示した。

All-atom and coarse-grained molecular dynamics are two widely used computational tools to study the conformational states of proteins. Yet, these two simulation methods suffer from the fact that without access to supercomputing resources, the time and length scales at which these states become detectable are difficult to achieve. One alternative to such methods is based on encoding the atomistic trajectory of molecular dynamics as a shorthand version devoid of physical particles, and then learning to propagate the encoded trajectory through the use of artificial intelligence. Here we show that a simple textual representation of the frames of molecular dynamics trajectories as vectors of Ramachandran basin classes retains most of the structural information of the full atomistic representation of a protein in each frame, and can be used to generate equivalent atom-less trajectories suitable to train different types of generative neural networks. In turn, the trained generative models can be used to extend indefinitely the atom-less dynamics or to sample the conformational space of proteins from their representation in the models latent space. We define intuitively this methodology as molecular dynamics without molecules, and show that it enables to cover physically relevant states of proteins that are difficult to access with traditional molecular dynamics.
翻訳日:2022-06-14 08:30:41 公開日:2022-06-09
# (参考訳) 時間的帰納論理推論

Temporal Inductive Logic Reasoning ( http://arxiv.org/abs/2206.05051v1 )

ライセンス: CC BY 4.0
Yuan Yang, Siheng Xiong, James C Kerce and Faramarz Fekri(参考訳) 帰納論理推論は、データからパターンを一般化しようとするグラフの基本課題の1つである。 この課題は、知識グラフ(KG)のような従来のグラフデータセットに対して、帰納論理プログラミング(ILP)のような代表的手法で広く研究されている。 既存の ilp 法は静的事実とバイナリ関係を持つ kg からの学習を想定している。 kgs以外にも、ビデオインストラクション、シーングラフ、プログラム実行といった他のアプリケーションでもグラフ構造が広く使われている。 帰納論理推論はこれらの応用にも有用であるが、対応するグラフにILPを適用することは、KGよりも複雑であり、通常はタイムスタンプやn-ary関係を伴い、事実上時間的事象を伴うハイパーグラフの一種である。 本研究では,2つのアプリケーションについて検討し,時間間隔のハイパーグラフとして表現することを提案する。 このグラフに基づいて,このハイパーグラフを横断するマルチスタートランダムなBウォークを提案する。 パス一貫性アルゴリズムと組み合わせることで,時間データと関係データの両方から一般化し,論理規則を学習する効率的な後向き連鎖型irp法を提案する。

Inductive logic reasoning is one of the fundamental tasks on graphs, which seeks to generalize patterns from the data. This task has been studied extensively for traditional graph datasets such as knowledge graphs (KGs), with representative techniques such as inductive logic programming (ILP). Existing ILP methods typically assume learning from KGs with static facts and binary relations. Beyond KGs, graph structures are widely present in other applications such as video instructions, scene graphs and program executions. While inductive logic reasoning is also beneficial for these applications, applying ILP to the corresponding graphs is nontrivial: they are more complex than KGs, which usually involve timestamps and n-ary relations, effectively a type of hypergraph with temporal events. In this work, we study two of such applications and propose to represent them as hypergraphs with time intervals. To reason on this graph, we propose the multi-start random B-walk that traverses this hypergraph. Combining it with a path-consistency algorithm, we propose an efficient backward-chaining ILP method that learns logic rules by generalizing from both the temporal and the relational data.
翻訳日:2022-06-14 08:17:50 公開日:2022-06-09
# (参考訳) 相関クラスタリングのための近似の改良

Improved Approximation for Fair Correlation Clustering ( http://arxiv.org/abs/2206.05050v1 )

ライセンス: CC BY 4.0
Sara Ahmadian and Maryam Negahbani(参考訳) 相関クラスタリングは、不公平に対処することが大きな課題である教師なし機械学習におけるユビキタスパラダイムである。 そこで我々は,データポイントが異なる保護グループに属し,クラスタ全体のすべてのグループを公平に表現することを目的とした,公平な相関クラスタリングについて検討した。 本稿は,Ahmadi et al. と Ahmadian et al. の以前の研究の質保証を,下記のように大幅に一般化し,改善する。 -クラスタ内の各グループの表現の任意の上限をユーザが指定できるようにする。 -我々のアルゴリズムでは、個人が複数の保護された機能を持ち、同時に公平性を確保することができます。 -この一般的な設定でクラスタリングの品質と公平性を保証する。 さらに, 先行研究で検討した特別事例の結果も向上した。 実世界データを用いた実験により, 最適解と比較したクラスタリング品質は, 理論結果よりはるかに優れていることが示された。

Correlation clustering is a ubiquitous paradigm in unsupervised machine learning where addressing unfairness is a major challenge. Motivated by this, we study Fair Correlation Clustering where the data points may belong to different protected groups and the goal is to ensure fair representation of all groups across clusters. Our paper significantly generalizes and improves on the quality guarantees of previous work of Ahmadi et al. and Ahmadian et al. as follows. - We allow the user to specify an arbitrary upper bound on the representation of each group in a cluster. - Our algorithm allows individuals to have multiple protected features and ensure fairness simultaneously across them all. - We prove guarantees for clustering quality and fairness in this general setting. Furthermore, this improves on the results for the special cases studied in previous work. Our experiments on real-world data demonstrate that our clustering quality compared to the optimal solution is much better than what our theoretical result suggests.
翻訳日:2022-06-14 08:06:14 公開日:2022-06-09
# (参考訳) coswara:呼吸音と健康症状の分析による新型コロナウイルススクリーニングを可能にするwebサイトアプリケーション

Coswara: A website application enabling COVID-19 screening by analysing respiratory sound samples and health symptoms ( http://arxiv.org/abs/2206.05053v1 )

ライセンス: CC BY 4.0
Debarpan Bhattacharya, Debottam Dutta, Neeraj Kumar Sharma, Srikanth Raj Chetupalli, Pravin Mote, Sriram Ganapathy, Chandrakiran C, Sahiti Nori, Suhail K K, Sadhana Gonuguntla and Murali Alagesan(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、代替の迅速かつ効果的な診断手法の設計の研究を加速させている。 本稿では,呼吸音のサンプルと健康症状を分析して,COVID-19検出を可能にするWebアプリケーションCosharaについて述べる。 このサービスを使用するユーザは、インターネットに接続された任意のデバイスを使用してウェブサイトにログインし、現在の健康症状情報を提供し、息、せき、音声に対応するサンプルの少ない音声を記録することができる。 クラウドサーバ上のこの情報の分析から1分以内に、Webサイトツールは、新型コロナウイルスの確率スコアをユーザに出力する。 新型コロナウイルス(COVID-19)のパンデミックは、大規模でスケーラブルな人口レベルのテストを必要としているため、提案されたツールがこれに対する潜在的な解決策を提供すると仮定する。

The COVID-19 pandemic has accelerated research on design of alternative, quick and effective COVID-19 diagnosis approaches. In this paper, we describe the Coswara tool, a website application designed to enable COVID-19 detection by analysing respiratory sound samples and health symptoms. A user using this service can log into a website using any device connected to the internet, provide there current health symptom information and record few sound sampled corresponding to breathing, cough, and speech. Within a minute of analysis of this information on a cloud server the website tool will output a COVID-19 probability score to the user. As the COVID-19 pandemic continues to demand massive and scalable population level testing, we hypothesize that the proposed tool provides a potential solution towards this.
翻訳日:2022-06-14 07:44:29 公開日:2022-06-09
# (参考訳) NNTrainer:軽量オンデバイストレーニングフレームワーク

NNTrainer: Light-Weight On-Device Training Framework ( http://arxiv.org/abs/2206.04688v1 )

ライセンス: CC BY-SA 4.0
Ji Joong Moon, Parichay Kapoor, Ji Hoon Lee, Myung Joo Ham, Hyun Suk Lee(参考訳) 現代の消費者電子デバイスは、重要な機能としてディープラーニングベースのインテリジェンスサービスを採用している。 ベンダーは最近、個人データをデバイスに保存し、ネットワークとクラウドのコストを削減するために、デバイス上でインテリジェンスサービスを実行し始めた。 デバイスからデータを公開することなく、ニューラルネットワークをユーザデータで更新することで、インテリジェンスサービスをパーソナライズする機会として、このような傾向が見られます。 例えば、ロボット掃除機用にmy dog, alphaという新しいクラスを追加して、ユーザーのアクセントに音声認識を適応させ、ユーザーが話すようにテキストから音声に話すようにします。 しかし、ターゲット機器の資源制限は重大な困難を招いた。 軽量オンデバイストレーニングフレームワークであるNNTrainerを提案する。 本稿では,nntrainerによって実装されたニューラルネットワークの最適化手法について述べる。 評価の結果,NNTrainerは精度やトレーニング時間を低下させることなく,メモリ消費を1/28に削減し,デバイス上のアプリケーションを効果的にパーソナライズできることがわかった。 NNTrainerはクロスプラットフォームで実用的なオープンソースソフトウェアであり、著者の所属する数百万のデバイスにデプロイされている。

Modern consumer electronic devices have adopted deep learning-based intelligence services for their key features. Vendors have recently started to execute intelligence services on devices to preserve personal data in devices, reduce network and cloud costs. We find such a trend as the opportunity to personalize intelligence services by updating neural networks with user data without exposing the data out of devices: on-device training. For example, we may add a new class, my dog, Alpha, for robotic vacuums, adapt speech recognition for the users accent, let text-to-speech speak as if the user speaks. However, the resource limitations of target devices incur significant difficulties. We propose NNTrainer, a light-weight on-device training framework. We describe optimization techniques for neural networks implemented by NNTrainer, which are evaluated along with the conventional. The evaluations show that NNTrainer can reduce memory consumption down to 1/28 without deteriorating accuracy or training time and effectively personalizes applications on devices. NNTrainer is cross-platform and practical open source software, which is being deployed to millions of devices in the authors affiliation.
翻訳日:2022-06-14 07:39:09 公開日:2022-06-09
# (参考訳) 不均一データを用いたフェデレート平均化の有効性について

On the Unreasonable Effectiveness of Federated Averaging with Heterogeneous Data ( http://arxiv.org/abs/2206.04723v1 )

ライセンス: CC BY 4.0
Jianyu Wang, Rudrajit Das, Gauri Joshi, Satyen Kale, Zheng Xu, Tong Zhang(参考訳) 既存の理論では、フェデレーション学習におけるフェデレーション平均化(FedAvg)アルゴリズムの性能は、データの不均一性が低下すると予想している。 しかし、実際には単純なfedavgアルゴリズムは非常によく収束する。 本稿では,従来の理論的予測と矛盾するFedAvgの有効性について述べる。 従来の理論解析における有界勾配の相似性の鍵となる仮定は、実際的な応用においてデータの不均一性を特徴づけるには悲観的すぎる。 単純な二次問題に対して、FedAvgの収束に大きな勾配差が負の影響を及ぼさない状態が存在することを示す。 本研究の目的は,データ不均一性の影響を測定するために,新たな量,平均ドリフトを最適に計算し,FedAvgの新たな理論的解析を行うことである。 我々は,多くの実世界の訓練課題において,最適時の平均ドリフトがほぼゼロであるのに対し,勾配差は大きいことを示す。 そして、我々の新しい分析は、FedAvgが同種および異種データ設定において同じ収束率を持つことを示唆し、その結果、その経験的成功をよりよく理解する。

Existing theory predicts that data heterogeneity will degrade the performance of the Federated Averaging (FedAvg) algorithm in federated learning. However, in practice, the simple FedAvg algorithm converges very well. This paper explains the seemingly unreasonable effectiveness of FedAvg that contradicts the previous theoretical predictions. We find that the key assumption of bounded gradient dissimilarity in previous theoretical analyses is too pessimistic to characterize data heterogeneity in practical applications. For a simple quadratic problem, we demonstrate there exist regimes where large gradient dissimilarity does not have any negative impact on the convergence of FedAvg. Motivated by this observation, we propose a new quantity, average drift at optimum, to measure the effects of data heterogeneity, and explicitly use it to present a new theoretical analysis of FedAvg. We show that the average drift at optimum is nearly zero across many real-world federated training tasks, whereas the gradient dissimilarity can be large. And our new analysis suggests FedAvg can have identical convergence rates in homogeneous and heterogeneous data settings, and hence, leads to better understanding of its empirical success.
翻訳日:2022-06-14 07:16:14 公開日:2022-06-09
# (参考訳) 統合性保証のためのブロックチェーンを用いたCentric Data Federated Learningの活用

Leveraging Centric Data Federated Learning Using Blockchain For Integrity Assurance ( http://arxiv.org/abs/2206.04731v1 )

ライセンス: CC BY 4.0
Riadh Ben Chaabene, Darine Amayed and Mohamed Cheriet(参考訳) 機械学習能力は、産業、アプリケーション、セクタにわたる様々なソリューションにとって重要な要素となっている。 多くの組織は、ビジネスサービス全体でAIベースのソリューションを活用して、効率の向上と生産性の向上を目指している。 しかし、aiモデルのトレーニング、スケーラビリティ、メンテナンスのための品質データがない場合、問題が発生する可能性がある。 本稿では,公開ブロックチェーンとスマートコントラクトによって活用された,データ中心の連合学習アーキテクチャを提案する。 提案したソリューションは、開発者、データサイエンティスト、AIエンジニアが自身のモデルを公開し、トレーニング用の品質データを作成してアクセスするための仮想公開市場を提供する。 私たちは、データの貢献と検証に対して貢献者に報奨を与えるインセンティブメカニズムを通じて、データ品質と整合性を高めます。 提案フレームワークと組み合わせることで、トレーニングデータセットを毎日平均100個の入力でシミュレーションし、モデルの精度を約4倍に向上させることができた。

Machine learning abilities have become a vital component for various solutions across industries, applications, and sectors. Many organizations seek to leverage AI-based solutions across their business services to unlock better efficiency and increase productivity. Problems, however, can arise if there is a lack of quality data for AI-model training, scalability, and maintenance. We propose a data-centric federated learning architecture leveraged by a public blockchain and smart contracts to overcome this significant issue. Our proposed solution provides a virtual public marketplace where developers, data scientists, and AI-engineer can publish their models and collaboratively create and access quality data for training. We enhance data quality and integrity through an incentive mechanism that rewards contributors for data contribution and verification. Those combined with the proposed framework helped increase with only one user simulation the training dataset with an average of 100 input daily and the model accuracy by approximately 4\%.
翻訳日:2022-06-14 05:55:48 公開日:2022-06-09
# (参考訳) 機械学習モデルの認証監査のための学習理論フレームワーク

A Learning-Theoretic Framework for Certified Auditing of Machine Learning Models ( http://arxiv.org/abs/2206.04740v1 )

ライセンス: CC BY 4.0
Chhavi Yadav, Michal Moshkovitz, Kamalika Chaudhuri(参考訳) 機械学習の責任ある利用には、望ましくない特性のためにモデルを監査する必要がある。 しかし、原則的な監査を一般の環境で行う方法は、まだ理解されていない。 本稿では,監査のための形式的学習理論フレームワークを提案する。 ラベルクエリと異なる種類の説明を用いた特徴量評価のための線形分類器の監査アルゴリズムを提案し,性能保証を提供する。 以上の結果から, 偽説明は監査に極めて有用であるが, 最悪の場合, アンカー説明は役に立たない可能性が示唆された。

Responsible use of machine learning requires that models be audited for undesirable properties. However, how to do principled auditing in a general setting has remained ill-understood. In this paper, we propose a formal learning-theoretic framework for auditing. We propose algorithms for auditing linear classifiers for feature sensitivity using label queries as well as different kinds of explanations, and provide performance guarantees. Our results illustrate that while counterfactual explanations can be extremely helpful for auditing, anchor explanations may not be as beneficial in the worst case.
翻訳日:2022-06-14 05:45:43 公開日:2022-06-09
# (参考訳) オフライン強化学習のための軽度保守的Qラーニング

Mildly Conservative Q-Learning for Offline Reinforcement Learning ( http://arxiv.org/abs/2206.04745v1 )

ライセンス: CC BY 4.0
Jiafei Lyu, Xiaoteng Ma, Xiu Li, Zongqing Lu(参考訳) オフライン強化学習(RL)は、環境と継続的に対話することなく、静的なログ付きデータセットから学習するタスクを定義する。 学習した政策と行動方針の間の分配シフトは、価値関数が保守的であり続ける必要があるため、分散(ood)アクションが過大評価されない。 しかし、既存のアプローチでは、目に見えない行動のペナルティ化や行動方針の規則化は悲観的すぎるため、値関数の一般化が抑制され、性能改善の妨げとなる。 本稿では, 一般化を損なうことなく, オフライン学習に十分な保守性について検討する。 我々は,適切な擬似Q値を割り当てることで,OODアクションを積極的に訓練するマイルリー保守的Q-ラーニング(MCQ)を提案する。 理論的には、MCQは少なくとも行動方針と同様に振舞う政策を誘導し、OOD行動に対して誤った過大評価が起こらないことを示す。 D4RLベンチマークの実験結果から, MCQは従来よりも優れた性能を示した。 さらに、MCQはオフラインからオンラインへの移行において優れた一般化能力を示し、ベースラインを著しく上回る。

Offline reinforcement learning (RL) defines the task of learning from a static logged dataset without continually interacting with the environment. The distribution shift between the learned policy and the behavior policy makes it necessary for the value function to stay conservative such that out-of-distribution (OOD) actions will not be severely overestimated. However, existing approaches, penalizing the unseen actions or regularizing with the behavior policy, are too pessimistic, which suppresses the generalization of the value function and hinders the performance improvement. This paper explores mild but enough conservatism for offline learning while not harming generalization. We propose Mildly Conservative Q-learning (MCQ), where OOD actions are actively trained by assigning them proper pseudo Q values. We theoretically show that MCQ induces a policy that behaves at least as well as the behavior policy and no erroneous overestimation will occur for OOD actions. Experimental results on the D4RL benchmarks demonstrate that MCQ achieves remarkable performance compared with prior work. Furthermore, MCQ shows superior generalization ability when transferring from offline to online, and significantly outperforms baselines.
翻訳日:2022-06-14 05:18:05 公開日:2022-06-09
# (参考訳) hdtorch:gp-gpuによる超次元計算の高速化

HDTorch: Accelerating Hyperdimensional Computing with GP-GPUs for Design Space Exploration ( http://arxiv.org/abs/2206.04746v1 )

ライセンス: CC BY 4.0
William Andrew Simon, Una Pale, Tomas Teijeiro, David Atienza(参考訳) 機械学習パラダイムとしての超次元コンピューティング(HDC)は、長期監視のための継続的半教師付き学習を含むアプリケーションにとって非常に興味深い。 しかし、その精度は、他の機械学習(ML)アプローチとまだ同等ではない。 高速な設計空間探索を可能にするフレームワークは、他のML技術とHDコンピューティングを競合させるために必要である。 そこで我々は,ハイパーベクタ操作のためのCUDA拡張を備えたオープンソースのPyTorchベースのHDCライブラリであるHDTorchを紹介する。 我々は,4つのHDCベンチマークデータセットを,古典的およびオンライン両方のHDトレーニング手法を用いて,精度,実行時間,メモリ消費の観点から分析し,HDTorchの有用性を実証する。 クラシック/オンラインhdでは平均(111x/68x)/87xのスピードアップを示す。 さらに, 各種ハイパーパラメータが実行時および精度に与える影響を解析した。 最後に,HDTorchが大規模で実世界のデータセットに適用可能なHDC戦略の探索を可能にすることを示す。 我々はCHB-MIT脳波てんかんデータベース全体のHDトレーニングと推測分析を行った。 その結果、データのサブセットに対するトレーニングの典型的なアプローチは、必ずしもデータセット全体を一般化するとは限らないことが示され、医療ウェアラブルデバイスのための将来のHDモデルを開発する上で重要な要素である。

HyperDimensional Computing (HDC) as a machine learning paradigm is highly interesting for applications involving continuous, semi-supervised learning for long-term monitoring. However, its accuracy is not yet on par with other Machine Learning (ML) approaches. Frameworks enabling fast design space exploration to find practical algorithms are necessary to make HD computing competitive with other ML techniques. To this end, we introduce HDTorch, an open-source, PyTorch-based HDC library with CUDA extensions for hypervector operations. We demonstrate HDTorch's utility by analyzing four HDC benchmark datasets in terms of accuracy, runtime, and memory consumption, utilizing both classical and online HD training methodologies. We demonstrate average (training)/inference speedups of (111x/68x)/87x for classical/online HD, respectively. Moreover, we analyze the effects of varying hyperparameters on runtime and accuracy. Finally, we demonstrate how HDTorch enables exploration of HDC strategies applied to large, real-world datasets. We perform the first-ever HD training and inference analysis of the entirety of the CHB-MIT EEG epilepsy database. Results show that the typical approach of training on a subset of the data does not necessarily generalize to the entire dataset, an important factor when developing future HD models for medical wearable devices.
翻訳日:2022-06-14 04:32:06 公開日:2022-06-09
# (参考訳) 一般化線形モデルにおけるロバスト学習のためのトリミング最大確率推定

Trimmed Maximum Likelihood Estimation for Robust Learning in Generalized Linear Models ( http://arxiv.org/abs/2206.04777v1 )

ライセンス: CC BY 4.0
Weihao Kong, Rajat Sen, Pranjal Awasthi, Abhimanyu Das(参考訳) 敵の汚職下での一般化線形モデル学習の問題点を考察する。 我々は,ラベルの破損に対して有効であることが知られている反復トリミング最大度推定器と呼ばれる古典的ヒューリスティックを解析した。 ラベルの破損の下では、この単純な推定器はガウス回帰、ポアソン回帰、二項回帰を含む、幅広い一般化された線形モデルにおいて極小最適リスクを達成する。 最後に、評価対象をラベルと共変量の汚職のより困難な設定にまで拡張し、その設定における堅牢性と最適性を示す。

We study the problem of learning generalized linear models under adversarial corruptions. We analyze a classical heuristic called the iterative trimmed maximum likelihood estimator which is known to be effective against label corruptions in practice. Under label corruptions, we prove that this simple estimator achieves minimax near-optimal risk on a wide range of generalized linear models, including Gaussian regression, Poisson regression and Binomial regression. Finally, we extend the estimator to the more challenging setting of label and covariate corruptions and demonstrate its robustness and optimality in that setting as well.
翻訳日:2022-06-14 04:18:27 公開日:2022-06-09
# (参考訳) 高品位映画レコメンデーション解説課題におけるLIMEとSHAPのバイアス変動特性について

On the Bias-Variance Characteristics of LIME and SHAP in High Sparsity Movie Recommendation Explanation Tasks ( http://arxiv.org/abs/2206.04784v1 )

ライセンス: CC BY 4.0
Claudia V. Roberts and Ehtsham Elahi and Ashok Chandrashekar(参考訳) 映画レコメンデーションタスクにおいて,LIMEとSHAPの2つの一般的な局所説明可能性技術を評価する。 この2つの手法はデータセットの空間性によって非常に異なる挙動を示す。 LIME はデータセットの密度の高いセグメントでは SHAP より優れており、SHAP はスパースセグメントでは SHAP より優れている。 この差は, LIME と SHAP の基底推定値の差分差特性にさかのぼる。 SHAPは, LIMEと比較して, スパースセグメントのばらつきが低いことがわかった。 この低分散は、SHAPに固有の完全性制約特性とLIMEに欠けていることに起因する。 この制約は正則化器として機能し、従ってSHAP推定器のバイアスを増加させるが、そのばらつきを減少させ、特に高頻度データ設定において好ましいバイアス分散トレードオフをもたらす。 この知見により、LIME に同じ制約を導入し、LIME よりも優れ、SHAP よりもはるかに高速な完全性制約 LIME (CLIMB) と呼ばれる新しい局所的な説明可能性フレームワークを定式化する。

We evaluate two popular local explainability techniques, LIME and SHAP, on a movie recommendation task. We discover that the two methods behave very differently depending on the sparsity of the data set. LIME does better than SHAP in dense segments of the data set and SHAP does better in sparse segments. We trace this difference to the differing bias-variance characteristics of the underlying estimators of LIME and SHAP. We find that SHAP exhibits lower variance in sparse segments of the data compared to LIME. We attribute this lower variance to the completeness constraint property inherent in SHAP and missing in LIME. This constraint acts as a regularizer and therefore increases the bias of the SHAP estimator but decreases its variance, leading to a favorable bias-variance trade-off especially in high sparsity data settings. With this insight, we introduce the same constraint into LIME and formulate a novel local explainabilty framework called Completeness-Constrained LIME (CLIMB) that is superior to LIME and much faster than SHAP.
翻訳日:2022-06-14 03:42:39 公開日:2022-06-09
# (参考訳) Learn2Augment: 行動認識におけるデータ拡張のための複合ビデオ学習

Learn2Augment: Learning to Composite Videos for Data Augmentation in Action Recognition ( http://arxiv.org/abs/2206.04790v1 )

ライセンス: CC BY 4.0
Shreyank N Gowda, Marcus Rohrbach, Frank Keller, Laura Sevilla-Lara(参考訳) ビデオ行動認識におけるデータ拡張の問題に対処する。 ビデオの標準的な拡張戦略は手作業で設計され、可能な拡張データポイントの空間をランダムに、どの拡張ポイントが良いかを知らずに、あるいはヒューリスティックスを通してサンプリングする。 そこで我々は,アクション認識のための優れたビデオの作り方と,向上のための高品質なサンプルのみを選択することを提案する。 特に,前景と背景映像のビデオ合成をデータ拡張プロセスとして選択することで,多様で現実的な新しいサンプルが得られた。 実際に合成することなく、ビデオのどのペアを拡大するかを学ぶ。 これは計算コストを削減し、拡張ペアが平均よりも高品質であるため、最終的な訓練された分類器の精度を向上させるという2つの利点がある。 訓練環境の全体について実験結果を示す: 少数, 半監督, 完全監督。 これまでの作業とKinetics, UCF101, HMDB51のベースラインに対して,これらすべてに対して一貫した改善を行い, 限られたデータによる新たな最先端設定を実現する。 半教師付き設定では最大8.6%改善しています。

We address the problem of data augmentation for video action recognition. Standard augmentation strategies in video are hand-designed and sample the space of possible augmented data points either at random, without knowing which augmented points will be better, or through heuristics. We propose to learn what makes a good video for action recognition and select only high-quality samples for augmentation. In particular, we choose video compositing of a foreground and a background video as the data augmentation process, which results in diverse and realistic new samples. We learn which pairs of videos to augment without having to actually composite them. This reduces the space of possible augmentations, which has two advantages: it saves computational cost and increases the accuracy of the final trained classifier, as the augmented pairs are of higher quality than average. We present experimental results on the entire spectrum of training settings: few-shot, semi-supervised and fully supervised. We observe consistent improvements across all of them over prior work and baselines on Kinetics, UCF101, HMDB51, and achieve a new state-of-the-art on settings with limited data. We see improvements of up to 8.6% in the semi-supervised setting.
翻訳日:2022-06-14 03:26:46 公開日:2022-06-09
# (参考訳) 高次元非線形力学系に対する深層学習によるアンサンブルに基づくデータ同化

Deep learning-enhanced ensemble-based data assimilation for high-dimensional nonlinear dynamical systems ( http://arxiv.org/abs/2206.04811v1 )

ライセンス: CC BY 4.0
Ashesh Chattopadhyay, Ebrahim Nabizadeh, Eviatar Bach, Pedram Hassanzadeh(参考訳) データ同化(DA)は、科学と工学における多くの予測モデルの主要な構成要素である。 daはシステムの不完全な力学モデルとシステムから得られるノイズ/スパース観測を用いて、より良い初期条件を推定できる。 Ensemble Kalman filter (EnKF)は、高次元非線形力学系を含むアプリケーションで広く使われているDAアルゴリズムである。 しかし、enkfはシステムの力学モデルを用いて大規模な予測を進化させる必要がある。 これは、特に天気予報など、システムの状態数が非常に大きい場合、計算的に難解になることが多い。 小さいアンサンブルでは、enkfアルゴリズムにおける推定背景誤差共分散行列はサンプリング誤差に苦しめられ、解析状態(次の予測サイクルの初期条件)の誤った推定に繋がる。 本研究では,二層準地中流系に適用可能なハイブリッドアンサンブルカルマンフィルタ(h-enkf)をテストケースとして提案する。 このフレームワークは、トレーニング済みのディープラーニングベースのデータ駆動サロゲートを使用して、システム状態の大規模なデータ駆動アンサンブルを安価に生成し、進化させ、サンプリングエラーの少ないバックグラウンドエラー共分散マトリックスを正確に計算する。 H-EnKFフレームワークは、アドホックなローカライゼーション戦略を必要とせずに、より良い初期条件を推定する。 H-EnKFは任意のアンサンブルベースのDAアルゴリズム(例えば粒子フィルタ)に拡張できるが、これは現在高次元システムでは利用が難しい。

Data assimilation (DA) is a key component of many forecasting models in science and engineering. DA allows one to estimate better initial conditions using an imperfect dynamical model of the system and noisy/sparse observations available from the system. Ensemble Kalman filter (EnKF) is a DA algorithm that is widely used in applications involving high-dimensional nonlinear dynamical systems. However, EnKF requires evolving large ensembles of forecasts using the dynamical model of the system. This often becomes computationally intractable, especially when the number of states of the system is very large, e.g., for weather prediction. With small ensembles, the estimated background error covariance matrix in the EnKF algorithm suffers from sampling error, leading to an erroneous estimate of the analysis state (initial condition for the next forecast cycle). In this work, we propose hybrid ensemble Kalman filter (H-EnKF), which is applied to a two-layer quasi-geostrophic flow system as a test case. This framework utilizes a pre-trained deep learning-based data-driven surrogate that inexpensively generates and evolves a large data-driven ensemble of the states of the system to accurately compute the background error covariance matrix with less sampling error. The H-EnKF framework estimates a better initial condition without the need for any ad-hoc localization strategies. H-EnKF can be extended to any ensemble-based DA algorithm, e.g., particle filters, which are currently difficult to use for high dimensional systems.
翻訳日:2022-06-14 03:09:47 公開日:2022-06-09
# (参考訳) 真理発見問題に対する経験的ベイズアプローチ

Empirical Bayes approach to Truth Discovery problems ( http://arxiv.org/abs/2206.04816v1 )

ライセンス: CC BY 4.0
Tsviel Ben Shabat, Reshef Meir, David Azriel(参考訳) 矛盾する情報源から情報を集約する場合、その真相を見つけることが目的である。 ほとんどの実値 \emph{truth discovery} (TD) アルゴリズムは、各ソースの能力を推定し、各ソースの回答を彼女の能力に比例して評価することで矛盾する情報を集約することで、この目標を達成する。 しかし、これらのアルゴリズムは、これらの推定のために1つ以上のソースを必要とし、通常、重み付け平均以外の異なる推定方法を考慮しない。 そこで本研究では, 経験的ベイズ推定器 (ebe) の条件を定式化し, 証明し, 実証的に検証し, 重み付け平均凝集率を支配した。 本研究の主な成果は,ETEを任意のTDアルゴリズムの第2ステップとして用いることで,予測誤差を低減できることである。

When aggregating information from conflicting sources, one's goal is to find the truth. Most real-value \emph{truth discovery} (TD) algorithms try to achieve this goal by estimating the competence of each source and then aggregating the conflicting information by weighing each source's answer proportionally to her competence. However, each of those algorithms requires more than a single source for such estimation and usually does not consider different estimation methods other than a weighted mean. Therefore, in this work we formulate, prove, and empirically test the conditions for an Empirical Bayes Estimator (EBE) to dominate the weighted mean aggregation. Our main result demonstrates that EBE, under mild conditions, can be used as a second step of any TD algorithm in order to reduce the expected error.
翻訳日:2022-06-14 02:42:30 公開日:2022-06-09
# 混合雑音モデルと重み付き正規化に基づくGPU加速光場超解像フレームワーク

A GPU-Accelerated Light-field Super-resolution Framework Based on Mixed Noise Model and Weighted Regularization ( http://arxiv.org/abs/2206.05047v1 )

ライセンス: Link先を確認
Trung-Hieu Tran, Kaicong Sun, Sven Simon(参考訳) 本稿では,gaussian-impulse混合ノイズ条件下で高分解能(hr)lf画像を再構成するためのgpu高速化計算フレームワークを提案する。 主な焦点は、処理速度と再構築品質を考慮した高性能なアプローチの開発である。 統計的観点から,混合雑音を考慮したhr再構成誤差をペナルティ化するための合同$\ell^1$-$\ell^2$データ忠実性項を導出する。 正規化のために、重み付き非局所的全変動アプローチを採用し、適切な重み付けスキームを通じてlf像を効果的に実現する。 本稿では,乗算器アルゴリズム (ADMM) の交互方向法を用いて計算複雑性を単純化し,GPUプラットフォーム上での並列計算を高速化することを示す。 提案するsrモデルのロバスト性を検証するために合成4次元lfデータセットと自然画像データセットの両方について広範な実験を行い,高速化オプティマイザの性能評価を行った。 実験結果から, 本手法は, 高度混合雑音条件下での再現性を向上させることが示唆された。 さらに,提案手法は,大規模SRタスクの処理における従来の作業の制限を克服する。 1つのオフ・ザ・シェルフGPU内に収まる一方で、提案されたアクセラレーターは平均スピードアップを2.46$\times$と1.57$\times$でそれぞれ$\times 2$と$\times 3$ SRタスクで提供する。 さらに、CPU実行と比較して77\times$のスピードアップが達成されている。

This paper presents a GPU-accelerated computational framework for reconstructing high resolution (HR) LF images under a mixed Gaussian-Impulse noise condition. The main focus is on developing a high-performance approach considering processing speed and reconstruction quality. From a statistical perspective, we derive a joint $\ell^1$-$\ell^2$ data fidelity term for penalizing the HR reconstruction error taking into account the mixed noise situation. For regularization, we employ the weighted non-local total variation approach, which allows us to effectively realize LF image prior through a proper weighting scheme. We show that the alternating direction method of multipliers algorithm (ADMM) can be used to simplify the computation complexity and results in a high-performance parallel computation on the GPU Platform. An extensive experiment is conducted on both synthetic 4D LF dataset and natural image dataset to validate the proposed SR model's robustness and evaluate the accelerated optimizer's performance. The experimental results show that our approach achieves better reconstruction quality under severe mixed-noise conditions as compared to the state-of-the-art approaches. In addition, the proposed approach overcomes the limitation of the previous work in handling large-scale SR tasks. While fitting within a single off-the-shelf GPU, the proposed accelerator provides an average speedup of 2.46$\times$ and 1.57$\times$ for $\times 2$ and $\times 3$ SR tasks, respectively. In addition, a speedup of $77\times$ is achieved as compared to CPU execution.
翻訳日:2022-06-13 16:05:41 公開日:2022-06-09
# 予測エグジット:計算とエネルギー効率予測のための細粒度初期エグジットの予測

Predictive Exit: Prediction of Fine-Grained Early Exits for Computation- and Energy-Efficient Inference ( http://arxiv.org/abs/2206.04685v1 )

ライセンス: Link先を確認
Xiangjie Li, Chenfei Lou, Zhengping Zhu, Yuchi Chen, Yingtao Shen, Yehan Ma, An Zou(参考訳) ディープラーニングネットワークにエグジット層を追加することで、早期エグジットは正確な結果で推論を早期に終了することができる。 次のレイヤを出るか、継続するかのパッシブな意思決定は、そのレイヤが終了するまで、すべての既定のエグジット層を通過する必要がある。 さらに、推論の進行とともに、コンピューティングプラットフォームの構成を調整することも困難である。 低コストな予測エンジンを導入し,計算・エネルギー効率の高いディープラーニングアプリケーションのための予測エクイットフレームワークを提案する。 Predictive Exitは、ネットワークが終了する場所を予測できる(つまり、推論を終了するために残りのレイヤ数を確立する)ため、事前に配置されたすべての出口層を走らせることなく、時間通りに終了することで、ネットワーク計算コストを効果的に削減できる。 さらに、残りの層数に応じて、適切な計算構成(周波数と電圧)を選択して、ネットワークを実行してエネルギーを節約する。 広範な実験の結果、予測出口は従来のディープラーニングネットワークと比較して96.2%の計算削減と72.9%の省エネを達成し、12.8%の計算削減と37.6%の省エネを達成した。

By adding exiting layers to the deep learning networks, early exit can terminate the inference earlier with accurate results. The passive decision-making of whether to exit or continue the next layer has to go through every pre-placed exiting layer until it exits. In addition, it is also hard to adjust the configurations of the computing platforms alongside the inference proceeds. By incorporating a low-cost prediction engine, we propose a Predictive Exit framework for computation- and energy-efficient deep learning applications. Predictive Exit can forecast where the network will exit (i.e., establish the number of remaining layers to finish the inference), which effectively reduces the network computation cost by exiting on time without running every pre-placed exiting layer. Moreover, according to the number of remaining layers, proper computing configurations (i.e., frequency and voltage) are selected to execute the network to further save energy. Extensive experimental results demonstrate that Predictive Exit achieves up to 96.2% computation reduction and 72.9% energy-saving compared with classic deep learning networks; and 12.8% computation reduction and 37.6% energy-saving compared with the early exit under state-of-the-art exiting strategies, given the same inference accuracy and latency.
翻訳日:2022-06-13 16:05:15 公開日:2022-06-09
# 有限要素モデル(rom-fem)とrom-rom結合のための新しい分割法

A Novel Partitioned Approach for Reduced Order Model -- Finite Element Model (ROM-FEM) and ROM-ROM Coupling ( http://arxiv.org/abs/2206.04736v1 )

ライセンス: Link先を確認
Amy de Castro, Paul Kuberry, Irina Tezaur, and Pavel Bochev(参考訳) 分割されたメソッドは、既存の単一コンポーネントのコードを再利用することで、結合した問題に対するシミュレーション機能を構築することができる。 そうすることで、分割されたメソッドは、マルチフィジカルおよびマルチスケールアプリケーションのコード開発と検証時間を短縮することができる。 本研究では,結合する"符号"のうち1つ以上がプロジェクションに基づく還元順序モデル(rom)であり,特定のコンポーネントに関連する計算コストを下げるために導入されたシナリオについて考察する。 このシナリオは、2つの重複しないサブドメインで独立に離散化されるモデルインターフェースの問題を考えることでシミュレートする。 次に、この問題に対して分割されたスキームを定式化し、一方のサブドメインに対して、有限要素モデル(FEM)と他方のサブドメインに対するROM"コード"との結合を可能にする。 rom "符号" は、スナップショットアンサンブル上で適切な直交分解(pod)を行い、低次元の縮小順序基底を取得し、ガレルキン射影(galerkin projection)をこの基底上に構築する。 各サブドメインのROMおよび/またはFEMの"コード"は、インターフェースフラックスを表すラグランジュ乗算器を用いて結合される。 結果として生じるモノリシックな問題を分割するために、まず二重シュア補数を通してフラックスを除去する。 変換されたモノリシックな問題への明示的な時間積分スキームの適用は、サブドメイン方程式を分離し、それらの独立解を次のステップで実現する。 提案手法がROM-FEMとROM-ROMの結合を実現する上で有効であることを示す数値的な結果を示す。

Partitioned methods allow one to build a simulation capability for coupled problems by reusing existing single-component codes. In so doing, partitioned methods can shorten code development and validation times for multiphysics and multiscale applications. In this work, we consider a scenario in which one or more of the "codes" being coupled are projection-based reduced order models (ROMs), introduced to lower the computational cost associated with a particular component. We simulate this scenario by considering a model interface problem that is discretized independently on two non-overlapping subdomains. We then formulate a partitioned scheme for this problem that allows the coupling between a ROM "code" for one of the subdomains with a finite element model (FEM) or ROM "code" for the other subdomain. The ROM "codes" are constructed by performing proper orthogonal decomposition (POD) on a snapshot ensemble to obtain a low-dimensional reduced order basis, followed by a Galerkin projection onto this basis. The ROM and/or FEM "codes" on each subdomain are then coupled using a Lagrange multiplier representing the interface flux. To partition the resulting monolithic problem, we first eliminate the flux through a dual Schur complement. Application of an explicit time integration scheme to the transformed monolithic problem decouples the subdomain equations, allowing their independent solution for the next time step. We show numerical results that demonstrate the proposed method's efficacy in achieving both ROM-FEM and ROM-ROM coupling.
翻訳日:2022-06-13 16:02:01 公開日:2022-06-09
# 負のフリーコントラスト学習の絡み合いに関する実証的研究

An Empirical Study on Disentanglement of Negative-free Contrastive Learning ( http://arxiv.org/abs/2206.04756v1 )

ライセンス: Link先を確認
Jinkun Cao, Ruiqian Nai, Qing Yang, Jialei Huang, Yang Gao(参考訳) ネガティブフリーなコントラスト学習は、大規模事前学習のための単純さと印象的なパフォーマンスで多くの注目を集めている。 しかし、その絡み合う性質は未解明のままである。 本稿では,このジャンルの自己監督手法の絡み合い特性を実証的に研究するために,異なるネガティブなコントラスト学習手法を提案する。 既存の異方性メトリクスは高次元表現モデルにおいて有意義な測定を行えず,表現とデータ因子の相互情報に基づく新しい異方性メトリクスを提案する。 提案手法を用いて,一般的な合成データセットと実世界のデータセットCelebAを用いて,負のフリーコントラスト学習の非絡合性を初めて評価した。 本研究は,提案手法が表現の相反する部分集合を学習できることを示す。 本研究では, 対角表現学習の研究を, 初めて高次元表現空間と非負のコントラスト学習に拡張する。 提案されているメトリックの実装は \url{https://github.com/noahcao/disentanglement_lib_med} で利用可能である。

Negative-free contrastive learning has attracted a lot of attention with simplicity and impressive performance for large-scale pretraining. But its disentanglement property remains unexplored. In this paper, we take different negative-free contrastive learning methods to study the disentanglement property of this genre of self-supervised methods empirically. We find the existing disentanglement metrics fail to make meaningful measurements for the high-dimensional representation model so we propose a new disentanglement metric based on Mutual Information between representation and data factors. With the proposed metric, we benchmark the disentanglement property of negative-free contrastive learning for the first time, on both popular synthetic datasets and a real-world dataset CelebA. Our study shows that the investigated methods can learn a well-disentangled subset of representation. We extend the study of the disentangled representation learning to high-dimensional representation space and negative-free contrastive learning for the first time. The implementation of the proposed metric is available at \url{https://github.com/noahcao/disentanglement_lib_med}.
翻訳日:2022-06-13 15:39:49 公開日:2022-06-09
# AIは何を見るべきか? 公の意見を使ってAIの知覚を決定する

What should AI see? Using the Public's Opinion to Determine the Perception of an AI ( http://arxiv.org/abs/2206.04776v1 )

ライセンス: Link先を確認
Robin Chan, Radin Dardashti, Meike Osinski, Matthias Rottmann, Dominik Br\"uggemann, Cilia R\"ucker, Peter Schlicht, Fabian H\"uger, Nikol Rummel, Hanno Gottschalk(参考訳) ディープ・ニューラル・ネットワーク(dnn)は画像データの解釈において印象的な進歩を遂げており、自動走行のような安全上重要なアプリケーションでそれを使用するのはある程度現実的である。 倫理的観点から見れば、AIアルゴリズムは道路自体の「全くない」から歩行者の「高い脆弱性」まで、道路上の物体や対象の脆弱性を考慮に入れるべきである。 これを考慮する一つの方法は、ある意味圏と別の意味圏を混同するコストを定義し、DNNの出力である確率の解釈にコストベースの決定ルールを使用することである。 しかし、コスト構造を定義するにはオープンな問題であり、誰がそれを行うべきで、それによってAIアルゴリズムが実際に「見る」ものを定義する。 可能な答えの1つとして、私たちは参加型アプローチに従い、コスト構造を定義するよう国民に求めるオンライン調査を設定します。 本稿では, 客車利用者と外部交通参加者) の視点と性別を区別する評価とともに, 調査設計と得られたデータについて述べる。 シミュレーションに基づく$F$-testsを用いて,グループ間で有意な差が認められた。 これらの違いは、自動運転車に対する安全臨界距離における歩行者の確実な検出に影響を及ぼす。 本稿では,このアプローチに関連する倫理的問題を論じるとともに,心理学的観点からみた人間と機械の相互作用から生じる問題を論じる。 最後に、自動運転におけるAI機能設計におけるサーベイベースの要素の適用性について、AI安全分野の業界リーダーからのコメントを含む。

Deep neural networks (DNN) have made impressive progress in the interpretation of image data, so that it is conceivable and to some degree realistic to use them in safety critical applications like automated driving. From an ethical standpoint, the AI algorithm should take into account the vulnerability of objects or subjects on the street that ranges from "not at all", e.g. the road itself, to "high vulnerability" of pedestrians. One way to take this into account is to define the cost of confusion of one semantic category with another and use cost-based decision rules for the interpretation of probabilities, which are the output of DNNs. However, it is an open problem how to define the cost structure, who should be in charge to do that, and thereby define what AI-algorithms will actually "see". As one possible answer, we follow a participatory approach and set up an online survey to ask the public to define the cost structure. We present the survey design and the data acquired along with an evaluation that also distinguishes between perspective (car passenger vs. external traffic participant) and gender. Using simulation based $F$-tests, we find highly significant differences between the groups. These differences have consequences on the reliable detection of pedestrians in a safety critical distance to the self-driving car. We discuss the ethical problems that are related to this approach and also discuss the problems emerging from human-machine interaction through the survey from a psychological point of view. Finally, we include comments from industry leaders in the field of AI safety on the applicability of survey based elements in the design of AI functionalities in automated driving.
翻訳日:2022-06-13 15:39:34 公開日:2022-06-09
# エゴセントリック3次元ポーズ推定のための時空間変圧器の構築

Building Spatio-temporal Transformers for Egocentric 3D Pose Estimation ( http://arxiv.org/abs/2206.04785v1 )

ライセンス: Link先を確認
Jinman Park, Kimathi Kaai, Saad Hossain, Norikatsu Sumi, Sirisha Rambhatla, Paul Fieguth(参考訳) 頭部搭載カメラからの魚眼視による重度の自己遮蔽と強い歪みのため,画像からの自己中心性3次元人物ポーズ推定(hpe)は困難である。 既存の研究では、中間的な熱マップに基づく表現を用いて歪みに対処するが、自己閉塞に対処することは未解決の問題である。 本研究では,過去のフレームからの情報を活用し,自己注意に基づく3次元HPE推定手順であるEgo-STANを導出する。 具体的には、セマンティックにリッチな畳み込みニューラルネットワークに基づく特徴マップに付随する時空間変換モデルを構築する。 また,これらの特徴マップに対応するための新しい学習可能なパラメータセットとして,特徴マップトークンを提案する。 最後に、xr-egoposeデータセットにおけるego-stanの優れたパフォーマンスを実証し、ジョイント毎の平均位置誤差を30.6%改善し、最新データと比較してパラメータが22%減少することを示した。

Egocentric 3D human pose estimation (HPE) from images is challenging due to severe self-occlusions and strong distortion introduced by the fish-eye view from the head mounted camera. Although existing works use intermediate heatmap-based representations to counter distortion with some success, addressing self-occlusion remains an open problem. In this work, we leverage information from past frames to guide our self-attention-based 3D HPE estimation procedure -- Ego-STAN. Specifically, we build a spatio-temporal Transformer model that attends to semantically rich convolutional neural network-based feature maps. We also propose feature map tokens: a new set of learnable parameters to attend to these feature maps. Finally, we demonstrate Ego-STAN's superior performance on the xR-EgoPose dataset where it achieves a 30.6% improvement on the overall mean per-joint position error, while leading to a 22% drop in parameters compared to the state-of-the-art.
翻訳日:2022-06-13 15:39:10 公開日:2022-06-09
# SimVP:もっとシンプルなビデオ予測

SimVP: Simpler yet Better Video Prediction ( http://arxiv.org/abs/2206.05099v1 )

ライセンス: Link先を確認
Zhangyang Gao, Cheng Tan, Lirong Wu, Stan Z. Li(参考訳) cnn、rnn、vitから、補助入力、精巧なニューラルネットワークアーキテクチャ、高度なトレーニング戦略など、ビデオ予測の著しい進歩を見てきた。 私たちはこれらの進歩を賞賛していますが、その必要性について混乱しています。 本稿では,cnn上に構築され,mse損失によりエンドツーエンドで訓練された簡易ビデオ予測モデルsimvpを提案する。 追加のトリックや複雑な戦略を導入することなく、5つのベンチマークデータセットで最先端のパフォーマンスを達成できます。 拡張実験により,SimVPは実世界のデータセットに強い一般化と拡張性を持つことを示した。 トレーニングコストの大幅な削減により、複雑なシナリオへのスケールアップが容易になる。 simvpは、ビデオ予測のさらなる発展を刺激するための確固たるベースラインとして機能できると考えています。 コードは \href{https://github.com/gaozhangyang/SimVP-Simpler-yet-Better-Video-Prediction}{Github} で公開されている。

From CNN, RNN, to ViT, we have witnessed remarkable advancements in video prediction, incorporating auxiliary inputs, elaborate neural architectures, and sophisticated training strategies. We admire these progresses but are confused about the necessity: is there a simple method that can perform comparably well? This paper proposes SimVP, a simple video prediction model that is completely built upon CNN and trained by MSE loss in an end-to-end fashion. Without introducing any additional tricks and complicated strategies, we can achieve state-of-the-art performance on five benchmark datasets. Through extended experiments, we demonstrate that SimVP has strong generalization and extensibility on real-world datasets. The significant reduction of training cost makes it easier to scale to complex scenarios. We believe SimVP can serve as a solid baseline to stimulate the further development of video prediction. The code is available at \href{https://github.com/gaozhangyang/SimVP-Simpler-yet-Better-Video-Prediction}{Github}.
翻訳日:2022-06-13 15:36:15 公開日:2022-06-09
# Swan: スマートフォン SoC 上での DNN トレーニングを効率的に行うニューラルネットワークエンジン

Swan: A Neural Engine for Efficient DNN Training on Smartphone SoCs ( http://arxiv.org/abs/2206.04687v1 )

ライセンス: Link先を確認
Sanjay Sri Vallabh Singapuram, Fan Lai, Chuheng Hu, Mosharaf Chowdhury(参考訳) エンドユーザデバイス(例えばスマートフォン)でDNNモデルをトレーニングする必要性は、データのプライバシを改善し、通信オーバーヘッドを低減する必要性によって増大している。 強力なcpuとgpuを備えたデータセンタサーバとは異なり、現代のスマートフォンはさまざまなタスクを実行するsystem-on-a-chip(soc)アーキテクチャに従って、さまざまな特殊なコアの集合で構成されている。 我々は,スマートフォンSoC上でのDNNのトレーニングが,リソース制約を慎重に考慮することなく,最適なトレーニング性能をもたらすだけでなく,ユーザエクスペリエンスにも大きな影響を与えることを観察した。 本稿では,スマートフォンのSoCにおけるDNNトレーニングを,ユーザエクスペリエンスを損なうことなく最適化するニューラルエンジンであるSwanを紹介する。 大規模な評価では、Swanは最先端よりも1.2~23.3倍の性能向上が可能である。

The need to train DNN models on end-user devices (e.g., smartphones) is increasing with the need to improve data privacy and reduce communication overheads. Unlike datacenter servers with powerful CPUs and GPUs, modern smartphones consist of a diverse collection of specialized cores following a system-on-a-chip (SoC) architecture that together perform a variety of tasks. We observe that training DNNs on a smartphone SoC without carefully considering its resource constraints can not only lead to suboptimal training performance but significantly affect user experience as well. In this paper, we present Swan, a neural engine to optimize DNN training on smartphone SoCs without hurting user experience. Extensive large-scale evaluations show that Swan can improve performance by 1.2 - 23.3x over the state-of-the-art.
翻訳日:2022-06-13 15:34:31 公開日:2022-06-09
# COSTA: グラフコントラスト学習のための共分散保存機能強化

COSTA: Covariance-Preserving Feature Augmentation for Graph Contrastive Learning ( http://arxiv.org/abs/2206.04726v1 )

ライセンス: Link先を確認
Yifei Zhang and Hao Zhu and Zixing Song and Piotr Koniusz and Iriwn King(参考訳) グラフコントラスト学習 (gcl) はグラフ表現学習を改善し、様々な下流タスクで sota に繋がる。 グラフ拡大ステップは、GCLの重要なステップであるが、ほとんど研究されていない。 本稿では,グラフ拡張によって得られるノード埋め込みが偏りが強く,下流タスクの識別的特徴の学習から対照的なモデルを多少制限していることを示し,入力空間におけるグラフ拡張を調査せず,隠れた特徴の強調を行う方法を提案する(特徴拡張)。 いわゆる行列スケッチにインスパイアされたCOSTAは,従来の特徴の「よいスケッチ」を保ち,拡張された特徴を生成できる,GCLのための新しいCOvariance-preServing feaTure space Augmentationフレームワークである。 COSTAによる機能拡張の優位性を強調するため、メモリと計算を保存するシングルビュー設定(マルチビュー設定に加えて)について検討する。 COSTAによる機能拡張は,グラフ拡張に基づくモデルに比べて,同等/ベターな結果が得られることを示す。

Graph contrastive learning (GCL) improves graph representation learning, leading to SOTA on various downstream tasks. The graph augmentation step is a vital but scarcely studied step of GCL. In this paper, we show that the node embedding obtained via the graph augmentations is highly biased, somewhat limiting contrastive models from learning discriminative features for downstream tasks.Thus, instead of investigating graph augmentation in the input space, we alternatively propose to perform augmentations on the hidden features (feature augmentation). Inspired by so-called matrix sketching, we propose COSTA, a novel COvariance-preServing feaTure space Augmentation framework for GCL, which generates augmented features by maintaining a ``good sketch'' of original features. To highlight the superiority of feature augmentation with COSTA, we investigate a single-view setting (in addition to multi-view one) which conserves memory and computations. We show that the feature augmentation with COSTA achieves comparable/better results than graph augmentation based models.
翻訳日:2022-06-13 15:34:07 公開日:2022-06-09
# 非同期フェデレーション学習の収束性を改善するモビリティ

Mobility Improves the Convergence of Asynchronous Federated Learning ( http://arxiv.org/abs/2206.04742v1 )

ライセンス: Link先を確認
Jieming Bian, Jie Xu(参考訳) 本稿では,クライアントの任意の通信パターンをパラメータサーバと共有する非同期フェデレーション学習(FL)について検討する。 我々は,モバイルFLシステムの移動特性を利用して学習性能を向上させる非同期FLアルゴリズムであるFedMobileを提案する。 重要なアイデアは、モバイルネットワークにおけるランダムなクライアント間通信を利用して、アップロードとダウンロードのリレーを通じてサーバとの間接的な通信機会を作成することだ。 我々は、feedmobileが$o(\frac{1}{\sqrt{nt}})$(ここで$n$はクライアント数、$t$は通信スロット数)を達成することを証明し、最適な設計は中継の最良のタイミングで興味深いトレードオフを伴うことを示す。 解析により,移動度の向上に伴い,非同期FLはFedMobileにより高速に収束することが示唆された。 実験の結果を合成データセットと実世界の2つのデータセットで検証した。

This paper studies asynchronous Federated Learning (FL) subject to clients' individual arbitrary communication patterns with the parameter server. We propose FedMobile, a new asynchronous FL algorithm that exploits the mobility attribute of the mobile FL system to improve the learning performance. The key idea is to leverage the random client-to-client communication in a mobile network to create additional indirect communication opportunities with the server via upload and download relaying. We prove that FedMobile achieves a convergence rate $O(\frac{1}{\sqrt{NT}})$, where $N$ is the number of clients and $T$ is the number of communication slots, and show that the optimal design involves an interesting trade-off on the best timing of relaying. Our analysis suggests that with an increased level of mobility, asynchronous FL converges faster using FedMobile. Experiment results on a synthetic dataset and two real-world datasets verify our theoretical findings.
翻訳日:2022-06-13 15:33:45 公開日:2022-06-09
# ロバストプリトレーニングによるデータ効率2勝抽選券

Data-Efficient Double-Win Lottery Tickets from Robust Pre-training ( http://arxiv.org/abs/2206.04762v1 )

ライセンス: Link先を確認
Tianlong Chen, Zhenyu Zhang, Sijia Liu, Yang Zhang, Shiyu Chang, Zhangyang Wang(参考訳) 事前トレーニングは、さまざまな下流タスクにおける転校学習の出発点として広く採用されている。 ロータリーチケット仮説(LTH)の最近の研究は、そのような巨大な事前訓練されたモデルは、転送性を犠牲にすることなく、非常に粗いサブネットワーク(すなわち、マッチングサブネットワークス)に置き換えることができることを示した。 しかし、現実的なセキュリティの厳しいアプリケーションは、通常、標準転送を超えてより困難な要件を課す。 本稿では,事前学習されたモデルから配置されたサブネットワークを,異なる下流タスクで独立に転送し,標準的および敵対的訓練体制下で同じ標準と堅牢な一般化に到達できる,より厳密な概念であるダブルウィン抽選チケットを定式化する。 我々は,様々な事前学習機構を包括的に検討し,ロバストな事前学習が,標準より優れた性能を持つスパルサーダブルウィン抽選券を製作する傾向があることを見出した。 例えば、下流のCIFAR-10/100データセットでは、ImageNetの標準、高速の対角線、対向線事前トレーニングによる二重ウィンマッチングサブネットを89.26%/73.79%、89.26%/79.03%、91.41%/83.22%で識別する。 さらに,実データ限定方式(1%,10%など)の下で,取得したダブルウィン抽選チケットの転送効率が向上することを示した。 以上の結果から,ロバスト事前学習のメリットは,抽選券方式やデータ限定転送方式によって増幅されることがわかった。 コードはhttps://github.com/VITA-Group/Double-Win-LTHで入手できる。

Pre-training serves as a broadly adopted starting point for transfer learning on various downstream tasks. Recent investigations of lottery tickets hypothesis (LTH) demonstrate such enormous pre-trained models can be replaced by extremely sparse subnetworks (a.k.a. matching subnetworks) without sacrificing transferability. However, practical security-crucial applications usually pose more challenging requirements beyond standard transfer, which also demand these subnetworks to overcome adversarial vulnerability. In this paper, we formulate a more rigorous concept, Double-Win Lottery Tickets, in which a located subnetwork from a pre-trained model can be independently transferred on diverse downstream tasks, to reach BOTH the same standard and robust generalization, under BOTH standard and adversarial training regimes, as the full pre-trained model can do. We comprehensively examine various pre-training mechanisms and find that robust pre-training tends to craft sparser double-win lottery tickets with superior performance over the standard counterparts. For example, on downstream CIFAR-10/100 datasets, we identify double-win matching subnetworks with the standard, fast adversarial, and adversarial pre-training from ImageNet, at 89.26%/73.79%, 89.26%/79.03%, and 91.41%/83.22% sparsity, respectively. Furthermore, we observe the obtained double-win lottery tickets can be more data-efficient to transfer, under practical data-limited (e.g., 1% and 10%) downstream schemes. Our results show that the benefits from robust pre-training are amplified by the lottery ticket scheme, as well as the data-limited transfer setting. Codes are available at https://github.com/VITA-Group/Double-Win-LTH.
翻訳日:2022-06-13 15:33:28 公開日:2022-06-09
# 最大変形ベイズ最適化のための合同エントロピー探索

Joint Entropy Search For Maximally-Informed Bayesian Optimization ( http://arxiv.org/abs/2206.04771v1 )

ライセンス: Link先を確認
Carl Hvarfner and Frank Hutter and Luigi Nardi(参考訳) 情報理論ベイズ最適化技術は、その非光学的特性により、コスト対評価のブラックボックス関数の最適化に人気がある。 エントロピー探索と予測エントロピー探索はどちらも入力空間の最適値上のエントロピーを、最近のマックス値エントロピー探索は出力空間の最適値上のエントロピーを考える。 本稿では,入力空間と出力空間の両面での最適確率密度に対するエントロピーという,全く新しい量を考える新しい情報理論獲得関数であるジョイントエントロピー探索(JES)を提案する。 この情報を取り入れるために,最適入力/出力ペアの条件付けによるエントロピーの低減を検討する。 結果として得られるアプローチは、主に標準gp機械に依存し、情報理論の手法に関連する複雑な近似を取り除く。 計算オーバーヘッドが最小限であれば、JESは優れた意思決定を示し、幅広いタスクにまたがる情報理論的なアプローチに対して最先端のパフォーマンスをもたらす。 優れた結果を持つ軽量なアプローチとして、JESはベイズ最適化のための新しいゴーツー獲得関数を提供する。

Information-theoretic Bayesian optimization techniques have become popular for optimizing expensive-to-evaluate black-box functions due to their non-myopic qualities. Entropy Search and Predictive Entropy Search both consider the entropy over the optimum in the input space, while the recent Max-value Entropy Search considers the entropy over the optimal value in the output space. We propose Joint Entropy Search (JES), a novel information-theoretic acquisition function that considers an entirely new quantity, namely the entropy over the joint optimal probability density over both input and output space. To incorporate this information, we consider the reduction in entropy from conditioning on fantasized optimal input/output pairs. The resulting approach primarily relies on standard GP machinery and removes complex approximations typically associated with information-theoretic methods. With minimal computational overhead, JES shows superior decision-making, and yields state-of-the-art performance for information-theoretic approaches across a wide suite of tasks. As a light-weight approach with superior results, JES provides a new go-to acquisition function for Bayesian optimization.
翻訳日:2022-06-13 15:31:19 公開日:2022-06-09
# 複合進化データストリームからのオンライン深部異常検出のための適応型モデルプール

Adaptive Model Pooling for Online Deep Anomaly Detection from a Complex Evolving Data Stream ( http://arxiv.org/abs/2206.04792v1 )

ライセンス: Link先を確認
Susik Yoon, Youngjun Lee, Jae-Gil Lee, Byung Suk Lee(参考訳) データストリームからのオンライン異常検出は、多くのアプリケーションの安全性とセキュリティにとって重要であるが、IoTデバイスやクラウドベースのインフラストラクチャからの複雑なデータストリームの進化による深刻な問題に直面している。 オンラインの異常検出手法は、オフラインの深い異常検出手法が進化するデータ分布に苦しむのに対して、複雑さを扱う負担を負う。 本稿では,任意のオートエンコーダに基づく深部異常検出手法を用いてインスタンス化可能な,オンライン深部異常検出フレームワークargusを提案する。 前者は複雑性に最も適したモデルの組み合わせで異常を検知し、後者は進化するデータストリームに適合するようにモデルプールを動的に適応する。 ARCUSは、高次元とコンセプトドリフトの両方の10データセットを用いた総合的な実験において、最先端オートエンコーダ法と最先端ストリーミング異常検出法のストリーミング変種の異常検出精度を最大22%と37%向上させた。

Online anomaly detection from a data stream is critical for the safety and security of many applications but is facing severe challenges due to complex and evolving data streams from IoT devices and cloud-based infrastructures. Unfortunately, existing approaches fall too short for these challenges; online anomaly detection methods bear the burden of handling the complexity while offline deep anomaly detection methods suffer from the evolving data distribution. This paper presents a framework for online deep anomaly detection, ARCUS, which can be instantiated with any autoencoder-based deep anomaly detection methods. It handles the complex and evolving data streams using an adaptive model pooling approach with two novel techniques: concept-driven inference and drift-aware model pool update; the former detects anomalies with a combination of models most appropriate for the complexity, and the latter adapts the model pool dynamically to fit the evolving data streams. In comprehensive experiments with ten data sets which are both high-dimensional and concept-drifted, ARCUS improved the anomaly detection accuracy of the streaming variants of state-of-the-art autoencoder-based methods and that of the state-of-the-art streaming anomaly detection methods by up to 22% and 37%, respectively.
翻訳日:2022-06-13 15:25:13 公開日:2022-06-09
# 構造MRIに基づく自閉症スペクトラム障害分類におけるメタデータ研究

Meta-data Study in Autism Spectrum Disorder Classification Based on Structural MRI ( http://arxiv.org/abs/2206.05052v1 )

ライセンス: Link先を確認
Ruimin Ma, Yanlin Wang, Yanjie Wei, Yi Pan(参考訳) 神経画像データに基づく自閉症スペクトラム障害(ASD)の正確な診断は、ASD検出のための神経画像データから有用な情報を抽出することは困難である。 ニューロイメージングデータからの情報抽出を改善するために機械学習技術が活用されているにもかかわらず、異なるメタデータ条件(すなわちデータ収集戦略)によって引き起こされるデータ品質の変化は、抽出可能な効果的な情報を制限するため、asd検出におけるデータ依存予測の精度が低下する。 本研究では,ASDの分類精度に及ぼす3種類のメタデータの影響を,20の異なる部位から収集した構造的MRIに基づいて系統的に検討した。

Accurate diagnosis of autism spectrum disorder (ASD) based on neuroimaging data has significant implications, as extracting useful information from neuroimaging data for ASD detection is challenging. Even though machine learning techniques have been leveraged to improve the information extraction from neuroimaging data, the varying data quality caused by different meta-data conditions (i.e., data collection strategies) limits the effective information that can be extracted, thus leading to data-dependent predictive accuracies in ASD detection, which can be worse than random guess in some cases. In this work, we systematically investigate the impact of three kinds of meta-data on the predictive accuracy of classifying ASD based on structural MRI collected from 20 different sites, where meta-data conditions vary.
翻訳日:2022-06-13 15:22:46 公開日:2022-06-09
# リレーショナルタスクに対するニューラルアーキテクチャ誘導バイアスについて

On Neural Architecture Inductive Biases for Relational Tasks ( http://arxiv.org/abs/2206.05056v1 )

ライセンス: Link先を確認
Giancarlo Kerg, Sarthak Mittal, David Rolnick, Yoshua Bengio, Blake Richards, Guillaume Lajoie(参考訳) 現在のディープラーニングアプローチは、分散の一般化性能は良好だが、分散の一般化には苦労している。 これは、多くのインテリジェンステストで見られるように、シーケンス内の規則を認識するといった抽象的な関係を含むタスクにおいて特に当てはまる。 近年の研究では、関係表現を感覚表現と区別し続けさせる方法が、脳の場合のように、人工的なシステムにおいてどのように役立つかが研究されている。 本研究を基礎として,関係と感覚の詳細の「分割」表現によって得られる利点と,この帰納的バイアスが新たに遭遇した場面で学習した関係構造を再構築する上でどのように役立つかを探求し,定式化する。 コンポジション関係ネットワーク(CoRelNet)と呼ばれる類似度スコアに基づくシンプルなアーキテクチャを導入する。 このモデルを用いて,感覚データから抽象関係を学習し,明確に表現する一連の帰納的バイアスを調査し,それらの影響を関連づけた心理物理学タスクの分布汎化について検討する。 単純なアーキテクチャ選択は、分布外一般化において既存のモデルより優れていることが分かる。 これらの結果から,リレーショナル表現を他の情報ストリームから分割することは,分散的リレーショナル計算を行う際の既存のネットワークアーキテクチャの堅牢性を高めるための簡単な方法である可能性が示唆された。

Current deep learning approaches have shown good in-distribution generalization performance, but struggle with out-of-distribution generalization. This is especially true in the case of tasks involving abstract relations like recognizing rules in sequences, as we find in many intelligence tests. Recent work has explored how forcing relational representations to remain distinct from sensory representations, as it seems to be the case in the brain, can help artificial systems. Building on this work, we further explore and formalize the advantages afforded by 'partitioned' representations of relations and sensory details, and how this inductive bias can help recompose learned relational structure in newly encountered settings. We introduce a simple architecture based on similarity scores which we name Compositional Relational Network (CoRelNet). Using this model, we investigate a series of inductive biases that ensure abstract relations are learned and represented distinctly from sensory data, and explore their effects on out-of-distribution generalization for a series of relational psychophysics tasks. We find that simple architectural choices can outperform existing models in out-of-distribution generalization. Together, these results show that partitioning relational representations from other information streams may be a simple way to augment existing network architectures' robustness when performing out-of-distribution relational computations.
翻訳日:2022-06-13 15:22:32 公開日:2022-06-09
# バイオメカニカルテストによる視神経頭部ロバストネスのaiによる臨床的評価

AI-based Clinical Assessment of Optic Nerve Head Robustness Superseding Biomechanical Testing ( http://arxiv.org/abs/2206.04689v1 )

ライセンス: Link先を確認
Fabian A. Braeu, Thanadet Chuangsuwanich, Tin A. Tun, Alexandre H. Thiery, Tin Aung, George Barbastathis, Micha\"el J.A. Girard(参考訳) $\mathbf{Purpose}$: 人工知能(AI)を用いて、(1) 比較的多くの個体から視神経頭(ONH)の生体力学的知識を活用すること、(2) ONHの単一の光コヒーレンス断層撮影(OCT)スキャンからONHの堅牢性を評価すること、(3) 重要な3次元構造的特徴がONHを堅牢にするかを識別すること。 $\mathbf{Design}$: 振り返り横断的な研究。 $\mathbf{Methods}$: 316名の被験者は眼圧計を用いて眼圧(IOP)上昇前後にOCTでONHを画像化した。 IOPによるラミナ・クリブロサ変形は3次元にマッピングされ、ONHの分類に用いられる。 LC変形が4%に優れ, LC変形が4%に劣る者は, 脆弱であると考えられた。 これらのデータからaiアルゴリズムを比較した結果,(1)ランダム森林分類器,(2)オートエンコーダ,(3)動的グラフcnn(dgcnn)の3つの基準値から,onhロバスト性を予測することができた。 後者のアルゴリズムは、与えられたONHがどんな重要な3D構造的特徴を持つかを識別することを可能にする。 $\mathbf{Results}$: バイオメカニカルテストを行うことなく、3つのメソッドが3次元構造情報だけでONHの堅牢性を予測できた。 DGCNN(AUC: 0.76 $\pm$ 0.08)はオートエンコーダ(AUC: 0.70 $\pm$ 0.07)とランダム森林分類器(AUC: 0.69 $\pm$ 0.05)を上回った。 興味深いことに、DGCNNは主に硬化管とLC挿入部位からの情報を用いてONHの堅牢性を評価する。 $\mathbf{Conclusions}$: バイオメカニカルテストを行うことなく、ONHの単一OCTスキャンからのみ、所定のONHの堅牢性を評価することができるAI駆動型アプローチを提案する。 縦断的研究は、ONHの堅牢性が高速な視野障害進行因子の同定に役立つかどうかを確かめるべきである。

$\mathbf{Purpose}$: To use artificial intelligence (AI) to: (1) exploit biomechanical knowledge of the optic nerve head (ONH) from a relatively large population; (2) assess ONH robustness from a single optical coherence tomography (OCT) scan of the ONH; (3) identify what critical three-dimensional (3D) structural features make a given ONH robust. $\mathbf{Design}$: Retrospective cross-sectional study. $\mathbf{Methods}$: 316 subjects had their ONHs imaged with OCT before and after acute intraocular pressure (IOP) elevation through ophthalmo-dynamometry. IOP-induced lamina-cribrosa deformations were then mapped in 3D and used to classify ONHs. Those with LC deformations superior to 4% were considered fragile, while those with deformations inferior to 4% robust. Learning from these data, we compared three AI algorithms to predict ONH robustness strictly from a baseline (undeformed) OCT volume: (1) a random forest classifier; (2) an autoencoder; and (3) a dynamic graph CNN (DGCNN). The latter algorithm also allowed us to identify what critical 3D structural features make a given ONH robust. $\mathbf{Results}$: All 3 methods were able to predict ONH robustness from 3D structural information alone and without the need to perform biomechanical testing. The DGCNN (area under the receiver operating curve [AUC]: 0.76 $\pm$ 0.08) outperformed the autoencoder (AUC: 0.70 $\pm$ 0.07) and the random forest classifier (AUC: 0.69 $\pm$ 0.05). Interestingly, to assess ONH robustness, the DGCNN mainly used information from the scleral canal and the LC insertion sites. $\mathbf{Conclusions}$: We propose an AI-driven approach that can assess the robustness of a given ONH solely from a single OCT scan of the ONH, and without the need to perform biomechanical testing. Longitudinal studies should establish whether ONH robustness could help us identify fast visual field loss progressors.
翻訳日:2022-06-13 15:19:44 公開日:2022-06-09
# AI-MIA:医療画像による新型コロナウイルス検出・重症度分析

AI-MIA: COVID-19 Detection & Severity Analysis through Medical Imaging ( http://arxiv.org/abs/2206.04732v1 )

ライセンス: Link先を確認
Dimitrios Kollias and Anastasios Arsenos and Stefanos Kollias(参考訳) 本稿では,欧州コンピュータビジョン会議(ECCV 2022)におけるAIIAワークショップの枠組みにおいて,第2回Covid-19コンペティションの基幹となるアプローチについて述べる。 COV19-CT-DBデータベースは、約7,700個の3DCTスキャンからなる新型コロナウイルスの予防のために注釈付けされている。 コビッド19の症例からなるデータベースの一部は、さらに4つのコビッド19の重症度条件で注釈付けされている。 トレーニング、検証、テストデータセットで、データベースと後者を分割しました。 前者2つのデータセットは機械学習モデルのトレーニングと検証に使用され、後者は開発したモデルの評価に使用される。 ベースラインアプローチは、CNN-RNNネットワークに基づくディープラーニングアプローチで構成され、そのパフォーマンスをCOVID19-CT-DBデータベースに報告する。

This paper presents the baseline approach for the organized 2nd Covid-19 Competition, occurring in the framework of the AIMIA Workshop in the European Conference on Computer Vision (ECCV 2022). It presents the COV19-CT-DB database which is annotated for COVID-19 detction, consisting of about 7,700 3-D CT scans. Part of the database consisting of Covid-19 cases is further annotated in terms of four Covid-19 severity conditions. We have split the database and the latter part of it in training, validation and test datasets. The former two datasets are used for training and validation of machine learning models, while the latter will be used for evaluation of the developed models. The baseline approach consists of a deep learning approach, based on a CNN-RNN network and report its performance on the COVID19-CT-DB database.
翻訳日:2022-06-13 15:19:00 公開日:2022-06-09
# reface: 顔認識システムにおけるリアルタイム逆襲

ReFace: Real-time Adversarial Attacks on Face Recognition Systems ( http://arxiv.org/abs/2206.04783v1 )

ライセンス: Link先を確認
Shehzeen Hussain, Todd Huster, Chris Mesterharm, Paarth Neekhara, Kevin An, Malhar Jere, Harshvardhan Sikka, Farinaz Koushanfar(参考訳) ディープニューラルネットワークに基づく顔認識モデルは、敵の例に弱いことが示されている。 しかし、過去の攻撃の多くは、リアルタイムに攻撃を非現実化する勾配降下を用いた入力依存最適化問題を解決するために敵が要求した。 これらの逆例は攻撃されたモデルと強く結びついており、異なるモデルへの転送には成功していない。 本稿では,adversarial transformation networks (atns) に基づく顔認識モデルに対するリアルタイム・高転送性攻撃であるrefaceを提案する。 atnモデル フィードフォワードニューラルネットワークとしての逆例生成。 純U-Net ATNのホワイトボックス攻撃成功率は、大規模顔認識データセットのPGDのような勾配に基づく攻撃にほぼ及ばないことがわかった。 そこで我々は,PGDの10000倍の高速化を維持しながら,このギャップを埋める新しいアーキテクチャを提案する。 さらに,特定の摂動等級において,我々のatn逆摂動はpgdよりも新しい顔認識モデルへの移行に有効であることがわかった。 reface attackは、転送攻撃設定で商用顔認識サービスを欺き、aws searchfaces apiの顔認識精度を82%から16.4%に、azure face verification精度を91%から50.1%に削減する。

Deep neural network based face recognition models have been shown to be vulnerable to adversarial examples. However, many of the past attacks require the adversary to solve an input-dependent optimization problem using gradient descent which makes the attack impractical in real-time. These adversarial examples are also tightly coupled to the attacked model and are not as successful in transferring to different models. In this work, we propose ReFace, a real-time, highly-transferable attack on face recognition models based on Adversarial Transformation Networks (ATNs). ATNs model adversarial example generation as a feed-forward neural network. We find that the white-box attack success rate of a pure U-Net ATN falls substantially short of gradient-based attacks like PGD on large face recognition datasets. We therefore propose a new architecture for ATNs that closes this gap while maintaining a 10000x speedup over PGD. Furthermore, we find that at a given perturbation magnitude, our ATN adversarial perturbations are more effective in transferring to new face recognition models than PGD. ReFace attacks can successfully deceive commercial face recognition services in a transfer attack setting and reduce face identification accuracy from 82% to 16.4% for AWS SearchFaces API and Azure face verification accuracy from 91% to 50.1%.
翻訳日:2022-06-13 15:18:46 公開日:2022-06-09
# Batch Bayesian Quadrature を用いた Kernel Recombination による高速ベイズ推定

Fast Bayesian Inference with Batch Bayesian Quadrature via Kernel Recombination ( http://arxiv.org/abs/2206.04734v1 )

ライセンス: Link先を確認
Masaki Adachi, Satoshi Hayakawa, Martin J{\o}rgensen, Harald Oberhauser, Michael A. Osborne(参考訳) ベイズ的後続とモデル証拠の計算は通常、数値積分を必要とする。 数値積分に対するサロゲートモデルに基づくアプローチであるベイズ二次(bq)は、サンプル効率を超越することができるが、並列化の欠如は実用的応用を妨げている。 本研究では,並列化(バッチ)BQ手法を提案する。 さらに、Nested Smplingと同様に、我々の手法は後部およびモデル証拠の同時推論を可能にする。 我々のBQサロゲートモデルのサンプルは、カーネル組換えアルゴリズムを介してスパースセットのサンプルを与えるために再選択され、バッチサイズを増やすために無視できない追加時間が必要になります。 実験により,リチウムイオン電池分析を含む実世界のさまざまなデータセットにおいて,最先端のBQ技術とNested Samplingのサンプリング効率を大きく上回ることがわかった。

Calculation of Bayesian posteriors and model evidences typically requires numerical integration. Bayesian quadrature (BQ), a surrogate-model-based approach to numerical integration, is capable of superb sample efficiency, but its lack of parallelisation has hindered its practical applications. In this work, we propose a parallelised (batch) BQ method, employing techniques from kernel quadrature, that possesses a provably-exponential convergence rate. Additionally, just as with Nested Sampling, our method permits simultaneous inference of both posteriors and model evidence. Samples from our BQ surrogate model are re-selected to give a sparse set of samples, via a kernel recombination algorithm, requiring negligible additional time to increase the batch size. Empirically, we find that our approach significantly outperforms the sampling efficiency of both state-of-the-art BQ techniques and Nested Sampling in various real-world datasets, including lithium-ion battery analytics.
翻訳日:2022-06-13 15:16:42 公開日:2022-06-09
# 創発言語における構成性の擁護

Defending Compositionality in Emergent Languages ( http://arxiv.org/abs/2206.04751v1 )

ライセンス: Link先を確認
Michal Auersperger, Pavel Pecina(参考訳) 構成性は伝統的に、言語の生産性およびより広く、人間の認知の主要な要因として理解されてきた。 しかし、最近になってその状況に疑問を呈する研究が始まり、人工ニューラルネットワークは目立った構成行動なしに一般化できることを示した。 これらの結論のいくつかは強すぎるか不完全であると主張する。 2エージェント通信ゲームの場合、適切なデータセット上で評価を行う場合、構成性は実際に一般化に不可欠であることを示す。

Compositionality has traditionally been understood as a major factor in productivity of language and, more broadly, human cognition. Yet, recently, some research started to question its status, showing that artificial neural networks are good at generalization even without noticeable compositional behavior. We argue that some of these conclusions are too strong and/or incomplete. In the context of a two-agent communication game, we show that compositionality indeed seems essential for successful generalization when the evaluation is done on a proper dataset.
翻訳日:2022-06-13 15:15:32 公開日:2022-06-09
# 連続を生成して空白を埋めることができる1つのモデルの場合

The Case for a Single Model that can Both Generate Continuations and Fill in the Blank ( http://arxiv.org/abs/2206.04812v1 )

ライセンス: Link先を確認
Daphne Ippolito and Liam Dugan and Emily Reif and Ann Yuan and Andy Coenen and Chris Callison-Burch(参考訳) fill in the blank(fitb)と呼ばれる通路にテキストを特定の位置に挿入する作業は、作家が自然言語生成(nlg)システムと対話してテキストを作成する様々なアプリケーションにとって有用である。 これまでの研究では、補足タスクを特別に訓練したモデルでこの問題に取り組んできたが、より有用なモデルは_both_FitBと継続を効果的に実行するモデルである。 本研究では,単一モデルを用いて両タスクを遂行する可能性を評価する。 我々は,fitb型目標で事前訓練されたモデルは両方のタスクが可能であり,継続のために事前訓練されたモデルはそうではないことを示す。 最後に、フィッティングモデルが簡単に微調整できることを示し、世代の長さと単語の選択をきめ細かい制御を可能にした。

The task of inserting text into a specified position in a passage, known as fill in the blank (FitB), is useful for a variety of applications where writers interact with a natural language generation (NLG) system to craft text. While previous work has tackled this problem with models trained specifically to do the fill-in-the-blank task, a more useful model is one that can effectively perform _both_ FitB and continuation. In this work, we evaluate the feasibility of using a single model to do both tasks. We show that models pre-trained with a FitB-style objective are capable of both tasks, while models pre-trained for continuation are not. Finally, we show how FitB models can be easily finetuned to allow for fine-grained control over the length and word choice of the generation.
翻訳日:2022-06-13 15:15:24 公開日:2022-06-09
# ニューラルシンボリック統合のためのモジュール設計パターン:洗練と組み合わせ

Modular design patterns for neural-symbolic integration: refinement and combination ( http://arxiv.org/abs/2206.04724v1 )

ライセンス: Link先を確認
Till Mossakowski(参考訳) 我々は、ファン・ベクムらのニューラルシンボルデザインパターンのいくつかの側面を形式化し、パターンの洗練の概念を正式に定義できるとともに、より小さなビルディングブロックからの大きなパターンのモジュラー結合を定義できる。 これらの形式的概念はヘテロジニアスツールセット (Hets) で実装されており、パターンや洗練を十分に整合性をチェックすることができ、組み合わせを計算できる。

We formalise some aspects of the neural-symbol design patterns of van Bekkum et al., such that we can formally define notions of refinement of patterns, as well as modular combination of larger patterns from smaller building blocks. These formal notions are being implemented in the heterogeneous tool set (Hets), such that patterns and refinements can be checked for well-formedness, and combinations can be computed.
翻訳日:2022-06-13 15:12:02 公開日:2022-06-09
# 教師なし深部判別分析に基づくクラスタリング

Unsupervised Deep Discriminant Analysis Based Clustering ( http://arxiv.org/abs/2206.04686v1 )

ライセンス: Link先を確認
Jinyu Cai, Wenzhong Guo, Jicong Fan(参考訳) この研究はクラスタリングのための教師なしの深層判別分析を示す。 この手法はディープニューラルネットワークに基づいており、クラスタ内不一致を最小限に抑え、クラスタ間不一致を教師なしの方法で最大化する。 この方法は,データクラスタを効果的に識別できるような,コンパクトかつ異なる分布パターンを持つ非線形低次元潜在空間にデータを投影することができる。 さらに,利用可能なグラフ情報を効果的に活用してクラスタリング性能を向上させる手法の拡張も提供する。 グラフ情報の有無にかかわらず画像および非画像データに対する広範囲な数値計算結果から,提案手法の有効性が示された。

This work presents an unsupervised deep discriminant analysis for clustering. The method is based on deep neural networks and aims to minimize the intra-cluster discrepancy and maximize the inter-cluster discrepancy in an unsupervised manner. The method is able to project the data into a nonlinear low-dimensional latent space with compact and distinct distribution patterns such that the data clusters can be effectively identified. We further provide an extension of the method such that available graph information can be effectively exploited to improve the clustering performance. Extensive numerical results on image and non-image data with or without graph information demonstrate the effectiveness of the proposed methods.
翻訳日:2022-06-13 15:05:45 公開日:2022-06-09
# 私は私であり、私たちであり、私たちである:ハイパーグラフによる三方向コントラスト学習

I'm Me, We're Us, and I'm Us: Tri-directional Contrastive Learning on Hypergraphs ( http://arxiv.org/abs/2206.04739v1 )

ライセンス: Link先を確認
Dongjin Lee, Kijung Shin(参考訳) ハイパーグラフでの機械学習は注目されているが、ほとんどの研究は(半)教師付き学習に焦点を合わせており、これは大きなラベル付けコストと一般化の欠如を引き起こす可能性がある。 近年,教師なし表現学習手法としてコントラスト学習が普及している。 他の領域でのコントラスト学習の隆盛にもかかわらず、ハイパーグラフでのコントラスト学習はほとんど研究されていない。 本稿では,ハイパーグラフのコントラスト学習のための一般的なフレームワークであるTriCon(Tri-directional Contrastive Learning)を提案する。 主なアイデアは3方向コントラストであり、具体的には2つの拡張ビューで合意を最大化することを目指している。 (a)同一ノード間。 (b)同じノード群間、及び (c) 各グループとその構成員間の関係 これら3つのコントラストは、単純だが驚くほど効果的なデータ拡張と負のサンプリングスキームと共に、TriConがノード埋め込みにおける微細構造情報とメソスコピック構造情報をキャプチャすることを可能にする。 13のベースラインアプローチ、5つのデータセット、2つのタスクを用いた大規模な実験では、TriConの有効性が示されています。

Although machine learning on hypergraphs has attracted considerable attention, most of the works have focused on (semi-)supervised learning, which may cause heavy labeling costs and poor generalization. Recently, contrastive learning has emerged as a successful unsupervised representation learning method. Despite the prosperous development of contrastive learning in other domains, contrastive learning on hypergraphs remains little explored. In this paper, we propose TriCon (Tri-directional Contrastive learning), a general framework for contrastive learning on hypergraphs. Its main idea is tri-directional contrast, and specifically, it aims to maximize in two augmented views the agreement (a) between the same node, (b) between the same group of nodes, and (c) between each group and its members. Together with simple but surprisingly effective data augmentation and negative sampling schemes, these three forms of contrast enable TriCon to capture both microscopic and mesoscopic structural information in node embeddings. Our extensive experiments using 13 baseline approaches, five datasets, and two tasks demonstrate the effectiveness of TriCon, and most noticeably, TriCon consistently outperforms not just unsupervised competitors but also (semi-)supervised competitors mostly by significant margins for node classification.
翻訳日:2022-06-13 15:05:37 公開日:2022-06-09
# 自然モデル学習のための強記憶下限

Strong Memory Lower Bounds for Learning Natural Models ( http://arxiv.org/abs/2206.04743v1 )

ライセンス: Link先を確認
Gavin Brown, Mark Bun, Adam Smith(参考訳) 我々は,自然学習問題の解法として,ワンパスストリーミングアルゴリズムが要求するメモリ容量を低くする。 例が$\{0,1\}^d$ にあり、最適な分類器が $\kappa$ ビットで符号化できるような設定では、最小に近い数の例を使って学習するアルゴリズム $\tilde o(\kappa)$ が $\tilde \omega(d\kappa)$ の空間ビットを使用する必要がある。 我々の空間境界は、例のサイズと最終分類器で二次である場合でも、問題の自然パラメトリゼーションの周囲の空間の次元に一致する。 例えば、次数2の多項式上の$d$スパース線型分類器の設定では、$\kappa=\Theta(d\log d)$ であり、この空間下限は $\tilde\Omega(d^2)$ である。 我々の境界はストリーム長$N$で優雅に分解され、一般に $\tilde\Omega\left(d\kappa \cdot \frac{\kappa}{N}\right)$ という形になる。 $\omega(d\kappa)$ の形の境界は、有限体上で定義されるパリティやその他の問題を学ぶことで知られている。 狭い範囲のサンプルサイズに適用される境界もまた線形回帰として知られている。 我々の研究は、最近の学習アプリケーションでよく見られる、幅広い入力サイズに適用されるタイプの問題に対する最初の境界である。

We give lower bounds on the amount of memory required by one-pass streaming algorithms for solving several natural learning problems. In a setting where examples lie in $\{0,1\}^d$ and the optimal classifier can be encoded using $\kappa$ bits, we show that algorithms which learn using a near-minimal number of examples, $\tilde O(\kappa)$, must use $\tilde \Omega( d\kappa)$ bits of space. Our space bounds match the dimension of the ambient space of the problem's natural parametrization, even when it is quadratic in the size of examples and the final classifier. For instance, in the setting of $d$-sparse linear classifiers over degree-2 polynomial features, for which $\kappa=\Theta(d\log d)$, our space lower bound is $\tilde\Omega(d^2)$. Our bounds degrade gracefully with the stream length $N$, generally having the form $\tilde\Omega\left(d\kappa \cdot \frac{\kappa}{N}\right)$. Bounds of the form $\Omega(d\kappa)$ were known for learning parity and other problems defined over finite fields. Bounds that apply in a narrow range of sample sizes are also known for linear regression. Ours are the first such bounds for problems of the type commonly seen in recent learning applications that apply for a large range of input sizes.
翻訳日:2022-06-13 15:03:52 公開日:2022-06-09
# 遠隔学習のためのニューラルブレグマンダイバージェンス

Neural Bregman Divergences for Distance Learning ( http://arxiv.org/abs/2206.04763v1 )

ライセンス: Link先を確認
Fred Lu, Edward Raff, Francis Ferraro(参考訳) 三重項学習、近距離探索、可視化といった多くの計量学習タスクは、主にユークリッド距離(例えばコサインやマハラノビス)のある種の変種である埋め込みタスクとして扱われ、アルゴリズムはプレチョセン空間に点を埋め込むことを学ばなければならない。 非ユークリッド測地や適切性の研究は、しばしば研究されていないが、これは非ユークリッド測距離を学習するためのツールが不足しているためと考えられている。 特に非対称法の使用には十分な研究が不足しているという信念のもと,入力凸ニューラルネットワークを用いて任意のバーグマン発散を微分可能な方法で学習する新しい手法を提案する。 非対称回帰、ランク付け、クラスタリングを含む、これまで研究されてきた一連のタスクに対して、本手法が以前のブレグマン学習アプローチよりも多様性をより忠実に学習できることを実証する。 そこで我々は,ニューラルブレグマン発散を学習する最初の方法を得るとともに,ブレグマン発散の多くの数学的性質を継承し,非対称距離学習のより良い開発と研究のための基礎とツールを提供する。

Many metric learning tasks, such as triplet learning, nearest neighbor retrieval, and visualization, are treated primarily as embedding tasks where the ultimate metric is some variant of the Euclidean distance (e.g., cosine or Mahalanobis), and the algorithm must learn to embed points into the pre-chosen space. The study of non-Euclidean geometries or appropriateness is often not explored, which we believe is due to a lack of tools for learning non-Euclidean measures of distance. Under the belief that the use of asymmetric methods in particular have lacked sufficient study, we propose a new approach to learning arbitrary Bergman divergences in a differentiable manner via input convex neural networks. Over a set of both new and previously studied tasks, including asymmetric regression, ranking, and clustering, we demonstrate that our method more faithfully learns divergences than prior Bregman learning approaches. In doing so we obtain the first method for learning neural Bregman divergences and with it inherit the many nice mathematical properties of Bregman divergences, providing the foundation and tooling for better developing and studying asymmetric distance learning.
翻訳日:2022-06-13 15:03:23 公開日:2022-06-09
# シークエンシャルルールのターゲットに向けて

Towards Target Sequential Rules ( http://arxiv.org/abs/2206.04728v1 )

ライセンス: Link先を確認
Wensheng Gan, Gengsen Huang, Jian Weng, Tianlong Gu, and Philip S. Yu(参考訳) 多くの実世界のアプリケーションでは、シーケンシャルルールマイニング(srm)は様々なサービスに対して予測と推奨機能を提供する。 高周波および高信頼なシーケンシャルルールに属するすべての貴重なルールを発見するためのパターンマイニングの重要な手法である。 様々な実用的問題を解決するためにsrmのいくつかのアルゴリズムが提案されているが、目的とする逐次ルールの研究は行われていない。 ターゲットとする逐次ルールマイニングは、ユーザが注目する興味深い逐次ルールをマイニングすることを目的としている。 このアプローチは、ルールの分析におけるユーザの効率をさらに改善し、データリソースの消費を減らす。 本稿では,対象とするシーケンシャルルールの関連する定義を提供し,ターゲットとするシーケンシャルルールマイニングの問題を定式化する。 さらに,逐次ルールマイニング(tasrm)と呼ばれる効率的なアルゴリズムを提案する。 いくつかのプルーニング戦略と最適化を導入し、TaSRMの効率を改善する。 最後に,さまざまなベンチマークで多数の実験を行い,実行時間,メモリ使用量,スケーラビリティ,クエリルールの異なるクエリケースなどの観点から結果を分析する。 新たなアルゴリズムであるTaSRMとその変種は,既存のベースラインアルゴリズムと比較して実験性能がよいことを示す。

In many real-world applications, sequential rule mining (SRM) can provide prediction and recommendation functions for a variety of services. It is an important technique of pattern mining to discover all valuable rules that belong to high-frequency and high-confidence sequential rules. Although several algorithms of SRM are proposed to solve various practical problems, there are no studies on target sequential rules. Targeted sequential rule mining aims at mining the interesting sequential rules that users focus on, thus avoiding the generation of other invalid and unnecessary rules. This approach can further improve the efficiency of users in analyzing rules and reduce the consumption of data resources. In this paper, we provide the relevant definitions of target sequential rule and formulate the problem of targeted sequential rule mining. Furthermore, we propose an efficient algorithm, called targeted sequential rule mining (TaSRM). Several pruning strategies and an optimization are introduced to improve the efficiency of TaSRM. Finally, a large number of experiments are conducted on different benchmarks, and we analyze the results in terms of their running time, memory consumption, and scalability, as well as query cases with different query rules. It is shown that the novel algorithm TaSRM and its variants can achieve better experimental performance compared to the existing baseline algorithm.
翻訳日:2022-06-13 15:00:43 公開日:2022-06-09
# 白内障眼底画像強調のための構造整合復元ネットワーク

Structure-consistent Restoration Network for Cataract Fundus Image Enhancement ( http://arxiv.org/abs/2206.04684v1 )

ライセンス: Link先を確認
Heng Li, Haofeng Liu, Huazhu Fu, Hai Shu, Yitian Zhao, Xiaoling Luo, Yan Hu, Jiang Liu(参考訳) 眼底写真は、眼疾患の診断とモニタリングを行う診療所における定期的な検査である。 しかし白内障患者では、眼底画像は常に曇りレンズによる画質劣化に悩まされる。 この劣化は、眼科医やコンピュータ支援システムによる信頼性の高い診断を防ぐ。 臨床診断の確実性を改善するため,底面画像の品質向上のための修復アルゴリズムが提案されている。 残念ながら、十分なトレーニングデータを収集し、網膜構造を保存するなど、これらのアルゴリズムの展開における課題は残る。 本稿では, 厳密な配置要求を回避するため, 同一構造を共有する合成データから白内障眼底画像の構造一貫性回復ネットワーク(SCR-Net)を開発した。 白内障シミュレーションモデルが最初に設計され、同一構造を共有する白内障基底画像によって生成された合成白内障集合(SCS)を収集する。 そして、SCSから高周波成分(HFC)を抽出し、SCR-Netの構造保存を強制するように構造一貫性を制約する。 本実験は,SCR-Netの最先端手法との比較および臨床応用における有効性を示すものである。 コードはhttps://github.com/liamheng/ArcNet-Medical-Image-Enhancementで公開されている。

Fundus photography is a routine examination in clinics to diagnose and monitor ocular diseases. However, for cataract patients, the fundus image always suffers quality degradation caused by the clouding lens. The degradation prevents reliable diagnosis by ophthalmologists or computer-aided systems. To improve the certainty in clinical diagnosis, restoration algorithms have been proposed to enhance the quality of fundus images. Unfortunately, challenges remain in the deployment of these algorithms, such as collecting sufficient training data and preserving retinal structures. In this paper, to circumvent the strict deployment requirement, a structure-consistent restoration network (SCR-Net) for cataract fundus images is developed from synthesized data that shares an identical structure. A cataract simulation model is firstly designed to collect synthesized cataract sets (SCS) formed by cataract fundus images sharing identical structures. Then high-frequency components (HFCs) are extracted from the SCS to constrain structure consistency such that the structure preservation in SCR-Net is enforced. The experiments demonstrate the effectiveness of SCR-Net in the comparison with state-of-the-art methods and the follow-up clinical applications. The code is available at https://github.com/liamheng/ArcNet-Medical-Image-Enhancement.
翻訳日:2022-06-13 14:59:42 公開日:2022-06-09
# キャプチャされた映像系列に基づくポイントクラウドの参照なし品質評価指標

A No-reference Quality Assessment Metric for Point Cloud Based on Captured Video Sequences ( http://arxiv.org/abs/2206.05054v1 )

ライセンス: Link先を確認
Yu Fan, Zicheng Zhang, Wei Sun, Xiongkuo Min, Wei Lu, Tao Wang, Ning Liu, Guangtao Zhai(参考訳) ポイントクラウドは3Dモデルの最も広く使われているデジタルフォーマットの1つであり、視覚的品質はダウンサンプリング、ノイズ、圧縮などの歪みに非常に敏感である。 参照が得られないシナリオにおいて,ポイントクラウド品質評価(pcqa)の課題に取り組むために,キャプチャされた映像シーケンスに基づくカラーポイントクラウドの参照品質評価指標を提案する。 具体的には、カメラを3つの特定の軌道で点雲の周りを回転させることで、3つのビデオシーケンスが得られる。 ビデオシーケンスには静的なビューだけでなく、マルチフレームの時間情報も含まれており、ポイント雲の人間の知覚を理解するのに大いに役立ちます。 次に、ResNet3Dを特徴抽出モデルとして修正し、キャプチャビデオと対応する主観的品質スコアの相関関係を学習する。 実験の結果,提案手法は,提案手法の有効性を検証した,最先端の完全参照および非参照PCQA指標よりも優れていた。

Point cloud is one of the most widely used digital formats of 3D models, the visual quality of which is quite sensitive to distortions such as downsampling, noise, and compression. To tackle the challenge of point cloud quality assessment (PCQA) in scenarios where reference is not available, we propose a no-reference quality assessment metric for colored point cloud based on captured video sequences. Specifically, three video sequences are obtained by rotating the camera around the point cloud through three specific orbits. The video sequences not only contain the static views but also include the multi-frame temporal information, which greatly helps understand the human perception of the point clouds. Then we modify the ResNet3D as the feature extraction model to learn the correlation between the capture videos and corresponding subjective quality scores. The experimental results show that our method outperforms most of the state-of-the-art full-reference and no-reference PCQA metrics, which validates the effectiveness of the proposed method.
翻訳日:2022-06-13 14:56:58 公開日:2022-06-09
# 犬に話しかける:人間から非人間への声の変換

Speak Like a Dog: Human to Non-human creature Voice Conversion ( http://arxiv.org/abs/2206.04780v1 )

ライセンス: Link先を確認
Kohei Suzuki, Shoki Sakamoto, Tadahiro Taniguchi, Hirokazu Kameoka(参考訳) 本稿では,人間から非人間への音声変換(H2NH-VC)タスクの例として,言語情報を保存しながら,人間の音声から犬のような音声への新しい音声変換(VC)タスクを提案する。 ほとんどのVC研究はヒトからヒトのVCを扱うが、H2NH-VCは人間のスピーチを人間以外の生物のような音声に変換することを目指している。 非並列VCは、人間以外の生物が人間の言語を話すような並列データセットを収集できないため、H2NH-VCの開発を可能にします。 本研究では,非ヒト生物対象領域の例として犬を用い,「犬のように話す」タスクを定義することを提案する。 犬のように話す」タスクの可能性と特性を明らかにするために,既存の代表的な非並列vc手法を用いた音響的特徴(メルケプストラム係数とメルスペクトログラム),ネットワークアーキテクチャ(5つの異なるカーネルサイズ設定),訓練基準(可変オートエンコーダ(vae)ベースと生成的逆ネットワークベース)の比較実験を行った。 最後に, 犬性, 音質, 知性, 文字誤り率 (cer) などの平均評価スコアを用いて, 変換音声の評価を行った。 メルスペクトログラムの活用は, 言語情報の保存が困難である一方で, 変換音声の犬相性が向上することを示した。 H2NH-VCの現在のVCメソッドの課題と制限が強調されている。

This paper proposes a new voice conversion (VC) task from human speech to dog-like speech while preserving linguistic information as an example of human to non-human creature voice conversion (H2NH-VC) tasks. Although most VC studies deal with human to human VC, H2NH-VC aims to convert human speech into non-human creature-like speech. Non-parallel VC allows us to develop H2NH-VC, because we cannot collect a parallel dataset that non-human creatures speak human language. In this study, we propose to use dogs as an example of a non-human creature target domain and define the "speak like a dog" task. To clarify the possibilities and characteristics of the "speak like a dog" task, we conducted a comparative experiment using existing representative non-parallel VC methods in acoustic features (Mel-cepstral coefficients and Mel-spectrograms), network architectures (five different kernel-size settings), and training criteria (variational autoencoder (VAE)- based and generative adversarial network-based). Finally, the converted voices were evaluated using mean opinion scores: dog-likeness, sound quality and intelligibility, and character error rate (CER). The experiment showed that the employment of the Mel-spectrogram improved the dog-likeness of the converted speech, while it is challenging to preserve linguistic information. Challenges and limitations of the current VC methods for H2NH-VC are highlighted.
翻訳日:2022-06-13 14:56:17 公開日:2022-06-09
# 回復力のある分散ブースティングアルゴリズム

A Resilient Distributed Boosting Algorithm ( http://arxiv.org/abs/2206.04713v1 )

ライセンス: Link先を確認
Yuval Filmus, Idan Mehalel and Shay Moran(参考訳) データが複数のパーティに分散する学習タスクを考えると、コミュニケーションは、当事者が最小化したい基本的なリソースの1つです。 限られた雑音に耐性を持つ分散ブースティングアルゴリズムを提案する。 我々のアルゴリズムは古典的なブースティングアルゴリズムと似ているが、Impagliazzoのハードコア lemma \cite{impagliazzo 1995hard} にインスパイアされた新しいコンポーネントを備えており、アルゴリズムに堅牢性の品質を付加している。 また, 漸近的に大きい雑音に対するレジリエンスは通信効率のよいアルゴリズムでは達成できないことを示すことで, この結果を補完する。

Given a learning task where the data is distributed among several parties, communication is one of the fundamental resources which the parties would like to minimize. We present a distributed boosting algorithm which is resilient to a limited amount of noise. Our algorithm is similar to classical boosting algorithms, although it is equipped with a new component, inspired by Impagliazzo's hard-core lemma \cite{impagliazzo1995hard}, adding a robustness quality to the algorithm. We also complement this result by showing that resilience to any asymptotically larger noise is not achievable by a communication-efficient algorithm.
翻訳日:2022-06-13 14:53:34 公開日:2022-06-09
# stndt:時空間トランスフォーマによる神経集団活動のモデル化

STNDT: Modeling Neural Population Activity with a Spatiotemporal Transformer ( http://arxiv.org/abs/2206.04727v1 )

ライセンス: Link先を確認
Trung Le and Eli Shlizerman(参考訳) 雑音下での単房スパイク活動に基づく神経集団動態のモデル化は、神経の観察と行動に必要不可欠である。 最近の非リカレント手法であるNeural Data Transformers (NDT)は、明示的な動的モデルなしで低推論レイテンシでニューラルダイナミクスをキャプチャすることに成功した。 しかし、NDTは個々のニューロン間の豊富な共変を無視しながら、集団活動の時間的進化をモデル化することに焦点を当てている。 本稿では,時間と空間にまたがる個体群内の個々のニューロンの応答を明示的にモデル化し,その基礎となる発火率を明らかにするndtベースのアーキテクチャであるstndtを提案する。 さらに,予測性能を向上させるために,マスクモデリングの目的に応じて機能する対照的な学習損失を提案する。 本モデルは, 4つのニューラルデータセット間での神経活動の推定において, アンサンブルレベルでの最先端性能を実現し, 異なる皮質領域にまたがる自律的および非自律的ダイナミクスを, 手前の行動に完全に依存しながら捉える能力を示す。 さらに、stndt空間的注意機構は、集団全体の応答を駆動する重要な役割を果たすニューロンの一貫した重要なサブセットを明らかにし、ニューロンの集団がどのように計算を行うかに関する解釈可能性と重要な洞察を提供する。

Modeling neural population dynamics underlying noisy single-trial spiking activities is essential for relating neural observation and behavior. A recent non-recurrent method - Neural Data Transformers (NDT) - has shown great success in capturing neural dynamics with low inference latency without an explicit dynamical model. However, NDT focuses on modeling the temporal evolution of the population activity while neglecting the rich covariation between individual neurons. In this paper we introduce SpatioTemporal Neural Data Transformer (STNDT), an NDT-based architecture that explicitly models responses of individual neurons in the population across time and space to uncover their underlying firing rates. In addition, we propose a contrastive learning loss that works in accordance with mask modeling objective to further improve the predictive performance. We show that our model achieves state-of-the-art performance on ensemble level in estimating neural activities across four neural datasets, demonstrating its capability to capture autonomous and non-autonomous dynamics spanning different cortical regions while being completely agnostic to the specific behaviors at hand. Furthermore, STNDT spatial attention mechanism reveals consistently important subsets of neurons that play a vital role in driving the response of the entire population, providing interpretability and key insights into how the population of neurons performs computation.
翻訳日:2022-06-13 14:53:22 公開日:2022-06-09
# 振幅推定とグローバー探索による量子政策反復 -強化学習への量子優位に向けて-

Quantum Policy Iteration via Amplitude Estimation and Grover Search -- Towards Quantum Advantage for Reinforcement Learning ( http://arxiv.org/abs/2206.04741v1 )

ライセンス: Link先を確認
Simon Wiedemann, Daniel Hein, Steffen Udluft, Christian Mendl(参考訳) 本稿では,新しい量子強化学習(rl)法の実装とシミュレーションを行い,量子アドバンテージを数学的に証明する。 提案手法では, 振幅推定とGrover検索を併用して, 政策評価と改善手法を提案する。 まず,量子政策評価法(qpe)を開発し,従来のモンテカルロ推定法に比べて2次的に効率的であり,有限マルコフ決定過程(mdp)の量子力学的実現に基づいている。 QPE上に構築された量子ポリシーは,最適化に到達するまでGrover検索を用いて初期ポリシーを繰り返し改善する。 最後に,2本腕のバンディットMDPに対するアルゴリズムの実装を提案し,シミュレーションを行った。 その結果、QPEはRL問題に量子的優位性をもたらすことを確認した。

We present a full implementation and simulation of a novel quantum reinforcement learning (RL) method and mathematically prove a quantum advantage. Our approach shows in detail how to combine amplitude estimation and Grover search into a policy evaluation and improvement scheme. We first develop quantum policy evaluation (QPE) which is quadratically more efficient compared to an analogous classical Monte Carlo estimation and is based on a quantum mechanical realization of a finite Markov decision process (MDP). Building on QPE, we derive a quantum policy iteration that repeatedly improves an initial policy using Grover search until the optimum is reached. Finally, we present an implementation of our algorithm for a two-armed bandit MDP which we then simulate. The results confirm that QPE provides a quantum advantage in RL problems.
翻訳日:2022-06-13 14:52:55 公開日:2022-06-09
# 総合的メタ学習型レコメンダシステム

Comprehensive Fair Meta-learned Recommender System ( http://arxiv.org/abs/2206.04789v1 )

ライセンス: Link先を確認
Tianxin Wei, Jingrui He(参考訳) レコメンデーションシステムでは、コールドスタートの問題が一般的な課題であり、システム内の新しいユーザにとってはインタラクションが非常に限られている。 この課題に対処するために、近年多くの研究がメタ最適化のアイデアを推薦シナリオに導入している。 中心となるアイデアは、全ユーザのグローバル共有メタ初期化パラメータを学習し、各ユーザのローカルパラメータに迅速に適応することだ。 様々なユーザの嗜好学習を通じて一般的な知識を導き出すことを目標とし、学習した事前および少量のトレーニングデータを用いて、将来の新規ユーザへの迅速な適応を目指している。 しかし、以前の研究では、リコメンダシステムは一般的にバイアスや不公平に弱いことが示されている。 メタラーニングの成功により、コールドスタートによるレコメンデーションパフォーマンスが向上したが、フェアネスの問題はほとんど見過ごされている。 本稿では,メタ学習モデルの公平性を確保するため,CLOVERという,総合的な公正なメタ学習フレームワークを提案する。 個別公平性,反事実的公平性,集団的公平性という3種類のフェアネスをレコメンダシステムで体系的に検討し,マルチタスク・アドバーサリー・ラーニング・スキームを用いて,これら3つのフェアネスを満たすことを提案する。 我々のフレームワークは、異なるメタ学習レコメンデータシステムに適用可能な汎用的なトレーニングパラダイムを提供する。 CLOVERの3つの実世界のデータセットに対する代表的メタ学習ユーザの嗜好推定に対する効果を示す。 実験結果から,CLOVERは全冷間開始推奨性能を低下させることなく,総合的公正性を実現することが示された。

In recommender systems, one common challenge is the cold-start problem, where interactions are very limited for fresh users in the systems. To address this challenge, recently, many works introduce the meta-optimization idea into the recommendation scenarios, i.e. learning to learn the user preference by only a few past interaction items. The core idea is to learn global shared meta-initialization parameters for all users and rapidly adapt them into local parameters for each user respectively. They aim at deriving general knowledge across preference learning of various users, so as to rapidly adapt to the future new user with the learned prior and a small amount of training data. However, previous works have shown that recommender systems are generally vulnerable to bias and unfairness. Despite the success of meta-learning at improving the recommendation performance with cold-start, the fairness issues are largely overlooked. In this paper, we propose a comprehensive fair meta-learning framework, named CLOVER, for ensuring the fairness of meta-learned recommendation models. We systematically study three kinds of fairness - individual fairness, counterfactual fairness, and group fairness in the recommender systems, and propose to satisfy all three kinds via a multi-task adversarial learning scheme. Our framework offers a generic training paradigm that is applicable to different meta-learned recommender systems. We demonstrate the effectiveness of CLOVER on the representative meta-learned user preference estimator on three real-world data sets. Empirical results show that CLOVER achieves comprehensive fairness without deteriorating the overall cold-start recommendation performance.
翻訳日:2022-06-13 14:52:41 公開日:2022-06-09
# 視覚観察からのオフライン強化学習の課題と機会

Challenges and Opportunities in Offline Reinforcement Learning from Visual Observations ( http://arxiv.org/abs/2206.04779v1 )

ライセンス: Link先を確認
Cong Lu, Philip J. Ball, Tim G. J. Rudner, Jack Parker-Holder, Michael A. Osborne, Yee Whye Teh(参考訳) オフライン強化学習は、ポリシー学習に大規模な事前に収集されたデータセットを活用する上で大きな可能性を秘めている。 しかし、現在までオフラインの強化学習は比較的過小評価されており、残りの課題がどこにあるかは理解されていない。 本稿では,視覚領域における連続制御のためのシンプルなベースラインを確立することを目的とする。 最新のビジョンに基づくオンライン強化学習アルゴリズムであるdreamerv2とdrq-v2の単純な修正が、先行研究よりも優れており、競争力のあるベースラインを確立するには十分であることを示す。 既存のオフラインデータセットとオフライン強化学習のための新しいテストベッドの両方でこれらのアルゴリズムを厳格に評価し、実世界のオフライン強化学習問題に存在するデータ分布をより良く表現し、この重要な領域の進歩を促進するために私たちのコードとデータをオープンソースにします。 最後に、視覚的注意散逸や動的変化の視覚的特定を含む、オフラインRLに特有のいくつかの重要なデシラタを視覚的観察から提示し、分析する。

Offline reinforcement learning has shown great promise in leveraging large pre-collected datasets for policy learning, allowing agents to forgo often-expensive online data collection. However, to date, offline reinforcement learning from has been relatively under-explored, and there is a lack of understanding of where the remaining challenges lie. In this paper, we seek to establish simple baselines for continuous control in the visual domain. We show that simple modifications to two state-of-the-art vision-based online reinforcement learning algorithms, DreamerV2 and DrQ-v2, suffice to outperform prior work and establish a competitive baseline. We rigorously evaluate these algorithms on both existing offline datasets and a new testbed for offline reinforcement learning from visual observations that better represents the data distributions present in real-world offline reinforcement learning problems, and open-source our code and data to facilitate progress in this important domain. Finally, we present and analyze several key desiderata unique to offline RL from visual observations, including visual distractions and visually identifiable changes in dynamics.
翻訳日:2022-06-13 12:13:09 公開日:2022-06-09
# (参考訳) 著者認証を用いた妥協アカウント検出--新しいアプローチ

Compromised account detection using authorship verification: a novel approach ( http://arxiv.org/abs/2206.03581v2 )

ライセンス: CC BY 4.0
Forough Farazmanesh, Fateme Foroutan, Amir Jalaly Bidgoly(参考訳) 正当なアカウントの妥協は、悪意のあるコンテンツをオンラインソーシャルネットワーク(OSN)の大規模なユーザーベースに広める方法である。 アカウントはユーザーに大きなダメージを与え、OSN上の他のユーザーにもダメージを与えるため、早期発見は非常に重要である。 本稿では,著者確認に基づく新しいアプローチを提案し,漏洩したTwitterアカウントを識別する。 このアプローチは、最後のユーザーの投稿から抽出された機能のみを使用するため、損傷を制御するために早期検出に役立ちます。 これにより、ユーザプロファイルのない悪意のあるメッセージを精度良く検出することができる。 実験はTwitter上の漏洩アカウントの実際のデータセットを使って行われた。 その結果,89%の精度で検出に適したモデルであることが判明した。

Compromising legitimate accounts is a way of disseminating malicious content to a large user base in Online Social Networks (OSNs). Since the accounts cause lots of damages to the user and consequently to other users on OSNs, early detection is very important. This paper proposes a novel approach based on authorship verification to identify compromised twitter accounts. As the approach only uses the features extracted from the last user's post, it helps to early detection to control the damage. As a result, the malicious message without a user profile can be detected with satisfying accuracy. Experiments were constructed using a real-world dataset of compromised accounts on Twitter. The result showed that the model is suitable for detection due to achieving an accuracy of 89%.
翻訳日:2022-06-12 20:50:10 公開日:2022-06-09
# (参考訳) 自己注意誘導不均質トランスレータによる音声合成のためのタグ付きMRIシーケンス

Tagged-MRI Sequence to Audio Synthesis via Self Residual Attention Guided Heterogeneous Translator ( http://arxiv.org/abs/2206.02284v2 )

ライセンス: CC BY 4.0
Xiaofeng Liu, Fangxu Xing, Jerry L. Prince, Jiachen Zhuo, Maureen Stone, Georges El Fakhri, Jonghye Woo(参考訳) タグ付きMRIで見られる舌と咽頭筋の変形について理解することは,音声運動制御理論の進展と発話関連障害の治療において重要な役割を担っている。 しかし、それらの不均一な表現のため、2つのモーダル、すなわち2次元(中軸スライス)と時間タグ付きMRIシーケンスとそれに対応する1次元波形の直接マッピングは簡単ではない。 その代わりに、ピッチと共鳴の両方を含む中間表現として2次元スペクトログラムを用いて、タグ付きMRIのシーケンスからデータセットサイズに制限のある対応する音声波形に変換するためのエンドツーエンドのディープラーニングフレームワークを開発する。 われわれのフレームワークは、音声中の筋肉構造を具体的に活用するための自己相対的注意戦略を指導した、新しい畳み込み非対称性トランスレータに基づいている。 さらに,同じ発話と潜在空間表現の非絡み合い戦略を併用して,サンプルのペアワイズ相関を利用する。 さらに, 生成したスペクトログラムのリアリズムを改善するために, 生成型adversarial networkを用いた敵意トレーニングアプローチも取り入れた。 以上の結果から, 音声音響と合わせて63個のタグ付きMRIシーケンスで実験を行い, 競合する手法を超越して, タグ付きMRIの連続から明瞭な音声波形を生成できることが判明した。 したがって、我々のフレームワークは、2つのモダリティ間の関係をよりよく理解するための大きな可能性を提供します。

Understanding the underlying relationship between tongue and oropharyngeal muscle deformation seen in tagged-MRI and intelligible speech plays an important role in advancing speech motor control theories and treatment of speech related-disorders. Because of their heterogeneous representations, however, direct mapping between the two modalities -- i.e., two-dimensional (mid-sagittal slice) plus time tagged-MRI sequence and its corresponding one-dimensional waveform -- is not straightforward. Instead, we resort to two-dimensional spectrograms as an intermediate representation, which contains both pitch and resonance, from which to develop an end-to-end deep learning framework to translate from a sequence of tagged-MRI to its corresponding audio waveform with limited dataset size.~Our framework is based on a novel fully convolutional asymmetry translator with guidance of a self residual attention strategy to specifically exploit the moving muscular structures during speech.~In addition, we leverage a pairwise correlation of the samples with the same utterances with a latent space representation disentanglement strategy.~Furthermore, we incorporate an adversarial training approach with generative adversarial networks to offer improved realism on our generated spectrograms.~Our experimental results, carried out with a total of 63 tagged-MRI sequences alongside speech acoustics, showed that our framework enabled the generation of clear audio waveforms from a sequence of tagged-MRI, surpassing competing methods. Thus, our framework provides the great potential to help better understand the relationship between the two modalities.
翻訳日:2022-06-11 07:16:07 公開日:2022-06-09
# (参考訳) ACT:非対称協調訓練による半教師付きドメイン適応型医用画像分割

ACT: Semi-supervised Domain-adaptive Medical Image Segmentation with Asymmetric Co-training ( http://arxiv.org/abs/2206.02288v2 )

ライセンス: CC BY 4.0
Xiaofeng Liu, Fangxu Xing, Nadya Shusharina, Ruth Lim, C-C Jay Kuo, Georges El Fakhri, Jonghye Woo(参考訳) 非教師付きドメイン適応(UDA)は、ラベル付きソースドメインの監督を通じて、ラベル付きターゲットドメインに良好なパフォーマンスのモデルを適用することにより、ソースドメインとターゲットドメイン間のドメインシフトを軽減するために大いに研究されてきた。 しかし、近年の文献では、重要なドメインシフトの存在下では、パフォーマンスはまだ満足できないことが示されている。 それでも、いくつかのターゲットサンプルを列挙することは、パフォーマンスが大幅に向上するため、通常は管理可能であり、特に価値がある。 そこで我々は,医用画像分割のための半教師付き領域適応(ssda)の開発を目指している。 そこで本稿では,ラベル付きターゲットデータに加えて,ラベル付きソースデータとターゲットドメインデータの両方を統一的に活用することを提案する。 具体的には、これらのサブセットを統合し、ソースドメインデータの支配を回避するための新しい非対称コトレーニング(ACT)フレームワークを提案する。 分割・分散戦略に従い、SSDAのラベル監督を半教師付き学習(SSL)とUDAを含む2つの非対称なサブタスクに明確に分離し、ソースとターゲットのラベル監督の区別を考慮して、2つのセグメントからの異なる知識を活用する。 2つのモジュールで学んだ知識は、信頼を意識した擬似ラベルに基づいて相互に反復的に教えることでACTと適応的に統合される。 さらに、擬似ラベルノイズは、滑らかな伝搬のための指数的混合減衰スキームでよく制御される。 BraTS18データベースを用いたクロスプラットフォーム脳腫瘍MRIセグメンテーションタスクの実験では、限られたラベル付きターゲットサンプルであっても、ACTはUDAと最先端のSSDA法よりも顕著に改善され、教師付き関節トレーニングの"上限"に近づいた。

Unsupervised domain adaptation (UDA) has been vastly explored to alleviate domain shifts between source and target domains, by applying a well-performed model in an unlabeled target domain via supervision of a labeled source domain. Recent literature, however, has indicated that the performance is still far from satisfactory in the presence of significant domain shifts. Nonetheless, delineating a few target samples is usually manageable and particularly worthwhile, due to the substantial performance gain. Inspired by this, we aim to develop semi-supervised domain adaptation (SSDA) for medical image segmentation, which is largely underexplored. We, thus, propose to exploit both labeled source and target domain data, in addition to unlabeled target data in a unified manner. Specifically, we present a novel asymmetric co-training (ACT) framework to integrate these subsets and avoid the domination of the source domain data. Following a divide-and-conquer strategy, we explicitly decouple the label supervisions in SSDA into two asymmetric sub-tasks, including semi-supervised learning (SSL) and UDA, and leverage different knowledge from two segmentors to take into account the distinction between the source and target label supervisions. The knowledge learned in the two modules is then adaptively integrated with ACT, by iteratively teaching each other, based on the confidence-aware pseudo-label. In addition, pseudo label noise is well-controlled with an exponential MixUp decay scheme for smooth propagation. Experiments on cross-modality brain tumor MRI segmentation tasks using the BraTS18 database showed, even with limited labeled target samples, ACT yielded marked improvements over UDA and state-of-the-art SSDA methods and approached an "upper bound" of supervised joint training.
翻訳日:2022-06-11 07:06:26 公開日:2022-06-09
# (参考訳) 深部サロゲートによる環境生成

Deep Surrogate Assisted Generation of Environments ( http://arxiv.org/abs/2206.04199v1 )

ライセンス: CC BY 4.0
Varun Bhatt, Bryon Tjanaka, Matthew C. Fontaine, Stefanos Nikolaidis(参考訳) 強化学習(RL)の最近の進歩は、複雑な環境の分布を解ける一般的な有能なエージェントを生み出し始めている。 これらのエージェントは通常、人間による固定された環境でテストされる。 一方、品質多様性(QD)最適化は、結果として生じるエージェントの挙動に多様性がある高品質環境のコレクションを生成することができる環境生成アルゴリズムの有効成分であることが証明されている。 しかし、これらのアルゴリズムは、新しく生成された環境におけるエージェントの潜在的に高価なシミュレーションを必要とする。 本研究では,新しい環境におけるエージェント行動予測のための深いサロゲートモデルを維持する,サンプル効率の良いqd環境生成アルゴリズムであるdeep surrogate assisted generation of environments (dsage)を提案する。 2つのベンチマークドメインの結果、DSAGEは最先端のRLエージェントと計画エージェントの多様な振る舞いを誘発する環境のコレクションを発見する際に、既存のQD環境生成アルゴリズムよりも大幅に優れていた。

Recent progress in reinforcement learning (RL) has started producing generally capable agents that can solve a distribution of complex environments. These agents are typically tested on fixed, human-authored environments. On the other hand, quality diversity (QD) optimization has been proven to be an effective component of environment generation algorithms, which can generate collections of high-quality environments that are diverse in the resulting agent behaviors. However, these algorithms require potentially expensive simulations of agents on newly generated environments. We propose Deep Surrogate Assisted Generation of Environments (DSAGE), a sample-efficient QD environment generation algorithm that maintains a deep surrogate model for predicting agent behaviors in new environments. Results in two benchmark domains show that DSAGE significantly outperforms existing QD environment generation algorithms in discovering collections of environments that elicit diverse behaviors of a state-of-the-art RL agent and a planning agent.
翻訳日:2022-06-11 04:28:55 公開日:2022-06-09
# (参考訳) Neo-GNN:リンク予測のための近隣のオーバーラップ対応グラフニューラルネットワーク

Neo-GNNs: Neighborhood Overlap-aware Graph Neural Networks for Link Prediction ( http://arxiv.org/abs/2206.04216v1 )

ライセンス: CC BY 4.0
Seongjun Yun, Seoyoon Kim, Junhyun Lee, Jaewoo Kang, Hyunwoo J. Kim(参考訳) グラフニューラルネットワーク(GNN)は,グラフ構造化データの学習に広く応用されている。 ノード分類やグラフ分類といった様々なタスクにおいて、従来のヒューリスティック手法よりも大幅に改善されている。 しかし、GNNはグラフ構造よりもスムーズなノード特徴に強く依存しているため、しばしばリンク予測において単純なヒューリスティック手法よりも低い性能を示す。 この制限に対処するために,隣接行列から有用な構造特徴を学習し,重複した近傍を推定してリンク予測を行うneo-gnnsを提案する。 我々のNeo-GNNは、近隣の重複に基づくヒューリスティック手法を一般化し、重複したマルチホップ地区を扱う。 オープングラフベンチマークデータセット(OGB)に関する広範な実験により、Neo-GNNはリンク予測における最先端のパフォーマンスを一貫して達成していることが示された。 私たちのコードはhttps://github.com/seongjunyun/Neo_GNNsで公開されています。

Graph Neural Networks (GNNs) have been widely applied to various fields for learning over graph-structured data. They have shown significant improvements over traditional heuristic methods in various tasks such as node classification and graph classification. However, since GNNs heavily rely on smoothed node features rather than graph structure, they often show poor performance than simple heuristic methods in link prediction where the structural information, e.g., overlapped neighborhoods, degrees, and shortest paths, is crucial. To address this limitation, we propose Neighborhood Overlap-aware Graph Neural Networks (Neo-GNNs) that learn useful structural features from an adjacency matrix and estimate overlapped neighborhoods for link prediction. Our Neo-GNNs generalize neighborhood overlap-based heuristic methods and handle overlapped multi-hop neighborhoods. Our extensive experiments on Open Graph Benchmark datasets (OGB) demonstrate that Neo-GNNs consistently achieve state-of-the-art performance in link prediction. Our code is publicly available at https://github.com/seongjunyun/Neo_GNNs.
翻訳日:2022-06-11 03:59:41 公開日:2022-06-09
# (参考訳) トピックモデリングとクラスタリングによる異なる地域の民俗分析

Analyzing Folktales of Different Regions Using Topic Modeling and Clustering ( http://arxiv.org/abs/2206.04221v1 )

ライセンス: CC BY 4.0
Jacob Werzinsky, Zhiyan Zhong, Xuedan Zou(参考訳) 本稿では,トピックモデリングとクラスタリングという2つの主要な自然言語処理技術を用いて,民俗学のパターンを見つけ,地域間の文化的関係を明らかにする。 特に, 潜在ディリクレ割当とベルトピートを用いて再帰的要素とk平均クラスタリングを群民話に抽出した。 本論文は,民俗学の類似点と相違点,文化について何を言っているのか,という疑問に答えようとしている。 ここでは、民俗学の共通する傾向として、家族、食物、伝統的なジェンダーの役割、神話的人物、動物などがあげられる。 また、民俗学の話題は地理的な場所によって異なるが、動物や環境の異なる地域でも見られる。 宗教的な人物や動物が、すべての文化において共通のトピックであるということに驚きませんでした。 しかし、ヨーロッパとアジアの民話がしばしば合わさったことに驚きました。 我々の結果は、世界中の文化における特定の要素の出現を示している。 我々は,今後の民俗研究の資源として,自然言語処理を用いて特定の領域の文書を分析する事例として,我々の研究が期待する。 さらに,これらの資料は,その話題に基づいてのみ分析されるため,これらの伝承の構造,感情,性格を解析する上で,さらに多くの作業を行うことができた。

This paper employs two major natural language processing techniques, topic modeling and clustering, to find patterns in folktales and reveal cultural relationships between regions. In particular, we used Latent Dirichlet Allocation and BERTopic to extract the recurring elements as well as K-means clustering to group folktales. Our paper tries to answer the question what are the similarities and differences between folktales, and what do they say about culture. Here we show that the common trends between folktales are family, food, traditional gender roles, mythological figures, and animals. Also, folktales topics differ based on geographical location with folktales found in different regions having different animals and environment. We were not surprised to find that religious figures and animals are some of the common topics in all cultures. However, we were surprised that European and Asian folktales were often paired together. Our results demonstrate the prevalence of certain elements in cultures across the world. We anticipate our work to be a resource to future research of folktales and an example of using natural language processing to analyze documents in specific domains. Furthermore, since we only analyzed the documents based on their topics, more work could be done in analyzing the structure, sentiment, and the characters of these folktales.
翻訳日:2022-06-11 03:43:50 公開日:2022-06-09
# (参考訳) エッジワース会計士によるディファレンシャルプライバシの分析構成

Analytical Composition of Differential Privacy via the Edgeworth Accountant ( http://arxiv.org/abs/2206.04236v1 )

ライセンス: CC BY 4.0
Hua Wang, Sheng Gao, Huanyu Zhang, Milan Shen, Weijie J. Su(参考訳) 多くの現代の機械学習アルゴリズムは単純なプライベートアルゴリズムで構成されているため、より重要な問題は構成下の全体的なプライバシー損失を効率的に計算することである。 本研究では,プライベートアルゴリズムの差分プライバシー保証を構成するための分析手法であるEdgeworth Accountantを紹介する。 Edgeworth Accountantは、$f$の差分プライバシーフレームワークを使用して構成中のプライバシ損失を損失なく追跡することから始まり、プライバシロスログ類似率(PLLR)を使用して、プライバシ保証を表現することができます。 名前が示すように、この会計士は次に、上と下の境界へのエッジワース展開を使い、PLLRの和の確率分布を推定する。 さらに, 複雑な分布を簡易に近似する手法に頼ることにより, エッジワース会計士が任意のノイズ付加機構の構成に適用可能であることを示す。 エッジワース拡大の魅力ある特徴により、この会計士によって提供される$(\epsilon, \delta)$-微分プライバシー境界は非漸近的であり、計算コストは、以前のアプローチとは異なり、構成数の増加とともに実行時間が増加する。 最後に、当社の上位と下位の$(\epsilon, \delta)$-differential privacy boundsが、フェデレーション分析とある種のプライベートディープラーニングモデルのトレーニング方法に密着していることを示します。

Many modern machine learning algorithms are composed of simple private algorithms; thus, an increasingly important problem is to efficiently compute the overall privacy loss under composition. In this study, we introduce the Edgeworth Accountant, an analytical approach to composing differential privacy guarantees of private algorithms. The Edgeworth Accountant starts by losslessly tracking the privacy loss under composition using the $f$-differential privacy framework, which allows us to express the privacy guarantees using privacy-loss log-likelihood ratios (PLLRs). As the name suggests, this accountant next uses the Edgeworth expansion to the upper and lower bounds the probability distribution of the sum of the PLLRs. Moreover, by relying on a technique for approximating complex distributions using simple ones, we demonstrate that the Edgeworth Accountant can be applied to the composition of any noise-addition mechanism. Owing to certain appealing features of the Edgeworth expansion, the $(\epsilon, \delta)$-differential privacy bounds offered by this accountant are non-asymptotic, with essentially no extra computational cost, as opposed to the prior approaches in, wherein the running times increase with the number of compositions. Finally, we demonstrate that our upper and lower $(\epsilon, \delta)$-differential privacy bounds are tight in federated analytics and certain regimes of training private deep learning models.
翻訳日:2022-06-11 03:38:35 公開日:2022-06-09
# (参考訳) Levenberg-Marquardt アルゴリズムによる医療データ伝送の促進

Enhancement of Healthcare Data Transmission using the Levenberg-Marquardt Algorithm ( http://arxiv.org/abs/2206.04240v1 )

ライセンス: CC BY 4.0
Angela An, James Jin Kang(参考訳) 医療システムでは、患者はリモートデータ収集や、健康データと健康状態のリアルタイム監視にウェアラブルデバイスを使用する必要がある。 このウェアラブルの採用は、収集され送信されるデータの量を大幅に増加させます。 デバイスは小さなバッテリパワーで動作しているため、データの収集と送信のための高い処理要件のために、それらは迅速に減少することができる。 医療データに付随する重要性を考えると、送信されたデータはすべて厳密な整合性と可用性要件に従うことが必須である。 医療データの量と送信頻度の削減は、推論アルゴリズムを使用してデバイスのバッテリ寿命を改善する。 送信メトリクスを精度と効率で改善する問題があり、精度の向上などのトレードオフによって効率が低下する。 本稿では,データ伝送の精度や効率などの複雑な健康データメトリクスを機械学習で解析し,レバンス・マルカートアルゴリズムを用いて両指標の精度を向上し,精度を維持しながら送信するサンプルを減らし,両指標間のトレードオフ問題を克服できることを実証する。 このアルゴリズムは標準心拍数データセットでテストされ、測定値を比較する。 その結果、lmaは、サンプルデータサイズと精度を79.17%削減するために3.33倍の効率で、テストに採用されている7つの異なるサンプリングケースで同様の精度を持つが、効率性が向上した。 提案手法は, 既存の手法と比較して, 機械学習を用いて, 既存の手法と比較して, メトリクスを犠牲にすることなく, 両者のメトリクスを著しく改善した。

In the healthcare system, patients are required to use wearable devices for the remote data collection and real-time monitoring of health data and the status of health conditions. This adoption of wearables results in a significant increase in the volume of data that is collected and transmitted. As the devices are run by small battery power, they can be quickly diminished due to the high processing requirements of the device for data collection and transmission. Given the importance attached to medical data, it is imperative that all transmitted data adhere to strict integrity and availability requirements. Reducing the volume of healthcare data and the frequency of transmission will improve the device battery life via using inference algorithm. There is an issue of improving transmission metrics with accuracy and efficiency, which trade-off each other such as increasing accuracy reduces the efficiency. This paper demonstrates that machine learning can be used to analyze complex health data metrics such as the accuracy and efficiency of data transmission to overcome the trade-off problem using the Levenberg-Marquardt algorithm to enhance both metrics by taking fewer samples to transmit whilst maintaining the accuracy. The algorithm is tested with a standard heart rate dataset to compare the metrics. The result shows that the LMA has best performed with an efficiency of 3.33 times for reduced sample data size and accuracy of 79.17%, which has the similar accuracies in 7 different sampling cases adopted for testing but demonstrates improved efficiency. These proposed methods significantly improved both metrics using machine learning without sacrificing a metric over the other compared to the existing methods with high efficiency.
翻訳日:2022-06-11 03:06:40 公開日:2022-06-09
# (参考訳) OOD増産はオープンセット認識で不利になるかもしれない

OOD Augmentation May Be at Odds with Open-Set Recognition ( http://arxiv.org/abs/2206.04242v1 )

ライセンス: CC BY 4.0
Mohammad Azizmalayeri, Mohammad Hossein Rohban(参考訳) 画像分類手法の進歩にもかかわらず、トレーニングクラスに属さないサンプルの検出は依然として難しい課題である。 最近、このテーマに多くの関心が寄せられ、OSR(Open-Set Recognition)と呼ばれる。 osrでは、od(out-of-distribution)サンプルの分類と検出を両立することが目標である。 複雑な手法によって経験結果をさらに推し進めるために、いくつかのアイデアが提案されている。 そのような複雑さは必然的ではないと私たちは信じている。 そこで本研究では, 最大ソフトマックス確率 (msp) をosrのベースラインとして, 視覚トランスフォーマー (vits) をベースクラス化器として適用することで, 近年の手法を驚くほど上回っていることを示す。 非OOD拡張は、データ分散をあまり変更しないものなのです。 この結果は, CIFAR-10データセットでは最先端であり, SVHNやMNISTの手法よりも優れている。 トレーニング強化が OSR タスクにおける ViTs のパフォーマンスに重大な影響を与えていることを示し,それらが追加サンプルに顕著な多様性をもたらすべきであるが,生成した OOD-ness は限定的でなければならない。

Despite advances in image classification methods, detecting the samples not belonging to the training classes is still a challenging problem. There has been a burst of interest in this subject recently, which is called Open-Set Recognition (OSR). In OSR, the goal is to achieve both the classification and detecting out-of-distribution (OOD) samples. Several ideas have been proposed to push the empirical result further through complicated techniques. We believe that such complication is indeed not necessary. To this end, we have shown that Maximum Softmax Probability (MSP), as the simplest baseline for OSR, applied on Vision Transformers (ViTs) as the base classifier that is trained with non-OOD augmentations can surprisingly outperform many recent methods. Non-OOD augmentations are the ones that do not alter the data distribution by much. Our results outperform state-of-the-art in CIFAR-10 datasets, and is also better than most of the current methods in SVHN and MNIST. We show that training augmentation has a significant effect on the performance of ViTs in the OSR tasks, and while they should produce significant diversity in the augmented samples, the generated sample OOD-ness must remain limited.
翻訳日:2022-06-11 02:31:40 公開日:2022-06-09
# (参考訳) SwinCheX:トランスを用いた胸部X線画像のマルチラベル分類

SwinCheX: Multi-label classification on chest X-ray images with transformers ( http://arxiv.org/abs/2206.04246v1 )

ライセンス: CC BY 4.0
Sina Taslimi, Soroush Taslimi, Nima Fathi, Mohammadreza Salehi, Mohammad Hossein Rohban(参考訳) 様々な疾患の診断における胸部X線画像の利用率の増大と、広範囲のデータセットの収集により、深層ニューラルネットワークを用いた自動診断が専門家の心をつかんでいる。 コンピュータビジョンで利用可能なほとんどの方法はCNNのバックボーンを使って分類問題を高精度に取得する。 しかしながら、最近の研究では、NLPにおけるデファクト法として確立されたトランスフォーマーは、視覚における多くのCNNベースのモデルよりも優れていることが示されている。 本稿では,Swin Transformer をバックボーンとしたマルチラベル分類深層モデルを提案する。 ヘッドアーキテクチャにはMLP(Multi-Layer Perceptron)を利用する。 胸部疾患14例3万名以上の前頭/背部画像から得られたX線画像から,最も広く利用されているX線データセットであるChest X-ray14の評価を行った。 我々のモデルはヘッド設定のために複数のMLP層でテストされ、各クラスでAUCスコアが競い合っている。 Chest X-ray14の総合的な実験により、3層ヘッドが平均AUCスコア0.810の最先端性能を達成することが示された。 本稿では,今後の研究の基盤となる既存手法の公正なベンチマークのための実験的なセットアップを提案する。 最後に,提案法が胸部の病理的関連領域に適合していることを確認し,その結果を追跡した。

According to the considerable growth in the avail of chest X-ray images in diagnosing various diseases, as well as gathering extensive datasets, having an automated diagnosis procedure using deep neural networks has occupied the minds of experts. Most of the available methods in computer vision use a CNN backbone to acquire high accuracy on the classification problems. Nevertheless, recent researches show that transformers, established as the de facto method in NLP, can also outperform many CNN-based models in vision. This paper proposes a multi-label classification deep model based on the Swin Transformer as the backbone to achieve state-of-the-art diagnosis classification. It leverages Multi-Layer Perceptron, also known as MLP, for the head architecture. We evaluate our model on one of the most widely-used and largest x-ray datasets called "Chest X-ray14," which comprises more than 100,000 frontal/back-view images from over 30,000 patients with 14 famous chest diseases. Our model has been tested with several number of MLP layers for the head setting, each achieves a competitive AUC score on all classes. Comprehensive experiments on Chest X-ray14 have shown that a 3-layer head attains state-of-the-art performance with an average AUC score of 0.810, compared to the former SOTA average AUC of 0.799. We propose an experimental setup for the fair benchmarking of existing methods, which could be used as a basis for the future studies. Finally, we followed up our results by confirming that the proposed method attends to the pathologically relevant areas of the chest.
翻訳日:2022-06-11 02:15:52 公開日:2022-06-09
# (参考訳) 関数線形回帰における伝達学習について

On Transfer Learning in Functional Linear Regression ( http://arxiv.org/abs/2206.04277v1 )

ライセンス: CC BY 4.0
Haotian Lin, Matthew Reimherr(参考訳) 本研究は、関連する情報源モデルからの知識を活用し、対象モデルの適合性を向上させることを目的とした関数線形モデルフレームワークにおけるトランスファー学習の問題を研究する。 ターゲットモデルとソースモデルの関係性をカーネルヒルベルト空間の再現を用いて測定し、知識のタイプが空間の構造によって解釈されるようにした。 2つのアルゴリズムが提案されている: 1つは転送可能なソースのインデックスが知られているときに知識を転送し、もう1つはソースに関する事前情報なしで知識転送を達成するために集約を利用する。 さらに,過剰リスクに対する最適収束率を確立し,転送学習による統計的利得を数学的に証明可能とした。 提案アルゴリズムの有効性は, 実財務データだけでなく, 合成データにも示される。

This work studies the problem of transfer learning under the functional linear model framework, which aims to improve the fit of the target model by leveraging the knowledge from related source models. We measure the relatedness between target and source models using Reproducing Kernel Hilbert Spaces, allowing the type of knowledge being transferred to be interpreted by the structure of the spaces. Two algorithms are proposed: one transfers knowledge when the index of transferable sources is known, while the other one utilizes aggregation to achieve knowledge transfer without prior information about the sources. Furthermore, we establish the optimal convergence rates for excess risk, making the statistical gain via transfer learning mathematically provable. The effectiveness of the proposed algorithms is demonstrated on synthetic data as well as real financial data.
翻訳日:2022-06-11 02:02:29 公開日:2022-06-09
# (参考訳) Pseudo-Poincar\'e:ユークリッドおよび双曲グラフニューラルネットワークのための統一フレームワーク

Pseudo-Poincar\'e: A Unification Framework for Euclidean and Hyperbolic Graph Neural Networks ( http://arxiv.org/abs/2206.04285v1 )

ライセンス: CC BY 4.0
Mehrdad Khatir, Nurendra Choudhary, Sutanay Choudhury, Khushbu Agarwal, Chandan K. Reddy(参考訳) ハイパーボリックニューラルネットワークは、最近、ノード分類やリンク予測を含むいくつかのグラフ問題に関する有望な結果により、大きな注目を集めている。 この成功の主な理由は、グラフデータセット固有の階層をキャプチャする際の双曲空間の有効性である。 しかし、一般化や拡張性という点では制限があり、非階層的なデータセットではパフォーマンスが劣る。 本稿では,双曲ネットワークのモデル化に完全直交的視点を用いる。 双曲幾何学をモデル化するために Poincar\'e ディスクを使用し、円盤自体が原点の接空間であるかのように扱う。 これにより、非スケーリング可能な M\"obius gyrovector 演算をユークリッド近似に置き換えることができ、双曲正規化関数を持つユークリッドモデルに双曲モデル全体を単純化することができる。 このアプローチは m\"obius math に従わないが、リーマン多様体ではまだ機能するので、擬ポインカルフレームワーク(pseudo-poincar\'e framework)と呼ぶ。 我々は, 非線形双曲正規化を最先端の同質および多関係グラフネットワークに適用し, ユークリッドおよび双曲グラフと比較して, 性能が著しく向上したことを示す。 この研究の主な影響は、ユークリッド空間の階層的特徴をキャプチャできることであり、したがって、パフォーマンスメトリクスを損なうことなく双曲的ネットワークを置き換えることができると同時に、解釈可能性や様々なモデルコンポーネントの効率的な実行といったユークリッド的ネットワークのパワーも同時に活用できる。

Hyperbolic neural networks have recently gained significant attention due to their promising results on several graph problems including node classification and link prediction. The primary reason for this success is the effectiveness of the hyperbolic space in capturing the inherent hierarchy of graph datasets. However, they are limited in terms of generalization, scalability, and have inferior performance when it comes to non-hierarchical datasets. In this paper, we take a completely orthogonal perspective for modeling hyperbolic networks. We use Poincar\'e disk to model the hyperbolic geometry and also treat it as if the disk itself is a tangent space at origin. This enables us to replace non-scalable M\"obius gyrovector operations with an Euclidean approximation, and thus simplifying the entire hyperbolic model to a Euclidean model cascaded with a hyperbolic normalization function. Our approach does not adhere to M\"obius math, yet it still works in the Riemannian manifold, hence we call it Pseudo-Poincar\'e framework. We applied our non-linear hyperbolic normalization to the current state-of-the-art homogeneous and multi-relational graph networks and demonstrate significant improvements in performance compared to both Euclidean and hyperbolic counterparts. The primary impact of this work lies in its ability to capture hierarchical features in the Euclidean space, and thus, can replace hyperbolic networks without loss in performance metrics while simultaneously leveraging the power of Euclidean networks such as interpretability and efficient execution of various model components.
翻訳日:2022-06-11 02:01:21 公開日:2022-06-09
# (参考訳) FOAM:視覚・言語ナビゲーションのための追従型話者モデル

FOAM: A Follower-aware Speaker Model For Vision-and-Language Navigation ( http://arxiv.org/abs/2206.04294v1 )

ライセンス: CC BY 4.0
Zi-Yi Dou, Nanyun Peng(参考訳) 話者従者モデルは視覚言語ナビゲーションにおいて有効であることが証明されており、従者ナビゲーションモデルの訓練データを強化するために新しい指示を合成するために話者モデルが使用される。 しかし、従来の多くの手法では、生成した命令はフォロワーのパフォーマンスを最適化するために直接訓練されない。 本稿では,学習者フィードバックにより常に更新される話者である \textsc{foam}, \textsc{fo}llower-\textsc{a}ware speaker \textsc{m}odel について述べる。 具体的には,2レベル最適化フレームワークを用いて話者を最適化し,ラベル付きデータに対する追従者の評価により学習信号を得る。 Room-to-RoomデータセットとRoom-across-Roomデータセットの実験的結果は、我々の手法が設定全体にわたって強力なベースラインモデルより優れていることを示している。 分析により、生成された命令はベースラインよりも高品質であることが判明した。

The speaker-follower models have proven to be effective in vision-and-language navigation, where a speaker model is used to synthesize new instructions to augment the training data for a follower navigation model. However, in many of the previous methods, the generated instructions are not directly trained to optimize the performance of the follower. In this paper, we present \textsc{foam}, a \textsc{Fo}llower-\textsc{a}ware speaker \textsc{M}odel that is constantly updated given the follower feedback, so that the generated instructions can be more suitable to the current learning state of the follower. Specifically, we optimize the speaker using a bi-level optimization framework and obtain its training signals by evaluating the follower on labeled data. Experimental results on the Room-to-Room and Room-across-Room datasets demonstrate that our methods can outperform strong baseline models across settings. Analyses also reveal that our generated instructions are of higher quality than the baselines.
翻訳日:2022-06-11 01:41:04 公開日:2022-06-09
# (参考訳) 配電用GAN発電機を用いた特徴量からの再構成

Reconstruct Face from Features Using GAN Generator as a Distribution Constraint ( http://arxiv.org/abs/2206.04295v1 )

ライセンス: CC BY-SA 4.0
Xingbo Dong, Zhihui Miao, Lan Ma, Jiajun Shen, Zhe Jin, Zhenhua Guo, Andrew Beng Jin Teoh(参考訳) 深層畳み込みニューラルネットワーク(CNN)に基づく顔認識は、抽出された高い識別特性に起因する精度の高い性能を示す。 しかし、ディープラーニングモデル(ディープ機能)から抽出した機能のセキュリティとプライバシは、しばしば見過ごされている。 本稿では,cnnネットワーク構成にアクセスせずに,深い特徴から顔画像の再構成を制約付き最適化問題として提案する。 このような最適化は、元の顔画像から抽出された特徴と再構成された顔画像との距離を最小化する。 画像空間における最適化問題を直接解決する代わりに,GAN生成器の潜伏ベクトルを探索し,顔画像を生成することにより,問題を革新的に再構築する。 gan生成器は、この新フレームワーク、すなわち最適化目標の面分布制約と顔生成器において、二重の役割を担っている。 また,新たな最適化タスクに加えて,生成した顔画像に基づいてターゲットユーザを偽装する攻撃パイプラインを提案する。 以上の結果から, LFWでは, Type-I 攻撃時の顔画像が 0.1 % の攻撃率で98.0 % を達成できることがわかった。 私たちの研究は、プライバシ保護とセキュリティポリシを満たすためのバイオメトリックデプロイメントに光を当てています。

Face recognition based on the deep convolutional neural networks (CNN) shows superior accuracy performance attributed to the high discriminative features extracted. Yet, the security and privacy of the extracted features from deep learning models (deep features) have been often overlooked. This paper proposes the reconstruction of face images from deep features without accessing the CNN network configurations as a constrained optimization problem. Such optimization minimizes the distance between the features extracted from the original face image and the reconstructed face image. Instead of directly solving the optimization problem in the image space, we innovatively reformulate the problem by looking for a latent vector of a GAN generator, then use it to generate the face image. The GAN generator serves as a dual role in this novel framework, i.e., face distribution constraint of the optimization goal and a face generator. On top of the novel optimization task, we also propose an attack pipeline to impersonate the target user based on the generated face image. Our results show that the generated face images can achieve a state-of-the-art successful attack rate of 98.0\% on LFW under type-I attack @ FAR of 0.1\%. Our work sheds light on the biometric deployment to meet the privacy-preserving and security policies.
翻訳日:2022-06-11 01:27:30 公開日:2022-06-09
# (参考訳) 否定的なシャノン情報隠蔽ネットワーク

Negative Shannon Information Hides Networks ( http://arxiv.org/abs/2206.04320v1 )

ライセンス: CC BY 4.0
Ming-Xing Luo(参考訳) 負数は数学において必須である。 それらは正の確率で表されるので、統計実験を記述する必要はない。 シャノン情報は、古典確率分布の情報の不確実性を特徴付けるために最初に定義された。 しかし、なぜ有限サンプル空間上の2つ以上の確率変数に対して負の情報が存在するのかは不明である。 まず、3つの確率変数の負のシャノン相互情報を示すと、その結合分布のベイズネットワーク表現が示唆される。 次に、負のシャノン情報との本質的相性が量子実現を伴うベイズネットワークの汎用性を示す。 これはまた、新しい種類の空間依存的非局所性を示している。 この結果は、デバイスに依存しない負のシャノン情報の証人を提供する。

Negative numbers are essential in mathematics. They are not needed to describe statistical experiments, as those are expressed in terms of positive probabilities. Shannon information was firstly defined for characterizing informational uncertainty of classical probabilistic distributions. However, it is unknown why there is negative information for more than two random variables on finite sample spaces. We first show the negative Shannon mutual information of three random variables implies Bayesian network representations of its joint distribution. We then show the intrinsic compatibility with negative Shannon information is generic for Bayesian networks with quantum realizations. This further suggests a new kind of space-dependent nonlocality. The present result provides a device-independent witness of negative Shannon information.
翻訳日:2022-06-11 01:09:53 公開日:2022-06-09
# (参考訳) オーストロネシア語族の言語識別

Language Identification for Austronesian Languages ( http://arxiv.org/abs/2206.04327v1 )

ライセンス: CC BY 4.0
Jonathan Dunn and Wikke Nijhof(参考訳) 本稿では,これまで利用できなかったオーストロネシア語に焦点をあて,太平洋地域の低・低リソース言語を対象とした言語識別モデルを提案する。 正確な言語識別は、言語資源の開発において重要な部分である。 本稿では,29のオーストロネシアン言語と171の非オーストロネシアン言語を組み合わせて,8つのデータソースから作成した評価セットを作成する。 言語識別に対する6つのアプローチを評価した結果,スキップグラム埋め込みに基づく分類器は,代替手法よりも大幅に高い性能を示した。 次に,モデル内の非オーストロネシア言語数を最大800言語まで体系的に増加させ,言語インベントリの増加がオーストロネシア言語に対する正確な予測を低下させるかどうかを評価する。 この評価により、非オーストロネシア語の在庫の増加による精度への影響は最小限であることがわかった。 さらなる実験では、これらの言語識別モデルをコードスイッチング検出に適用し、29言語すべてで高い精度を達成する。

This paper provides language identification models for low- and under-resourced languages in the Pacific region with a focus on previously unavailable Austronesian languages. Accurate language identification is an important part of developing language resources. The approach taken in this paper combines 29 Austronesian languages with 171 non-Austronesian languages to create an evaluation set drawn from eight data sources. After evaluating six approaches to language identification, we find that a classifier based on skip-gram embeddings reaches a significantly higher performance than alternate methods. We then systematically increase the number of non-Austronesian languages in the model up to a total of 800 languages to evaluate whether an increased language inventory leads to less precise predictions for the Austronesian languages of interest. This evaluation finds that there is only a minimal impact on accuracy caused by increasing the inventory of non-Austronesian languages. Further experiments adapt these language identification models for code-switching detection, achieving high accuracy across all 29 languages.
翻訳日:2022-06-11 00:43:33 公開日:2022-06-09
# (参考訳) グラフベース光場符号化のための新しいプロジェクション方式

Novel projection schemes for graph-based Light Field coding ( http://arxiv.org/abs/2206.04328v1 )

ライセンス: CC BY 4.0
Bach Gia Nguyen, Chanh Minh Tran, Tho Nguyen Duc, Tan Xuan Phan and Kamioka Eiji(参考訳) 光場圧縮では、グラフベースの符号化は不規則な形状に沿って信号の冗長性を活用でき、優れたエネルギー圧縮が得られる。 しかし、高次元グラフを処理するための高次複雑さとは別に、グラフ構築法は視点間の差異情報の精度に非常に敏感である。 コンピュータ・ソフトウェアが生み出す現実の光場や合成光場では、超光射影に対する不均一性情報の使用は、それぞれ2種類の光場における視界間の大きな不一致によって不正確になる可能性がある。 本稿では,2つの新しいプロジェクション方式を導入し,異なる情報における誤差を低減し,一方のプロジェクション方式はエンコーダとデコーダの両方の時間計算を大幅に削減する。 実験の結果,従来の投影法やhevcベース,あるいはjpeg plenoベースの符号化法と比較して,提案手法を用いることで,超画素の投影品質が大幅に向上することが示された。

In Light Field compression, graph-based coding is powerful to exploit signal redundancy along irregular shapes and obtains good energy compaction. However, apart from high time complexity to process high dimensional graphs, their graph construction method is highly sensitive to the accuracy of disparity information between viewpoints. In real world Light Field or synthetic Light Field generated by computer software, the use of disparity information for super-rays projection might suffer from inaccuracy due to vignetting effect and large disparity between views in the two types of Light Fields respectively. This paper introduces two novel projection schemes resulting in less error in disparity information, in which one projection scheme can also significantly reduce time computation for both encoder and decoder. Experimental results show projection quality of super-pixels across views can be considerably enhanced using the proposals, along with rate-distortion performance when compared against original projection scheme and HEVC-based or JPEG Pleno-based coding approaches.
翻訳日:2022-06-11 00:30:41 公開日:2022-06-09
# (参考訳) コーパス類似度尺度を用いた低リソース環境における組込み信頼性の予測

Predicting Embedding Reliability in Low-Resource Settings Using Corpus Similarity Measures ( http://arxiv.org/abs/2206.04330v1 )

ライセンス: CC BY 4.0
Jonathan Dunn and Haipeng Li and Damian Sastre(参考訳) 本稿では,17言語にまたがる低リソース設定をシミュレートし,異なる条件下での類似性,安定性,信頼性を評価する。 目標は、トレーニング前にコーパス類似度を使用して、トレーニング後の埋め込み特性を予測することである。 本論文の主な貢献は,上流コーパス類似度測定を用いて下流埋め込み類似度を予測することができることを示すことである。 この発見は、非常に限られたトレーニングデータから生成された埋め込みの信頼性をモデル化することで、低リソース設定に適用される。 その結果,少量のデータに対して頑健なコーパス類似度尺度を用いて,低リソース組込みの信頼性を推定できることがわかった。 これらの結果は、データ制限のため、このような体系的な下流検証方法が不可能な、真の低リソース言語の評価に重大な影響を及ぼす。

This paper simulates a low-resource setting across 17 languages in order to evaluate embedding similarity, stability, and reliability under different conditions. The goal is to use corpus similarity measures before training to predict properties of embeddings after training. The main contribution of the paper is to show that it is possible to predict downstream embedding similarity using upstream corpus similarity measures. This finding is then applied to low-resource settings by modelling the reliability of embeddings created from very limited training data. Results show that it is possible to estimate the reliability of low-resource embeddings using corpus similarity measures that remain robust on small amounts of data. These findings have significant implications for the evaluation of truly low-resource languages in which such systematic downstream validation methods are not possible because of data limitations.
翻訳日:2022-06-11 00:08:29 公開日:2022-06-09
# (参考訳) コーパスの類似性は多様な言語にまたがって堅牢である

Corpus Similarity Measures Remain Robust Across Diverse Languages ( http://arxiv.org/abs/2206.04332v1 )

ライセンス: CC BY 4.0
Haipeng Li and Jonathan Dunn(参考訳) 本稿では、レジスタ予測タスクを用いて39言語にわたる周波数ベースコーパス類似度測定実験を行った。 目標は定量化です (i)同一言語からの異なるコーパス間の距離 (ii)個々のコーパスの均一性。 これらの2つの目標は、コーパスベースの言語分析がデータセットから他のデータセットへいかによく一般化するかを測定するのに不可欠である。 問題は、以前の研究がインド・ヨーロッパ語に焦点を合わせており、これらの尺度が多言語にわたって堅牢な一般化を提供できるかどうかという疑問が提起されていることである。 本稿では,39言語間で競合する尺度を評価するために,レジスタ予測タスクを用いる。 各実験では、1つの言語から3つのコーパスを比較し、同じ3つのデジタルレジスタがすべての言語で共有されている。 その結果, コーパスの類似度は, 言語家族, 書記システム, 形態素の種類によって異なる。 さらに、ドメイン外のコーパス、低リソース言語に適用された場合、異なるレジスタセットに適用された場合、測定は引き続き堅牢である。 これらの発見は、解析のために急速に増加するコーパスの個数にまたがって一般化する必要があることから、非常に重要である。

This paper experiments with frequency-based corpus similarity measures across 39 languages using a register prediction task. The goal is to quantify (i) the distance between different corpora from the same language and (ii) the homogeneity of individual corpora. Both of these goals are essential for measuring how well corpus-based linguistic analysis generalizes from one dataset to another. The problem is that previous work has focused on Indo-European languages, raising the question of whether these measures are able to provide robust generalizations across diverse languages. This paper uses a register prediction task to evaluate competing measures across 39 languages: how well are they able to distinguish between corpora representing different contexts of production? Each experiment compares three corpora from a single language, with the same three digital registers shared across all languages: social media, web pages, and Wikipedia. Results show that measures of corpus similarity retain their validity across different language families, writing systems, and types of morphology. Further, the measures remain robust when evaluated on out-of-domain corpora, when applied to low-resource languages, and when applied to different sets of registers. These findings are significant given our need to make generalizations across the rapidly increasing number of corpora available for analysis.
翻訳日:2022-06-10 23:55:52 公開日:2022-06-09
# (参考訳) カテゴリーおよび順序データに対する高次元条件独立性テストのための簡易統一的アプローチ

A Simple Unified Approach to Testing High-Dimensional Conditional Independences for Categorical and Ordinal Data ( http://arxiv.org/abs/2206.04356v1 )

ライセンス: CC BY 4.0
Ankur Ankan and Johannes Textor(参考訳) 条件独立テスト(CI)は、因果推論におけるモデルテストと構造学習に多くのアプローチをとる。 分類データと順序データのための既存のCIテストは、条件変数によってサンプルを階層化し、各層で単純な独立テストを実行し、結果を組み合わせる。 残念ながら、このアプローチの統計力は条件変数の数が増えるにつれて急速に低下する。 本稿では,高次元で適度な校正とパワーを維持する順序データとカテゴリデータのための簡易な統一的なciテストを提案する。 提案手法は, 分散モデルに匹敵しながら, 密集した有向グラフィカルモデルに対するモデルテストおよび構造学習において, 既存のベースラインよりも優れることを示す。 提案手法は,実装が容易で,非パラメトリックあるいはパラメトリックな確率モデルで使用でき,対称性特性を持ち,合理的な計算条件を持つため,因果モデルテストに魅力的なものとなる。

Conditional independence (CI) tests underlie many approaches to model testing and structure learning in causal inference. Most existing CI tests for categorical and ordinal data stratify the sample by the conditioning variables, perform simple independence tests in each stratum, and combine the results. Unfortunately, the statistical power of this approach degrades rapidly as the number of conditioning variables increases. Here we propose a simple unified CI test for ordinal and categorical data that maintains reasonable calibration and power in high dimensions. We show that our test outperforms existing baselines in model testing and structure learning for dense directed graphical models while being comparable for sparse models. Our approach could be attractive for causal model testing because it is easy to implement, can be used with non-parametric or parametric probability models, has the symmetry property, and has reasonable computational requirements.
翻訳日:2022-06-10 23:44:01 公開日:2022-06-09
# (参考訳) PlantVillageデータセットのバイアスを明らかにする

Uncovering bias in the PlantVillage dataset ( http://arxiv.org/abs/2206.04374v1 )

ライセンス: CC BY 4.0
Mehmet Alican Noyan(参考訳) 本研究は,深層学習に基づく植物病検出モデルのトレーニングに一般的なPlantVillageデータセットの使用について報告する。 PlantVillageの画像背景からたった8ピクセルの機械学習モデルを訓練した。 このモデルは保留テストセットで49.0%の精度を達成し、ランダムな推測精度は2.6%を大きく上回った。 この結果から,PlantVillageデータセットにはラベルと相関するノイズが含まれており,ディープラーニングモデルでは,このバイアスを容易に活用して予測を行うことができることがわかった。 この問題を軽減するための可能なアプローチについて論じる。

We report our investigation on the use of the popular PlantVillage dataset for training deep learning based plant disease detection models. We trained a machine learning model using only 8 pixels from the PlantVillage image backgrounds. The model achieved 49.0% accuracy on the held-out test set, well above the random guessing accuracy of 2.6%. This result indicates that the PlantVillage dataset contains noise correlated with the labels and deep learning models can easily exploit this bias to make predictions. Possible approaches to alleviate this problem are discussed.
翻訳日:2022-06-10 23:24:50 公開日:2022-06-09
# (参考訳) STIP:高解像度映像予測のための時空間情報保存・知覚モデル

STIP: A SpatioTemporal Information-Preserving and Perception-Augmented Model for High-Resolution Video Prediction ( http://arxiv.org/abs/2206.04381v1 )

ライセンス: CC BY 4.0
Zheng Chang, Xinfeng Zhang, Shanshe Wang, Siwei Ma, and Wen Gao(参考訳) リカレントニューラルネットワーク(RNN)ベースのビデオ予測手法によって大きな成果が得られたが、情報損失問題や知覚不感な平均二乗誤差(MSE)ベースの損失関数のため、高解像度のデータセットのパフォーマンスは相変わらず十分ではない。 本稿では、上記の2つの問題を解決するために、時空間情報保存・知覚拡張モデル(STIP)を提案する。 情報損失問題を解決するため,提案モデルでは,特徴抽出時の映像の時空間情報と状態遷移時の時空間情報をそれぞれ保存することを目的としている。 第一に、X-Net構造に基づいて、多点時空間オートエンコーダ(MGST-AE)を設計する。 提案したMGST-AEは、デコーダが時間領域と空間領域の両方のエンコーダから多粒度情報をリコールするのに役立つ。 このように、高解像度ビデオの特徴抽出中に、より多くの時空間情報を保存することができる。 第二に、時空間Gated Recurrent Unit (STGRU) は標準Gated Recurrent Unit (GRU) 構造に基づいて設計されており、状態遷移時に時空間情報を効率的に保存することができる。 提案したSTGRUは、LSTM(Long Short-Term)ベースの予測メモリと比較して、計算負荷がはるかに少ないため、より良好な性能が得られる。 さらに、従来のmse損失関数を改善するために、学習された知覚損失(lp-loss)は、客観的品質と知覚品質との良好なトレードオフを得るのに役立つジェネレーティブ・逆ネットワーク(gans)に基づいてさらに設計されている。 実験の結果,提案したSTIPは,様々な最先端手法と比較して,より良好な映像品質で映像を予測できることがわかった。 ソースコードは \url{https://github.com/zhengchang467/stiphr} で入手できる。

Although significant achievements have been achieved by recurrent neural network (RNN) based video prediction methods, their performance in datasets with high resolutions is still far from satisfactory because of the information loss problem and the perception-insensitive mean square error (MSE) based loss functions. In this paper, we propose a Spatiotemporal Information-Preserving and Perception-Augmented Model (STIP) to solve the above two problems. To solve the information loss problem, the proposed model aims to preserve the spatiotemporal information for videos during the feature extraction and the state transitions, respectively. Firstly, a Multi-Grained Spatiotemporal Auto-Encoder (MGST-AE) is designed based on the X-Net structure. The proposed MGST-AE can help the decoders recall multi-grained information from the encoders in both the temporal and spatial domains. In this way, more spatiotemporal information can be preserved during the feature extraction for high-resolution videos. Secondly, a Spatiotemporal Gated Recurrent Unit (STGRU) is designed based on the standard Gated Recurrent Unit (GRU) structure, which can efficiently preserve spatiotemporal information during the state transitions. The proposed STGRU can achieve more satisfactory performance with a much lower computation load compared with the popular Long Short-Term (LSTM) based predictive memories. Furthermore, to improve the traditional MSE loss functions, a Learned Perceptual Loss (LP-loss) is further designed based on the Generative Adversarial Networks (GANs), which can help obtain a satisfactory trade-off between the objective quality and the perceptual quality. Experimental results show that the proposed STIP can predict videos with more satisfactory visual quality compared with a variety of state-of-the-art methods. Source code has been available at \url{https://github.com/ZhengChang467/STIPHR}.
翻訳日:2022-06-10 23:15:54 公開日:2022-06-09
# (参考訳) HideNseek:サーバサイドのPruningとSign Supermaskによるフェデレーション付きロッキーチケット

HideNseek: Federated Lottery Ticket via Server-side Pruning and Sign Supermask ( http://arxiv.org/abs/2206.04385v1 )

ライセンス: CC BY 4.0
Anish K. Vallapuram, Pengyuan Zhou, Young D. Kwon, Lik Hang Lee, Hengwei Xu and Pan Hui(参考訳) フェデレーション学習は、ローカルモデル更新のみを中央サーバに送信することで、分散学習におけるプライバシリスクを軽減する。 しかし、クライアントのデータセットの統計的不均一性やクライアントデバイスのリソース制約など、トレーニングのパフォーマンスやユーザエクスペリエンスに重大な影響を及ぼす課題に直面している。 以前の研究は、パーソナライズと量子化とプルーニングを含むモデル圧縮スキームを組み合わせることで、これらの課題に対処してきた。 しかし、プルーニングはデータに依存しており、かなりの計算コストを必要とするクライアント側で実行する必要がある。 さらに、プルーニングは通常バイナリスーパーマスク$\in \{0, 1\}$を訓練する。 したがって、トレーニングには高い計算コストと、モデルのパフォーマンスが損なわれていない間に収束するのに長い時間がかかる。 本研究では,初期化時に単発データ非依存プルーニングを用いて,hivesのシナプス・サリエンシに基づくサブネットワークを得るhidenseekを提案する。 各クライアントは、unprunedの重みで乗算されたサインスーパーマスク$\in \{-1, +1\}$を最適化し、最先端の圧縮レートと同じ高速収束を可能にする。 3つのデータセットによる実証的な結果は、最先端と比較して、HieNseekは推論精度を最大40.6\%改善し、通信コストとトレーニング時間を最大39.7\%と46.8\%削減したことを示している。

Federated learning alleviates the privacy risk in distributed learning by transmitting only the local model updates to the central server. However, it faces challenges including statistical heterogeneity of clients' datasets and resource constraints of client devices, which severely impact the training performance and user experience. Prior works have tackled these challenges by combining personalization with model compression schemes including quantization and pruning. However, the pruning is data-dependent and thus must be done on the client side which requires considerable computation cost. Moreover, the pruning normally trains a binary supermask $\in \{0, 1\}$ which significantly limits the model capacity yet with no computation benefit. Consequently, the training requires high computation cost and a long time to converge while the model performance does not pay off. In this work, we propose HideNseek which employs one-shot data-agnostic pruning at initialization to get a subnetwork based on weights' synaptic saliency. Each client then optimizes a sign supermask $\in \{-1, +1\}$ multiplied by the unpruned weights to allow faster convergence with the same compression rates as state-of-the-art. Empirical results from three datasets demonstrate that compared to state-of-the-art, HideNseek improves inferences accuracies by up to 40.6\% while reducing the communication cost and training time by up to 39.7\% and 46.8\% respectively.
翻訳日:2022-06-10 22:25:22 公開日:2022-06-09
# (参考訳) xplique:深層学習説明ツールボックス

Xplique: A Deep Learning Explainability Toolbox ( http://arxiv.org/abs/2206.04394v1 )

ライセンス: CC BY 4.0
Thomas Fel, Lucas Hervier, David Vigouroux, Antonin Poche, Justin Plakoo, Remi Cadene, Mathieu Chalvidal, Julien Colin, Thibaut Boissin, Louis Bethune, Agustin Picard, Claire Nicodeme, Laurent Gardes, Gregory Flandin, Thomas Serre(参考訳) 今日の最先端の機械学習モデルはほとんど見過ごせない。 説明可能性法の主要な課題は、研究者がこれらのブラックボックスを開くのを助けることであり、決定に至る戦略を明らかにすること、内部状態を特徴づけること、または基礎となるデータ表現を研究することである。 この課題に対処するため、私たちはXpliqueを開発した。Xpliqueは説明可能性のためのソフトウェアライブラリで、代表的説明可能性メソッドと関連する評価指標を含む。 TensorflowやPyTorch、Scikit-learn、Theanoなど、最も人気のある学習ライブラリとインターフェースする。 コードはMITライセンスでライセンスされており、github.com/deel-ai/xpliqueで無料で利用できる。

Today's most advanced machine-learning models are hardly scrutable. The key challenge for explainability methods is to help assisting researchers in opening up these black boxes, by revealing the strategy that led to a given decision, by characterizing their internal states or by studying the underlying data representation. To address this challenge, we have developed Xplique: a software library for explainability which includes representative explainability methods as well as associated evaluation metrics. It interfaces with one of the most popular learning libraries: Tensorflow as well as other libraries including PyTorch, scikit-learn and Theano. The code is licensed under the MIT license and is freely available at github.com/deel-ai/xplique.
翻訳日:2022-06-10 22:11:53 公開日:2022-06-09
# (参考訳) コンテクスト帯域におけるコンフォーマルオフポリティ予測

Conformal Off-Policy Prediction in Contextual Bandits ( http://arxiv.org/abs/2206.04405v1 )

ライセンス: CC BY 4.0
Muhammad Faaiz Taufiq, Jean-Francois Ton, Rob Cornish, Yee Whye Teh, Arnaud Doucet(参考訳) 文脈的盗賊のオフ・ポリティクス評価手法の多くは、漸近的保証のみを提供する方法を通じて推定される政策の期待結果に焦点を当てている。 しかし、多くのアプリケーションでは、結果の変動を捉えないため、期待はパフォーマンスの最良の尺度ではないかもしれない。 さらに、特に安全クリティカルな設定では、漸近的正確性よりも強い保証が必要である。 これらの制約に対処するために,コンフォメーション予測のコンテキストバンディットへの応用について考察する。 行動ポリシーに基づいて収集されたデータから,新たな目標政策の下で結果に対する信頼な予測間隔を出力できる「行動予測」 (COPP) を提案する。 標準のコンテキストバンディット設定以上の仮定をすることなく,理論的な有限サンプル保証を提供するとともに,既存の合成および実世界のデータに対する手法と比較して,coppの有用性を実証的に実証する。

Most off-policy evaluation methods for contextual bandits have focused on the expected outcome of a policy, which is estimated via methods that at best provide only asymptotic guarantees. However, in many applications, the expectation may not be the best measure of performance as it does not capture the variability of the outcome. In addition, particularly in safety-critical settings, stronger guarantees than asymptotic correctness may be required. To address these limitations, we consider a novel application of conformal prediction to contextual bandits. Given data collected under a behavioral policy, we propose \emph{conformal off-policy prediction} (COPP), which can output reliable predictive intervals for the outcome under a new target policy. We provide theoretical finite-sample guarantees without making any additional assumptions beyond the standard contextual bandit setup, and empirically demonstrate the utility of COPP compared with existing methods on synthetic and real-world data.
翻訳日:2022-06-10 22:04:29 公開日:2022-06-09
# (参考訳) 指向性ウェーブレットパケットを用いたWNNM画像復調方式のクロスブースティング

Cross-boosting of WNNM Image Denoising method by Directional Wavelet Packets ( http://arxiv.org/abs/2206.04431v1 )

ライセンス: CC BY 4.0
Amir Averbuch, Pekka Neittaanm\"aki, Valery Zheludev, Moshe Salhov and Jonathan Hauser(参考訳) 本稿では,指向性準解析ウェーブレットパケット(qwps)と最先端重み付き核ノルム最小化アルゴリズム(wnnm)を組み合わせた画像デノイジング方式を提案する。 劣化した画像のマルチスケールqWP変換と、バイバリエート収縮法を用いて局所化ソフトしきい値の変換係数への適応的局所化の適用と、しきい値係数から複数の分解レベルから画像の復元からなるqWPベースのデノナイジング法(qWPdn)である。 組み合わせた手法は、qWPdnとWNNMのアルゴリズムの繰り返しからなり、各反復で1つのアルゴリズムからの出力が入力をもう1つのアルゴリズムに増強する。 提案手法は,wnnmアルゴリズムに固有な実画像における非局所的自己相似性を利用して,破損画像においてもエッジと微細なテクスチャパターンをキャプチャするqwpdn機能を組み合わせる。 提案手法と、WNNMを含む6つの先進デノベーションアルゴリズムを比較した複数の実験により、組み合わせたクロスブースティングアルゴリズムは、定量的測度と視覚的知覚品質の両方において、その大部分を上回っていることを確認した。

The paper presents an image denoising scheme by combining a method that is based on directional quasi-analytic wavelet packets (qWPs) with the state-of-the-art Weighted Nuclear Norm Minimization (WNNM) denoising algorithm. The qWP-based denoising method (qWPdn) consists of multiscale qWP transform of the degraded image, application of adaptive localized soft thresholding to the transform coefficients using the Bivariate Shrinkage methodology, and restoration of the image from the thresholded coefficients from several decomposition levels. The combined method consists of several iterations of qWPdn and WNNM algorithms in a way that at each iteration the output from one algorithm boosts the input to the other. The proposed methodology couples the qWPdn capabilities to capture edges and fine texture patterns even in the severely corrupted images with utilizing the non-local self-similarity in real images that is inherent in the WNNM algorithm. Multiple experiments, which compared the proposed methodology with six advanced denoising algorithms, including WNNM, confirmed that the combined cross-boosting algorithm outperforms most of them in terms of both quantitative measure and visual perception quality.
翻訳日:2022-06-10 22:03:26 公開日:2022-06-09
# (参考訳) 連続時間線形二次系における確実性同値政策の後悔解析

Regret Analysis of Certainty Equivalence Policies in Continuous-Time Linear-Quadratic Systems ( http://arxiv.org/abs/2206.04434v1 )

ライセンス: CC BY 4.0
Mohamad Kazem Shirani Faradonbeh(参考訳) 本研究は,確率線形-四次系の正準モデルを制御するためのユビキタス強化学習政策の理論的性能を保証する。 確率的微分方程式に従って発展する線形力学系における二次コストを最小化するための探索-展開ジレンマにランダム化確実性等価性が対応していることを示す。 より正確には、時間的後悔境界の平方根を確立し、ランダム化された確実性等価ポリシーが単一状態軌道から最適な制御動作を高速に学習することを示す。 さらに,パラメータ数による後悔の線形スケーリングを示す。 提案する分析は,新しい,有用な技術アプローチを導入し,連続時間強化学習の基本的な課題を浮き彫りにする。

This work studies theoretical performance guarantees of a ubiquitous reinforcement learning policy for controlling the canonical model of stochastic linear-quadratic system. We show that randomized certainty equivalent policy addresses the exploration-exploitation dilemma for minimizing quadratic costs in linear dynamical systems that evolve according to stochastic differential equations. More precisely, we establish square-root of time regret bounds, indicating that randomized certainty equivalent policy learns optimal control actions fast from a single state trajectory. Further, linear scaling of the regret with the number of parameters is shown. The presented analysis introduces novel and useful technical approaches, and sheds light on fundamental challenges of continuous-time reinforcement learning.
翻訳日:2022-06-10 21:40:34 公開日:2022-06-09
# (参考訳) Dict-NMT:極低資源言語のためのバイリンガル辞書に基づくNMT

Dict-NMT: Bilingual Dictionary based NMT for Extremely Low Resource Languages ( http://arxiv.org/abs/2206.04439v1 )

ライセンス: CC BY 4.0
Nalin Kumar, Deepak Kumar, Subhankar Mishra(参考訳) ニューラル機械翻訳(NMT)モデルは、大きなバイリンガルデータセットに有効である。 しかし,既存の手法や手法は,モデルの性能がトレーニングデータの例の数に大きく依存していることを示している。 多くの言語にとって、このような量のコーパスを持つことは、遠い夢である。 バイリンガル辞書を用いた新言語を探索する単言語話者からインスピレーションを得て,バイリンガルコーパスが極めて低い言語に対するバイリンガル辞書の適用性を検討した。 本稿では,NMTモデルを用いたバイリンガル辞書を用いて,極めて低リソース言語に対する翻訳を改善する方法について検討する。 この作業を多言語システムに拡張し、ゼロショット特性を示す。 本稿では,辞書の品質,データセットサイズ,言語ファミリー等が翻訳品質に及ぼす影響について詳細に分析する。 複数の低リソーステスト言語で得られた結果は、ベースラインよりもバイリンガル辞書ベースの方法の明確な利点を示している。

Neural Machine Translation (NMT) models have been effective on large bilingual datasets. However, the existing methods and techniques show that the model's performance is highly dependent on the number of examples in training data. For many languages, having such an amount of corpora is a far-fetched dream. Taking inspiration from monolingual speakers exploring new languages using bilingual dictionaries, we investigate the applicability of bilingual dictionaries for languages with extremely low, or no bilingual corpus. In this paper, we explore methods using bilingual dictionaries with an NMT model to improve translations for extremely low resource languages. We extend this work to multilingual systems, exhibiting zero-shot properties. We present a detailed analysis of the effects of the quality of dictionaries, training dataset size, language family, etc., on the translation quality. Results on multiple low-resource test languages show a clear advantage of our bilingual dictionary-based method over the baselines.
翻訳日:2022-06-10 21:23:56 公開日:2022-06-09
# (参考訳) 反復ニューラルネットワークのエンドツーエンド学習による畳み込み辞書学習

Convolutional Dictionary Learning by End-To-End Training of Iterative Neural Networks ( http://arxiv.org/abs/2206.04447v1 )

ライセンス: CC BY 4.0
Andreas Kofler, Christian Wald, Tobias Schaeffter, Markus Haltmeier, Christoph Kolbitsch(参考訳) 空間性に基づく手法は、信号処理の分野で長い歴史を持ち、様々な画像再構成問題にうまく適用されてきた。 関連するスパーシフィケーション変換や辞書は通常、信号の仮定された特性を反映するモデルを用いて事前訓練されるか、あるいは再建中に適応的に学習されるモデルで、いわゆるブラインド圧縮センシングアプローチをもたらす。 しかし、そうすることで、変換は信号を生成する物理モデルと共に明示的に訓練されることはない。 さらに、関連する正規化パラメータを適切に選択することは難しい課題である。 正規化法のために最近登場した別のトレーニングパラダイムは、物理モデルを含む反復ニューラルネットワーク(inn、unrolled networks)を使用することである。 本研究では,教師付きおよび物理情報を用いたオンライン畳み込み辞書学習アルゴリズムとして利用可能な INN を構築する。 提案手法を,現実的な大規模動的MR再構成問題に適用して評価し,最近発表されたいくつかの論文と比較した。 提案手法は,従来の2つのモデルに依存しない訓練法よりも改善され,深いINNと比較して競争結果が得られることを示す。 さらに、正規化パラメータを選択する必要はなく、ディープIDNとは対照的に、各ネットワークコンポーネントは完全に解釈可能である。

Sparsity-based methods have a long history in the field of signal processing and have been successfully applied to various image reconstruction problems. The involved sparsifying transformations or dictionaries are typically either pre-trained using a model which reflects the assumed properties of the signals or adaptively learned during the reconstruction - yielding so-called blind Compressed Sensing approaches. However, by doing so, the transforms are never explicitly trained in conjunction with the physical model which generates the signals. In addition, properly choosing the involved regularization parameters remains a challenging task. Another recently emerged training-paradigm for regularization methods is to use iterative neural networks (INNs) - also known as unrolled networks - which contain the physical model. In this work, we construct an INN which can be used as a supervised and physics-informed online convolutional dictionary learning algorithm. We evaluated the proposed approach by applying it to a realistic large-scale dynamic MR reconstruction problem and compared it to several other recently published works. We show that the proposed INN improves over two conventional model-agnostic training methods and yields competitive results also compared to a deep INN. Further, it does not require to choose the regularization parameters and - in contrast to deep INNs - each network component is entirely interpretable.
翻訳日:2022-06-10 21:11:39 公開日:2022-06-09
# (参考訳) セグメンテーションによる乳牛のラメネス検出 : rgbおよび深度ビデオによる検討

Segmentation Enhanced Lameness Detection in Dairy Cows from RGB and Depth Video ( http://arxiv.org/abs/2206.04449v1 )

ライセンス: CC BY 4.0
Eric Arazo, Robin Aly, Kevin McGuinness(参考訳) 牛の乳化は乳牛のライフサイクルや生活の質に影響を与える重篤な状態であり、経済的にかなりの損失をもたらす。 早期の怠け検知は、農家が早期に病気に対処し、牛の状態の悪化による悪影響を避けるのに役立つ。 乳室から出ている廊下を通り抜ける牛の短いクリップのデータセットを収集し,牛の怠慢度を注釈した。 本稿では,得られたデータセットを探索し,データ収集プロセスの詳細な説明を提供する。 さらに,事前学習したニューラルネットを用いて,映像から識別的特徴を抽出し,その状態を示す各牛にバイナリスコアを割り当てるラメネス検出法を提案した。 我々は,モデルに牛の構造を集中させ,訓練したセグメンテーションモデルで予測した2値セグメンテーションマスクをrgbビデオに置換することにより,このアプローチを改善する。 本研究の目的は、農場における牛の乳腺検出のためのコンピュータビジョンモデルの適用性に関する研究と洞察を提供することである。

Cow lameness is a severe condition that affects the life cycle and life quality of dairy cows and results in considerable economic losses. Early lameness detection helps farmers address illnesses early and avoid negative effects caused by the degeneration of cows' condition. We collected a dataset of short clips of cows passing through a hallway exiting a milking station and annotated the degree of lameness of the cows. This paper explores the resulting dataset and provides a detailed description of the data collection process. Additionally, we proposed a lameness detection method that leverages pre-trained neural networks to extract discriminative features from videos and assign a binary score to each cow indicating its condition: "healthy" or "lame." We improve this approach by forcing the model to focus on the structure of the cow, which we achieve by substituting the RGB videos with binary segmentation masks predicted with a trained segmentation model. This work aims to encourage research and provide insights into the applicability of computer vision models for cow lameness detection on farms.
翻訳日:2022-06-10 21:01:08 公開日:2022-06-09
# (参考訳) 線形帯域に対する$\varepsilon$-Best-Answer Identificationにおける回答の選択

Choosing Answers in $\varepsilon$-Best-Answer Identification for Linear Bandits ( http://arxiv.org/abs/2206.04456v1 )

ライセンス: CC BY-SA 4.0
Marc Jourdan and R\'emy Degenne(参考訳) 純粋探索問題では、情報を逐次収集して確率環境に関する質問に答える。 線形包帯のベストアーム識別は近年広く研究されているが、最高の腕に対して$\varepsilon$-closeの腕を識別する研究はほとんどない(正確にはベストではない)。 複数の正解を持つこの問題において、同定アルゴリズムは、それらの解のうちの1つの候補に注目して、正解を検証すべきである。 平均値が最も高い解を選べば,サンプルの複雑さの観点からアルゴリズムの漸近的最適性が得られないことを示す。 代わりに、 \textit{furthest answer} を識別する必要がある。 提案手法を用いて, 提案手法を用いて, 最良アーム識別アルゴリズムを適用し, 伝達型線形確率バンディットにおける$\varepsilon$-best-answer識別に取り組む。 最後に,この設定に対して漸近的に最適なアルゴリズムを提案する。

In pure-exploration problems, information is gathered sequentially to answer a question on the stochastic environment. While best-arm identification for linear bandits has been extensively studied in recent years, few works have been dedicated to identifying one arm that is $\varepsilon$-close to the best one (and not exactly the best one). In this problem with several correct answers, an identification algorithm should focus on one candidate among those answers and verify that it is correct. We demonstrate that picking the answer with highest mean does not allow an algorithm to reach asymptotic optimality in terms of expected sample complexity. Instead, a \textit{furthest answer} should be identified. Using that insight to choose the candidate answer carefully, we develop a simple procedure to adapt best-arm identification algorithms to tackle $\varepsilon$-best-answer identification in transductive linear stochastic bandits. Finally, we propose an asymptotically optimal algorithm for this setting, which is shown to achieve competitive empirical performance against existing modified best-arm identification algorithms.
翻訳日:2022-06-10 20:53:22 公開日:2022-06-09
# (参考訳) BSM損失:細粒度分類の不確かさのモデル化における優れた方法

BSM loss: A superior way in modeling aleatory uncertainty of fine_grained classification ( http://arxiv.org/abs/2206.04479v1 )

ライセンス: CC BY 4.0
Shuang Ge, Kehong Yuan, Maokun Han, Desheng Sun, Huabin Zhang, Qiongyu Ye(参考訳) 人工知能(AI)支援法は, 疾患診断などの危険分野において注目されている。 疾患の分類とは違って、医療画像の良性や悪性の分類はきめ細かな作業である。 しかし、ほとんどの研究は診断精度の向上にのみ焦点を合わせ、その臨床応用を制限するモデル信頼性の評価を無視している。 臨床実践では、過度にパラメータ化されたモデルと固有のノイズに対して、低データ体制における大きな課題が提示される。 特にデータ依存の不確かさのモデル化は、信頼性のキャリブレーションにもっと寄与することがわかった。 テスト時間拡張(tta)と比較して,予測の不確かさを校正し,追加の推論時間なしでデータ分布変換をキャプチャできるミックスアップデータ拡張戦略を備えた,bootstrapping loss(bs loss)関数の改良を提案した。 実験の結果,Mixup(BSM)モデルによるBS損失は,標準データ増大,ディープアンサンブル,MCドロップアウトと比較して,期待されるキャリブレーション誤差(ECE)を半減できることがわかった。 ドメイン内データの不確実性と類似性の相関は、bsmモデルで最大-0.4428である。 さらに、BSMモデルはドメイン外のデータのセマンティックな距離を知覚することができ、実際の臨床実践において高い可能性を示す。

Artificial intelligence(AI)-assisted method had received much attention in the risk field such as disease diagnosis. Different from the classification of disease types, it is a fine-grained task to classify the medical images as benign or malignant. However, most research only focuses on improving the diagnostic accuracy and ignores the evaluation of model reliability, which limits its clinical application. For clinical practice, calibration presents major challenges in the low-data regime extremely for over-parametrized models and inherent noises. In particular, we discovered that modeling data-dependent uncertainty is more conducive to confidence calibrations. Compared with test-time augmentation(TTA), we proposed a modified Bootstrapping loss(BS loss) function with Mixup data augmentation strategy that can better calibrate predictive uncertainty and capture data distribution transformation without additional inference time. Our experiments indicated that BS loss with Mixup(BSM) model can halve the Expected Calibration Error(ECE) compared to standard data augmentation, deep ensemble and MC dropout. The correlation between uncertainty and similarity of in-domain data is up to -0.4428 under the BSM model. Additionally, the BSM model is able to perceive the semantic distance of out-of-domain data, demonstrating high potential in real-world clinical practice.
翻訳日:2022-06-10 20:51:45 公開日:2022-06-09
# (参考訳) ミニマックス学習者の一般化を学ぶための良い基準とは何か

What is a Good Metric to Study Generalization of Minimax Learners? ( http://arxiv.org/abs/2206.04502v1 )

ライセンス: CC BY 4.0
Asuman Ozdaglar, Sarath Pattathil, Jiawei Zhang, Kaiqing Zhang(参考訳) Minimax最適化は多くの機械学習(ML)問題のバックボーンとして機能している。 最適化アルゴリズムの収束挙動はミニマックス設定で広範囲に研究されてきたが、確率的設定における一般化の保証、すなわち、経験的データで訓練された解が未発見のテストデータに対してどのように作用するかは、比較的過小評価されている。 ミニマックス学習者の一般化を研究するための良い指標は何だろうか? 本稿では,最小化の一般化を研究する普遍的計量である原始リスクが,ミニマックス問題の単純な例で失敗することを示す。 さらに、他の一般的な計量である原始双対リスクは、サドル点の非存在のため、非凸性を持つミニマックス問題の一般化挙動を特徴づけることができない。 そこで我々は,これらの問題を回避すべく,ミニマックス学習者の一般化を研究するための新しい尺度を提案する。 次に、非凸凸設定における原始ギャップの一般化境界を求める。 分析の副産物として, 強い意味での主観的リスクと主観的リスクの一般化境界を確立すること, あるいは, 最大化と期待を交換できると仮定すること, いずれの仮定も文献で必要であった。 最後に,確率的ミニマックス最適化における勾配降下法(gda)と勾配降下法(gdmax)の2つの一般的なアルゴリズムの一般化挙動を比較するために,この新しい測定値を利用する。

Minimax optimization has served as the backbone of many machine learning (ML) problems. Although the convergence behavior of optimization algorithms has been extensively studied in minimax settings, their generalization guarantees in the stochastic setting, i.e., how the solution trained on empirical data performs on the unseen testing data, have been relatively underexplored. A fundamental question remains elusive: What is a good metric to study generalization of minimax learners? In this paper, we aim to answer this question by first showing that primal risk, a universal metric to study generalization in minimization, fails in simple examples of minimax problems. Furthermore, another popular metric, the primal-dual risk, also fails to characterize the generalization behavior for minimax problems with nonconvexity, due to non-existence of saddle points. We thus propose a new metric to study generalization of minimax learners: the primal gap, to circumvent these issues. Next, we derive generalization bounds for the primal gap in nonconvex-concave settings. As byproducts of our analysis, we also solve two open questions: establishing generalization bounds for primal risk and primal-dual risk in the strong sense, i.e., without strong concavity or assuming that the maximization and expectation can be interchanged, while either of these assumptions was needed in the literature. Finally, we leverage this new metric to compare the generalization behavior of two popular algorithms -- gradient descent-ascent (GDA) and gradient descent-max (GDMax) in stochastic minimax optimization.
翻訳日:2022-06-10 20:41:19 公開日:2022-06-09
# (参考訳) cycle text2face: cycle text-to-face gan via transformers

cycle text2face: cycle text-to-face gan via transformers ( http://arxiv.org/abs/2206.04503v1 )

ライセンス: CC BY 4.0
Faezeh Gholamrezaie, Mohammad Manthouri(参考訳) text-to-faceはtext-to-imageのサブセットであり、より詳細な生産のためにより複雑なアーキテクチャを必要とする。 本稿では,Cycle Text2Faceと呼ばれるエンコーダデコーダモデルを提案する。 Cycle Text2Faceはエンコーダ部分の新しいイニシアチブで、文変換器とGANを使ってテキストで記述された画像を生成する。 このサイクルは、モデルのデコーダ部で顔のテキストを再生することで完了する。 CelebAデータセットを使用してモデルを評価することで、従来のGANベースのモデルよりも優れた結果が得られる。 生成顔の質を測定する際, 観客の満足度に加えて, FIDスコア3.458を得る。 このモデルは高速処理で、短時間で高品質な顔画像を提供する。

Text-to-face is a subset of text-to-image that require more complex architecture due to their more detailed production. In this paper, we present an encoder-decoder model called Cycle Text2Face. Cycle Text2Face is a new initiative in the encoder part, it uses a sentence transformer and GAN to generate the image described by the text. The Cycle is completed by reproducing the text of the face in the decoder part of the model. Evaluating the model using the CelebA dataset, leads to better results than previous GAN-based models. In measuring the quality of the generate face, in addition to satisfying the human audience, we obtain an FID score of 3.458. This model, with high-speed processing, provides quality face images in the short time.
翻訳日:2022-06-10 20:38:33 公開日:2022-06-09
# (参考訳) FPGAによる畳み込み操作高速化

An FPGA-based Solution for Convolution Operation Acceleration ( http://arxiv.org/abs/2206.04520v1 )

ライセンス: CC BY 4.0
Trung Dinh Pham, Bao Gia Bach, Lam Trinh Luu, Minh Dinh Nguyen, Hai Duc Pham, Khoa Bui Anh, Xuan Quang Nguyen, Cuong Pham Quoc(参考訳) ハードウェアベースの加速度は、多くの計算集約的な数学演算を促進するための広範囲な試みである。 本稿では,多くの畳み込みニューラルネットワークモデルに現れる複雑で高価な計算ステップである畳み込み演算を高速化するFPGAアーキテクチャを提案する。 我々は、エッジAIソリューションとして製品をローンチすることを目的として、標準の畳み込み操作に設計をターゲットとします。 プロジェクトの目的は、一度に畳み込み層を処理できるFPGA IPコアを作成することである。 システム開発者は、アーキテクチャの主要な設計言語としてVerilog HDLを使用することで、様々なFPGAファミリでIPコアをデプロイすることができる。 実験結果から, 単純なエッジコンピューティングFPGA基板上に合成した単一計算コアは, 0.224 GOPSを提供できることがわかった。 ボードをフル活用すると、4.48GOPSが実現できる。

Hardware-based acceleration is an extensive attempt to facilitate many computationally-intensive mathematics operations. This paper proposes an FPGA-based architecture to accelerate the convolution operation - a complex and expensive computing step that appears in many Convolutional Neural Network models. We target the design to the standard convolution operation, intending to launch the product as an edge-AI solution. The project's purpose is to produce an FPGA IP core that can process a convolutional layer at a time. System developers can deploy the IP core with various FPGA families by using Verilog HDL as the primary design language for the architecture. The experimental results show that our single computing core synthesized on a simple edge computing FPGA board can offer 0.224 GOPS. When the board is fully utilized, 4.48 GOPS can be achieved.
翻訳日:2022-06-10 20:28:45 公開日:2022-06-09
# (参考訳) 多目的環境における教育デモからの実践的学習

Pragmatically Learning from Pedagogical Demonstrations in Multi-Goal Environments ( http://arxiv.org/abs/2206.04546v1 )

ライセンス: CC BY 4.0
Hugo Caselles-Dupr\'e, Olivier Sigaud, Mohamed Chetouani(参考訳) 実証法からの学習は通常、トレーニングを加速するために最適なデモに近いものを活用する。 対照的に、タスクを提示するとき、人間の教師は最適なデモンストレーションから逸脱し、その目標を最も曖昧にするデモを提供することで、彼らの行動を教育的に修正する。 同様に、人間の学習者は教師の意図を実際的に推論し、2つのエージェント間のコミュニケーションを促進するのに優れている。 これらのメカニズムは、目標を推測することがより困難である少数のデモ体制において重要である。 本稿では,実演による目標推論のベイズモデルを用いて,教育学と実用主義のメカニズムを実践する。 目標条件付き強化学習で学習する2つの人工エージェントを用いたマルチゴール教師-学習者構成におけるこのモデルの利点を強調した。 教育的教師と実践的学習者の組み合わせは, 実演による標準学習よりも学習が速く, 目標曖昧性が低下することを示した。

Learning from demonstration methods usually leverage close to optimal demonstrations to accelerate training. By contrast, when demonstrating a task, human teachers deviate from optimal demonstrations and pedagogically modify their behavior by giving demonstrations that best disambiguate the goal they want to demonstrate. Analogously, human learners excel at pragmatically inferring the intent of the teacher, facilitating communication between the two agents. These mechanisms are critical in the few demonstrations regime, where inferring the goal is more difficult. In this paper, we implement pedagogy and pragmatism mechanisms by leveraging a Bayesian model of goal inference from demonstrations. We highlight the benefits of this model in multi-goal teacher-learner setups with two artificial agents that learn with goal-conditioned Reinforcement Learning. We show that combining a pedagogical teacher and a pragmatic learner results in faster learning and reduced goal ambiguity over standard learning from demonstrations, especially in the few demonstrations regime.
翻訳日:2022-06-10 20:22:09 公開日:2022-06-09
# (参考訳) 深部像と光GBMの融合による胸部X線画像中のCOVID-19の分類

Classification of COVID-19 in Chest X-ray Images Using Fusion of Deep Features and LightGBM ( http://arxiv.org/abs/2206.04548v1 )

ライセンス: CC BY-SA 4.0
Hamid Nasiri, Ghazal Kheyroddin, Morteza Dorrigiv, Mona Esmaeili, Amir Raeisi Nafchi, Mohsen Haji Ghorbani, Payman Zarkesh-Ha(参考訳) 新型コロナウイルス(COVID-19)は中国武漢で最初に発見され、世界中で急速に広まった。 新型コロナウイルス(COVID-19)のパンデミック後、多くの研究者が胸部X線画像を用いて新型コロナウイルスの診断方法を見つけ始めている。 この疾患の早期診断は治療過程に大きな影響を及ぼす可能性がある。 本稿では,本論文で報告されている他の手法よりも高速かつ高精度な新しい手法を提案する。 提案手法は、drknet169とmobilenet deep neural networksの組み合わせを用いて、患者のx線画像の特徴を抽出する。 単変量特徴選択アルゴリズムを用いて、最も重要な特徴を改良した。 次に、選択した特徴をLightGBM(Light Gradient Boosting Machine)アルゴリズムに入力として適用した。 提案手法の有効性を評価するため,患者の胸部X線画像1125枚を含むChestX-ray8データセットを用いた。 提案手法は2クラス(COVID-19, Healthy, Pneumonia)と多クラス(COVID-19, Healthy, Pneumonia)でそれぞれ98.54%, 91.11%の精度を達成した。 より詳細な分析にGrad-CAM(Grad-weighted Class Activation Mapping)を使用しました。

The COVID-19 disease was first discovered in Wuhan, China, and spread quickly worldwide. After the COVID-19 pandemic, many researchers have begun to identify a way to diagnose the COVID-19 using chest X-ray images. The early diagnosis of this disease can significantly impact the treatment process. In this article, we propose a new technique that is faster and more accurate than the other methods reported in the literature. The proposed method uses a combination of DenseNet169 and MobileNet Deep Neural Networks to extract the features of the patient's X-ray images. Using the univariate feature selection algorithm, we refined the features for the most important ones. Then we applied the selected features as input to the LightGBM (Light Gradient Boosting Machine) algorithm for classification. To assess the effectiveness of the proposed method, the ChestX-ray8 dataset, which includes 1125 X-ray images of the patient's chest, was used. The proposed method achieved 98.54% and 91.11% accuracies in the two-class (COVID-19, Healthy) and multi-class (COVID-19, Healthy, Pneumonia) classification problems, respectively. It is worth mentioning that we have used Gradient-weighted Class Activation Mapping (Grad-CAM) for further analysis.
翻訳日:2022-06-10 20:03:06 公開日:2022-06-09
# (参考訳) モデルベース強化学習における教師なしダイナミクス一般化のための関係的介入アプローチ

A Relational Intervention Approach for Unsupervised Dynamics Generalization in Model-Based Reinforcement Learning ( http://arxiv.org/abs/2206.04551v1 )

ライセンス: CC BY 4.0
Jixian Guo, Mingming Gong, Dacheng Tao(参考訳) モデルベース強化学習法(MBRL)の非可視遷移力学環境への一般化は重要な課題である。 既存の方法は、過去の遷移セグメントから環境特定情報$Z$を抽出し、ダイナミクス予測モデルを異なるダイナミクスに一般化できるようにする。 しかし、環境がラベル付けされていないため、抽出された情報には必然的に遷移セグメントのダイナミクスとは無関係な冗長な情報が含まれており、従って$z$:$z$という重要な特性を同じ環境で同じ環境でも同じで、異なる環境では似ていなければならない。 その結果、学習されたダイナミクス予測関数は、一般化能力を損なう真の関数から逸脱する。 そこで本研究では,同一環境に属する2つの推定値$\hat{z}_i, \hat{z}_j$の確率を推定するための介入予測モジュールを提案する。 さらに、単一の環境における$Z$の不変性を利用することで、同じ環境から$\hat{Z}}$間の類似性を強制する関係ヘッドが提案される。 その結果、冗長な情報は$\hat{z}$に減らされる。 本手法により推定される$\hat{{{z}}$ は従来の手法よりも冗長な情報が少なく,そのような$\hat{{z}}$ はダイナミクス予測誤差を大幅に低減し,ゼロショットニュー環境におけるモデルベースrl法の性能を無意識ダイナミクスで向上させる。 このメソッドのコードは \url{https://github.com/cr-gjx/ria} で入手できる。

The generalization of model-based reinforcement learning (MBRL) methods to environments with unseen transition dynamics is an important yet challenging problem. Existing methods try to extract environment-specified information $Z$ from past transition segments to make the dynamics prediction model generalizable to different dynamics. However, because environments are not labelled, the extracted information inevitably contains redundant information unrelated to the dynamics in transition segments and thus fails to maintain a crucial property of $Z$: $Z$ should be similar in the same environment and dissimilar in different ones. As a result, the learned dynamics prediction function will deviate from the true one, which undermines the generalization ability. To tackle this problem, we introduce an interventional prediction module to estimate the probability of two estimated $\hat{z}_i, \hat{z}_j$ belonging to the same environment. Furthermore, by utilizing the $Z$'s invariance within a single environment, a relational head is proposed to enforce the similarity between $\hat{{Z}}$ from the same environment. As a result, the redundant information will be reduced in $\hat{Z}$. We empirically show that $\hat{{Z}}$ estimated by our method enjoy less redundant information than previous methods, and such $\hat{{Z}}$ can significantly reduce dynamics prediction errors and improve the performance of model-based RL methods on zero-shot new environments with unseen dynamics. The codes of this method are available at \url{https://github.com/CR-Gjx/RIA}.
翻訳日:2022-06-10 19:49:06 公開日:2022-06-09
# (参考訳) カーネルスタインのスペクトル表現と無限次元ヒルベルト空間に対するグッドネス・オブ・フィット試験への応用

A Spectral Representation of Kernel Stein Discrepancy with Application to Goodness-of-Fit Tests for Measures on Infinite Dimensional Hilbert Spaces ( http://arxiv.org/abs/2206.04552v1 )

ライセンス: CC BY 4.0
George Wynne, Miko{\l}aj Kasprzak, Andrew B. Duncan(参考訳) Kernel Stein discrepancy (KSD) は、確率測度間の不一致のカーネルベースの非パラメトリック測度である。 これは、ユーザが候補確率測度からサンプルを収集し、指定された目標確率測度と比較したい場合によく用いられる。 KSDの有用な性質は、候補測度のみからのサンプルで計算され、対象測度の正規化定数の知識がないことである。 KSDは、適合性試験、パラメトリック推論、MCMC出力評価、生成モデルなど、様々な設定で採用されている。 現在のKSD方法論の2つの主な課題 (i)有限次元ユークリッド設定を超えた適用性の欠如と (II)KSD性能に影響を及ぼす要因の明確さの欠如。 本稿では,これらを改良し,ヒルベルト値データに適用可能なksdの新しいスペクトル表現を提供し,ksdに対するカーネルとスタイン演算子の選択の影響を明らかにする。 本稿では,様々なガウス関数モデルと非ガウス関数モデルの適合性テストを行い,提案手法の有効性を実証する。

Kernel Stein discrepancy (KSD) is a widely used kernel-based non-parametric measure of discrepancy between probability measures. It is often employed in the scenario where a user has a collection of samples from a candidate probability measure and wishes to compare them against a specified target probability measure. A useful property of KSD is that it may be calculated with samples from only the candidate measure and without knowledge of the normalising constant of the target measure. KSD has been employed in a range of settings including goodness-of-fit testing, parametric inference, MCMC output assessment and generative modelling. Two main issues with current KSD methodology are (i) the lack of applicability beyond the finite dimensional Euclidean setting and (ii) a lack of clarity on what influences KSD performance. This paper provides a novel spectral representation of KSD which remedies both of these, making KSD applicable to Hilbert-valued data and revealing the impact of kernel and Stein operator choice on the KSD. We demonstrate the efficacy of the proposed methodology by performing goodness-of-fit tests for various Gaussian and non-Gaussian functional models in a number of synthetic data experiments.
翻訳日:2022-06-10 19:17:55 公開日:2022-06-09
# (参考訳) SparseFormer: 注意に基づく奥行き補完ネットワーク

SparseFormer: Attention-based Depth Completion Network ( http://arxiv.org/abs/2206.04557v1 )

ライセンス: CC BY 4.0
Frederik Warburg and Michael Ramamonjisoa and Manuel L\'opez-Antequera(参考訳) Augmented and Virtual Realityのほとんどのパイプラインは、スパース3Dランドマークのマップを作成することで、カメラのエゴモーションを推定する。 本稿では,RGBイメージをガイダンスとして,このスパース3Dマップの立体化という,深度補正の課題に対処する。 これは、SfMとSLAMパイプラインが生成する低密度、非一様、かつアウトリーチの3Dランドマークのため、依然として難しい問題である。 3dのランドマークと深い視覚特徴を融合させ、濃密な奥行きを作り出すトランスフォーマーブロックsparseformerを導入する。 SparseFormerはグローバルな受容場を持ち、低密度で一様でないランドマークを持つディープコンプリートに特に有効である。 3次元ランドマーク間の奥行き外れの問題に対処するため,我々は,スパースランドマーク間の注意を通して外れ値をフィルタする訓練可能なリファインメントモジュールを提案する。

Most pipelines for Augmented and Virtual Reality estimate the ego-motion of the camera by creating a map of sparse 3D landmarks. In this paper, we tackle the problem of depth completion, that is, densifying this sparse 3D map using RGB images as guidance. This remains a challenging problem due to the low density, non-uniform and outlier-prone 3D landmarks produced by SfM and SLAM pipelines. We introduce a transformer block, SparseFormer, that fuses 3D landmarks with deep visual features to produce dense depth. The SparseFormer has a global receptive field, making the module especially effective for depth completion with low-density and non-uniform landmarks. To address the issue of depth outliers among the 3D landmarks, we introduce a trainable refinement module that filters outliers through attention between the sparse landmarks.
翻訳日:2022-06-10 19:16:54 公開日:2022-06-09
# (参考訳) BFS-Net:Bright-Field Microscopy Z-Stacks による弱教師付きセルインスタンスセグメンテーション

BFS-Net: Weakly Supervised Cell Instance Segmentation from Bright-Field Microscopy Z-Stacks ( http://arxiv.org/abs/2206.04558v1 )

ライセンス: CC BY-SA 4.0
Shervin Dehghani, Benjamin Busam, Nassir Navab, Ali Nasseri(参考訳) 広範に利用可能であるにもかかわらず、Bright-Field Microscopy (BFM) からのボリューム情報取得は、取得プロセスの投影性のため本質的に困難である。 BFM Z-Stack画像からの3次元セルインスタンスの予測について検討する。 本稿では,細胞中心体アノテーションのみを必要とするセルの容積インスタンスセグメンテーションのための2段階弱制御手法を提案する。 これにより、Zスタック誘導による新規な改質損失で擬似ラベルを精製する。 評価の結果,本手法はBFM Z-Stackデータだけでなく,他の3次元セル画像モダリティにも適用可能であることがわかった。 完全な教師付きメソッドと比較した結果,データ収集とラベル付けの大幅な向上は,パフォーマンスの差を小さくすることが示唆された。

Despite its broad availability, volumetric information acquisition from Bright-Field Microscopy (BFM) is inherently difficult due to the projective nature of the acquisition process. We investigate the prediction of 3D cell instances from a set of BFM Z-Stack images. We propose a novel two-stage weakly supervised method for volumetric instance segmentation of cells which only requires approximate cell centroids annotation. Created pseudo-labels are thereby refined with a novel refinement loss with Z-stack guidance. The evaluations show that our approach can generalize not only to BFM Z-Stack data, but to other 3D cell imaging modalities. A comparison of our pipeline against fully supervised methods indicates that the significant gain in reduced data collection and labelling results in minor performance difference.
翻訳日:2022-06-10 19:07:54 公開日:2022-06-09
# (参考訳) 複雑な学習からの簡単な教訓:ニューラルネットワークモデルが宇宙構造形成について学ぶ

Simple lessons from complex learning: what a neural network model learns about cosmic structure formation ( http://arxiv.org/abs/2206.04573v1 )

ライセンス: CC BY 4.0
Drew Jamieson, Yin Li, Siyu He, Francisco Villaescusa-Navarro, Shirley Ho, Renan Alves de Oliveira, David N. Spergel(参考訳) 我々は,宇宙論的n体シミュレーションの全位相空間進化を予測するためにニューラルネットワークモデルを訓練する。 その成功は、ニューラルネットワークモデルが、シミュレーションの初期条件と後の非線形状態における結果に関連するグリーン関数展開の正確な近似であることを示唆している。 我々は,この近似の精度を,解の完全性や拡張性が分かっていたような,よく理解された単純なケースで評価することで検証する。 これらのシナリオには球面構成、孤立した平面波、相互作用する2つの平面波が含まれる: 訓練に使用されるガウス確率場とは大きく異なる初期条件。 我々のモデルは、これらのよく理解されたシナリオによく当てはまり、ネットワークが一般的な物理原理を推論し、複雑なランダムなガウス学習データから非線形モード結合を学習したことを示す。 これらのテストはまた、モデルの強みと弱みを見つけ、モデル改善のための戦略を特定するのに有用な診断を提供する。 また, 逆モードのみを含む初期条件, 位相だけでなく, トレーニングセットで使用される長手成長モードとも相違するモード群についても実験を行った。 ネットワークがトレーニングセットに直交するこれらの初期条件に遭遇すると、モデルは完全に失敗する。 これらの簡単な構成に加えて、N体シミュレーションの標準的な初期条件による密度、変位、運動量パワースペクトルに対するモデルの予測を評価する。 我々はこれらの要約統計をN-bodyの結果とCOLAと呼ばれる近似的高速シミュレーション法と比較した。 本モデルでは, 非線形スケールでの精度を, COLAに対する顕著な改善を示す$k\sim 1\ \mathrm{Mpc}^{-1}\, h$で達成する。

We train a neural network model to predict the full phase space evolution of cosmological N-body simulations. Its success implies that the neural network model is accurately approximating the Green's function expansion that relates the initial conditions of the simulations to its outcome at later times in the deeply nonlinear regime. We test the accuracy of this approximation by assessing its performance on well understood simple cases that have either known exact solutions or well understood expansions. These scenarios include spherical configurations, isolated plane waves, and two interacting plane waves: initial conditions that are very different from the Gaussian random fields used for training. We find our model generalizes well to these well understood scenarios, demonstrating that the networks have inferred general physical principles and learned the nonlinear mode couplings from the complex, random Gaussian training data. These tests also provide a useful diagnostic for finding the model's strengths and weaknesses, and identifying strategies for model improvement. We also test the model on initial conditions that contain only transverse modes, a family of modes that differ not only in their phases but also in their evolution from the longitudinal growing modes used in the training set. When the network encounters these initial conditions that are orthogonal to the training set, the model fails completely. In addition to these simple configurations, we evaluate the model's predictions for the density, displacement, and momentum power spectra with standard initial conditions for N-body simulations. We compare these summary statistics against N-body results and an approximate, fast simulation method called COLA. Our model achieves percent level accuracy at nonlinear scales of $k\sim 1\ \mathrm{Mpc}^{-1}\, h$, representing a significant improvement over COLA.
翻訳日:2022-06-10 18:58:17 公開日:2022-06-09
# (参考訳) 変圧器を用いたウルドゥ手書き文字文字読取装置

Transformer based Urdu Handwritten Text Optical Character Reader ( http://arxiv.org/abs/2206.04575v1 )

ライセンス: CC0 1.0
Mohammad Daniyal Shaiq, Musa Dildar Ahmed Cheema, Ali Kamal(参考訳) 手書きテキストの抽出は、情報のデジタル化と大規模設定において最も重要なコンポーネントの1つである。 手書き光学文字リーダー(ocr: handwriting optical character reader)はコンピュータビジョンや自然言語処理コンピューティングにおける研究課題であり、英語で多くの作業が行われているが、残念ながらurduのような低リソース言語ではほとんど研究されていない。 ウルドゥ語の文字は、そのカーソル的な性質と、その相対的な位置に基づく文字の形状の変化から非常に困難であるため、複雑な特徴を理解し、あらゆる手書きスタイルに一般化できるモデルを提案する必要がある。 本研究では,トランスフォーマティブ・ベースのurdu手書きテキスト抽出モデルを提案する。 自然言語理解タスクにおいてトランスフォーマーは非常に成功したので、複雑なウルドゥー文字の理解をさらに進める。

Extracting Handwritten text is one of the most important components of digitizing information and making it available for large scale setting. Handwriting Optical Character Reader (OCR) is a research problem in computer vision and natural language processing computing, and a lot of work has been done for English, but unfortunately, very little work has been done for low resourced languages such as Urdu. Urdu language script is very difficult because of its cursive nature and change of shape of characters based on it's relative position, therefore, a need arises to propose a model which can understand complex features and generalize it for every kind of handwriting style. In this work, we propose a transformer based Urdu Handwritten text extraction model. As transformers have been very successful in Natural Language Understanding task, we explore them further to understand complex Urdu Handwriting.
翻訳日:2022-06-10 18:35:46 公開日:2022-06-09
# (参考訳) 半ランダム雑音下でのクエリによるクラスタリング

Clustering with Queries under Semi-Random Noise ( http://arxiv.org/abs/2206.04583v1 )

ライセンス: CC BY 4.0
Alberto Del Pia, Mingchen Ma, Christos Tzamos(参考訳) Mazumdar と Saha \cite{MS17a} によるセミナー論文では、ノイズの多いクエリによるクラスタリングに関する広範な研究が紹介された。 しかし、この問題に対する大きな進展にもかかわらず、提案手法は基礎となる完全ランダムなオラクルのエラーの正確な確率を知ることに大きく依存している。 本研究では,一般半ランダムノイズを許容するロバストな学習手法を開発し,完全ランダムモデルにおける最善の手法と定性的に同じ保証を得る。 より具体的には、未知のパーティションを持つ$n$の点集合が与えられた場合、同じクラスタにあるかどうかを確認するために$u,v$の点対を問うことができるが、確率$p$の場合、答えは逆選択される可能性がある。 理論的には$O\left(\frac{nk \log n} {(1-2p)^2}\right)$クエリは十分な大きさのクラスタを学習するのに十分である。 我々の主な結果は、大クラスタを$O\left(\frac{nk \log n} {(1-2p)^2}\right) + \text{poly}\left(\log n, k, \frac{1}{1-2p} \right)$クエリで識別し、完全ランダムモデルの最もよく知られたアルゴリズムの保証と一致する。 提案手法の補足として,完全ランダムモデルに対するパラメータフリーな最初のアルゴリズムを考案し,公開質問に対して \cite{ms17a} で回答した。

The seminal paper by Mazumdar and Saha \cite{MS17a} introduced an extensive line of work on clustering with noisy queries. Yet, despite significant progress on the problem, the proposed methods depend crucially on knowing the exact probabilities of errors of the underlying fully-random oracle. In this work, we develop robust learning methods that tolerate general semi-random noise obtaining qualitatively the same guarantees as the best possible methods in the fully-random model. More specifically, given a set of $n$ points with an unknown underlying partition, we are allowed to query pairs of points $u,v$ to check if they are in the same cluster, but with probability $p$, the answer may be adversarially chosen. We show that information theoretically $O\left(\frac{nk \log n} {(1-2p)^2}\right)$ queries suffice to learn any cluster of sufficiently large size. Our main result is a computationally efficient algorithm that can identify large clusters with $O\left(\frac{nk \log n} {(1-2p)^2}\right) + \text{poly}\left(\log n, k, \frac{1}{1-2p} \right)$ queries, matching the guarantees of the best known algorithms in the fully-random model. As a corollary of our approach, we develop the first parameter-free algorithm for the fully-random model, answering an open question by \cite{MS17a}.
翻訳日:2022-06-10 18:25:57 公開日:2022-06-09
# (参考訳) ロボット3dシーン理解のための大規模言語モデルからのゼロショット常識の抽出

Extracting Zero-shot Common Sense from Large Language Models for Robot 3D Scene Understanding ( http://arxiv.org/abs/2206.04585v1 )

ライセンス: CC BY 4.0
William Chen, Siyi Hu, Rajat Talak, Luca Carlone(参考訳) セマンティック3dシーン理解はロボット工学において重要な問題である。 ローカライズとマッピングを同時に行うアルゴリズムは大きな進歩を遂げているが、ロボットは一般家庭の物体や、平均的な人間の位置に関する常識知識を持つには程遠い。 本研究では,大きな言語モデルに埋め込まれた共通感覚を,その内に含まれるオブジェクトをラベル付けするための新しい手法を提案する。 このアルゴリズムには付加的な利点がある (i)タスク特化事前訓練(ゼロショット体制で完全に運用)を必要とせず (II) ロボットシーン理解アルゴリズムにおいて非常に望ましい特徴である、前例のないものを含む任意の部屋やオブジェクトラベルへの一般化。 提案アルゴリズムは,現代空間認識システムによって生成された3次元シーングラフに基づいており,ロボット工学におけるより汎用的でスケーラブルな3次元シーン理解の道を開くことを願っている。

Semantic 3D scene understanding is a problem of critical importance in robotics. While significant advances have been made in simultaneous localization and mapping algorithms, robots are still far from having the common sense knowledge about household objects and their locations of an average human. We introduce a novel method for leveraging common sense embedded within large language models for labelling rooms given the objects contained within. This algorithm has the added benefits of (i) requiring no task-specific pre-training (operating entirely in the zero-shot regime) and (ii) generalizing to arbitrary room and object labels, including previously-unseen ones -- both of which are highly desirable traits in robotic scene understanding algorithms. The proposed algorithm operates on 3D scene graphs produced by modern spatial perception systems, and we hope it will pave the way to more generalizable and scalable high-level 3D scene understanding for robotics.
翻訳日:2022-06-10 18:24:46 公開日:2022-06-09
# (参考訳) 宇宙論的n体シミュレーションのためのフィールドレベルニューラルネットワークエミュレータ

Field Level Neural Network Emulator for Cosmological N-body Simulations ( http://arxiv.org/abs/2206.04594v1 )

ライセンス: CC BY 4.0
Drew Jamieson, Yin Li, Renan Alves de Oliveira, Francisco Villaescusa-Navarro, Shirley Ho, David N. Spergel(参考訳) 非線形状態において高精度な宇宙構造形成のためのフィールドレベルエミュレータを構築する。 このエミュレータは,n体シミュレーション粒子の非線形変位と速度を線形入力に基づいて出力するように訓練された2つの畳み込みニューラルネットワークからなる。 コスモロジー依存はニューラルネットワークの各層におけるスタイルパラメーターの形式で符号化され、エミュレータは様々な背景物質密度に対して異なる$\Lambda$CDM宇宙論の間で構造形成の結果を効果的に補間することができる。 ニューラルネットワークアーキテクチャは、モデルを構成によって微分可能とし、高速フィールドレベルの推論のための強力なツールを提供する。 提案手法の精度は,赤方偏移空間歪みのある密度パワースペクトル,変位パワースペクトル,運動量パワースペクトル,密度双スペクトル,ハロ量,赤方偏移空間歪みのないハロプロファイルなど,いくつかの要約統計を考慮し検証した。 我々は,エミュレータからのこれらの統計データを,宇宙依存のない完全なN-body結果,COLA法,およびフィデューシャルニューラルネットワークと比較した。 我々のエミュレータは、COLAとフィデューシャルニューラルネットワークの双方に対する大幅な改善を示す、$k \sim 1\ \mathrm{Mpc}^{-1}\, h$まで正確な結果を与える。 また,本エミュレータは,追加のスタイルパラメータや再トレーニングを必要とせず,原始的非ガウス性を含む初期条件によく一般化できることを実証した。

We build a field level emulator for cosmic structure formation that is accurate in the nonlinear regime. Our emulator consists of two convolutional neural networks trained to output the nonlinear displacements and velocities of N-body simulation particles based on their linear inputs. Cosmology dependence is encoded in the form of style parameters at each layer of the neural network, enabling the emulator to effectively interpolate the outcomes of structure formation between different flat $\Lambda$CDM cosmologies over a wide range of background matter densities. The neural network architecture makes the model differentiable by construction, providing a powerful tool for fast field level inference. We test the accuracy of our method by considering several summary statistics, including the density power spectrum with and without redshift space distortions, the displacement power spectrum, the momentum power spectrum, the density bispectrum, halo abundances, and halo profiles with and without redshift space distortions. We compare these statistics from our emulator with the full N-body results, the COLA method, and a fiducial neural network with no cosmological dependence. We find our emulator gives accurate results down to scales of $k \sim 1\ \mathrm{Mpc}^{-1}\, h$, representing a considerable improvement over both COLA and the fiducial neural network. We also demonstrate that our emulator generalizes well to initial conditions containing primordial non-Gaussianity, without the need for any additional style parameters or retraining.
翻訳日:2022-06-10 18:15:20 公開日:2022-06-09
# (参考訳) ノイズインジェクションによる過パラメータモデルの明示的正規化

Explicit Regularization in Overparametrized Models via Noise Injection ( http://arxiv.org/abs/2206.04613v1 )

ライセンス: CC0 1.0
Antonio Orvieto, Anant Raj, Hans Kersting and Francis Bach(参考訳) 勾配降下中の騒音の注入にはいくつかの望ましい特徴がある。 本稿では,スムース化および正規化特性を有するグラデーションステップを計算する前に,ノイズインジェクションについて検討する。 小さな摂動は、l1-ノルム、群 l1-ノルム、核ノルムに基づく単純な有限次元モデルに対して明示的な正則化をもたらすことを示す。 大幅の過パラメータニューラルネットワークに適用すると、過パラメータ化によって生じる分散爆発によって同じ摂動が機能しないことが示された。 しかし, 独立層を賢明に摂動させることで, 拡散項の爆発を回避でき, 明示的な正則化も得られることを示した。 実験では,小さな摂動がバニラ (stochastic) 勾配降下訓練よりも一般化性能が向上し,訓練手順に微調整を加えた。

Injecting noise within gradient descent has several desirable features. In this paper, we explore noise injection before computing a gradient step, which is known to have smoothing and regularizing properties. We show that small perturbations induce explicit regularization for simple finite-dimensional models based on the l1-norm, group l1-norms, or nuclear norms. When applied to overparametrized neural networks with large widths, we show that the same perturbations do not work due to variance explosion resulting from overparametrization. However, we also show that independent layer wise perturbations allow to avoid the exploding variance term, and explicit regularizers can then be obtained. We empirically show that the small perturbations lead to better generalization performance than vanilla (stochastic) gradient descent training, with minor adjustments to the training procedure.
翻訳日:2022-06-10 17:51:31 公開日:2022-06-09
# (参考訳) attx:感情認識におけるウェアラブル信号の融合のための注意クロスコネクション

AttX: Attentive Cross-Connections for Fusion of Wearable Signals in Emotion Recognition ( http://arxiv.org/abs/2206.04625v1 )

ライセンス: CC BY-SA 4.0
Anubhav Bhatti, Behnam Behinaein, Paul Hungler, Ali Etemad(参考訳) ウェアラブルデータからマルチモーダル表現を学習するための新しい動的かつ効果的な手法であるクロスモーダル注意接続を提案する。 当社のソリューションは、パイプラインの任意のステージ、すなわち畳み込みレイヤやブロックの後に統合して、各モダリティを処理する個々のストリーム間の中間接続を生成することができます。 さらに,この手法は2つの特性の利点がある。 まず、情報を一方向(一方から他方へ)または双方向に共有することができる。 第二に、ネットワーク勾配を複数のタッチポイントで交換できるように、同時に複数のステージに統合することができる。 wesad, swell-kw, caseの3つの公開マルチモーダルウェアラブルデータセットについて広範な実験を行い, 異なるモダリティ間の情報を効果的に制御し共有し, より良い表現を学習できることを実証した。 さらに, 単純なCNNベースのマルチモーダル解(2, 3, 4モダリティ)に統合すると, この手法は最先端の手法よりも優れ, 様々な基本的ユニモーダル法や古典的マルチモーダル法より優れていることを示す。

We propose cross-modal attentive connections, a new dynamic and effective technique for multimodal representation learning from wearable data. Our solution can be integrated into any stage of the pipeline, i.e., after any convolutional layer or block, to create intermediate connections between individual streams responsible for processing each modality. Additionally, our method benefits from two properties. First, it can share information uni-directionally (from one modality to the other) or bi-directionally. Second, it can be integrated into multiple stages at the same time to further allow network gradients to be exchanged in several touch-points. We perform extensive experiments on three public multimodal wearable datasets, WESAD, SWELL-KW, and CASE, and demonstrate that our method can effectively regulate and share information between different modalities to learn better representations. Our experiments further demonstrate that once integrated into simple CNN-based multimodal solutions (2, 3, or 4 modalities), our method can result in superior or competitive performance to state-of-the-art and outperform a variety of baseline uni-modal and classical multimodal methods.
翻訳日:2022-06-10 17:50:28 公開日:2022-06-09
# (参考訳) 単純なキューが強力なマルチオブジェクトトラッカーに導く

Simple Cues Lead to a Strong Multi-Object Tracker ( http://arxiv.org/abs/2206.04656v1 )

ライセンス: CC BY 4.0
Jenny Seidenschwarz, Guillem Braso, Ismail Elezi, Laura Leal-Taixe(参考訳) 長い間、マルチオブジェクト追跡の最も一般的なパラダイムはtracking-by-detection(tbd)で、まずオブジェクトを検出してビデオフレーム上で関連付ける。 関連して、ほとんどのモデルは動きと外観の手がかりに頼りになる。 これらの方法に引き続き依存しているが、近年のアプローチでは、例えば、データトレーニングや全体的な複雑なフレームワークの必要性が高まっている。 私たちは 1) 設計上の重要な選択が適用されれば,少量のトレーニングデータから強固な手がかりを得ることができる。 2) これらの強い手がかりから、ハンガリーの標準マッチングに基づく協会は、印象的な結果を得るのに十分である。 私たちの主な洞察は、外見に基づくトラッキングにおいて、標準的な再識別ネットワークが優れている重要なコンポーネントを特定することです。 その障害事例を広範囲に分析し,我々の外観特徴と単純な運動モデルの組み合わせが強い追跡結果をもたらすことを示した。 IDF1では5.4pp,HOTAでは4.4ppに向上し,MOT17およびMOT20データセットの最先端性能が向上した。 論文が受け入れられた後、コードとモデルをリリースします。

For a long time, the most common paradigm in Multi-Object Tracking was tracking-by-detection (TbD), where objects are first detected and then associated over video frames. For association, most models resource to motion and appearance cues. While still relying on these cues, recent approaches based on, e.g., attention have shown an ever-increasing need for training data and overall complex frameworks. We claim that 1) strong cues can be obtained from little amounts of training data if some key design choices are applied, 2) given these strong cues, standard Hungarian matching-based association is enough to obtain impressive results. Our main insight is to identify key components that allow a standard reidentification network to excel at appearance-based tracking. We extensively analyze its failure cases and show that a combination of our appearance features with a simple motion model leads to strong tracking results. Our model achieves state-of-the-art performance on MOT17 and MOT20 datasets outperforming previous state-of-the-art trackers by up to 5.4pp in IDF1 and 4.4pp in HOTA. We will release the code and models after the paper's acceptance.
翻訳日:2022-06-10 17:20:44 公開日:2022-06-09
# (参考訳) 蒸留決定木

Distillation Decision Tree ( http://arxiv.org/abs/2206.04661v1 )

ライセンス: CC BY 4.0
Xuetao Lu and J. Jack Lee(参考訳) ブラックボックス機械学習モデルは、予測精度が良いが、解釈可能性に欠けていると批判されている。 知識蒸留(KD)は、知識を透明なモデルに蒸留することでブラックボックスモデルを解釈する新しいツールである。 よく知られた解釈上の利点により、決定木は透明モデルの競合候補である。 しかし、KD過程から生成された決定木に対する理論的あるいは経験的な理解は限られている。 本稿では, この種の決定木を蒸留決定木 (ddt) と命名し, ddt の解釈の有効性を判定する木構造の安定性に関する理論的基礎を提示する。 DDTの構造がある程度の軽微な仮定で安定(収束)できることを示す。 一方, ddtの誘導を安定化するアルゴリズムを開発し, アルゴリズムの計算効率を向上させるための並列戦略を提案し, サンプリングにおける次元の呪いを克服するための限界主成分分析法を提案する。 シミュレーションおよび実データ研究は、我々の理論結果を正当化し、アルゴリズムの有効性を検証し、DDTがモデルの予測精度と解釈可能性の間に良いバランスをとれることを示す。

Black-box machine learning models are criticized as lacking interpretability, although they tend to have good prediction accuracy. Knowledge Distillation (KD) is an emerging tool to interpret the black-box model by distilling its knowledge into a transparent model. With well-known advantages in interpretation, decision tree is a competitive candidate of the transparent model. However, theoretical or empirical understanding for the decision tree generated from KD process is limited. In this paper, we name this kind of decision tree the distillation decision tree (DDT) and lay the theoretical foundations for tree structure stability which determines the validity of DDT's interpretation. We prove that the structure of DDT can achieve stable (convergence) under some mild assumptions. Meanwhile, we develop algorithms for stabilizing the induction of DDT, propose parallel strategies for improving algorithm's computational efficiency, and introduce a marginal principal component analysis method for overcoming the curse of dimensionality in sampling. Simulated and real data studies justify our theoretical results, validate the efficacy of algorithms, and demonstrate that DDT can strike a good balance between model's prediction accuracy and interpretability.
翻訳日:2022-06-10 16:29:37 公開日:2022-06-09
# 深層学習に基づくSTEM画像解析:${MoS_2}$の空孔欠陥とポリモルフィックの同定

STEM image analysis based on deep learning: identification of vacancy defects and polymorphs of ${MoS_2}$ ( http://arxiv.org/abs/2206.04272v1 )

ライセンス: Link先を確認
Kihyun Lee, Jinsub Park, Soyeon Choi, Yangjin Lee, Sol Lee, Joowon Jung, Jong-Young Lee, Farman Ullah, Zeeshan Tahir, Yong Soo Kim, Gwan-Hyoung Lee, and Kwanpyo Kim(参考訳) 走査透過電子顕微鏡(STEM)は、幅広い材料の原子分解能構造解析に必須のツールである。 従来のstem画像解析は,高スループットデータの効率的な処理を制限したハンズオンプロセスである。 ここでは2次元結晶の重要な構造特性の同定に完全畳み込みネットワーク(FCN)を適用する。 FCNの一種であるResUNetは、原子分解能STEM画像から硫黄の空孔とポリモルフィックの${MoS_2}$を識別するために利用される。 効率的なモデルは、異なるレベルのノイズ、収差、炭素汚染が存在する場合のシミュレーション画像によるトレーニングに基づいて達成される。 大規模な実験STEM画像に対するFCNモデルの精度は、注意深いハンズオン分析と同等である。 我々の研究は、STEM画像解析のためのディープラーニングモデルを訓練するためのベストプラクティスのガイドラインを提供し、大量のSTEMデータを効率的に処理するためのFCNの応用を実証する。

Scanning transmission electron microscopy (STEM) is an indispensable tool for atomic-resolution structural analysis for a wide range of materials. The conventional analysis of STEM images is an extensive hands-on process, which limits efficient handling of high-throughput data. Here we apply a fully convolutional network (FCN) for identification of important structural features of two-dimensional crystals. ResUNet, a type of FCN, is utilized in identifying sulfur vacancies and polymorph types of ${MoS_2}$ from atomic resolution STEM images. Efficient models are achieved based on training with simulated images in the presence of different levels of noise, aberrations, and carbon contamination. The accuracy of the FCN models toward extensive experimental STEM images is comparable to that of careful hands-on analysis. Our work provides a guideline on best practices to train a deep learning model for STEM image analysis and demonstrates FCN's application for efficient processing of a large volume of STEM data.
翻訳日:2022-06-10 16:26:50 公開日:2022-06-09
# これはスーパーディールです -- ノイズデータに対するリカレントネットワークのトレイン、スムーズな予測を無料に

It's a super deal -- train recurrent network on noisy data and get smooth prediction free ( http://arxiv.org/abs/2206.04215v1 )

ライセンス: Link先を確認
Boris Rubinstein(参考訳) 最近の研究では、ノイズ入力に基づく予測再帰ニューラルネットワークによる時系列予測が予測軌道を生成することが示されている。 トレーニングデータセットと入力シーケンスの両方におけるノイズ成分がネットワーク予測品質に及ぼす影響について検討する。 予測過程において観測された雑音の圧縮に関する説明を提案し,議論する。 また、生物の進化における神経科学の文脈におけるリカレントネットワークの重要性についても論じる。

Recent research demonstrate that prediction of time series by predictive recurrent neural networks based on the noisy input generates a {\it smooth} anticipated trajectory. We examine influence of the noise component in both the training data sets and the input sequences on network prediction quality. We propose and discuss an explanation of the observed noise compression in the predictive process. We also discuss importance of this property of recurrent networks in the neuroscience context for the evolution of living organisms.
翻訳日:2022-06-10 16:26:18 公開日:2022-06-09
# ユニットコミット問題の解法のためのアンサンブル深部強化学習アルゴリズムの最適化

An Optimization Method-Assisted Ensemble Deep Reinforcement Learning Algorithm to Solve Unit Commitment Problems ( http://arxiv.org/abs/2206.04249v1 )

ライセンス: Link先を確認
Jingtao Qin, Yuanqi Gao, Mikhail Bragin, Nanpeng Yu(参考訳) 単位コミットメント(UC)は、日々の電力市場における根本的な問題であり、UCの問題を効率的に解決することが重要である。 動的プログラミング、ラグランジアン緩和、混合整数二次計画法(MIQP)などの数学的最適化技術は、UC問題に一般的に採用されている。 しかし、これらの手法の計算時間は、発電機とエネルギー資源の量によって指数関数的に増加する。 近年の人工知能の進歩は、強化学習(RL)によるUC問題の解決能力を示している。 残念ながら、RLによるUC問題の解決に関する既存の研究は、UCの問題のサイズが大きくなると次元性の呪いに悩まされる。 これらの問題に対処するために,UC問題をマルコフ決定プロセス (MDP) として定式化し,多段階の深層Q-ラーニングをアンサンブルフレームワークで解く,最適化手法を用いた深層強化学習アルゴリズムを提案する。 提案手法は, 最適化問題を解くことで, 比較的高い性能と操作制約の満足度を確保する。 IEEE 118 と 300-bus システムの数値解析により,我々のアルゴリズムはベースライン RL アルゴリズムと MIQP よりも優れていた。 さらに,提案アルゴリズムは,予期せぬ運用条件下での強い一般化能力を示す。

Unit commitment (UC) is a fundamental problem in the day-ahead electricity market, and it is critical to solve UC problems efficiently. Mathematical optimization techniques like dynamic programming, Lagrangian relaxation, and mixed-integer quadratic programming (MIQP) are commonly adopted for UC problems. However, the calculation time of these methods increases at an exponential rate with the amount of generators and energy resources, which is still the main bottleneck in industry. Recent advances in artificial intelligence have demonstrated the capability of reinforcement learning (RL) to solve UC problems. Unfortunately, the existing research on solving UC problems with RL suffers from the curse of dimensionality when the size of UC problems grows. To deal with these problems, we propose an optimization method-assisted ensemble deep reinforcement learning algorithm, where UC problems are formulated as a Markov Decision Process (MDP) and solved by multi-step deep Q-learning in an ensemble framework. The proposed algorithm establishes a candidate action set by solving tailored optimization problems to ensure a relatively high performance and the satisfaction of operational constraints. Numerical studies on IEEE 118 and 300-bus systems show that our algorithm outperforms the baseline RL algorithm and MIQP. Furthermore, the proposed algorithm shows strong generalization capacity under unforeseen operational conditions.
翻訳日:2022-06-10 16:26:10 公開日:2022-06-09
# OptWedge: オフスクリーンPOIに対する認知的最適化ガイダンス

OptWedge: Cognitive Optimized Guidance toward Off-screen POIs ( http://arxiv.org/abs/2206.04293v1 )

ライセンス: Link先を確認
Shoki Miyagawa(参考訳) pois(guiding off-screen points of interest)は、スマートデバイスやヘッドマウントディスプレイなど、小型スクリーンデバイスのユーザに付加情報を提供する実用的な方法である。 一般的な従来の手法では、画面上にWedgeと呼ばれるプリミティブなフィギュアを表示し、ユーザーが見えない頂点上でオフスクリーンのPOIを推定する。 アモーダル・コンプリート(amodal completion)と呼ばれる認知プロセスを利用することで、ある部分を取り囲む場合でも全体の像を想像できるので、局所化精度はバイアスと個人差に影響される。 精度を向上させるために,その影響を考慮した認知的コストを用いて図形を最適化することを提案する。 また、異なるパラメータを持つ2種類の最適化を設計する: バイアスなしのOptWedge (UOW) とバイアス付きのOptWedge (BOW)。 実験結果から,OptWedgeはヒューリスティックスアプローチよりも近い距離での高精度なガイダンスが得られた。

Guiding off-screen points of interest (POIs) is a practical way of providing additional information to users of small-screen devices, such as smart devices and head-mounted displays. Popular previous methods involve displaying a primitive figure referred to as Wedge on the screen for users to estimate off-screen POI on the invisible vertex. Because they utilize a cognitive process referred to as amodal completion, where users can imagine the entire figure even when a part of it is occluded, localization accuracy is influenced by bias and individual differences. To improve the accuracy, we propose to optimize the figure using a cognitive cost that considers the influence. We also design two types of optimizations with different parameters: unbiased OptWedge (UOW) and biased OptWedge (BOW). Experimental results indicate that OptWedge achieves more accurate guidance for a close distance compared to heuristics approach.
翻訳日:2022-06-10 16:25:49 公開日:2022-06-09
# 低酸素性虚血性脳症における新生児脳波の検討

Neonatal EEG graded for severity of background abnormalities in hypoxic-ischaemic encephalopathy ( http://arxiv.org/abs/2206.04420v1 )

ライセンス: Link先を確認
John M O'Toole, Sean R Mathieson, Sumit A Raurale, Fabio Magarelli, William P Marnane, Gordon Lightbody, Geraldine B Boylan(参考訳) 本報告では, 背景パターンの異常の重症度に応じて評価された新生児脳波記録について述べる。 データセットは、新生児集中治療室で記録された53人の新生児から169時間のマルチチャネル脳波からなる。 全新生児に低酸素性虚血性脳症(HIE)と診断された。 各新生児に良質な脳波の1時間周期のエポックを複数選択し,背景異常を判断した。 グレーディングシステムは、振幅と周波数、連続性、睡眠覚醒サイクリング、対称性と同期、異常波形などの脳波特性を評価する。 背景重症度は、正常または軽度異常、中等度異常、重度異常、不活性脳波の4つに分類された。 データは、HIEを使った新生児のためのマルチチャネルEEGのリファレンスセットとして、EEGトレーニング目的のために、あるいは自動グレーティングアルゴリズムの開発と評価のために使用することができる。

This report describes a set of neonatal electroencephalogram (EEG) recordings graded according to the severity of abnormalities in the background pattern. The dataset consists of 169 hours of multichannel EEG from 53 neonates recorded in a neonatal intensive care unit. All neonates received a diagnosis of hypoxic-ischaemic encephalopathy (HIE), the most common cause of brain injury in full term infants. For each neonate, multiple 1-hour epochs of good quality EEG were selected and then graded for background abnormalities. The grading system assesses EEG attributes such as amplitude and frequency, continuity, sleep-wake cycling, symmetry and synchrony, and abnormal waveforms. Background severity was then categorised into 4 grades: normal or mildly abnormal, moderately abnormal, severely abnormal, and inactive EEG. The data can be used as a reference set of multi-channel EEG for neonates with HIE, for EEG training purposes, or for developing and evaluating automated grading algorithms.
翻訳日:2022-06-10 16:25:32 公開日:2022-06-09
# Fokker-Planck方程式の確率フロー解

Probability flow solution of the Fokker-Planck equation ( http://arxiv.org/abs/2206.04642v1 )

ライセンス: Link先を確認
Nicholas M. Boffi and Eric Vanden-Eijnden(参考訳) 時間依存fokker-planck方程式を高次元に積分する方法は、関連する確率微分方程式の積分を通じて解からサンプルを生成することである。 本稿では,確率の流れを記述した常微分方程式の統合に基づく代替スキームを提案する。 確率力学とは異なり、この方程式は決定論的に初期密度からのサンプルを後で解からサンプルにプッシュする。 この方法は、確率電流、密度そのもの、エントロピーなど、溶液から与えられたサンプルのみを推定することが難しい量に直接アクセスできるという利点がある。 確率フロー方程式は解の対数("score")の勾配に依存するため、a-priori も未知である。 この依存性を解決するために,瞬時確率電流に応じて粒子群を伝播させることにより,オンザフライで学習する深層ニューラルネットワークを用いてスコアをモデル化する。 本手法は, 生成モデルにおけるスコアベース拡散の最近の進歩に基づいており, 学習手順が自己完結であり, 目標密度からのサンプルを事前に必要としないという重要な違いがある。 このアプローチの妥当性を示すために、相互作用する粒子系の物理からいくつかの例を考察し、この手法が高次元系によく適用され、モンテカルロによって計算される利用可能な解析解とモーメントと正確に一致することを見出した。

The method of choice for integrating the time-dependent Fokker-Planck equation in high-dimension is to generate samples from the solution via integration of the associated stochastic differential equation. Here, we introduce an alternative scheme based on integrating an ordinary differential equation that describes the flow of probability. Unlike the stochastic dynamics, this equation deterministically pushes samples from the initial density onto samples from the solution at any later time. The method has the advantage of giving direct access to quantities that are challenging to estimate only given samples from the solution, such as the probability current, the density itself, and its entropy. The probability flow equation depends on the gradient of the logarithm of the solution (its "score"), and so is a-priori unknown. To resolve this dependence, we model the score with a deep neural network that is learned on-the-fly by propagating a set of particles according to the instantaneous probability current. Our approach is based on recent advances in score-based diffusion for generative modeling, with the important difference that the training procedure is self-contained and does not require samples from the target density to be available beforehand. To demonstrate the validity of the approach, we consider several examples from the physics of interacting particle systems; we find that the method scales well to high-dimensional systems, and accurately matches available analytical solutions and moments computed via Monte-Carlo.
翻訳日:2022-06-10 16:24:04 公開日:2022-06-09
# (参考訳) BigVGAN:大規模トレーニングを備えたユニバーサルニューラルヴォコーダ

BigVGAN: A Universal Neural Vocoder with Large-Scale Training ( http://arxiv.org/abs/2206.04658v1 )

ライセンス: CC BY 4.0
Sang-gil Lee, Wei Ping, Boris Ginsburg, Bryan Catanzaro, Sungroh Yoon(参考訳) 近年のGAN(Generative Adversarial Network)ベースのボコーダは,メルスペクトログラムをベースとした生波形を生成するが,様々な録音環境における多数の話者を対象とした高忠実度音声の合成は依然として困難である。 本稿では,ゼロショット設定において,様々な未知条件下でよく一般化するユニバーサルボコーダであるbigvganを提案する。 生成器に周期的非線形性やアンチエイリアス表現を導入し、波形合成に所望の帰納バイアスをもたらし、音質を大幅に改善する。 改良されたジェネレータと最先端の判別器に基づいて、gan vocoderを最大112mのパラメータでトレーニングします。 特に,高忠実度出力を過正規化せずに維持しつつ,このようなスケール特有のトレーニング不安定性を特定し,対処する。 我々のBigVGANは、新しい話者、新しい言語、歌声、音楽、楽器の録音環境など、様々なアウト・オブ・ディストリビューションシナリオに対して、最先端のゼロショットパフォーマンスを実現しています。 コードとモデルについては、https://github.com/NVIDIA/BigVGANで公開します。

Despite recent progress in generative adversarial network(GAN)-based vocoders, where the model generates raw waveform conditioned on mel spectrogram, it is still challenging to synthesize high-fidelity audio for numerous speakers across varied recording environments. In this work, we present BigVGAN, a universal vocoder that generalizes well under various unseen conditions in zero-shot setting. We introduce periodic nonlinearities and anti-aliased representation into the generator, which brings the desired inductive bias for waveform synthesis and significantly improves audio quality. Based on our improved generator and the state-of-the-art discriminators, we train our GAN vocoder at the largest scale up to 112M parameters, which is unprecedented in the literature. In particular, we identify and address the training instabilities specific to such scale, while maintaining high-fidelity output without over-regularization. Our BigVGAN achieves the state-of-the-art zero-shot performance for various out-of-distribution scenarios, including new speakers, novel languages, singing voices, music and instrumental audio in unseen (even noisy) recording environments. We will release our code and model at: https://github.com/NVIDIA/BigVGAN
翻訳日:2022-06-10 16:23:12 公開日:2022-06-09
# 画像レベルアノテーションによる心筋脂肪組織分画

Cardiac Adipose Tissue Segmentation via Image-Level Annotations ( http://arxiv.org/abs/2206.04238v1 )

ライセンス: Link先を確認
Ziyi Huang, Yu Gan, Theresa Lye, Yanchen Liu, Haofeng Zhang, Andrew Laine, Elsa Angelini, and Christine Hendon(参考訳) 心臓異常の基盤となる構造基質を自動的に同定することは、介入手順のリアルタイムガイダンスを提供する可能性がある。 心組織基質の知識により、心房細動や心室頻拍などの複雑な不整脈の治療をさらに最適化することができ、不整脈基質を検出して治療(アディポス)を目標とし、回避すべき重要な構造を特定することができる。 光コヒーレンス断層撮影(OCT)は、このニーズに対処するためのリアルタイム撮像法である。 既存の心臓画像解析のアプローチは、ピクセル単位のラベル付けの労働集約的アノテーションプロセスにおける作業負荷の欠点に苦しむ完全教師あり学習技術に主に依存している。 ピクセルワイドラベリングの必要性を低減するため,ヒト心基質のCT画像に画像レベルのアノテーションを付加した2段階の心脂肪組織セグメンテーションの深層学習フレームワークを開発した。 特に, クラス活性化マッピングをスーパーピクセルセグメンテーションと統合することにより, 心筋組織セグメンテーションで生じるばらばらな組織種子の課題を解決する。 本研究は, 自動組織解析の需要と高品質な画素アノテーションの欠如とのギャップを埋めるものである。 我々の知る限りでは、弱い教師付き学習技術を用いてOCT画像上の心臓組織分節に対処しようとする最初の研究である。 生体内OCTデータセットにおいて、画像レベルのアノテーションに対する弱い教師付きアプローチが、ピクセル単位のアノテーションで訓練された完全な教師付き手法と同等のパフォーマンスを達成することを示す。

Automatically identifying the structural substrates underlying cardiac abnormalities can potentially provide real-time guidance for interventional procedures. With the knowledge of cardiac tissue substrates, the treatment of complex arrhythmias such as atrial fibrillation and ventricular tachycardia can be further optimized by detecting arrhythmia substrates to target for treatment (i.e., adipose) and identifying critical structures to avoid. Optical coherence tomography (OCT) is a real-time imaging modality that aids in addressing this need. Existing approaches for cardiac image analysis mainly rely on fully supervised learning techniques, which suffer from the drawback of workload on labor-intensive annotation process of pixel-wise labeling. To lessen the need for pixel-wise labeling, we develop a two-stage deep learning framework for cardiac adipose tissue segmentation using image-level annotations on OCT images of human cardiac substrates. In particular, we integrate class activation mapping with superpixel segmentation to solve the sparse tissue seed challenge raised in cardiac tissue segmentation. Our study bridges the gap between the demand on automatic tissue analysis and the lack of high-quality pixel-wise annotations. To the best of our knowledge, this is the first study that attempts to address cardiac tissue segmentation on OCT images via weakly supervised learning techniques. Within an in-vitro human cardiac OCT dataset, we demonstrate that our weakly supervised approach on image-level annotations achieves comparable performance as fully supervised methods trained on pixel-wise annotations.
翻訳日:2022-06-10 15:59:51 公開日:2022-06-09
# 周波数マップに基づく高解像度画像の非参照ディープラーニング品質評価手法

A No-Reference Deep Learning Quality Assessment Method for Super-resolution Images Based on Frequency Maps ( http://arxiv.org/abs/2206.04289v1 )

ライセンス: Link先を確認
Zicheng Zhang, Wei Sun, Xiongkuo Min, Wenhan Zhu, Tao Wang, Wei Lu, Guangtao Zhai(参考訳) 高解像度(HR)画像が緊急に必要とされるアプリケーションシナリオをサポートするために、様々な単一画像超解像(SISR)アルゴリズムが開発された。 しかし、sisrは不適切な逆問題であり、再構成画像にテクスチャシフトやぼかしなどのアーティファクトをもたらす可能性があるため、超解像度画像(sris)の品質を評価する必要がある。 既存の画像品質評価法 (iqa) は合成歪画像のために開発されたが、srisでは歪みが多様で複雑であるため役に立たない。 そこで本稿では,SISRアルゴリズムによる成果物は周波数情報に非常に敏感であるため,周波数マップに基づく非参照ディープラーニング画像品質評価手法を提案する。 具体的には、まずSRIの高周波マップ(HM)と低周波マップ(LM)をSobel演算子とスムーズな画像近似を用いて取得する。 そして、両周波数マップの品質認識特徴を抽出するために、2ストリームネットワークを用いる。 最後に、機能は完全に接続されたレイヤを使用して単一の品質値に回帰される。 実験の結果,提案手法は選択した3つの超解像品質評価(SRQA)データベース上で比較したIQAモデルよりも優れていた。

To support the application scenarios where high-resolution (HR) images are urgently needed, various single image super-resolution (SISR) algorithms are developed. However, SISR is an ill-posed inverse problem, which may bring artifacts like texture shift, blur, etc. to the reconstructed images, thus it is necessary to evaluate the quality of super-resolution images (SRIs). Note that most existing image quality assessment (IQA) methods were developed for synthetically distorted images, which may not work for SRIs since their distortions are more diverse and complicated. Therefore, in this paper, we propose a no-reference deep-learning image quality assessment method based on frequency maps because the artifacts caused by SISR algorithms are quite sensitive to frequency information. Specifically, we first obtain the high-frequency map (HM) and low-frequency map (LM) of SRI by using Sobel operator and piecewise smooth image approximation. Then, a two-stream network is employed to extract the quality-aware features of both frequency maps. Finally, the features are regressed into a single quality value using fully connected layers. The experimental results show that our method outperforms all compared IQA models on the selected three super-resolution quality assessment (SRQA) databases.
翻訳日:2022-06-10 15:59:25 公開日:2022-06-09
# 深層ニューラルネットワークと視覚塩分を併用したブラインドサーベイランス画像品質評価

Blind Surveillance Image Quality Assessment via Deep Neural Network Combined with the Visual Saliency ( http://arxiv.org/abs/2206.04318v1 )

ライセンス: Link先を確認
Wei Lu, Wei Sun, Wenhan Zhu, Xiongkuo Min, Zicheng Zhang, Tao Wang, Guangtao Zhai(参考訳) インテリジェントビデオ監視システム(ivss)は、監視画像(si)の内容を自動的に分析し、手動作業の負担を軽減することができる。 しかし、SIは、取得、圧縮、送信の手順において品質劣化に悩まされ、IVSSはSIの内容を理解するのが難しくなる。 本稿では、まず、SIの質がIVSSの性能に重大な影響を与えることを示すためのサンプル実験(顔検出タスク)を行い、次に、SIのブラインド品質評価のための唾液ベースのディープニューラルネットワークを提案し、IVSSが低品質SIをフィルタリングし、検出および認識性能を向上させるのに役立つ。 具体的には、まずSIの正当性マップを計算し、最も有能な地域を選択する。なぜなら、正当性領域は通常、マシンビジョンのためのリッチな意味情報を含むため、SIの全体的な品質に大きな影響を与える。 次に、畳み込みニューラルネットワーク(CNN)を用いて、画像全体と局所領域の質を認識した特徴を抽出し、それぞれ完全に接続された(FC)ネットワークを介して、グローバルおよびローカル品質スコアにマップする。 最後に、全体品質スコアは、グローバルおよびローカル品質スコアの重み付け和として計算される。 SI品質データベース(SIQD)の実験結果から,提案手法は最先端のBIQA法よりも優れた性能を示した。

The intelligent video surveillance system (IVSS) can automatically analyze the content of the surveillance image (SI) and reduce the burden of the manual labour. However, the SIs may suffer quality degradations in the procedure of acquisition, compression, and transmission, which makes IVSS hard to understand the content of SIs. In this paper, we first conduct an example experiment (i.e. the face detection task) to demonstrate that the quality of the SIs has a crucial impact on the performance of the IVSS, and then propose a saliency-based deep neural network for the blind quality assessment of the SIs, which helps IVSS to filter the low-quality SIs and improve the detection and recognition performance. Specifically, we first compute the saliency map of the SI to select the most salient local region since the salient regions usually contain rich semantic information for machine vision and thus have a great impact on the overall quality of the SIs. Next, the convolutional neural network (CNN) is adopted to extract quality-aware features for the whole image and local region, which are then mapped into the global and local quality scores through the fully connected (FC) network respectively. Finally, the overall quality score is computed as the weighted sum of the global and local quality scores. Experimental results on the SI quality database (SIQD) show that the proposed method outperforms all compared state-of-the-art BIQA methods.
翻訳日:2022-06-10 15:59:04 公開日:2022-06-09
# 医用画像セグメンテーションのモデル一般化性向上のための画像とラベル統計の合同モデリング

Joint Modeling of Image and Label Statistics for Enhancing Model Generalizability of Medical Image Segmentation ( http://arxiv.org/abs/2206.04336v1 )

ライセンス: Link先を確認
Shangqi Gao, Hangqi Zhou, Yibo Gao, and Xiahai Zhuang(参考訳) 教師付き深層学習は医用画像のセグメンテーションにおいて有望な性能を達成したが、多くの手法は目に見えないデータに対してうまく一般化することができず、現実の応用性が制限されている。 この問題に対処するために,画像とラベルの統計を共同でモデル化する深層学習に基づくベイズフレームワークを提案する。 具体的には、まず画像を輪郭と基底の構成要素に分解する。 次に、予測ラベルを輪郭のみに関連する変数としてモデル化する。 最後に,輪郭,基底,ラベルを含むこれらの変数の後方分布を推定するための変分ベイズフレームワークを開発した。 このフレームワークはニューラルネットワークで実装されており、ディープベイズセグメンテーション(deep bayesian segmentation)と呼ばれる。 クロスシーケンス心電図のセグメント化作業の結果から,本手法はモデル一般化のための新しい手法の確立を図った。 特に、LGE MRIで訓練されたベイズセグモデルは、T2画像でよく一般化され、Diceの平均的な0.47以上のマージンを持つ他のモデルよりも優れていた。 私たちのコードはhttps://zmiclab.github.io/projects.htmlで利用可能です。

Although supervised deep-learning has achieved promising performance in medical image segmentation, many methods cannot generalize well on unseen data, limiting their real-world applicability. To address this problem, we propose a deep learning-based Bayesian framework, which jointly models image and label statistics, utilizing the domain-irrelevant contour of a medical image for segmentation. Specifically, we first decompose an image into components of contour and basis. Then, we model the expected label as a variable only related to the contour. Finally, we develop a variational Bayesian framework to infer the posterior distributions of these variables, including the contour, the basis, and the label. The framework is implemented with neural networks, thus is referred to as deep Bayesian segmentation. Results on the task of cross-sequence cardiac MRI segmentation show that our method set a new state of the art for model generalizability. Particularly, the BayeSeg model trained with LGE MRI generalized well on T2 images and outperformed other models with great margins, i.e., over 0.47 in terms of average Dice. Our code is available at https://zmiclab.github.io/projects.html.
翻訳日:2022-06-10 15:58:39 公開日:2022-06-09
# 非同期イベントが動画をエンコードする方法

How Asynchronous Events Encode Video ( http://arxiv.org/abs/2206.04341v1 )

ライセンス: Link先を確認
Karen Adam, Adam Scholefield, Martin Vetterli(参考訳) イベントベースのセンシングの人気が高まるにつれ、この技術の可能性を活用するには理論的理解が必要である。 フレームをキャプチャしてビデオを録画する代わりに、イベントベースのカメラは、入力が変わったときにイベントを発生させるセンサーを備えている。 これにより、復元保証とアルゴリズムを確立する上で新たな課題が生まれるが、フレームベースのビデオよりもアドバンテージを提供する。 我々は時間エンコーディングマシンを用いてイベントベースセンサーをモデル化する。TEMはまた、そのタイミングと時間エンコーディングからの再構成を特徴とするイベントを出力することで入力をエンコードする。 帯域制限された映像を時間符号化する場合を考察し,空間センサ密度と全空間分解能および時間分解能の依存性を示す。 このような依存はフレームベースのビデオでは発生せず、時間分解能はビデオのフレームレートにのみ依存し、空間分解能はピクセルグリッドにのみ依存する。 しかし、この依存はイベントベースのビデオで自然に発生し、空間でのオーバーサンプリングによりより良い時間分解能が得られる。 そのため、イベントベースのビジョンは、時間とともに少ないイベントを発生させるより多くのセンサーの使用を促進する。

As event-based sensing gains in popularity, theoretical understanding is needed to harness this technology's potential. Instead of recording video by capturing frames, event-based cameras have sensors that emit events when their inputs change, thus encoding information in the timing of events. This creates new challenges in establishing reconstruction guarantees and algorithms, but also provides advantages over frame-based video. We use time encoding machines to model event-based sensors: TEMs also encode their inputs by emitting events characterized by their timing and reconstruction from time encodings is well understood. We consider the case of time encoding bandlimited video and demonstrate a dependence between spatial sensor density and overall spatial and temporal resolution. Such a dependence does not occur in frame-based video, where temporal resolution depends solely on the frame rate of the video and spatial resolution depends solely on the pixel grid. However, this dependence arises naturally in event-based video and allows oversampling in space to provide better time resolution. As such, event-based vision encourages using more sensors that emit fewer events over time.
翻訳日:2022-06-10 15:58:17 公開日:2022-06-09
# 4kコンテンツの視覚品質評価のためのディープニューラルネットワーク

Deep Neural Network for Blind Visual Quality Assessment of 4K Content ( http://arxiv.org/abs/2206.04363v1 )

ライセンス: Link先を確認
Wei Lu, Wei Sun, Xiongkuo Min, Wenhan Zhu, Quan Zhou, Jun He, Qiyuan Wang, Zicheng Zhang, Tao Wang, Guangtao Zhai(参考訳) 4Kコンテンツは、空間解像度の大幅な改善により、より没入的な視覚体験を消費者に提供することができる。 しかし,既存の視覚障害者画像品質評価(biqa)法は,解像度の増大や歪みの増大などにより,オリジナルコンテンツや拡張4kコンテンツには適していない。 本稿では、4Kコンテンツに対する深層学習に基づくBIQAモデルを提案する。 高空間分解能がより豊富な高周波情報を表現できる特性を考慮し、4k画像から3つの代表画像パッチを選択するためのgrey-level co-occurrence matrix (glcm) ベースのテクスチャ複雑性尺度を提案する。 次に、畳み込みニューラルネットワーク(CNN)の中間層から異なる種類の視覚的特徴を抽出し、それらを品質を考慮した特徴表現に統合する。 最後に、2つの多層知覚(mlp)ネットワークを用いて、各々のパッチに対する品質認識特徴をクラス確率と品質スコアにマッピングする。 全体の品質指標はパッチ結果の平均プーリングによって得られる。 提案モデルは,マルチタスク学習方法で学習し,分類と回帰タスクの損失をバランスさせる不確実性原理を導入する。 実験の結果,提案手法は4つの4Kコンテンツ品質評価データベースで比較したBIQA指標よりも優れていた。

The 4K content can deliver a more immersive visual experience to consumers due to the huge improvement of spatial resolution. However, existing blind image quality assessment (BIQA) methods are not suitable for the original and upscaled 4K contents due to the expanded resolution and specific distortions. In this paper, we propose a deep learning-based BIQA model for 4K content, which on one hand can recognize true and pseudo 4K content and on the other hand can evaluate their perceptual visual quality. Considering the characteristic that high spatial resolution can represent more abundant high-frequency information, we first propose a Grey-level Co-occurrence Matrix (GLCM) based texture complexity measure to select three representative image patches from a 4K image, which can reduce the computational complexity and is proven to be very effective for the overall quality prediction through experiments. Then we extract different kinds of visual features from the intermediate layers of the convolutional neural network (CNN) and integrate them into the quality-aware feature representation. Finally, two multilayer perception (MLP) networks are utilized to map the quality-aware features into the class probability and the quality score for each patch respectively. The overall quality index is obtained through the average pooling of patch results. The proposed model is trained through the multi-task learning manner and we introduce an uncertainty principle to balance the losses of the classification and regression tasks. The experimental results show that the proposed model outperforms all compared BIQA metrics on four 4K content quality assessment databases.
翻訳日:2022-06-10 15:57:59 公開日:2022-06-09
# 3次元イベントポイントクラウドによる効率的なポーズ推定

Efficient Human Pose Estimation via 3D Event Point Cloud ( http://arxiv.org/abs/2206.04511v1 )

ライセンス: Link先を確認
Jiaan Chen, Hao Shi, Yaozu Ye, Kailun Yang, Lei Sun, Kaiwei Wang(参考訳) RGB画像に基づくHPE(Human Pose Estimation)は、ディープラーニングによる迅速な開発を経験している。 しかし、イベントベースのHPEは十分に研究されていないため、極端なシーンや効率クリティカルな条件での応用には大きな可能性を秘めている。 本稿では、3dイベントポイントクラウドから直接2d人物のポーズを推定する最初の例である。 本稿では,小さな時間スライスと同じ位置でイベントを集約する,新しいイベント表現,ラスタライズされたイベントポイントクラウドを提案する。 複数の統計的な手がかりから得られた3d機能を維持でき、メモリ消費と計算の複雑さを大幅に削減できます。 次に、ラスタライズドイベントポイントクラウドを、3つの異なるバックボーン(pointnet、dgcnn、point transformer)への入力として活用し、2つの線形層デコーダで人間のキーポイントの位置を予測します。 我々は、pointnetがより高速で有望な結果を得るのに対し、pointtransfomerは以前のイベントフレームベースの方法よりもずっと高い精度に達することを見出した。 その結果,提案手法は3次元バックボーンモデルに対して,イベント駆動型ポーズ推定において一貫して有効であることが示された。 2048点入力のpointnetに基づく手法では、dhp19データセット上でmpjpe3dの82.46mmを実現しているが、イベントカメラによるリアルタイム検出に理想的なnvidia jetson xavier nxエッジコンピューティングプラットフォームでは、レイテンシーが12.29msである。 コードはhttps://github.com/masterhow/eventpointposeで公開される。

Human Pose Estimation (HPE) based on RGB images has experienced a rapid development benefiting from deep learning. However, event-based HPE has not been fully studied, which remains great potential for applications in extreme scenes and efficiency-critical conditions. In this paper, we are the first to estimate 2D human pose directly from 3D event point cloud. We propose a novel representation of events, the rasterized event point cloud, aggregating events on the same position of a small time slice. It maintains the 3D features from multiple statistical cues and significantly reduces memory consumption and computation complexity, proved to be efficient in our work. We then leverage the rasterized event point cloud as input to three different backbones, PointNet, DGCNN, and Point Transformer, with two linear layer decoders to predict the location of human keypoints. We find that based on our method, PointNet achieves promising results with much faster speed, whereas Point Transfomer reaches much higher accuracy, even close to previous event-frame-based methods. A comprehensive set of results demonstrates that our proposed method is consistently effective for these 3D backbone models in event-driven human pose estimation. Our method based on PointNet with 2048 points input achieves 82.46mm in MPJPE3D on the DHP19 dataset, while only has a latency of 12.29ms on an NVIDIA Jetson Xavier NX edge computing platform, which is ideally suitable for real-time detection with event cameras. Code will be made publicly at https://github.com/MasterHow/EventPointPose.
翻訳日:2022-06-10 15:57:33 公開日:2022-06-09
# 雑音拡散確率モデルを用いたsarデスペックリング

SAR Despeckling using a Denoising Diffusion Probabilistic Model ( http://arxiv.org/abs/2206.04514v1 )

ライセンス: Link先を確認
Malsha V. Perera, Nithin Gopalakrishnan Nair, Wele Gedara Chaminda Bandara and Vishal M. Patel(参考訳) Speckleは、SAR(Synthetic Aperture Radar)画像を含む全てのコヒーレントイメージングモードに影響を与える乗法ノイズである。 スペックルの存在は画像品質を劣化させ、自動目標認識や変化検出などのSAR画像理解アプリケーションの性能に悪影響を及ぼす。 したがって、リモートセンシングにおいてSARの切り離しは重要な問題である。 本稿では,SAR脱種のための拡散確率モデルであるSAR-DDPMを紹介する。 提案手法は,ランダムノイズを繰り返すことによってクリーン画像を白色ガウス雑音に変換するマルコフ連鎖からなる。 スペックル画像に条件付きノイズ予測器を用いて付加ノイズを反復的に予測する逆処理により、非スペックル画像が復元される。 さらに,脱スペックリング性能を向上させるために,サイクルスピンに基づく新しい推論戦略を提案する。 合成sar画像と実sar画像の両方を用いた実験により,提案手法は,最先端のデスペックリング法に対して定量的および定性的に有意な改善が得られた。

Speckle is a multiplicative noise which affects all coherent imaging modalities including Synthetic Aperture Radar (SAR) images. The presence of speckle degrades the image quality and adversely affects the performance of SAR image understanding applications such as automatic target recognition and change detection. Thus, SAR despeckling is an important problem in remote sensing. In this paper, we introduce SAR-DDPM, a denoising diffusion probabilistic model for SAR despeckling. The proposed method comprises of a Markov chain that transforms clean images to white Gaussian noise by repeatedly adding random noise. The despeckled image is recovered by a reverse process which iteratively predicts the added noise using a noise predictor which is conditioned on the speckled image. In addition, we propose a new inference strategy based on cycle spinning to improve the despeckling performance. Our experiments on both synthetic and real SAR images demonstrate that the proposed method achieves significant improvements in both quantitative and qualitative results over the state-of-the-art despeckling methods.
翻訳日:2022-06-10 15:57:06 公開日:2022-06-09
# ランダム信号の線形推定のための識別学習と生成学習 [講義ノート]

Discriminative and Generative Learning for Linear Estimation of Random Signals [Lecture Notes] ( http://arxiv.org/abs/2206.04432v1 )

ライセンス: Link先を確認
Nir Shlezinger and Tirza Routtenberg(参考訳) 信号処理における推論タスクは、しばしばインスタンス固有のパラメータが欠けている信頼できる統計モデルが利用可能であることによって特徴づけられる。 従来のアプローチでは、データを使用してこれらの欠落パラメータを推定し、推定モデルに基づいて推論する。 あるいは、データを活用して、エンドツーエンドの推論マッピングを直接学習することもできる。 部分的に知られた統計モデルと推論データを組み合わせるこれらのアプローチは、機械学習文学で使用される生成的および識別的モデルの概念(典型的には分類器の文脈で考慮される)に関連している。 この講義の目的は、部分的に知られている統計モデルを用いて推論のための生成的および判別的学習の概念を導入することである。 機械学習システムは、従来の信号処理手法の解釈可能性に欠けることが多いが、我々は、信号処理の読者にとってアクセシブルな方法で、アプローチを解釈し比較できる簡単な設定に焦点を当てている。 特に,平均二乗誤差(mse)目標,すなわち線形推定設定を併用したガウス環境におけるベイズ信号推定の課題に対するアプローチを例示する。

Inference tasks in signal processing are often characterized by the availability of reliable statistical modeling with some missing instance-specific parameters. One conventional approach uses data to estimate these missing parameters and then infers based on the estimated model. Alternatively, data can also be leveraged to directly learn the inference mapping end-to-end. These approaches for combining partially-known statistical models and data in inference are related to the notions of generative and discriminative models used in the machine learning literature, typically considered in the context of classifiers. The goal of this lecture note is to introduce the concepts of generative and discriminative learning for inference with a partially-known statistical model. While machine learning systems often lack the interpretability of traditional signal processing methods, we focus on a simple setting where one can interpret and compare the approaches in a tractable manner that is accessible and relevant to signal processing readers. In particular, we exemplify the approaches for the task of Bayesian signal estimation in a jointly Gaussian setting with the mean-squared error (MSE) objective, i.e., a linear estimation setting.
翻訳日:2022-06-10 15:55:32 公開日:2022-06-09
# 深層学習の謎を語る

Meet You Halfway: Explaining Deep Learning Mysteries ( http://arxiv.org/abs/2206.04463v1 )

ライセンス: Link先を確認
Oriel BenShmuel(参考訳) ディープニューラルネットワークは、最先端の結果を持つさまざまな学習タスクにおいて、非常によく機能する。 これらのモデルは非常に表現力が高く、優れた一般化能力を持つ驚くほど正確な解が得られるが、小さな摂動の影響を受けやすい。 このような摂動に苦しむサンプルは、"adversarial examples"として知られる。 ディープラーニングは広く研究されている分野であるが、ディープラーニングモデルの性質に関する多くの疑問は未解決のままである。 本稿では,ネットワークの動作に光を当て,学習過程の裏側を解釈することを目的とした,形式的な記述を伴う新しい概念的枠組みを提案する。 我々のフレームワークは、ディープラーニングに関する本質的な質問の説明を提供する。 特に,(1)ニューラルネットワークが一般化能力を獲得する理由を明らかにする。 (2) 異なるモデル間の逆転例はなぜ存在するのか? . 我々は、この新しいフレームワークとその基礎となる理論をサポートする包括的な実験セットを提供する。

Deep neural networks perform exceptionally well on various learning tasks with state-of-the-art results. While these models are highly expressive and achieve impressively accurate solutions with excellent generalization abilities, they are susceptible to minor perturbations. Samples that suffer such perturbations are known as "adversarial examples". Even though deep learning is an extensively researched field, many questions about the nature of deep learning models remain unanswered. In this paper, we introduce a new conceptual framework attached with a formal description that aims to shed light on the network's behavior and interpret the behind-the-scenes of the learning process. Our framework provides an explanation for inherent questions concerning deep learning. Particularly, we clarify: (1) Why do neural networks acquire generalization abilities? (2) Why do adversarial examples transfer between different models?. We provide a comprehensive set of experiments that support this new framework, as well as its underlying theory.
翻訳日:2022-06-10 15:52:47 公開日:2022-06-09
# グラフニューラルネットワークの理解に向けて : パースペクティブを提示するアルゴリズム

Towards Understanding Graph Neural Networks: An Algorithm Unrolling Perspective ( http://arxiv.org/abs/2206.04471v1 )

ライセンス: Link先を確認
Zepeng Zhang and Ziping Zhao(参考訳) graph neural network (gnn) は様々なアプリケーションにおいて優れた性能を示している。 しかし、その背後にある仕組みは謎のままだ。 GNNモデルはグラフ構造化データの効率的な表現を学習するために設計されており、これは本質的にグラフ信号のデノイング(GSD)の原理と一致する。 アルゴリズムのアンローリングは"最適化のための学習"であり、効率的で解釈可能なニューラルネットワークアーキテクチャの構築への期待から注目を集めている。 本稿では,gsd問題に対する縮小最適化アルゴリズム(勾配降下,近位勾配降下など)に基づいて構築された未ロールネットワークのクラスを提案する。 これらのGNNは、多くの一般的なGNNモデルと密接に結びついており、これらのGNNの前方伝播は、実際には特定のGSDを提供するアンロールネットワークである。 さらに、GNNモデルのトレーニングプロセスは、低レベルにおけるGSD問題による双レベル最適化問題の解決と見なすことができる。 このような接続によってGNNの新たなビューがもたらされ、GSDモデルからその実用能力を理解することができ、また新しいGNNモデルの設計を動機付けることができます。 アルゴリズムの展開の観点からは, ugdgnn という表現モデル, 即ち, unrolledgradient descent gnn が提案され, その理論特性を継承している。 7つのベンチマークデータセットの大規模な数値シミュレーションにより、UGDGNNは最先端モデルよりも優れた、あるいは競争的な性能を達成できることを示した。

The graph neural network (GNN) has demonstrated its superior performance in various applications. The working mechanism behind it, however, remains mysterious. GNN models are designed to learn effective representations for graph-structured data, which intrinsically coincides with the principle of graph signal denoising (GSD). Algorithm unrolling, a "learning to optimize" technique, has gained increasing attention due to its prospects in building efficient and interpretable neural network architectures. In this paper, we introduce a class of unrolled networks built based on truncated optimization algorithms (e.g., gradient descent and proximal gradient descent) for GSD problems. They are shown to be tightly connected to many popular GNN models in that the forward propagations in these GNNs are in fact unrolled networks serving specific GSDs. Besides, the training process of a GNN model can be seen as solving a bilevel optimization problem with a GSD problem at the lower level. Such a connection brings a fresh view of GNNs, as we could try to understand their practical capabilities from their GSD counterparts, and it can also motivate designing new GNN models. Based on the algorithm unrolling perspective, an expressive model named UGDGNN, i.e., unrolled gradient descent GNN, is further proposed which inherits appealing theoretical properties. Extensive numerical simulations on seven benchmark datasets demonstrate that UGDGNN can achieve superior or competitive performance over the state-of-the-art models.
翻訳日:2022-06-10 15:52:37 公開日:2022-06-09
# ディープニューラルネットワークにおける逆例の早期転送可能性

Early Transferability of Adversarial Examples in Deep Neural Networks ( http://arxiv.org/abs/2206.04472v1 )

ライセンス: Link先を確認
Oriel BenShmuel(参考訳) 本稿では、これまで知られていなかった新しい現象を「Early Transferability」と呼び、分析する。 本質的には、訓練のごく初期の段階でも、異なるネットワーク間で敵の摂動が伝達される。 実際、ランダムウェイトを2つの異なる独立に選択した2つのネットワークを初期化して、トレーニングの各ステップの後に対向的摂動の角度を測定することができる。 私たちが発見したのは、これらの2つの逆方向が、最初の数ステップ(通常は利用可能なトレーニングデータのごく一部しか使用していない)の後に、互いに整合し始めていたことです。 本論文の目的は,この現象を実験的に提示し,その性質のいくつかについて妥当な説明を提案することである。

This paper will describe and analyze a new phenomenon that was not known before, which we call "Early Transferability". Its essence is that the adversarial perturbations transfer among different networks even at extremely early stages in their training. In fact, one can initialize two networks with two different independent choices of random weights and measure the angle between their adversarial perturbations after each step of the training. What we discovered was that these two adversarial directions started to align with each other already after the first few training steps (which typically use only a small fraction of the available training data), even though the accuracy of the two networks hadn't started to improve from their initial bad values due to the early stage of the training. The purpose of this paper is to present this phenomenon experimentally and propose plausible explanations for some of its properties.
翻訳日:2022-06-10 15:52:12 公開日:2022-06-09
# マルチタスクメタラーニングによる脳コネクトーム解析

Data-Efficient Brain Connectome Analysis via Multi-Task Meta-Learning ( http://arxiv.org/abs/2206.04486v1 )

ライセンス: Link先を確認
Yi Yang, Yanqiao Zhu, Hejie Cui, Xuan Kan, Lifang He, Ying Guo, Carl Yang(参考訳) 脳ネットワークは、脳領域間の複雑なコネクティビティをグラフ構造として特徴づけ、脳コネクトームを研究する強力な手段を提供する。 近年、グラフニューラルネットワークは構造化データによる学習の主流パラダイムとして浮上している。 しかし、ほとんどの脳ネットワークデータセットは、十分なトレーニングからディープラーニングモデルを妨げる比較的高いデータ取得コストのために、サンプルサイズに制限されている。 限られた学習例で新しい概念を素早く学習するメタラーニングにインスパイアされた本研究では,脳のコネクトームを分析するためのデータ効率のトレーニング戦略について研究する。 具体的には,大規模なサンプルサイズのデータセット上でモデルをメタトレーニングし,知識を小さなデータセットに転送することを提案する。 さらに,atlas変換とadaptive task reweighingという,2つのブレインネットワーク指向の設計についても検討した。 他の事前学習戦略と比較して、メタラーニングに基づくアプローチは、より高い安定的な性能を実現し、提案手法の有効性を示す。 このフレームワークは、データセットと疾患の類似性に関する新たな洞察を、データ駆動方式で導き出すこともできる。

Brain networks characterize complex connectivities among brain regions as graph structures, which provide a powerful means to study brain connectomes. In recent years, graph neural networks have emerged as a prevalent paradigm of learning with structured data. However, most brain network datasets are limited in sample sizes due to the relatively high cost of data acquisition, which hinders the deep learning models from sufficient training. Inspired by meta-learning that learns new concepts fast with limited training examples, this paper studies data-efficient training strategies for analyzing brain connectomes in a cross-dataset setting. Specifically, we propose to meta-train the model on datasets of large sample sizes and transfer the knowledge to small datasets. In addition, we also explore two brain-network-oriented designs, including atlas transformation and adaptive task reweighing. Compared to other pre-training strategies, our meta-learning-based approach achieves higher and stabler performance, which demonstrates the effectiveness of our proposed solutions. The framework is also able to derive new insights regarding the similarities among datasets and diseases in a data-driven fashion.
翻訳日:2022-06-10 15:51:57 公開日:2022-06-09
# ディープ線形ニューラルネットワークにおける冗長性

Redundancy in Deep Linear Neural Networks ( http://arxiv.org/abs/2206.04490v1 )

ライセンス: Link先を確認
Oriel BenShmuel(参考訳) 従来の知恵によれば、ディープ線形ニューラルネットワークは1つの線形層に対して表現性と最適化の利点を享受する。 本稿では,従来のオプティマイザを用いたディープリニア完全接続ネットワークのトレーニングプロセスが,単一のリニア完全接続層と同じ方法で凸であることを示す。 本稿では,この主張を説明し,実証することを目的とする。 畳み込みネットワークはこの記述と一致していないが、この研究は、畳み込み設定や非線形アーキテクチャの制約に光を当てるかもしれない完全連結線形ネットワークの新たな概念的理解を達成することを目的としている。

Conventional wisdom states that deep linear neural networks benefit from expressiveness and optimization advantages over a single linear layer. This paper suggests that, in practice, the training process of deep linear fully-connected networks using conventional optimizers is convex in the same manner as a single linear fully-connected layer. This paper aims to explain this claim and demonstrate it. Even though convolutional networks are not aligned with this description, this work aims to attain a new conceptual understanding of fully-connected linear networks that might shed light on the possible constraints of convolutional settings and non-linear architectures.
翻訳日:2022-06-10 15:51:37 公開日:2022-06-09
# 機械学習における差分プライバシーの利用(と誤用)に関する批判的レビュー

A Critical Review on the Use (and Misuse) of Differential Privacy in Machine Learning ( http://arxiv.org/abs/2206.04621v1 )

ライセンス: Link先を確認
Alberto Blanco-Justicia, David Sanchez, Josep Domingo-Ferrer, Krishnamurty Muralidhar(参考訳) 機械学習(ML)におけるプライバシー保護における差分プライバシー(DP)の利用について検討する。 学習モデルの精度を保つことを目的として,DPベースのML実装が非常に緩いため,DPの高度なプライバシー保証を提供していないことを示す。 その代わり、基本的には従来の(そしてしばしば批判される)統計開示制御アプローチと同様のノイズ付加だ。 正式なプライバシー保証が欠如しているため、提供された実際のプライバシーレベルは実験的に評価されなければならない。 本稿では,MLにおける標準のアンチオーバーフィッティング技術がDPよりも実用・民営・効率のトレードオフを向上できることを示す実証的な結果を示す。

We review the use of differential privacy (DP) for privacy protection in machine learning (ML). We show that, driven by the aim of preserving the accuracy of the learned models, DP-based ML implementations are so loose that they do not offer the ex ante privacy guarantees of DP. Instead, what they deliver is basically noise addition similar to the traditional (and often criticized) statistical disclosure control approach. Due to the lack of formal privacy guarantees, the actual level of privacy offered must be experimentally assessed ex post, which is done very seldom. In this respect, we present empirical results showing that standard anti-overfitting techniques in ML can achieve a better utility/privacy/efficiency trade-off than DP.
翻訳日:2022-06-10 15:51:26 公開日:2022-06-09
# (参考訳) マスク画像モデリングにおけるデータスケーリングについて

On Data Scaling in Masked Image Modeling ( http://arxiv.org/abs/2206.04664v1 )

ライセンス: CC BY 4.0
Zhenda Xie, Zheng Zhang, Yue Cao, Yutong Lin, Yixuan Wei, Qi Dai, Han Hu(参考訳) 自己教師付き学習の重要な目標は、モデル事前学習をほぼ無制限のデータから恩恵を受けることである。 しかし,最近,マスク画像モデリング (MIM) と呼ばれる手法が普及し,大きなデータから恩恵を受けることができないことが疑われている。 本研究では、この誤解を、ImageNet-1Kの10%から完全なImageNet-22Kまで、モデルサイズが4900万から10億まで、トレーニング期間が125万から500万まで、広範囲にわたる実験を通じて解決する。 私たちの研究はそれを明らかにしています (i)マスク付き画像モデリングも大きなデータを必要とする。 私たちは、非常に大きなモデルが比較的小さなデータで過剰に適合していることを観察しました。 (ii)訓練期間 マスク付き画像モデリングで訓練された大規模なモデルは、長いトレーニングでより多くのデータから恩恵を受けることができる。 3) 事前学習における検証損失は,複数のタスクの微調整において,モデルの性能を評価する上でよい指標である。 この観察により、ダウンストリームタスクの試行錯誤評価を行うことなく、事前訓練済みモデルを事前に評価することができる。 我々は,スケーリング能力の観点から,マスク画像モデリングの理解を深めることを期待している。

An important goal of self-supervised learning is to enable model pre-training to benefit from almost unlimited data. However, one method that has recently become popular, namely masked image modeling (MIM), is suspected to be unable to benefit from larger data. In this work, we break this misconception through extensive experiments, with data scales ranging from 10\% of ImageNet-1K to full ImageNet-22K, model sizes ranging from 49 million to 1 billion, and training lengths ranging from 125K iterations to 500K iterations. Our study reveals that: (i) Masked image modeling is also demanding on larger data. We observed that very large models got over-fitted with relatively small data; (ii) The length of training matters. Large models trained with masked image modeling can benefit from more data with longer training; (iii) The validation loss in pre-training is a good indicator to measure how well the model performs for fine-tuning on multiple tasks. This observation allows us to pre-evaluate pre-trained models in advance without having to make costly trial-and-error assessments of downstream tasks. We hope that our findings will advance the understanding of masked image modeling in terms of scaling ability.
翻訳日:2022-06-10 15:49:25 公開日:2022-06-09
# 等価なロテリチケット仮説を証明するための一般的なフレームワーク

A General Framework For Proving The Equivariant Strong Lottery Ticket Hypothesis ( http://arxiv.org/abs/2206.04270v1 )

ライセンス: Link先を確認
Damien Ferbach, Christos Tsirigotis, Gauthier Gidel, and Avishek (Joey) Bose(参考訳) strong lottery ticket hypothesis(slth)は、トレーニングなしでランダムに初期化した場合に、完全に訓練されたターゲットネットワークの精度を達成する、十分な過パラメータ(dense)ニューラルネットワーク内にサブネットワークが存在することを規定している。 citet{da2022proving} による最近の研究は、SLTH が高密度ネットワークにおいて SLT に必要となるオーバーパラメトリゼーションのレベルと同じレベルの変換同変ネットワーク、すなわち CNN にも拡張可能であることを示した。 しかし、現代のニューラルネットワークは単なる翻訳対称性以上のものを組み込むことができ、回転や置換のような一般的な同変アーキテクチャの開発は強力な設計原理である。 本稿では、slth を $g$ --すなわち $g$-equivariant network -- 群の作用を保存する関数に一般化し、高確率で、ランダムに初期化された過パラメータ化された $g$-equivariant network を $g$-equivariant subnetwork に従わせることができることを証明し、これは固定幅と深さの完全に訓練された$g$-equivariant network に近似する。 さらに, 所定の過パラメータ化方式は, 誤差耐性の関数としても最適であることを示す。 我々は、ユークリッド群 $\text{E}(n)$ の部分群や対称群 $G \leq \mathcal{S}_n$ の部分群のような重要な群を含む、幅広い群に対する理論を開発し、MLP、CNN、$\text{E}(2)$-steerable CNN、および、前処理を完全に拡張した統一フレームワークの特定のインスタンス化として置換同変ネットワークを見つけることができる。 実験により,過度にパラメータ化された $\text{E}(2)$-steerable CNN とメッセージパッシング GNN を用いて,与えられたエラー許容範囲内でのトレーニング対象ネットワークの性能とを一致させることで,我々の理論を検証する。

The Strong Lottery Ticket Hypothesis (SLTH) stipulates the existence of a subnetwork within a sufficiently overparameterized (dense) neural network that -- when initialized randomly and without any training -- achieves the accuracy of a fully trained target network. Recent work by \citet{da2022proving} demonstrates that the SLTH can also be extended to translation equivariant networks -- i.e. CNNs -- with the same level of overparametrization as needed for SLTs in dense networks. However, modern neural networks are capable of incorporating more than just translation symmetry, and developing general equivariant architectures such as rotation and permutation has been a powerful design principle. In this paper, we generalize the SLTH to functions that preserve the action of the group $G$ -- i.e. $G$-equivariant network -- and prove, with high probability, that one can prune a randomly initialized overparametrized $G$-equivariant network to a $G$-equivariant subnetwork that approximates another fully trained $G$-equivariant network of fixed width and depth. We further prove that our prescribed overparametrization scheme is also optimal as a function of the error tolerance. We develop our theory for a large range of groups, including important ones such as subgroups of the Euclidean group $\text{E}(n)$ and subgroups of the symmetric group $G \leq \mathcal{S}_n$ -- allowing us to find SLTs for MLPs, CNNs, $\text{E}(2)$-steerable CNNs, and permutation equivariant networks as specific instantiations of our unified framework which completely extends prior work. Empirically, we verify our theory by pruning overparametrized $\text{E}(2)$-steerable CNNs and message passing GNNs to match the performance of trained target networks within a given error tolerance.
翻訳日:2022-06-10 15:29:46 公開日:2022-06-09
# 外因性情報の存在下でのサンプル効率強化学習

Sample-Efficient Reinforcement Learning in the Presence of Exogenous Information ( http://arxiv.org/abs/2206.04282v1 )

ライセンス: Link先を確認
Yonathan Efroni, Dylan J. Foster, Dipendra Misra, Akshay Krishnamurthy and John Langford(参考訳) 実世界の強化学習アプリケーションでは、学習者の観察空間は、その課題に関する関連情報と無関係情報の両方でユビキタスに高次元である。 高次元観測からの学習は、教師付き学習と統計学(例えば、疎性を通して)において広範な研究の対象となっているが、強化学習における類似の問題は、有限状態/行動(タブラル)領域においてもよく理解されていない。 本稿では, 強化学習のための新たな問題設定法であるExoMDP(Exogenous Markov Decision Process)を導入する。このプロセスでは, 状態空間が(未知の)分解を小さな制御可能な(あるいは内在的)成分と大きな非関連(または外在的)成分に分解し, 外部固有成分は学習者の行動とは独立に進化するが, 任意の時間的相関で進化する。 内因性成分のサイズと外因性成分のサイズにほぼ依存せず,サンプル複雑性多項式を持つ準最適ポリシを学習し,オフザシェルフアルゴリズムを2倍に改善するアルゴリズムであるExoRLを提案する。 本研究は,外部情報の存在下ではサンプル効率のよい強化学習が可能であることを初めて強調し,今後,ユーザフレンドリーに調査を行うための簡易なベンチマークを提供する。

In real-world reinforcement learning applications the learner's observation space is ubiquitously high-dimensional with both relevant and irrelevant information about the task at hand. Learning from high-dimensional observations has been the subject of extensive investigation in supervised learning and statistics (e.g., via sparsity), but analogous issues in reinforcement learning are not well understood, even in finite state/action (tabular) domains. We introduce a new problem setting for reinforcement learning, the Exogenous Markov Decision Process (ExoMDP), in which the state space admits an (unknown) factorization into a small controllable (or, endogenous) component and a large irrelevant (or, exogenous) component; the exogenous component is independent of the learner's actions, but evolves in an arbitrary, temporally correlated fashion. We provide a new algorithm, ExoRL, which learns a near-optimal policy with sample complexity polynomial in the size of the endogenous component and nearly independent of the size of the exogenous component, thereby offering a doubly-exponential improvement over off-the-shelf algorithms. Our results highlight for the first time that sample-efficient reinforcement learning is possible in the presence of exogenous information, and provide a simple, user-friendly benchmark for investigation going forward.
翻訳日:2022-06-10 15:29:01 公開日:2022-06-09
# ファジィ特徴観測による多クラス分類:理論とアルゴリズム

Multi-class Classification with Fuzzy-feature Observations: Theory and Algorithms ( http://arxiv.org/abs/2206.04311v1 )

ライセンス: Link先を確認
Guangzhi Ma and Jie Lu and Feng Liu and Zhen Fang and Guangquan Zhang(参考訳) 多級分類の理論解析により,既存の多級分類法は,同一分布の訓練セットと試験セットにおいて精度が高く,十分なインスタンスを訓練セットに収集できる場合に,テストセット上で高い分類精度を持つ分類器を訓練できることが証明された。 しかし,マルチクラス分類の限界は解決されていない。不正確な観察しか得られない場合,マルチクラス分類問題の分類精度を改善する方法である。 そこで,本稿では,ファジィ特徴量を持つ分類器を訓練する必要があるマルチクラス分類(mcimo)と呼ばれる新しい現実的な問題に対処するための新しい枠組みを提案する。 まず,ファジィラデマッハの複雑性に基づくMCIMO問題の理論的解析を行う。 そして,提案する新たな問題を解決するために,サポートベクトルマシンとニューラルネットワークに基づく2つの実用的なアルゴリズムを構築した。 合成と実世界の両方のデータセットの実験は、理論解析の合理性と提案アルゴリズムの有効性を検証する。

The theoretical analysis of multi-class classification has proved that the existing multi-class classification methods can train a classifier with high classification accuracy on the test set, when the instances are precise in the training and test sets with same distribution and enough instances can be collected in the training set. However, one limitation with multi-class classification has not been solved: how to improve the classification accuracy of multi-class classification problems when only imprecise observations are available. Hence, in this paper, we propose a novel framework to address a new realistic problem called multi-class classification with imprecise observations (MCIMO), where we need to train a classifier with fuzzy-feature observations. Firstly, we give the theoretical analysis of the MCIMO problem based on fuzzy Rademacher complexity. Then, two practical algorithms based on support vector machine and neural networks are constructed to solve the proposed new problem. Experiments on both synthetic and real-world datasets verify the rationality of our theoretical analysis and the efficacy of the proposed algorithms.
翻訳日:2022-06-10 15:28:37 公開日:2022-06-09
# メタラーニングにおける一般化のための想像的タスクの学習

Learning to generate imaginary tasks for improving generalization in meta-learning ( http://arxiv.org/abs/2206.04335v1 )

ライセンス: Link先を確認
Yichen Wu and Long-Kai Huang and Ying Wei(参考訳) 既存のベンチマークにおけるメタ学習の成功は、メタトレーニングタスクの分布がメタテストタスクをカバーするという仮定に基づいて予測される。 タスク不足やメタトレーニングタスクの分布が非常に狭いアプリケーションにおける仮定に頻繁に違反すると、暗記や学習者の過度な適合につながる。 最近のソリューションは、メタトレーニングタスクの強化を追求しているが、正しいタスクと十分な想像上のタスクの両方を生成するのは、まだ未解決の問題である。 本稿では,タスクアップサンプリングネットワークを通じてタスク表現からメタトレーニングタスクをアップサンプルする手法を提案する。 さらに、adversarial task up-sampling(atu)と名付けられたアプローチは、敵の損失を最大化することによって最新のメタリーナーに最大に貢献できるタスクを生成する。 数ショットの正弦回帰と画像分類データセットを用いて、メタテスト性能およびアップサンプリングタスクの品質において、最先端タスク拡張戦略よりもATUの顕著な改善を実証的に検証した。

The success of meta-learning on existing benchmarks is predicated on the assumption that the distribution of meta-training tasks covers meta-testing tasks. Frequent violation of the assumption in applications with either insufficient tasks or a very narrow meta-training task distribution leads to memorization or learner overfitting. Recent solutions have pursued augmentation of meta-training tasks, while it is still an open question to generate both correct and sufficiently imaginary tasks. In this paper, we seek an approach that up-samples meta-training tasks from the task representation via a task up-sampling network. Besides, the resulting approach named Adversarial Task Up-sampling (ATU) suffices to generate tasks that can maximally contribute to the latest meta-learner by maximizing an adversarial loss. On few-shot sine regression and image classification datasets, we empirically validate the marked improvement of ATU over state-of-the-art task augmentation strategies in the meta-testing performance and also the quality of up-sampled tasks.
翻訳日:2022-06-10 15:28:20 公開日:2022-06-09
# ディープグラフニューラルネットワークによるモデル劣化

Model Degradation Hinders Deep Graph Neural Networks ( http://arxiv.org/abs/2206.04361v1 )

ライセンス: Link先を確認
Wentao Zhang, Zeang Sheng, Ziqi Yin, Yuezihan Jiang, Yikuan Xia, Jun Gao, Zhi Yang, Bin Cui(参考訳) グラフニューラルネットワーク(GNN)は,様々なグラフマイニングタスクにおいて大きな成功を収めてきたが,GNNが多くの層に積み重ねられた場合,常に劇的な性能劣化が観測される。 その結果、ほとんどのGNNは浅層構造しか持たず、その表現力と深部近傍の活用を制限しており、近年の研究は、深部GNNの性能劣化を「textit{over-smoothing}」問題に起因している。 本稿では、従来のグラフ畳み込み操作を2つの独立した演算に分解する: \textit{Propagation} (\textbf{P}) と \textit{Transformation} (\textbf{T})。 次に、GNNの深さを伝播深さ(D_p$)と変換深さ(D_t$)に分割することができる。 広範な実験を通じて、ディープgnnの性能低下の主な原因は、主に大きな$d_p$によって引き起こされる \textit{over-smoothing}問題ではなく、大きな$d_t$によって引き起こされる \textit{model degradation}問題であることが判明した。 さらに,すべてのgnnアーキテクチャと互換性のあるプラグアンドプレイモジュールである \textit{adaptive initial residual} (air) を用いて, \textit{model degradation}問題と \textit{over-smoothing}問題を同時に緩和する。 6つの実世界のデータセットによる実験結果から、AIRを備えたGNNは、大きな$D_p$と$D_t$の両方の利点により、浅いアーキテクチャを持つほとんどのGNNよりも優れた性能を示し、AIRに関連する時間コストは無視できる。

Graph Neural Networks (GNNs) have achieved great success in various graph mining tasks.However, drastic performance degradation is always observed when a GNN is stacked with many layers. As a result, most GNNs only have shallow architectures, which limits their expressive power and exploitation of deep neighborhoods.Most recent studies attribute the performance degradation of deep GNNs to the \textit{over-smoothing} issue. In this paper, we disentangle the conventional graph convolution operation into two independent operations: \textit{Propagation} (\textbf{P}) and \textit{Transformation} (\textbf{T}).Following this, the depth of a GNN can be split into the propagation depth ($D_p$) and the transformation depth ($D_t$). Through extensive experiments, we find that the major cause for the performance degradation of deep GNNs is the \textit{model degradation} issue caused by large $D_t$ rather than the \textit{over-smoothing} issue mainly caused by large $D_p$. Further, we present \textit{Adaptive Initial Residual} (AIR), a plug-and-play module compatible with all kinds of GNN architectures, to alleviate the \textit{model degradation} issue and the \textit{over-smoothing} issue simultaneously. Experimental results on six real-world datasets demonstrate that GNNs equipped with AIR outperform most GNNs with shallow architectures owing to the benefits of both large $D_p$ and $D_t$, while the time costs associated with AIR can be ignored.
翻訳日:2022-06-10 15:28:01 公開日:2022-06-09
# アンサンブル小ショット分類器の診断

Diagnosing Ensemble Few-Shot Classifiers ( http://arxiv.org/abs/2206.04372v1 )

ライセンス: Link先を確認
Weikai Yang and Xi Ye and Xingxing Zhang and Lanxi Xiao and Jiazhi Xia and Zhongyuan Wang and Jun Zhu and Hanspeter Pfister and Shixia Liu(参考訳) アンサンブル数ショット分類器のベース学習者とラベル付きサンプル(ショット)はモデル性能に大きな影響を及ぼす。 パフォーマンスが満足できない場合、基礎となる原因を理解して改善を行うことは、通常困難である。 そこで本研究では,視覚解析手法であるFSLDiagnotorを提案する。 基礎学習者のセットと数ショットのサンプルの集合を考えると、我々は2つの問題を考える。 1)サンプルコレクションを適切に予測する基礎学習者のサブセットを見つけること。 2) サンプルコレクションを適切に表現するために,低品質ショットをより代表的なショットに置き換える。 両問題をスパースサブセット選択として定式化し、それぞれ適切な学習者とショットを推薦する2つの選択アルゴリズムを開発する。 マトリックスビジュアライゼーションと散乱プロットを組み合わせることで、推奨学習者とショットを文脈で説明し、ユーザによる調整を容易にする。 調整に基づいて、アルゴリズムは別の改善のための推奨結果を更新する。 2つのケーススタディにより,fsldiagnotorは数発の分類器を効率的に構築し,それぞれ12%,21%の精度向上を実現した。

The base learners and labeled samples (shots) in an ensemble few-shot classifier greatly affect the model performance. When the performance is not satisfactory, it is usually difficult to understand the underlying causes and make improvements. To tackle this issue, we propose a visual analysis method, FSLDiagnotor. Given a set of base learners and a collection of samples with a few shots, we consider two problems: 1) finding a subset of base learners that well predict the sample collections; and 2) replacing the low-quality shots with more representative ones to adequately represent the sample collections. We formulate both problems as sparse subset selection and develop two selection algorithms to recommend appropriate learners and shots, respectively. A matrix visualization and a scatterplot are combined to explain the recommended learners and shots in context and facilitate users in adjusting them. Based on the adjustment, the algorithm updates the recommendation results for another round of improvement. Two case studies are conducted to demonstrate that FSLDiagnotor helps build a few-shot classifier efficiently and increases the accuracy by 12% and 21%, respectively.
翻訳日:2022-06-10 15:27:28 公開日:2022-06-09
# 等分的最適化によるマルチモーダルVAEのモダリティ崩壊の軽減

Mitigating Modality Collapse in Multimodal VAEs via Impartial Optimization ( http://arxiv.org/abs/2206.04496v1 )

ライセンス: Link先を確認
Adri\'an Javaloy, Maryam Meghdadi and Isabel Valera(参考訳) 多くの変分オートエンコーダ(vaes)が最近登場し、画像とそれに対応するキャプションを共同でモデル化するマルチモーダルデータのモデリングを目的としている。 それでも、マルチモーダルvaeは、キャプションを無視しながら画像を適合させることによって、モダリティのサブセットのみに焦点を当てる傾向がある。 この制限をモダリティ崩壊と呼ぶ。 本研究では,マルチモーダルvaeトレーニングにおける相反する勾配の結果として,この効果を論じる。 グラデーションが競合する計算グラフ(非偏性ブロック)のサブグラフを検出する方法と、マルチタスク学習から既存のグラデーション・コンフリクト解を活用してモダリティ崩壊を緩和する方法を示す。 つまり、モダリティ間の公平な最適化を保証する。 我々は,複数のマルチモーダルvaeモデル,文献からの損失とデータセットにトレーニングフレームワークを適用し,そのフレームワークがモーダリティをまたいだ潜在空間の復元性能,条件生成,コヒーレンスを大幅に改善できることを実証的に示した。

A number of variational autoencoders (VAEs) have recently emerged with the aim of modeling multimodal data, e.g., to jointly model images and their corresponding captions. Still, multimodal VAEs tend to focus solely on a subset of the modalities, e.g., by fitting the image while neglecting the caption. We refer to this limitation as modality collapse. In this work, we argue that this effect is a consequence of conflicting gradients during multimodal VAE training. We show how to detect the sub-graphs in the computational graphs where gradients conflict (impartiality blocks), as well as how to leverage existing gradient-conflict solutions from multitask learning to mitigate modality collapse. That is, to ensure impartial optimization across modalities. We apply our training framework to several multimodal VAE models, losses and datasets from the literature, and empirically show that our framework significantly improves the reconstruction performance, conditional generation, and coherence of the latent space across modalities.
翻訳日:2022-06-10 15:27:11 公開日:2022-06-09
# 構造化変分グラフオートエンコーダによる正確なノード特徴推定

Accurate Node Feature Estimation with Structured Variational Graph Autoencoder ( http://arxiv.org/abs/2206.04516v1 )

ライセンス: Link先を確認
Jaemin Yoo, Hyunsik Jeon, Jinhong Jung, and U Kang(参考訳) ノードの特徴を部分的に観察したグラフを考えると、不足する特徴を正確に見積もることができるのか? データ収集プロセス中に一般的に欠落している実世界のグラフを分析する上で,特徴推定は重要な問題である。 正確な推定は、ノードの多様な情報を提供するだけでなく、ノードの特徴の完全な観察を必要とするグラフニューラルネットワークの推論をサポートする。 しかし,高次元特徴量推定のための効果的な手法の設計は,推定器が大きな表現力を持つ必要があるため,過剰フィッティングのリスクを増大させるため,困難である。 本研究では,特徴量推定のための精度の高いSVGA(Structured Variational Graph Autoencoder)を提案する。 SVGAは、グラフ構造に基づくガウス的マルコフ確率場として変数の先行をモデル化する構造化変分推論により、潜在変数の分布に強い正則化を適用する。 その結果、SVGAは確率的推論とグラフニューラルネットワークの利点を組み合わせて、実際のデータセットで最先端のパフォーマンスを達成することができる。

Given a graph with partial observations of node features, how can we estimate the missing features accurately? Feature estimation is a crucial problem for analyzing real-world graphs whose features are commonly missing during the data collection process. Accurate estimation not only provides diverse information of nodes but also supports the inference of graph neural networks that require the full observation of node features. However, designing an effective approach for estimating high-dimensional features is challenging, since it requires an estimator to have large representation power, increasing the risk of overfitting. In this work, we propose SVGA (Structured Variational Graph Autoencoder), an accurate method for feature estimation. SVGA applies strong regularization to the distribution of latent variables by structured variational inference, which models the prior of variables as Gaussian Markov random field based on the graph structure. As a result, SVGA combines the advantages of probabilistic inference and graph neural networks, achieving state-of-the-art performance in real datasets.
翻訳日:2022-06-10 15:26:51 公開日:2022-06-09
# スマートシステム:パターン分類のための共同ユーティリティと周波数

Smart System: Joint Utility and Frequency for Pattern Classification ( http://arxiv.org/abs/2206.04269v1 )

ライセンス: Link先を確認
Qi Lin, Wensheng Gan, Yongdong Wu, Jiahui Chen, Chien-Ming Chen(参考訳) 現在、産業用スマートシステムとiot(internet of things)の環境は、産業アップグレードが急速に進んでいる。 設計、イベント検出、分類といったビッグデータ技術は、製造業組織がスマートシステムを実現するのに役立つように開発されている。 データ分析を適用することで、リッチデータの潜在的な価値を最大化し、製造業組織がさらなるアップグレードを完了させるのに役立つ。 本稿では,ビッグデータ解析に関して,ufc$_{gen}$とufc$_{fast}$という2つの新しいアルゴリズムを提案する。 両方のアルゴリズムは、3種類のパターンを収集し、異なる製品の組み合わせの市場位置を決定する。 これらのアルゴリズムを実データと合成データの両方で比較する。 実験の結果,これらのアルゴリズムは,ユーザ指定の実用性と頻度のしきい値に基づいて,すべての候補パターンから3種類の興味深いパターンを抽出し,パターン分類を実現することができた。 さらに、リストベースのUFC$_{fast}$アルゴリズムは、実行時間とメモリ消費の両方の観点から、レベルワイドなUFC$_{gen}$アルゴリズムより優れている。

Nowadays, the environments of smart systems for Industry 4.0 and Internet of Things (IoT) are experiencing fast industrial upgrading. Big data technologies such as design making, event detection, and classification are developed to help manufacturing organizations to achieve smart systems. By applying data analysis, the potential values of rich data can be maximized and thus help manufacturing organizations to finish another round of upgrading. In this paper, we propose two new algorithms with respect to big data analysis, namely UFC$_{gen}$ and UFC$_{fast}$. Both algorithms are designed to collect three types of patterns to help people determine the market positions for different product combinations. We compare these algorithms on various types of datasets, both real and synthetic. The experimental results show that both algorithms can successfully achieve pattern classification by utilizing three different types of interesting patterns from all candidate patterns based on user-specified thresholds of utility and frequency. Furthermore, the list-based UFC$_{fast}$ algorithm outperforms the level-wise-based UFC$_{gen}$ algorithm in terms of both execution time and memory consumption.
翻訳日:2022-06-10 15:25:38 公開日:2022-06-09
# 説明可能性を支援する説明の分類法

A taxonomy of explanations to support Explainability-by-Design ( http://arxiv.org/abs/2206.04438v1 )

ライセンス: Link先を確認
Niko Tsakalakis, Sophie Stalla-Bourdillon, Trung Dong Huynh, Luc Moreau(参考訳) 自動意思決定ソリューションが日常生活のあらゆる側面に適用されるようになるにつれて、様々な利害関係者(意思決定者、意思決定の受取人、監査人、規制官など)に意味のある説明をもたらす能力が重要になる。 本稿では,プロジェクト PLEAD のために総合的な "説明可能性・デザイン" アプローチの一部として開発された説明の分類について述べる。 分類学は、ハイレベルなコンプライアンス要件の翻訳やビジネスニーズを満たすために組織レベルで設定されたさまざまな規制フレームワークやポリシーから生じる幅広い要件の説明を作成するために構築された。 分類は9次元からなる。 支援的自動コンプライアンス戦略を支援するために、探偵統制として考案された説明の単独分類器として用いられる。 分類学の機械可読形式は、光オントロジーの形で提供され、このような分類学による説明可能性・設計の旅を始める利点は、一連の例を通して示される。

As automated decision-making solutions are increasingly applied to all aspects of everyday life, capabilities to generate meaningful explanations for a variety of stakeholders (i.e., decision-makers, recipients of decisions, auditors, regulators...) become crucial. In this paper, we present a taxonomy of explanations that was developed as part of a holistic 'Explainability-by-Design' approach for the purposes of the project PLEAD. The taxonomy was built with a view to produce explanations for a wide range of requirements stemming from a variety of regulatory frameworks or policies set at the organizational level either to translate high-level compliance requirements or to meet business needs. The taxonomy comprises nine dimensions. It is used as a stand-alone classifier of explanations conceived as detective controls, in order to aid supportive automated compliance strategies. A machinereadable format of the taxonomy is provided in the form of a light ontology and the benefits of starting the Explainability-by-Design journey with such a taxonomy are demonstrated through a series of examples.
翻訳日:2022-06-10 15:25:25 公開日:2022-06-09
# AAM-Gym:高度エアモビリティのための人工知能テストベッド

AAM-Gym: Artificial Intelligence Testbed for Advanced Air Mobility ( http://arxiv.org/abs/2206.04513v1 )

ライセンス: Link先を確認
Marc Brittain, Luis E. Alvarez, Kara Breeden, Ian Jessen(参考訳) 本稿では,AAM(Advanced Air Mobility)のための研究開発用ベッドであるAAM-Gymを紹介する。 AAMは、電気垂直離着陸(eVTOL)航空機や新しい高度な人工知能(AI)アルゴリズムなどの新しいタイプの航空機を活用することで、地上交通と排出を減らすことで、旅行に革命をもたらす可能性がある。 AIアルゴリズムの検証には、一般的なAAMシナリオと、パフォーマンスを評価するための高速なシミュレーションが必要だ。 これまで、AAMが政府、産業、学界の個人に対して共通の研究プラットフォームを実現するためのテストベッドは存在していなかった。 MIT Lincoln LaboratoryはAAM-Gymを開発し、さまざまなAAMユースケースで、新しく確立されたAIアルゴリズムを開発し、訓練し、検証するエコシステムを提供することによって、このギャップに対処した。 本稿では,AAM廊下における2つの強化学習アルゴリズムの性能,分離保証について,AAM-Gymを用いて検討する。 2つのアルゴリズムのパフォーマンスは、AAM-Gymが提供した一連のメトリクスに基づいて示され、テストベッドがAAM研究に有効であることを示す。

We introduce AAM-Gym, a research and development testbed for Advanced Air Mobility (AAM). AAM has the potential to revolutionize travel by reducing ground traffic and emissions by leveraging new types of aircraft such as electric vertical take-off and landing (eVTOL) aircraft and new advanced artificial intelligence (AI) algorithms. Validation of AI algorithms require representative AAM scenarios, as well as a fast time simulation testbed to evaluate their performance. Until now, there has been no such testbed available for AAM to enable a common research platform for individuals in government, industry, or academia. MIT Lincoln Laboratory has developed AAM-Gym to address this gap by providing an ecosystem to develop, train, and validate new and established AI algorithms across a wide variety of AAM use-cases. In this paper, we use AAM-Gym to study the performance of two reinforcement learning algorithms on an AAM use-case, separation assurance in AAM corridors. The performance of the two algorithms is demonstrated based on a series of metrics provided by AAM-Gym, showing the testbed's utility to AAM research.
翻訳日:2022-06-10 15:25:08 公開日:2022-06-09
# 遺伝的プログラミングを構築する関数型コード

Functional Code Building Genetic Programming ( http://arxiv.org/abs/2206.04561v1 )

ライセンス: Link先を確認
Edward Pantridge, Thomas Helmuth, Lee Spector(参考訳) 一般的なプログラム合成は、遺伝的プログラミング(gp)や人工知能のより一般的な応用分野となっている。 Code Building Genetic Programming (CBGP)は、リフレクションとファーストクラス仕様を利用して既存のコードベースから引き出された任意のデータ型、多型、関数を使用するプログラムの進化をサポートする汎用プログラム合成のための最近導入されたGPメソッドである。 しかし、正式な記述やCBGPの徹底的なベンチマークは報告されていない。 本研究では,型理論のアルゴリズムを用いてCBGPの手法を定式化する。 特に、関数型プログラミング言語とヒンドレー・ミルナー型システムは、オリジナルのcbgp論文で抽象的に記述されたプロセスを用いて、タイプセーフなプログラムを進化させるのに使用できることを示す。 さらに,同時代のgpプログラム合成法と比較して,cbgpの機能的特徴の探索性能の包括的解析を行った。

General program synthesis has become an important application area for genetic programming (GP), and for artificial intelligence more generally. Code Building Genetic Programming (CBGP) is a recently introduced GP method for general program synthesis that leverages reflection and first class specifications to support the evolution of programs that may use arbitrary data types, polymorphism, and functions drawn from existing codebases. However, neither a formal description nor a thorough benchmarking of CBGP have yet been reported. In this work, we formalize the method of CBGP using algorithms from type theory. Specially, we show that a functional programming language and a Hindley-Milner type system can be used to evolve type-safe programs using the process abstractly described in the original CBGP paper. Furthermore, we perform a comprehensive analysis of the search performance of this functional variant of CBGP compared to other contemporary GP program synthesis methods.
翻訳日:2022-06-10 15:24:49 公開日:2022-06-09
# TwiBot-22: グラフベースのTwitterボット検出を目指す

TwiBot-22: Towards Graph-Based Twitter Bot Detection ( http://arxiv.org/abs/2206.04564v1 )

ライセンス: Link先を確認
Shangbin Feng, Zhaoxuan Tan, Herun Wan, Ningnan Wang, Zilong Chen, Binchi Zhang, Qinghua Zheng, Wenqian Zhang, Zhenyu Lei, Shujie Yang, Xinshun Feng, Qingyue Zhang, Hongrui Wang, Yuhan Liu, Yuyang Bai, Heng Wang, Zijian Cai, Yanbo Wang, Lijing Zheng, Zihan Ma, Jundong Li, Minnan Luo(参考訳) Twitterのボット検出は、誤情報に対処し、ソーシャルメディアのモデレーションを促進し、オンライン会話の完全性を維持するためにますます重要になっている。 最先端のボット検出手法は、一般的にtwitterネットワークのグラフ構造を利用しており、従来の方法では検出できない新しいtwitterボットに直面すると有望な性能を発揮する。 しかし、既存のtwitterボット検出データセットのほとんどがグラフベースであり、これらのグラフベースデータセットでさえも、データセットスケールの制限、不完全なグラフ構造、アノテーション品質の低下に悩まされている。 実際、これらの問題に対処する大規模なグラフベースのtwitterボット検出ベンチマークの欠如は、グラフベースの新しいボット検出アプローチの開発と評価を深刻な障害にしている。 本稿では,グラフベースのTwitterボット検出ベンチマークであるTwiBot-22を提案する。このベンチマークは,これまでで最大のデータセットを示し,Twitterネットワーク上で多様なエンティティと関係を提供し,既存のデータセットよりもはるかに優れたアノテーション品質を有する。 さらに、35の代表的なtwitterボット検出ベースラインを再実装し、twibot-22を含む9つのデータセットで評価し、モデル性能と研究進捗の全体的理解を公平に比較した。 さらなる研究を容易にするために、実装されたすべてのコードとデータセットをtwibot-22評価フレームワークに統合し、研究者が新しいモデルとデータセットを一貫して評価できるようにしました。 twibot-22 twitter bot detection benchmark and evaluation frameworkはhttps://twibot22.github.io/で公開されている。

Twitter bot detection has become an increasingly important task to combat misinformation, facilitate social media moderation, and preserve the integrity of the online discourse. State-of-the-art bot detection methods generally leverage the graph structure of the Twitter network, and they exhibit promising performance when confronting novel Twitter bots that traditional methods fail to detect. However, very few of the existing Twitter bot detection datasets are graph-based, and even these few graph-based datasets suffer from limited dataset scale, incomplete graph structure, as well as low annotation quality. In fact, the lack of a large-scale graph-based Twitter bot detection benchmark that addresses these issues has seriously hindered the development and evaluation of novel graph-based bot detection approaches. In this paper, we propose TwiBot-22, a comprehensive graph-based Twitter bot detection benchmark that presents the largest dataset to date, provides diversified entities and relations on the Twitter network, and has considerably better annotation quality than existing datasets. In addition, we re-implement 35 representative Twitter bot detection baselines and evaluate them on 9 datasets, including TwiBot-22, to promote a fair comparison of model performance and a holistic understanding of research progress. To facilitate further research, we consolidate all implemented codes and datasets into the TwiBot-22 evaluation framework, where researchers could consistently evaluate new models and datasets. The TwiBot-22 Twitter bot detection benchmark and evaluation framework are publicly available at https://twibot22.github.io/
翻訳日:2022-06-10 15:24:35 公開日:2022-06-09
# 分別非負行列分解を財務外データに適用する

Applying separative non-negative matrix factorization to extra-financial data ( http://arxiv.org/abs/2206.04350v1 )

ライセンス: Link先を確認
P Fogel, C Geissler, P Cotte, G Luta (GU)(参考訳) 本稿では,非負行列分解法(NMF)のオリジナル応用について述べる。 これらのデータは共変量と観測値の間に高い相関関係がある。 NMFは、単純な主成分分析(PCA)よりも、より関連性の高い共変量と観測のクラスタリングを提供する。 さらに,NMF適用前の初期データ分離ステップにより,クラスタリングの品質がさらに向上することを示す。

We present here an original application of the non-negative matrix factorization (NMF) method, for the case of extra-financial data. These data are subject to high correlations between co-variables, as well as between observations. NMF provides a much more relevant clustering of co-variables and observations than a simple principal component analysis (PCA). In addition, we show that an initial data separation step before applying NMF further improves the quality of the clustering.
翻訳日:2022-06-10 15:24:12 公開日:2022-06-09
# インド語のASRシステムにおける文脈に基づく語彙外単語復元

Context-based out-of-vocabulary word recovery for ASR systems in Indian languages ( http://arxiv.org/abs/2206.04305v1 )

ライセンス: Link先を確認
Arun Baby, Saranya Vinnaitherthan, Akhil Kerhalkar, Pranav Jawale, Sharath Adavanne, Nagaraj Adiga(参考訳) 自動音声認識(ASR)システムでは,oo-of-vocabulary(OOV)単語の検出と回復が常に困難である。 既存の多くの手法は、音響モデルと言語モデルを変更し、文脈語を巧みにモデルに統合することで、OOV単語のモデリングに重点を置いている。 このような複雑なモデルをトレーニングするには、コンテキストワードによる大量のデータ、トレーニング時間の追加、モデルサイズの増加が必要です。 しかし、asr転写により文脈に基づくoov単語を回復させた後、後処理法はあまり検討されていない。 本研究では,文脈に基づくOOV回収の性能向上のための後処理手法を提案する。 音声レベルでのサブグラフとOOV単語リストを用いた音響的に強化された言語モデルを構築した。 そこで我々は,その文脈に基づいてOOV単語の検索に適したコスト関数を決定する2つの手法を提案する。 コスト関数は、デコード中の正しい文脈単語のマッチングと復元のための音声的および音響的知識に基づいて定義される。 提案するコスト関数の有効性は,単語レベルと文レベルの両方で評価する。 評価の結果,複数のカテゴリにまたがる平均50%の文脈ベースOOV単語を復元できることがわかった。

Detecting and recovering out-of-vocabulary (OOV) words is always challenging for Automatic Speech Recognition (ASR) systems. Many existing methods focus on modeling OOV words by modifying acoustic and language models and integrating context words cleverly into models. To train such complex models, we need a large amount of data with context words, additional training time, and increased model size. However, after getting the ASR transcription to recover context-based OOV words, the post-processing method has not been explored much. In this work, we propose a post-processing technique to improve the performance of context-based OOV recovery. We created an acoustically boosted language model with a sub-graph made at phone level with an OOV words list. We proposed two methods to determine a suitable cost function to retrieve the OOV words based on the context. The cost function is defined based on phonetic and acoustic knowledge for matching and recovering the correct context words in the decode. The effectiveness of the proposed cost function is evaluated at both word-level and sentence-level. The evaluation results show that this approach can recover an average of 50% context-based OOV words across multiple categories.
翻訳日:2022-06-10 15:23:57 公開日:2022-06-09
# (参考訳) 学習例と分散視覚表現のためのエクストリームマスキング

Extreme Masking for Learning Instance and Distributed Visual Representations ( http://arxiv.org/abs/2206.04667v1 )

ライセンス: CC BY 4.0
Zhirong Wu, Zihang Lai, Xiao Sun, Stephen Lin(参考訳) 本稿では,トークンの分散表現とインスタンス表現を同時に学習するためのスケーラブルな手法を提案する。 分散トークンを表すために自己アテンションブロックを使用し、続いてクロスアテンションブロックを使用して全体インスタンスを集約します。 このアプローチの核心は、データ強化として非常に大きなトークンマスキング(75%-90%)を使用することである。 我々のモデルであるExtreMAは、未成熟なサブセットからのインスタンス表現をトレーニングして、無傷な入力からそれを予測する、プレーンなBYOLアプローチに従っています。 学習には、不変性を奨励するのではなく、インスタンス内の情報的バリエーションをキャプチャするモデルが必要である。 論文には3つの貢献があります 1)ランダムマスキングは一般化された注意表現を学習するための強固で計算効率の良いデータ拡張である。 2) インスタンス毎に複数のサンプリングを行うと、extreme maskingはより多くのデータに対する学習と空腹を大幅にスピードアップさせる。 3) 分散表現は、マスクモデリングにおけるトークン単位の監督とは異なり、インスタンスの監督からのみ学習することができる。

The paper presents a scalable approach for learning distributed representations over individual tokens and a holistic instance representation simultaneously. We use self-attention blocks to represent distributed tokens, followed by cross-attention blocks to aggregate the holistic instance. The core of the approach is the use of extremely large token masking (75%-90%) as the data augmentation for supervision. Our model, named ExtreMA, follows the plain BYOL approach where the instance representation from the unmasked subset is trained to predict that from the intact input. Learning requires the model to capture informative variations in an instance, instead of encouraging invariances. The paper makes three contributions: 1) Random masking is a strong and computationally efficient data augmentation for learning generalizable attention representations. 2) With multiple sampling per instance, extreme masking greatly speeds up learning and hungers for more data. 3) Distributed representations can be learned from the instance supervision alone, unlike per-token supervisions in masked modeling.
翻訳日:2022-06-10 15:22:28 公開日:2022-06-09
# Uni-Perceiver-MoE:条件付きMoEを用いたスパースジェネリストモデル学習

Uni-Perceiver-MoE: Learning Sparse Generalist Models with Conditional MoEs ( http://arxiv.org/abs/2206.04674v1 )

ライセンス: Link先を確認
Jinguo Zhu, Xizhou Zhu, Wenhai Wang, Xiaohua Wang, Hongsheng Li, Xiaogang Wang, Jifeng Dai(参考訳) 生体情報システムのような人工ニューラルネットワークを構築するために、最近の研究は様々なタスクをジェネラリストモデルに統合し、共有パラメータで様々なタスクを処理し、タスク固有のモジュールを持たない。 ジェネラリストモデルは様々なベンチマークで有望な結果をもたらすが、タスク特化モデルと比較していくつかのタスクでパフォーマンスが低下する。 本研究では,異なるタスクとモダリティ間の干渉が,この現象の主な要因であることを見出した。 このような干渉を軽減するため、一般モデルに条件混合(Conditional Mixture-of-Experts)を導入する。 トレーニング/推論コストと一般化能力の両方を考慮するため、異なるレベルの条件下でのルーティング戦略を提案する。 提案する条件付きmoesを組み込むことにより,最近提案されたジェネラリストモデルのuni-perceiverは,タスク間の干渉を効果的に軽減し,下流データの1%を高速にチューニングすることで,下流タスクの最先端結果を実現する。 さらに、Conditional MoEsの導入は、ビデオテキスト検索やビデオキャプションといった新しいタスクでゼロショット推論を行うジェネラリストモデルの一般化能力を保っている。 コード及び事前訓練されたジェネリストモデルをリリースする。

To build an artificial neural network like the biological intelligence system, recent works have unified numerous tasks into a generalist model, which can process various tasks with shared parameters and do not have any task-specific modules. While generalist models achieve promising results on various benchmarks, they have performance degradation on some tasks compared with task-specialized models. In this work, we find that interference among different tasks and modalities is the main factor to this phenomenon. To mitigate such interference, we introduce the Conditional Mixture-of-Experts (Conditional MoEs) to generalist models. Routing strategies under different levels of conditions are proposed to take both the training/inference cost and generalization ability into account. By incorporating the proposed Conditional MoEs, the recently proposed generalist model Uni-Perceiver can effectively mitigate the interference across tasks and modalities, and achieves state-of-the-art results on a series of downstream tasks via prompt tuning on 1% of downstream data. Moreover, the introduction of Conditional MoEs still holds the generalization ability of generalist models to conduct zero-shot inference on new tasks, e.g., video-text retrieval and video caption. Code and pre-trained generalist models shall be released.
翻訳日:2022-06-10 15:06:39 公開日:2022-06-09
# ScatterSample: データ効率の良いグラフニューラルネットワーク学習のための多様なラベルサンプリング

ScatterSample: Diversified Label Sampling for Data Efficient Graph Neural Network Learning ( http://arxiv.org/abs/2206.04255v1 )

ライセンス: Link先を確認
Zhenwei Dai, Vasileios Ioannidis, Soji Adeshina, Zak Jost, Christos Faloutsos, George Karypis(参考訳) グラフニューラルネットワーク(GNN)トレーニングに最も有効なターゲットラベルは何か? GNNがドラッグデザインや不正検出に優れるアプリケーションでは、新しいインスタンスのラベル付けが高価である。 データ効率のよいアクティブサンプリングフレームワークであるScatterSampleを開発し、アクティブな学習環境下でGNNを訓練する。 ScatterSampleはDiverseUncertaintyと呼ばれるサンプリングモジュールを使用して、ラベル付けのためにサンプル空間の異なる領域から大きな不確実性のあるインスタンスを収集する。 選択されたノードの多様化を保証するため、DiverseUncertaintyは高い不確実性ノードをクラスタ化し、各クラスタから代表ノードを選択する。 本アルゴリズムは,不確かさを最大化し,サンプルの多様化を行なわない標準アクティブサンプリング法と比較して,厳密な理論解析によってさらに支持されている。 特に,ScatterSampleは,サンプル空間全体のモデル不確実性を効率的に低減できることを示す。 5つのデータセットを用いた実験の結果,sscattersampleは他のgnnアクティブラーニングベースラインを大きく上回り,サンプリングコストを最大50%削減し,同じテスト精度を達成していることがわかった。

What target labels are most effective for graph neural network (GNN) training? In some applications where GNNs excel-like drug design or fraud detection, labeling new instances is expensive. We develop a data-efficient active sampling framework, ScatterSample, to train GNNs under an active learning setting. ScatterSample employs a sampling module termed DiverseUncertainty to collect instances with large uncertainty from different regions of the sample space for labeling. To ensure diversification of the selected nodes, DiverseUncertainty clusters the high uncertainty nodes and selects the representative nodes from each cluster. Our ScatterSample algorithm is further supported by rigorous theoretical analysis demonstrating its advantage compared to standard active sampling methods that aim to simply maximize the uncertainty and not diversify the samples. In particular, we show that ScatterSample is able to efficiently reduce the model uncertainty over the whole sample space. Our experiments on five datasets show that ScatterSample significantly outperforms the other GNN active learning baselines, specifically it reduces the sampling cost by up to 50% while achieving the same test accuracy.
翻訳日:2022-06-10 15:05:40 公開日:2022-06-09
# 迷路の強化学習には正確性・解釈性トレードオフがない

There is no Accuracy-Interpretability Tradeoff in Reinforcement Learning for Mazes ( http://arxiv.org/abs/2206.04266v1 )

ライセンス: Link先を確認
Yishay Mansour, Michal Moshkovitz, Cynthia Rudin(参考訳) 通訳性は強化学習システムにおける信頼性に不可欠な構成要素である。 しかし、解釈容易性は性能低下の犠牲となり、多くの研究者が複雑なモデルを構築することになった。 私たちの目標は、解釈可能性のコストを分析することです。 ある場合には、その最適性を維持しながら、ポリシー解釈可能性を達成できることを示す。 我々は強化学習から古典的な問題に焦点をあてる:$k$の障害を持つ迷路は$\mathbb{R}^d$である。 我々は、各内部ノードに線型関数を持つ小さな決定木と、最適ポリシーを表す深さ$O(\log k + 2^d)$の存在を証明した。 一定の$d$ の興味深い場合、$o(\log k)$ の深さがあることに注意してください。 したがって、この設定では精度-解釈可能性のトレードオフはない。 この結果を証明するために、追加設定で有用かもしれない新しい"圧縮"技術を使用します。

Interpretability is an essential building block for trustworthiness in reinforcement learning systems. However, interpretability might come at the cost of deteriorated performance, leading many researchers to build complex models. Our goal is to analyze the cost of interpretability. We show that in certain cases, one can achieve policy interpretability while maintaining its optimality. We focus on a classical problem from reinforcement learning: mazes with $k$ obstacles in $\mathbb{R}^d$. We prove the existence of a small decision tree with a linear function at each inner node and depth $O(\log k + 2^d)$ that represents an optimal policy. Note that for the interesting case of a constant $d$, we have $O(\log k)$ depth. Thus, in this setting, there is no accuracy-interpretability tradeoff. To prove this result, we use a new "compressing" technique that might be useful in additional settings.
翻訳日:2022-06-10 15:05:19 公開日:2022-06-09
# (参考訳) PointNeXt: トレーニングとスケーリング戦略を改善したPointNet++の再検討

PointNeXt: Revisiting PointNet++ with Improved Training and Scaling Strategies ( http://arxiv.org/abs/2206.04670v1 )

ライセンス: CC BY 4.0
Guocheng Qian, Yuchen Li, Houwen Peng, Jinjie Mai, Hasan Abed Al Kader Hammoud, Mohamed Elhoseiny, Bernard Ghanem(参考訳) PointNet++は、ポイントクラウド理解のための最も影響力のあるニューラルネットワークの1つである。 PointNet++の精度は、PointMLPやPoint Transformerといった最近のネットワークに大きく上回っているが、性能向上の大部分は、データ拡張と最適化技術の改善によるものであり、アーキテクチャの革新よりもモデルサイズの増加によるものである。 したがって、PointNet++の完全な可能性はまだ検討されていない。 本研究では,モデルトレーニングとスケーリング戦略の体系的研究を通じて,古典的pointnet++を再検討し,2つの大きな貢献を行った。 まず、pointnet++のパフォーマンスを大幅に向上させるトレーニング戦略のセットを提案する。 例えば、アーキテクチャの変更がなければ、ScanObjectNNオブジェクト分類におけるPointNet++の全体的な精度(OA)が77.9\%から86.1\%に上昇し、最先端のPointMLPよりも向上することを示す。 第2に,効率よく効率的なモデルスケーリングを実現するために,倒立残差ボトルネック設計と分離可能なMPPをPointNet++に導入し,PointNetsの次期バージョンであるPointNeXtを提案する。 PointNeXtは柔軟にスケールアップでき、3D分類タスクとセグメンテーションタスクの両方で最先端のメソッドより優れている。 分類では、pointnextはscanobjectnnで87.7\%$で、pointmlpを2.3\%$で上回り、推論で10 \times$が速い。 セマンティックセグメンテーションのために、PointNeXtは、最新のPoint Transformerよりも優れているS3DIS(6倍のクロスバリデーション)上で74.9\%の平均IoUで新しい最先端のパフォーマンスを確立する。 コードとモデルはhttps://github.com/guochengqian/pointnextで入手できる。

PointNet++ is one of the most influential neural architectures for point cloud understanding. Although the accuracy of PointNet++ has been largely surpassed by recent networks such as PointMLP and Point Transformer, we find that a large portion of the performance gain is due to improved training strategies, i.e. data augmentation and optimization techniques, and increased model sizes rather than architectural innovations. Thus, the full potential of PointNet++ has yet to be explored. In this work, we revisit the classical PointNet++ through a systematic study of model training and scaling strategies, and offer two major contributions. First, we propose a set of improved training strategies that significantly improve PointNet++ performance. For example, we show that, without any change in architecture, the overall accuracy (OA) of PointNet++ on ScanObjectNN object classification can be raised from 77.9\% to 86.1\%, even outperforming state-of-the-art PointMLP. Second, we introduce an inverted residual bottleneck design and separable MLPs into PointNet++ to enable efficient and effective model scaling and propose PointNeXt, the next version of PointNets. PointNeXt can be flexibly scaled up and outperforms state-of-the-art methods on both 3D classification and segmentation tasks. For classification, PointNeXt reaches an overall accuracy of $87.7\%$ on ScanObjectNN, surpassing PointMLP by $2.3\%$, while being $10 \times$ faster in inference. For semantic segmentation, PointNeXt establishes a new state-of-the-art performance with $74.9\%$ mean IoU on S3DIS (6-fold cross-validation), being superior to the recent Point Transformer. The code and models are available at https://github.com/guochengqian/pointnext.
翻訳日:2022-06-10 15:04:36 公開日:2022-06-09
# Geometry-Guided Kernel Transformer を用いた効率的な2D-to-BEV表現学習

Efficient and Robust 2D-to-BEV Representation Learning via Geometry-guided Kernel Transformer ( http://arxiv.org/abs/2206.04584v1 )

ライセンス: Link先を確認
Shaoyu Chen and Tianheng Cheng and Xinggang Wang and Wenming Meng and Qian Zhang and Wenyu Liu(参考訳) 周囲カメラからの鳥の目視(bev)表現を学習することは、自動運転にとって非常に重要である。 本研究では,新しい2D-to-BEV表現学習機構であるGeometry-Guided Kernel Transformer (GKT)を提案する。 GKTは幾何学的先行情報を利用してトランスフォーマーを識別領域に集中させ、カーネル機能を展開してBEV表現を生成する。 高速な推論のために、我々はさらに、カメラのキャリブレーションパラメータを実行時に取り除くためにルックアップテーブル(lut)インデックスメソッドを導入します。 GKTは、3090 GPUで72.3ドルFPS、2080ti GPUで45.6ドルFPSで動作でき、カメラの偏差とBEVの高さに対して堅牢である。 GKT は nuScenes val 集合上で38.0 mIoU (100m$\times$100m の知覚範囲) という最先端のリアルタイムセグメンテーション結果を達成する。 効率性、有効性、堅牢性を考えると、gktはオートパイロットシナリオ、特にリアルタイム実行システムにおいて、非常に実用的な価値を持っている。 コードとモデルは \url{https://github.com/hustvl/GKT} で入手できる。

Learning Bird's Eye View (BEV) representation from surrounding-view cameras is of great importance for autonomous driving. In this work, we propose a Geometry-guided Kernel Transformer (GKT), a novel 2D-to-BEV representation learning mechanism. GKT leverages the geometric priors to guide the transformer to focus on discriminative regions and unfolds kernel features to generate BEV representation. For fast inference, we further introduce a look-up table (LUT) indexing method to get rid of the camera's calibrated parameters at runtime. GKT can run at $72.3$ FPS on 3090 GPU / $45.6$ FPS on 2080ti GPU and is robust to the camera deviation and the predefined BEV height. And GKT achieves the state-of-the-art real-time segmentation results, i.e., 38.0 mIoU (100m$\times$100m perception range at a 0.5m resolution) on the nuScenes val set. Given the efficiency, effectiveness, and robustness, GKT has great practical values in autopilot scenarios, especially for real-time running systems. Code and models will be available at \url{https://github.com/hustvl/GKT}.
翻訳日:2022-06-10 14:40:13 公開日:2022-06-09
# 層状画像ベクトル化に向けて

Towards Layer-wise Image Vectorization ( http://arxiv.org/abs/2206.04655v1 )

ライセンス: Link先を確認
Xu Ma, Yuqian Zhou, Xingqian Xu, Bin Sun, Valerii Filev, Nikita Orlov, Yun Fu, Humphrey Shi(参考訳) 画像ラスタ化はコンピュータグラフィックスにおいて成熟した技法であり、画像ベクトル化はラスタ化の逆経路である。 近年のディープラーニングモデルでは,ベクトルグラフのベクトル化と意味的補間が実現され,新たな図形生成のトポロジーが向上している。 しかし、深層モデルはドメイン外のテストデータに簡単に一般化できない。 生成されたSVGは複雑で冗長な形状も含んでいて、さらなる編集にはあまり便利ではない。 具体的には、重要な階層的トポロジーとイメージの基本的な意味論はまだよく理解されておらず、十分に検討されていない。 本研究では,ラスタ画像をSVGに変換し,画像トポロジを同時に維持するレイヤワイズ画像ベクトル化(LIVE)を提案する。 LIVEは、人間の視点にセマンティックに整合した階層構造を持つコンパクトなSVGフォームを生成することができる。 我々は段階的に新しいベジエパスを追加し、レイヤーワイズフレームワーク、新しく設計された損失関数、コンポーネントワイズパス初期化技術を用いてこれらのパスを最適化する。 私たちの実験では、liveは以前の作品よりもより妥当なベクトル化形式を示し、新しい画像に一般化できることを示した。 この新しく学んだトポロジーの助けを借りて、liveはデザイナーと他の下流アプリケーションの両方で編集可能なsvgを開始する。 コードはhttps://github.com/Picsart-AI-Research/LIVE-Layerwise-Image-Vectorizationで公開されている。

Image rasterization is a mature technique in computer graphics, while image vectorization, the reverse path of rasterization, remains a major challenge. Recent advanced deep learning-based models achieve vectorization and semantic interpolation of vector graphs and demonstrate a better topology of generating new figures. However, deep models cannot be easily generalized to out-of-domain testing data. The generated SVGs also contain complex and redundant shapes that are not quite convenient for further editing. Specifically, the crucial layer-wise topology and fundamental semantics in images are still not well understood and thus not fully explored. In this work, we propose Layer-wise Image Vectorization, namely LIVE, to convert raster images to SVGs and simultaneously maintain its image topology. LIVE can generate compact SVG forms with layer-wise structures that are semantically consistent with human perspective. We progressively add new bezier paths and optimize these paths with the layer-wise framework, newly designed loss functions, and component-wise path initialization technique. Our experiments demonstrate that LIVE presents more plausible vectorized forms than prior works and can be generalized to new images. With the help of this newly learned topology, LIVE initiates human editable SVGs for both designers and other downstream applications. Codes are made available at https://github.com/Picsart-AI-Research/LIVE-Layerwise-Image-Vectorization.
翻訳日:2022-06-10 14:39:48 公開日:2022-06-09
# AGConv: 3Dポイントクラウド上の適応的なグラフ畳み込み

AGConv: Adaptive Graph Convolution on 3D Point Clouds ( http://arxiv.org/abs/2206.04665v1 )

ライセンス: Link先を確認
Mingqiang Wei, Zeyong Wei, Haoran Zhou, Fei Hu, Huajian Si, Zhilei Chen, Zhe Zhu, Jingbo Qiu, Xuefeng Yan, Yanwen Guo, Jun Wang, Jing Qin(参考訳) 三次元点雲上の畳み込みは幾何学的深層学習において完璧とは程遠い研究がなされている。 畳み込みの伝統的な知恵は、3Dポイント間で区別がつかない特徴対応を特徴付ける。 本稿では,ポイントクラウド解析の幅広い応用のための適応グラフ畳み込み(AGConv)を提案する。 AGConvは、動的に学習された特徴に応じて、ポイントの適応カーネルを生成する。 固定/等方性カーネルを使用するソリューションと比較して、agconvはポイントクラウド畳み込みの柔軟性を改善し、異なる意味的な部分からポイント間の多様な関係を効果的かつ正確に捉える。 一般的な注意重みスキームとは異なり、AGConvは隣接する点に異なる重みを割り当てるのではなく、畳み込み操作内で適応性を実装する。 大規模評価の結果, この手法は様々なベンチマークデータセットにおいて, ポイントクラウド分類とセグメンテーションの最先端性に優れており, その一方でAGConvはよりポイントクラウド分析のアプローチを柔軟に提供し, 性能を向上させることができることがわかった。 その柔軟性と有効性を検証するために、我々はAGConvベースの完成、装飾、アップサンプリング、登録、円抽出のパラダイムを探求する。 私たちのコードはhttps://github.com/hrzhou2/AdaptConv-masterで利用可能です。

Convolution on 3D point clouds is widely researched yet far from perfect in geometric deep learning. The traditional wisdom of convolution characterises feature correspondences indistinguishably among 3D points, arising an intrinsic limitation of poor distinctive feature learning. In this paper, we propose Adaptive Graph Convolution (AGConv) for wide applications of point cloud analysis. AGConv generates adaptive kernels for points according to their dynamically learned features. Compared with the solution of using fixed/isotropic kernels, AGConv improves the flexibility of point cloud convolutions, effectively and precisely capturing the diverse relations between points from different semantic parts. Unlike the popular attentional weight schemes, AGConv implements the adaptiveness inside the convolution operation instead of simply assigning different weights to the neighboring points. Extensive evaluations clearly show that our method outperforms state-of-the-arts of point cloud classification and segmentation on various benchmark datasets.Meanwhile, AGConv can flexibly serve more point cloud analysis approaches to boost their performance. To validate its flexibility and effectiveness, we explore AGConv-based paradigms of completion, denoising, upsampling, registration and circle extraction, which are comparable or even superior to their competitors. Our code is available at https://github.com/hrzhou2/AdaptConv-master.
翻訳日:2022-06-10 14:39:26 公開日:2022-06-09
# GateHUB: オンラインアクション検出のためのバックグラウンド抑圧付きゲートヒストリーユニット

GateHUB: Gated History Unit with Background Suppression for Online Action Detection ( http://arxiv.org/abs/2206.04668v1 )

ライセンス: Link先を確認
Junwen Chen, Gaurav Mittal, Ye Yu, Yu Kong, Mei Chen(参考訳) オンラインアクション検出は、ストリーミングビデオで発生したアクションをすぐに予測するタスクである。 主要な課題は、モデルが未来にアクセスすることができず、予測するためには歴史、すなわちこれまで観察されたフレームにのみ依存しなければならないことである。 したがって、現在のフレームの予測により有益である歴史の一部を強調することが重要である。 背景抑圧機能を有するゲート履歴ユニットgatehubを提案する。これは新しい位置誘導ゲートクロスアテンション機構で構成されており、現在のフレーム予測にいかに有益であるかに応じて履歴の一部を強化または抑制する。 gatehubはさらに、後続の観察されたフレームを使用することで、履歴機能をより有益なものにするために、future-augmented history(fah)を提案している。 単一の統合フレームワークにおいて、GateHUBはトランスフォーマーの長距離時間モデリング能力と、関連する情報を選択的にエンコードするリカレントモデルの能力を統合する。 gatehubはまた、アクションフレームによく似た偽のポジティブな背景フレームを緩和するバックグラウンド抑圧目的も導入している。 THUMOS、TVSeries、HDDの3つのベンチマークデータセットに対する大規模な検証は、GateHUBが既存のすべてのメソッドを大幅に上回っており、既存のベストプラクティスよりも効率的であることを示している。 さらに、フローフリーバージョンのgatehubは、予測のためにrgbと光フロー情報の両方を必要とする既存の方法よりも2.8倍高いフレームレートで高いまたは近い精度を達成することができる。

Online action detection is the task of predicting the action as soon as it happens in a streaming video. A major challenge is that the model does not have access to the future and has to solely rely on the history, i.e., the frames observed so far, to make predictions. It is therefore important to accentuate parts of the history that are more informative to the prediction of the current frame. We present GateHUB, Gated History Unit with Background Suppression, that comprises a novel position-guided gated cross-attention mechanism to enhance or suppress parts of the history as per how informative they are for current frame prediction. GateHUB further proposes Future-augmented History (FaH) to make history features more informative by using subsequently observed frames when available. In a single unified framework, GateHUB integrates the transformer's ability of long-range temporal modeling and the recurrent model's capacity to selectively encode relevant information. GateHUB also introduces a background suppression objective to further mitigate false positive background frames that closely resemble the action frames. Extensive validation on three benchmark datasets, THUMOS, TVSeries, and HDD, demonstrates that GateHUB significantly outperforms all existing methods and is also more efficient than the existing best work. Furthermore, a flow-free version of GateHUB is able to achieve higher or close accuracy at 2.8x higher frame rate compared to all existing methods that require both RGB and optical flow information for prediction.
翻訳日:2022-06-10 14:39:01 公開日:2022-06-09
# beyond rgb:neural radiance fieldを用いたシーンプロパティ合成

Beyond RGB: Scene-Property Synthesis with Neural Radiance Fields ( http://arxiv.org/abs/2206.04669v1 )

ライセンス: Link先を確認
Mingtong Zhang, Shuhong Zheng, Zhipeng Bao, Martial Hebert, Yu-Xiong Wang(参考訳) 幾何学的・意味的にも包括的3Dシーン理解は,ロボット知覚などの実世界の応用において重要である。 既存の作業の大部分は、シーン理解のためのデータ駆動識別モデルの開発に重点を置いている。 本稿では,暗黙的な3次元表現とニューラルレンダリングの最近の進歩を活用し,合成モデルの観点からシーン理解の新しいアプローチを提案する。 ニューラル・ラディアンス・フィールド(NeRF)の大成功に基づいて、新しい視点から写真リアリスティックなRGB画像をレンダリングできるだけでなく、様々な正確なシーン特性(外観、幾何学、意味論など)をレンダリングできる、NeRF(SS-NeRF)を用いたシーンプロパリティ合成を導入する。 これにより,セマンティクスセグメンテーション,表面正規推定,再シェーディング,キーポイント検出,エッジ検出など,統一されたフレームワークの下での様々なシーン理解タスクの対処が容易になる。 私たちのss-nerfフレームワークは、生成学習と識別学習を橋渡しするための強力なツールであり、合成パラダイム内のタスク関係の研究、新しいタスクへの知識の移譲、データ拡張方法として下流の識別タスクの促進、データ作成のための自動ラベラーとしての役割など、幅広い興味深い問題の調査に有益である。

Comprehensive 3D scene understanding, both geometrically and semantically, is important for real-world applications such as robot perception. Most of the existing work has focused on developing data-driven discriminative models for scene understanding. This paper provides a new approach to scene understanding, from a synthesis model perspective, by leveraging the recent progress on implicit 3D representation and neural rendering. Building upon the great success of Neural Radiance Fields (NeRFs), we introduce Scene-Property Synthesis with NeRF (SS-NeRF) that is able to not only render photo-realistic RGB images from novel viewpoints, but also render various accurate scene properties (e.g., appearance, geometry, and semantics). By doing so, we facilitate addressing a variety of scene understanding tasks under a unified framework, including semantic segmentation, surface normal estimation, reshading, keypoint detection, and edge detection. Our SS-NeRF framework can be a powerful tool for bridging generative learning and discriminative learning, and thus be beneficial to the investigation of a wide range of interesting problems, such as studying task relationships within a synthesis paradigm, transferring knowledge to novel tasks, facilitating downstream discriminative tasks as ways of data augmentation, and serving as auto-labeller for data creation.
翻訳日:2022-06-10 14:38:36 公開日:2022-06-09
# Deep Stereoのオープンチャレンジ - ブースターデータセット

Open Challenges in Deep Stereo: the Booster Dataset ( http://arxiv.org/abs/2206.04671v1 )

ライセンス: Link先を確認
Pierluigi Zama Ramirez, Fabio Tosi, Matteo Poggi, Samuele Salti, Stefano Mattoccia, Luigi Di Stefano(参考訳) 本稿では,室内シーンを高精細で高精度な地中差にアノテートした,新しい高分解能・難解なステレオデータセットを提案する。 私たちのデータセットには、いくつかの特異かつ透明な表面、すなわち最先端ステレオネットワークの障害の主な原因が存在する。 われわれの買収パイプラインは、新しい深部時空ステレオフレームワークを活用しており、ピクセル以下の精度で簡単に正確なラベル付けができる。 64の異なるシーンで合計419のサンプルを収集し,密接な地中差を付記した。 各試料には高分解能対(12 Mpx)と非平衡対(12 Mpx, Right: 1.1 Mpx)が含まれる。 さらに,手動でアノテートした材料セグメンテーションマスクと15Kの未ラベルサンプルも提供する。 我々は,我々のデータセットに基づいて最先端の深層ネットワークを評価し,ステレオのオープン課題への対処の限界と今後の研究へのヒントを強調した。

We present a novel high-resolution and challenging stereo dataset framing indoor scenes annotated with dense and accurate ground-truth disparities. Peculiar to our dataset is the presence of several specular and transparent surfaces, i.e. the main causes of failures for state-of-the-art stereo networks. Our acquisition pipeline leverages a novel deep space-time stereo framework which allows for easy and accurate labeling with sub-pixel precision. We release a total of 419 samples collected in 64 different scenes and annotated with dense ground-truth disparities. Each sample include a high-resolution pair (12 Mpx) as well as an unbalanced pair (Left: 12 Mpx, Right: 1.1 Mpx). Additionally, we provide manually annotated material segmentation masks and 15K unlabeled samples. We evaluate state-of-the-art deep networks based on our dataset, highlighting their limitations in addressing the open challenges in stereo and drawing hints for future research.
翻訳日:2022-06-10 14:38:11 公開日:2022-06-09
# (参考訳) 神経値近似のスペクトルバイアスを克服する

Overcoming the Spectral Bias of Neural Value Approximation ( http://arxiv.org/abs/2206.04672v1 )

ライセンス: CC BY 4.0
Ge Yang, Anurag Ajay, Pulkit Agrawal(参考訳) ディープニューラルネットワークを用いた値近似は、オフポリシーなディープ強化学習の中心であり、アルゴリズムの他の部分に学習信号を提供する主要なモジュールであることが多い。 多層パーセプトロンネットワークは普遍関数近似であるのに対し、神経核回帰における最近の研究はスペクトルバイアスの存在を示唆している。 本研究では,オフポリシー強化学習をカーネル回帰のレンズを通して再検討し,複合神経接核によるバイアスを克服する手法を提案する。 私たちのアプローチである1行の変更だけで、フーリエ機能ネットワーク(ffn)は、計算のほんの一部で、継続的な制御ドメインに挑戦する上で、最先端のパフォーマンスを提供します。 より高速な収束とより良いオフ・ポリシーの安定性により、壊滅的な多様性に苦しむことなくターゲットネットワークを除去できるため、いくつかのタスクでtd}(0)の推定バイアスがさらに軽減される。

Value approximation using deep neural networks is at the heart of off-policy deep reinforcement learning, and is often the primary module that provides learning signals to the rest of the algorithm. While multi-layer perceptron networks are universal function approximators, recent works in neural kernel regression suggest the presence of a spectral bias, where fitting high-frequency components of the value function requires exponentially more gradient update steps than the low-frequency ones. In this work, we re-examine off-policy reinforcement learning through the lens of kernel regression and propose to overcome such bias via a composite neural tangent kernel. With just a single line-change, our approach, the Fourier feature networks (FFN) produce state-of-the-art performance on challenging continuous control domains with only a fraction of the compute. Faster convergence and better off-policy stability also make it possible to remove the target network without suffering catastrophic divergences, which further reduces TD}(0)'s estimation bias on a few tasks.
翻訳日:2022-06-10 14:37:09 公開日:2022-06-09
# l^p$ノルムにおける一般近似下限とフィードフォワードニューラルネットワークへの応用

A general approximation lower bound in $L^p$ norm, with applications to feed-forward neural networks ( http://arxiv.org/abs/2206.04360v1 )

ライセンス: Link先を確認
El Mehdi Achour (IMT), Armand Foucault (IMT), S\'ebastien Gerchinovitz (IMT), Fran\c{c}ois Malgouyres (IMT)(参考訳) ニューラルネットワークの表現力に対する基本的な限界について検討する。 実数値関数の 2 つの集合 $F$, $G$ が与えられたとき、まず、任意の $p \geq 1$ および任意の確率測度 $\mu$ に対して、$F$ の函数が $L^p(\mu)$ のノルムでどれだけうまく近似できるかの一般的な下界を証明する。 下限は F$ の包装数、$F$ の範囲、および Fat-shattering dimension の$G$ に依存する。 すると、この境界は、$G$が断片的な多項式フィードフォワードニューラルネットワークに対応する場合に対応し、その応用を2つの集合 $F$: H{\"o}lder 球と多変量単調関数に詳細に記述する。 整合(既知のか新しいか)の上界の対数係数のほかに、下界は$L^p$ノルムやsupノルムにおける近似の類似性や相違に光を当て、DeVoreらによる開問題(2021年)を解いた。 我々の証明戦略はsupノルムの場合と異なり、Mendelson (2002) の重要な確率結果を使用する。

We study the fundamental limits to the expressive power of neural networks. Given two sets $F$, $G$ of real-valued functions, we first prove a general lower bound on how well functions in $F$ can be approximated in $L^p(\mu)$ norm by functions in $G$, for any $p \geq 1$ and any probability measure $\mu$. The lower bound depends on the packing number of $F$, the range of $F$, and the fat-shattering dimension of $G$. We then instantiate this bound to the case where $G$ corresponds to a piecewise-polynomial feed-forward neural network, and describe in details the application to two sets $F$: H{\"o}lder balls and multivariate monotonic functions. Beside matching (known or new) upper bounds up to log factors, our lower bounds shed some light on the similarities or differences between approximation in $L^p$ norm or in sup norm, solving an open question by DeVore et al. (2021). Our proof strategy differs from the sup norm case and uses a key probability result of Mendelson (2002).
翻訳日:2022-06-10 14:13:26 公開日:2022-06-09
# 投票分類器のマージンと一般化について

On Margins and Generalisation for Voting Classifiers ( http://arxiv.org/abs/2206.04607v1 )

ライセンス: Link先を確認
Felix Biggs, Valentina Zantedeschi, Benjamin Guedj(参考訳) 分類器の有限アンサンブル上での多数投票の一般化特性について検討し、PAC-ベイズ理論を通じてマージンに基づく一般化境界を証明する。 これらは多くの分類タスクに対して最先端の保証を提供する。 最近 zantedeschiらによって研究された ジリクレ後肢を利用した [2021] 投票分類器の訓練; その作業とは対照的に、境界はマージンの使用を通じて非ランダム化された投票に適用される。 私たちのコントリビューションは、Schapireらによって提案された「マージン理論」に関する議論に視点を与えます。 アンサンブル分類器の一般化のための[1998]。

We study the generalisation properties of majority voting on finite ensembles of classifiers, proving margin-based generalisation bounds via the PAC-Bayes theory. These provide state-of-the-art guarantees on a number of classification tasks. Our central results leverage the Dirichlet posteriors studied recently by Zantedeschi et al. [2021] for training voting classifiers; in contrast to that work our bounds apply to non-randomised votes via the use of margins. Our contributions add perspective to the debate on the "margins theory" proposed by Schapire et al. [1998] for the generalisation of ensemble classifiers.
翻訳日:2022-06-10 14:12:58 公開日:2022-06-09
# 免疫細胞マーカーを用いた深部放射線信号によるグリオーマ患者の生存予測

Deep radiomic signature with immune cell markers predicts the survival of glioma patients ( http://arxiv.org/abs/2206.04349v1 )

ライセンス: Link先を確認
Ahmad Chaddad, Paul Daniel Mingli Zhang, Saima Rathore, Paul Sargos, Christian Desrosiers, Tamim Niazi(参考訳) イメージングバイオマーカーは治療前に免疫療法の反応を予測する非侵襲的な方法を提供する。 本研究では,免疫細胞マーカーと全身生存に関連する腫瘍の特徴を抽出する,畳み込みニューラルネットワーク(CNN)から計算した新しい種類の深部放射線学的特徴(DRF)を提案する。 脳腫瘍151例の免疫細胞マーカーを用いた4つのMRI(T1-weighted,T1-weighted post-contrast,T2-weighted,FLAIR)を用いた。 提案手法は,MRI スキャンのラベル付き腫瘍領域内の3D-CNN の活性化マップを集約することにより,合計180個の DRF を抽出する。 これらの特徴は、組織の不均一性をコードする局所的なテクスチャのコンパクトで強力な表現を提供する。 提案するdrfと免疫細胞マーカーとの関係を総合的に評価し, それらの生存率との関連性について検討した。 結果, drfと各種マーカーとの相関が高く, これらのマーカーに基づいて分類した患者間で有意な差が認められた。 さらに、ランダム森林分類器への入力としてDRF、臨床特徴、免疫細胞マーカーを組み合わせることで、短命と長期生存の予後を区別し、AUCは72\%、p=2.36$\times$10$^{-5}$である。 以上の結果から,脳腫瘍に対する治療効果予測のための非侵襲バイオマーカーとしてのDRFの有用性が示唆された。

Imaging biomarkers offer a non-invasive way to predict the response of immunotherapy prior to treatment. In this work, we propose a novel type of deep radiomic features (DRFs) computed from a convolutional neural network (CNN), which capture tumor characteristics related to immune cell markers and overall survival. Our study uses four MRI sequences (T1-weighted, T1-weighted post-contrast, T2-weighted and FLAIR) with corresponding immune cell markers of 151 patients with brain tumor. The proposed method extracts a total of 180 DRFs by aggregating the activation maps of a pre-trained 3D-CNN within labeled tumor regions of MRI scans. These features offer a compact, yet powerful representation of regional texture encoding tissue heterogeneity. A comprehensive set of experiments is performed to assess the relationship between the proposed DRFs and immune cell markers, and measure their association with overall survival. Results show a high correlation between DRFs and various markers, as well as significant differences between patients grouped based on these markers. Moreover, combining DRFs, clinical features and immune cell markers as input to a random forest classifier helps discriminate between short and long survival outcomes, with AUC of 72\% and p=2.36$\times$10$^{-5}$. These results demonstrate the usefulness of proposed DRFs as non-invasive biomarker for predicting treatment response in patients with brain tumors.
翻訳日:2022-06-10 14:12:48 公開日:2022-06-09
# 顔映像からのリモートフォトプレチモグラフィを用いた抑うつ認識

Depression Recognition using Remote Photoplethysmography from Facial Videos ( http://arxiv.org/abs/2206.04399v1 )

ライセンス: Link先を確認
Constantino \'Alvarez Casado, Manuel Lage Ca\~nellas and Miguel Bordallo L\'opez(参考訳) うつ病は個人の健康に有害な精神疾患である。 早期の精神健康障害の検出と正確な診断は、社会的、生理的、心理的副作用を避けるために重要である。 この研究は生理的信号を分析し、異なるうつ状態が血圧パルス(BVP)と心拍変動反応(HRV)に顕著な影響を及ぼすかどうかを観察する。 通常、HRVの特徴は、ウェアラブルのようなコンタクトベースのセンサーで得られるバイオシグナーから計算されるが、視覚情報のみに基づいて顔ビデオから直接抽出し、接触ベースのデバイスの必要性を除去する新しいスキームを提案する。 我々のソリューションは、完全に教師なしの方法で完全リモート光胸腺画像信号(rPPG)を抽出できるパイプラインに基づいている。 これらのrppg信号を用いて,60以上の統計的,幾何学的,生理学的特徴を算出し,さらに複数の機械学習レグレッタを訓練し,異なるうつ病レベルを認識する。 2つのベンチマークデータセットの実験は、このアプローチが他の音声や表情に基づく視覚的モダリティに匹敵する結果をもたらし、それらを補完する可能性を示唆している。 また,提案手法で得られた結果は,手書きの手法より優れ,深層学習に基づく手法に匹敵する,有望で堅実な性能を示す。

Depression is a mental illness that may be harmful to an individual's health. The detection of mental health disorders in the early stages and a precise diagnosis are critical to avoid social, physiological, or psychological side effects. This work analyzes physiological signals to observe if different depressive states have a noticeable impact on the blood volume pulse (BVP) and the heart rate variability (HRV) response. Although typically, HRV features are calculated from biosignals obtained with contact-based sensors such as wearables, we propose instead a novel scheme that directly extracts them from facial videos, just based on visual information, removing the need for any contact-based device. Our solution is based on a pipeline that is able to extract complete remote photoplethysmography signals (rPPG) in a fully unsupervised manner. We use these rPPG signals to calculate over 60 statistical, geometrical, and physiological features that are further used to train several machine learning regressors to recognize different levels of depression. Experiments on two benchmark datasets indicate that this approach offers comparable results to other audiovisual modalities based on voice or facial expression, potentially complementing them. In addition, the results achieved for the proposed method show promising and solid performance that outperforms hand-engineered methods and is comparable to deep learning-based approaches.
翻訳日:2022-06-10 14:11:56 公開日:2022-06-09
# 総変動流の教師なし学習

Unsupervised Learning of the Total Variation Flow ( http://arxiv.org/abs/2206.04406v1 )

ライセンス: Link先を確認
Tamara G. Grossmann, S\"oren Dittmer, Yury Korolev and Carola-Bibiane Sch\"onlieb(参考訳) 総変動(tv)フローは、テレビ機能に基づいて画像のスケール空間表現を生成する。 この勾配流はシャープエッジのような画像の望ましい特徴を観察し、スペクトル、スケール、テクスチャ解析を可能にする。 テレビフローの標準的な数値的アプローチは、複数の非スムース最適化問題を解決する必要がある。 最先端の凸最適化技術でさえ、これはしばしば高額であり、代替的で高速なアプローチの使用を強く動機付けている。 物理に変形したニューラルネットワーク(pinns)の枠組みに着想を得て拡張し、初期画像と時間インスタンスを与えられたtvフローの解を計算するためのニューラルネットワークアプローチであるtvflownetを提案する。 計算時間を1桁以上高速化し,TVflowNETが高忠実度でTVフロー解を近似していることを示す。 これは予備報告であり、詳細は後述する。

The total variation (TV) flow generates a scale-space representation of an image based on the TV functional. This gradient flow observes desirable features for images such as sharp edges and enables spectral, scale, and texture analysis. The standard numerical approach for TV flow requires solving multiple non-smooth optimisation problems. Even with state-of-the-art convex optimisation techniques, this is often prohibitively expensive and strongly motivates the use of alternative, faster approaches. Inspired by and extending the framework of physics-informed neural networks (PINNs), we propose the TVflowNET, a neural network approach to compute the solution of the TV flow given an initial image and a time instance. We significantly speed up the computation time by more than one order of magnitude and show that the TVflowNET approximates the TV flow solution with high fidelity. This is a preliminary report, more details are to follow.
翻訳日:2022-06-10 14:11:32 公開日:2022-06-09
# VideoINR: 連続空間時間超解のためのビデオインプシットニューラル表現学習

VideoINR: Learning Video Implicit Neural Representation for Continuous Space-Time Super-Resolution ( http://arxiv.org/abs/2206.04647v1 )

ライセンス: Link先を確認
Zeyuan Chen, Yinbo Chen, Jingwen Liu, Xingqian Xu, Vidit Goel, Zhangyang Wang, Humphrey Shi, Xiaolong Wang(参考訳) ビデオは通常、ストリーミングと連続したビジュアルデータを離散的な連続フレームとして記録する。 高い忠実度を持つビデオにはストレージコストがかかるため、そのほとんどが比較的低い解像度とフレームレートで保存される。 時間的補間と空間的超解像を一体化したstvsr (time-time video super- resolution) を開発した。 しかし、そのほとんどは、その柔軟性とアプリケーションを制限する固定されたアップサンプリングスケールしかサポートしていない。 本研究では、離散表現に従う代わりに、ビデオインプリシットニューラル表現(Video Implicit Neural Representation, VideoINR)を提案し、そのSTVSRへの応用を示す。 学習した暗黙の神経表現は、任意の空間解像度とフレームレートのビデオに復号することができる。 ビデオINRは,既存のSTVSR手法と共通のアップサンプリングスケールで競合する性能を達成し,従来の連続およびアウトオブトレーニング・ディストリビューションスケールよりも優れていた。 プロジェクトページはhttp://zeyuan-chen.com/VideoINR/。

Videos typically record the streaming and continuous visual data as discrete consecutive frames. Since the storage cost is expensive for videos of high fidelity, most of them are stored in a relatively low resolution and frame rate. Recent works of Space-Time Video Super-Resolution (STVSR) are developed to incorporate temporal interpolation and spatial super-resolution in a unified framework. However, most of them only support a fixed up-sampling scale, which limits their flexibility and applications. In this work, instead of following the discrete representations, we propose Video Implicit Neural Representation (VideoINR), and we show its applications for STVSR. The learned implicit neural representation can be decoded to videos of arbitrary spatial resolution and frame rate. We show that VideoINR achieves competitive performances with state-of-the-art STVSR methods on common up-sampling scales and significantly outperforms prior works on continuous and out-of-training-distribution scales. Our project page is at http://zeyuan-chen.com/VideoINR/ .
翻訳日:2022-06-10 14:11:19 公開日:2022-06-09
# 離散的製品分布とイジングモデルのロバスト学習のための最適SQ下界

Optimal SQ Lower Bounds for Robustly Learning Discrete Product Distributions and Ising Models ( http://arxiv.org/abs/2206.04589v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Daniel M. Kane, Yuxin Sun(参考訳) 離散高次元分布の族をロバストに学習するための最適統計クエリ(sq)下限を確立する。 特に、$\epsilon$-corrupted binary product distributionにアクセスできる効率的なSQアルゴリズムは、$\ell_2$-error $o(\epsilon \sqrt{\log(1/\epsilon)})$で学習できない。 同様に、$\epsilon$-corrupted ferromagnetic high-temperature Isingモデルにアクセスできる効率的なSQアルゴリズムが存在しないことを示し、このモデルから総変動距離$o(\epsilon \log(1/\epsilon))$. 我々のSQローバウンドは、これらの問題に対する既知のアルゴリズムのエラー保証と一致し、これらのタスクの現在の上限が最善であることを示す。 技術的なレベルでは、我々が他の応用を見出すと信じている低次元モーメントマッチング構成から始まり、離散高次元分布に対する一般的なsq下限を開発する。 さらに、離散一変量分布のモーメントマッチング構造を解析するための新しいアイデアを提案する。

We establish optimal Statistical Query (SQ) lower bounds for robustly learning certain families of discrete high-dimensional distributions. In particular, we show that no efficient SQ algorithm with access to an $\epsilon$-corrupted binary product distribution can learn its mean within $\ell_2$-error $o(\epsilon \sqrt{\log(1/\epsilon)})$. Similarly, we show that no efficient SQ algorithm with access to an $\epsilon$-corrupted ferromagnetic high-temperature Ising model can learn the model to total variation distance $o(\epsilon \log(1/\epsilon))$. Our SQ lower bounds match the error guarantees of known algorithms for these problems, providing evidence that current upper bounds for these tasks are best possible. At the technical level, we develop a generic SQ lower bound for discrete high-dimensional distributions starting from low dimensional moment matching constructions that we believe will find other applications. Additionally, we introduce new ideas to analyze these moment-matching constructions for discrete univariate distributions.
翻訳日:2022-06-10 14:09:41 公開日:2022-06-09
# 時間論理模倣:実証から計画満足動作ポリシーを学ぶ

Temporal Logic Imitation: Learning Plan-Satisficing Motion Policies from Demonstrations ( http://arxiv.org/abs/2206.04632v1 )

ライセンス: Link先を確認
Yanwei Wang, Nadia Figueroa, Shen Li, Ankit Shah, Julie Shah(参考訳) 実演法(LfD)から学んだことは,多段階課題の解決に有望であることを示しているが,これらの手法は与えられた障害の再現を成功させるものではない。 本研究では,このような課題のルーツを,実証において暗黙的な個別計画を満たすための学習された継続的政策の失敗とみなす。 モード(サブゴールではなく)をモード不変性と目標到達性特性の両方を持つ離散抽象と運動ポリシーとして活用することにより、学習された連続ポリシーが線形時間論理(LTL)式で定義された離散計画をシミュレートできることを示す。 その結果、模倣者はタスクレベルの乱れと動作レベルの乱れの両方に対して堅牢であり、タスクの成功を達成することが保証される。 プロジェクトページ: https://sites.google.com/view/ltl-ds

Learning from demonstration (LfD) methods have shown promise for solving multi-step tasks; however, these approaches do not guarantee successful reproduction of the task given disturbances. In this work, we identify the roots of such a challenge as the failure of the learned continuous policy to satisfy the discrete plan implicit in the demonstration. By utilizing modes (rather than subgoals) as the discrete abstraction and motion policies with both mode invariance and goal reachability properties, we prove our learned continuous policy can simulate any discrete plan specified by a Linear Temporal Logic (LTL) formula. Consequently, the imitator is robust to both task- and motion-level disturbances and guaranteed to achieve task success. Project page: https://sites.google.com/view/ltl-ds
翻訳日:2022-06-10 14:09:25 公開日:2022-06-09
# 重み付き雑音によるロバストマトリックス補完

Robust Matrix Completion with Heavy-tailed Noise ( http://arxiv.org/abs/2206.04276v1 )

ライセンス: Link先を確認
Bingyan Wang, Jianqing Fan(参考訳) 本稿では、重み付きおよびおそらく非対称な雑音の存在下での低ランク行列の完備化について検討し、高不完全雑音成分の集合から下層の低ランク行列を推定することを目的とする。 行列完備問題は過去10年間に多くの注目を集めてきたが、重い音によって観測が汚染された場合の理論的理解が不足している。 先行理論は実験結果を説明するのに至らず、ノイズレベルに対する推定誤差の最適依存性を捉えることができない。 本稿では,損失関数のパラメータがフーバ化バイアスと外れ値とのロバスト性とをバランスさせるために慎重に設計されている場合,大きな非対称誤差に対して頑健な重み付き雑音に対応する適応フーバ損失を採用する。 そこで我々は,安定なスペクトル初期化を伴うバランスの低いBurer-Monteiro行列因数分解と勾配による効率的な非凸アルゴリズムを提案する。 提案アルゴリズムにより生成したイテレートのユークリッド誤差は, 誤差分布上でのみ有界な第2モーメント条件の下では, 準ガウスの場合と同じ順序の最小値の統計的推定誤差に到達するまで, 幾何的に急速に減少することを示した。 この重要な進歩の背後にある重要なテクニックは、強力な左利き分析フレームワークである。 理論的結果はシミュレーション研究によって裏付けられている。

This paper studies low-rank matrix completion in the presence of heavy-tailed and possibly asymmetric noise, where we aim to estimate an underlying low-rank matrix given a set of highly incomplete noisy entries. Though the matrix completion problem has attracted much attention in the past decade, there is still lack of theoretical understanding when the observations are contaminated by heavy-tailed noises. Prior theory falls short of explaining the empirical results and is unable to capture the optimal dependence of the estimation error on the noise level. In this paper, we adopt an adaptive Huber loss to accommodate heavy-tailed noise, which is robust against large and possibly asymmetric errors when the parameter in the loss function is carefully designed to balance the Huberization biases and robustness to outliers. Then, we propose an efficient nonconvex algorithm via a balanced low-rank Burer-Monteiro matrix factorization and gradient decent with robust spectral initialization. We prove that under merely bounded second moment condition on the error distributions, rather than the sub-Gaussian assumption, the Euclidean error of the iterates generated by the proposed algorithm decrease geometrically fast until achieving a minimax-optimal statistical estimation error, which has the same order as that in the sub-Gaussian case. The key technique behind this significant advancement is a powerful leave-one-out analysis framework. The theoretical results are corroborated by our simulation studies.
翻訳日:2022-06-10 14:09:10 公開日:2022-06-09
# 情報指向強化学習のためのレグレト境界

Regret Bounds for Information-Directed Reinforcement Learning ( http://arxiv.org/abs/2206.04640v1 )

ライセンス: Link先を確認
Botao Hao and Tor Lattimore(参考訳) 情報指向サンプリング(IDS)は、強化学習(RL)のためのデータ効率アルゴリズムとしての可能性を明らかにした。 しかし、マルコフ決定過程(MDP)に対するIDSの理論的理解はまだ限られている。 本研究では,学習目標に関する情報比率と累積情報ゲインを結合する新しい情報理論ツールを開発する。 理論的結果は,学習対象を選択することの重要性を浮き彫りにして,実践者が計算と後悔の境界のバランスをとることができるようにした。 その結果,表層有限水平MDPの下で環境全体を学習するバニラIDSに対して,ベイズ的前自由な後悔境界を導出する。 さらに,比形式ではなく加法形式を最大化する計算効率の高い正則化IDSを提案し,バニラIDSと同じ後悔関係にあることを示す。 速度歪曲理論の助けを借りて、サロゲートの少ない情報環境を学習することで、後悔の限界を改善する。 さらに, 線形MDPに解析を拡張し, 副生成物としてのトンプソンサンプリングに類似した後悔境界を証明した。

Information-directed sampling (IDS) has revealed its potential as a data-efficient algorithm for reinforcement learning (RL). However, theoretical understanding of IDS for Markov Decision Processes (MDPs) is still limited. We develop novel information-theoretic tools to bound the information ratio and cumulative information gain about the learning target. Our theoretical results shed light on the importance of choosing the learning target such that the practitioners can balance the computation and regret bounds. As a consequence, we derive prior-free Bayesian regret bounds for vanilla-IDS which learns the whole environment under tabular finite-horizon MDPs. In addition, we propose a computationally-efficient regularized-IDS that maximizes an additive form rather than the ratio form and show that it enjoys the same regret bound as vanilla-IDS. With the aid of rate-distortion theory, we improve the regret bound by learning a surrogate, less informative environment. Furthermore, we extend our analysis to linear MDPs and prove similar regret bounds for Thompson sampling as a by-product.
翻訳日:2022-06-10 14:08:44 公開日:2022-06-09
# 言語間の単語順変化は依存の進化的圧力と情報の局所性を反映する

Crosslinguistic word order variation reflects evolutionary pressures of dependency and information locality ( http://arxiv.org/abs/2206.04239v1 )

ライセンス: Link先を確認
Michael Hahn, Yang Xu(参考訳) 言語は構文構造がかなり異なる。 世界の言語の約40%は主目的語順であり、約40%は主目的語順である。 広範囲にわたる研究は、この単語の順序の変化を言語間で説明しようとした。 しかし、既存のアプローチでは、個々の言語における単語順序の頻度分布と進化をコヒーレントに説明できない。 単語順の変動は、係り受けの局所性や情報局所性の相反する圧力のバランスの相違を反映し、言語同士が構文的あるいは文脈的に相互に関連付けられている場合に要素をまとめることを好む。 17言語家族の80言語のデータと系統モデルを用いて、言語はこれらの圧力のバランスを保ちながら進化し、語順の変化は話者が全体的な効率を維持するために通信する構文構造の周波数分布の変化を伴うことを示した。 したがって、単語順の可変性は、言語がこれらの進化的圧力を解決する様々な方法を反映している。 この統合最適化の結果生じる関連する特徴、特に同一動詞に対して主語と対象語が一緒に表現される頻度を識別する。 本研究は,言語間の構文構造と利用が協調して,限定された認知的資源下での効率的なコミュニケーションを支援することを示唆する。

Languages vary considerably in syntactic structure. About 40% of the world's languages have subject-verb-object order, and about 40% have subject-object-verb order. Extensive work has sought to explain this word order variation across languages. However, the existing approaches are not able to explain coherently the frequency distribution and evolution of word order in individual languages. We propose that variation in word order reflects different ways of balancing competing pressures of dependency locality and information locality, whereby languages favor placing elements together when they are syntactically related or contextually informative about each other. Using data from 80 languages in 17 language families and phylogenetic modeling, we demonstrate that languages evolve to balance these pressures, such that word order change is accompanied by change in the frequency distribution of the syntactic structures which speakers communicate to maintain overall efficiency. Variability in word order thus reflects different ways in which languages resolve these evolutionary pressures. We identify relevant characteristics that result from this joint optimization, particularly the frequency with which subjects and objects are expressed together for the same verb. Our findings suggest that syntactic structure and usage across languages co-adapt to support efficient communication under limited cognitive resources.
翻訳日:2022-06-10 14:08:08 公開日:2022-06-09
# トピック制御可能な要約のためのトピックアウェア評価とトランスフォーマー法

Topic-Aware Evaluation and Transformer Methods for Topic-Controllable Summarization ( http://arxiv.org/abs/2206.04317v1 )

ライセンス: Link先を確認
Tatiana Passali, Grigorios Tsoumakas(参考訳) トピック制御可能な要約は、幅広い応用可能性を持つ新たな研究分野である。 しかし、既存のアプローチには大きな制限がある。 第一に、現在この課題に対する評価基準は確立されていない。 さらに、recurrentアーキテクチャ上に構築された既存のメソッドは、最近のtransformerベースのアーキテクチャに比べてパフォーマンスを著しく制限すると同時に、トピックを制御するためにモデルのアーキテクチャを変更する必要もある。 本研究では,生成した要約と所望のトピックとの親和性に基づいて,生成した要約を自動的に評価する新たなトピック指向評価尺度を提案する。 また,本尺度の信頼性を検証するユーザ調査を行った。 最後に,モデルアーキテクチャにトピック埋め込みを組み込むか,あるいは要約生成を導くために制御トークンを使用するか,トピック制御可能な要約方法を提案する。 実験結果から, 制御トークンは, より複雑な埋め込みベースのアプローチに比べ, はるかに高速かつ優れた性能が得られることがわかった。

Topic-controllable summarization is an emerging research area with a wide range of potential applications. However, existing approaches suffer from significant limitations. First, there is currently no established evaluation metric for this task. Furthermore, existing methods built upon recurrent architectures, which can significantly limit their performance compared to more recent Transformer-based architectures, while they also require modifications to the model's architecture for controlling the topic. In this work, we propose a new topic-oriented evaluation measure to automatically evaluate the generated summaries based on the topic affinity between the generated summary and the desired topic. We also conducted a user study that validates the reliability of this measure. Finally, we propose simple, yet powerful methods for topic-controllable summarization either incorporating topic embeddings into the model's architecture or employing control tokens to guide the summary generation. Experimental results show that control tokens can achieve better performance compared to more complicated embedding-based approaches while being at the same time significantly faster.
翻訳日:2022-06-10 14:07:47 公開日:2022-06-09
# アンセスタからクレオールへの移動は公園の散歩ではない

Ancestor-to-Creole Transfer is Not a Walk in the Park ( http://arxiv.org/abs/2206.04371v1 )

ライセンス: Link先を確認
Heather Lent, Emanuele Bugliarello, Anders S{\o}gaard(参考訳) 我々は,大量のデータが容易に利用できないクレオール言語の言語モデルを学び,祖先言語からの潜在的移行を探究することを目的とする(「祖先伝達仮説」)。 標準的な転送方式は、祖先の転送を容易にするものではない。 驚くべきことに、他の非クレオール言語とは異なる2相のパターンがクレオールに現れ、トレーニング損失が高まり、言語モデルがソース言語に過剰適合し始めると、クレオールのパープレキシティが低下します。 この圧縮フェーズが実際に有用な言語モデル("Ancestry Bottleneck hypothesis")に繋がるかどうかを考察するが、これも偽造する。 さらに,無関係な言語を訓練しても,クレオールがこの2相パターンを示すことを示す。 したがって、クレオール類は類型的外れであり、この2つの観測の間に関係があるかどうかを推測する。

We aim to learn language models for Creole languages for which large volumes of data are not readily available, and therefore explore the potential transfer from ancestor languages (the 'Ancestry Transfer Hypothesis'). We find that standard transfer methods do not facilitate ancestry transfer. Surprisingly, different from other non-Creole languages, a very distinct two-phase pattern emerges for Creoles: As our training losses plateau, and language models begin to overfit on their source languages, perplexity on the Creoles drop. We explore if this compression phase can lead to practically useful language models (the 'Ancestry Bottleneck Hypothesis'), but also falsify this. Moreover, we show that Creoles even exhibit this two-phase pattern even when training on random, unrelated languages. Thus Creoles seem to be typological outliers and we speculate whether there is a link between the two observations.
翻訳日:2022-06-10 14:06:42 公開日:2022-06-09
# ASRのためのジョイントエンコーダ-デコーダ自己監督事前学習

Joint Encoder-Decoder Self-Supervised Pre-training for ASR ( http://arxiv.org/abs/2206.04465v1 )

ライセンス: Link先を確認
Arunkumar A and Umesh S(参考訳) 自己教師付き学習(SSL)は、自動音声認識(ASR)など、様々な音声関連下流タスクで大きな成功を収めている。 SSLモデルの出力埋め込みは、音声信号の強力な短時間表現として扱われる。 しかし、ASRタスクでは、音響ユニット、文字、バイトペアエンコーディング(BPE)の正しいシーケンスを取得することが主な目的である。 通常、エンコーダ-デコーダアーキテクチャはasrのようなシーケンス-シーケンスタスクで非常にうまく機能する。 そこで本稿では,自己教師型学習におけるデコーダのパワーを活用した新しいパラダイムを提案する。 我々はHuBERT(HuBERT)SSLフレームワークを用いて、エンコーダの従来のマスク付き予測損失を計算する。 さらに、SSLフレームワークにデコーダを導入し、デコーダのターゲット準備戦略を提案した。 最後に、エンコーダとデコーダの両方の損失を共同で最適化するマルチタスクSSLセットアップを使用する。 SSLモデルにおけるデコーダの存在は、ASRダウンストリームタスクの性能を向上させる音響単位ベース言語モデルを学ぶのに役立つと仮定する。 提案するSSLモデルとHuBERTを比較し,様々なLibriSpeechサブセットを微調整することにより,ASRの性能が25%向上したことを示す。

Self-supervised learning (SSL) has shown tremendous success in various speech-related downstream tasks, including Automatic Speech Recognition (ASR). The output embeddings of the SSL model are treated as powerful short-time representations of the speech signal. However, in the ASR task, the main objective is to get the correct sequence of acoustic units, characters, or byte-pair encodings (BPEs). Usually, encoder-decoder architecture works exceptionally well for a sequence-to-sequence task like ASR. Therefore, in this paper, we propose a new paradigm that exploits the power of a decoder during self-supervised learning. We use Hidden Unit BERT (HuBERT) SSL framework to compute the conventional masked prediction loss for the encoder. In addition, we have introduced a decoder in the SSL framework and proposed a target preparation strategy for the decoder. Finally, we use a multitask SSL setup wherein we jointly optimize both the encoder and decoder losses. We hypothesize that the presence of a decoder in the SSL model helps it learn an acoustic unit-based language model, which might improve the performance of an ASR downstream task. We compare our proposed SSL model with HuBERT and show up to 25% relative improvement in performance on ASR by finetuning on various LibriSpeech subsets.
翻訳日:2022-06-10 14:06:24 公開日:2022-06-09
# SsciBERT: 社会科学テキストのための事前学習型言語モデル

SsciBERT: A Pre-trained Language Model for Social Science Texts ( http://arxiv.org/abs/2206.04510v1 )

ライセンス: Link先を確認
Si Shen, Jiangfeng Liu, Litao Lin, Ying Huang, Lin Zhang, Chang Liu, Yutong Feng, Dongbo Wang(参考訳) 社会科学の学術文献は、人間の文明を記録、人間の社会問題を研究する文献である。 この文献が大規模に発展するにつれて、既存の研究を迅速に見つけ出す方法が研究者にとって緊急の要求となっている。 SciBERTのような以前の研究では、ドメイン固有のテキストを用いた事前学習が、これらの分野における自然言語処理タスクの性能を向上させることが示されている。 しかし、社会科学のための事前学習された言語モデルは存在しないため、ssci(social science citation index)ジャーナルに発表された多くの抽象概念の事前学習モデルを提案する。 これらのモデルはGithub(https://github.com/S-T-Full-Text-Knowledge-Mining/SSCI-BERT)で公開されている。

The academic literature of social sciences is the literature that records human civilization and studies human social problems. With the large-scale growth of this literature, ways to quickly find existing research on relevant issues have become an urgent demand for researchers. Previous studies, such as SciBERT, have shown that pre-training using domain-specific texts can improve the performance of natural language processing tasks in those fields. However, there is no pre-trained language model for social sciences, so this paper proposes a pre-trained model on many abstracts published in the Social Science Citation Index (SSCI) journals. The models, which are available on Github (https://github.com/S-T-Full-Text-Knowledge-Mining/SSCI-BERT), show excellent performance on discipline classification and abstract structure-function recognition tasks with the social sciences literature.
翻訳日:2022-06-10 14:06:04 公開日:2022-06-09
# 職業的フラッド検出のためのオープンERPシステムデータ

Open ERP System Data For Occupational Fraud Detection ( http://arxiv.org/abs/2206.04460v1 )

ライセンス: Link先を確認
Julian Tritscher, Fabian Gwinner, Daniel Schl\"or, Anna Krause, Andreas Hotho(参考訳) 最近の推計では、企業は労働詐欺によって収益の5%を失う。 中規模・大規模の企業のほとんどは、企業リソース計画(erp)システムを使用してビジネスプロセスに関する膨大な情報を追跡しているため、研究者らは過去に、erpシステムデータによる不正の自動検出に関心を示したことがある。 しかし, この分野での現在の研究は, 不正検出手法の開発と比較のためにERPシステムデータが公開されていないという事実によって妨げられている。 したがって、通常の業務運用と不正の両方を含む公開ERPシステムデータを生成する。 本研究では,重大ゲームを通じてERPシステムデータを生成する戦略を提案し,監査の専門家と協調して様々な不正シナリオをモデル化し,複数の研究参加者を持つ模擬生産会社からデータを生成する。 生成したデータをERPシステムにおける不正検出のためのデータセットに集約し、生データと集約データの両方を一般向けに供給し、ERPシステムデータに対する不正検出手法のオープンな開発と比較を可能にする。

Recent estimates report that companies lose 5% of their revenue to occupational fraud. Since most medium-sized and large companies employ Enterprise Resource Planning (ERP) systems to track vast amounts of information regarding their business process, researchers have in the past shown interest in automatically detecting fraud through ERP system data. Current research in this area, however, is hindered by the fact that ERP system data is not publicly available for the development and comparison of fraud detection methods. We therefore endeavour to generate public ERP system data that includes both normal business operation and fraud. We propose a strategy for generating ERP system data through a serious game, model a variety of fraud scenarios in cooperation with auditing experts, and generate data from a simulated make-to-stock production company with multiple research participants. We aggregate the generated data into ready to used datasets for fraud detection in ERP systems, and supply both the raw and aggregated data to the general public to allow for open development and comparison of fraud detection approaches on ERP system data.
翻訳日:2022-06-10 14:05:51 公開日:2022-06-09
# jnmr:ビデオフレーム補間のための非線形運動回帰

JNMR: Joint Non-linear Motion Regression for Video Frame Interpolation ( http://arxiv.org/abs/2206.04231v1 )

ライセンス: Link先を確認
Meiqin Liu, Chenming Xu, Chao Yao, Chunyu Lin, and Yao Zhao(参考訳) ビデオフレーム補間(VFI)は、双方向の履歴参照から学習可能な動きを歪曲することで予測フレームを生成することを目的としている。 既存の作品の多くは時空間的意味情報抽出器を用いて動き推定と補間モデルを実現するが、生成した中間運動の実際の機械論的合理性を考慮すると十分ではない。 本稿では,VFIを多変数非線形回帰問題(MNL)として再構成し,フレーム間の複雑な動きをモデル化するためのJNMR(Joint Non-linear Motion Regression)戦略を提案する。 MNL回帰を確立するために、ConvLSTMを用いて時間次元における完全運動の分布を構築する。 モデル分布により、ターゲットフレームと複数の参照フレームとの動作相関を後退させることができる。 さらに,MNL回帰モデリングのために,特徴学習ネットワークを最適化する。 さらに、繰り返し回帰と補間によって異なる解像度で視覚力学を学ぶために、粗大な合成強化モジュールが実行される。 フレーム補間における高い競争力を持つ実験結果から,MNLの動作回帰により,最先端性能と比較して実効性と有意な改善が得られ,複雑な動き推定の堅牢性も向上した。

Video frame interpolation (VFI) aims to generate predictive frames by warping learnable motions from the bidirectional historical references. Most existing works utilize spatio-temporal semantic information extractor to realize motion estimation and interpolation modeling, not enough considering with the real mechanistic rationality of generated middle motions. In this paper, we reformulate VFI as a multi-variable non-linear (MNL) regression problem, and a Joint Non-linear Motion Regression (JNMR) strategy is proposed to model complicated motions of inter-frame. To establish the MNL regression, ConvLSTM is adopted to construct the distribution of complete motions in temporal dimension. The motion correlations between the target frame and multiple reference frames can be regressed by the modeled distribution. Moreover, the feature learning network is designed to optimize for the MNL regression modeling. A coarse-to-fine synthesis enhancement module is further conducted to learn visual dynamics at different resolutions through repetitive regression and interpolation. Highly competitive experimental results on frame interpolation show that the effectiveness and significant improvement compared with state-of-the-art performance, and the robustness of complicated motion estimation is improved by the MNL motion regression.
翻訳日:2022-06-10 14:05:19 公開日:2022-06-09
# DeepVerge: 道路沿いの生物多様性と保全可能性の分類

DeepVerge: Classification of Roadside Verge Biodiversity and Conservation Potential ( http://arxiv.org/abs/2206.04271v1 )

ライセンス: Link先を確認
Andrew Perrett, Charlie Barnes, Mark Schofield, Lan Qie, Petra Bosilj, James M. Brown(参考訳) オープンスペースの草地はますます耕作や建設が進んでおり、道端の縁石を狙う保全努力が急増している。 イギリスの草原の約半分は50万kmの道路沿いにあり、約91種の種が脅かされているか、ほぼ脅かされている。 したがって、これらの「野生回廊」の慎重な管理は、草原の生息地における種の絶滅と生物多様性を維持するのに不可欠である。 野生生物の信託は、しばしばボランティアの支持を得て、道路沿いの湿地を調査し、新しい「ローカル野生生物遺跡」を高い保護可能性のある地域として特定した。 本研究では,公に公開されているストリートビュー画像と合わせて3,900kmの道路脇縁部のボランティア調査データを用いて,道路脇縁部の断面を自動的に調査する深層学習手法であるdeepvergeを提案する。 DeepVergeは、リンカーンシャーの田舎郡の画像と地上の真実調査データを使って、平均精度88%を達成した。 このような方法は、地方当局によって新しい野生生物の特定や、法と政府の政策義務に従って管理と環境計画を支援するために使われ、何千時間ものマニュアルワークを節約することができる。

Open space grassland is being increasingly farmed or built upon, leading to a ramping up of conservation efforts targeting roadside verges. Approximately half of all UK grassland species can be found along the country's 500,000 km of roads, with some 91 species either threatened or near threatened. Careful management of these "wildlife corridors" is therefore essential to preventing species extinction and maintaining biodiversity in grassland habitats. Wildlife trusts have often enlisted the support of volunteers to survey roadside verges and identify new "Local Wildlife Sites" as areas of high conservation potential. Using volunteer survey data from 3,900 km of roadside verges alongside publicly available street-view imagery, we present DeepVerge; a deep learning-based method that can automatically survey sections of roadside verges by detecting the presence of positive indicator species. Using images and ground truth survey data from the rural county of Lincolnshire, DeepVerge achieved a mean accuracy of 88%. Such a method may be used by local authorities to identify new local wildlife sites, and aid management and environmental planning in line with legal and government policy obligations, saving thousands of hours of manual labour.
翻訳日:2022-06-10 14:03:47 公開日:2022-06-09
# CARLA-GeAR:視覚モデルの逆ロバスト性評価のためのデータセット生成装置

CARLA-GeAR: a Dataset Generator for a Systematic Evaluation of Adversarial Robustness of Vision Models ( http://arxiv.org/abs/2206.04365v1 )

ライセンス: Link先を確認
Federico Nesti, Giulio Rossolini, Gianluca D'Amico, Alessandro Biondi, Giorgio Buttazzo(参考訳) 敵対的な例は、いくつかのアプリケーションドメインにおけるディープニューラルネットワークに対する深刻な脅威であり、それらを調査し、その影響を緩和するための膨大な研究がなされている。 それでも、ニューラルモデルの敵対的堅牢性を評価するために特別に設計されたデータセットの生成に、多くの研究が注がれていない。 本稿では,CARLA-GeARを提案する。CARLA-GeARは,物理対向パッチに対するニューラルモデルの対向ロバスト性を体系的に評価し,異なる対向ディフェンス法の性能を比較するために使用できる,フォトリアリスティックな合成データセットの自動生成ツールである。 このツールは、Python APIを使用して、CARLAシミュレータ上に構築されており、自律運転のコンテキストにおいて、いくつかのビジョンタスク用のデータセットを生成することができる。 生成されたデータセットに含まれる敵パッチは、トラックの看板または後部に取り付けられ、テスト中のモデルの予測誤差を最大化するために最先端のホワイトボックス攻撃戦略を用いて作成される。 最後に,本研究は,carla-gearで生成されたデータセットが,今後,現実世界における敵対的防御のベンチマークとしてどのように利用されるかを示すとともに,これらの攻撃に対する防御手法の性能を評価するための実験的研究である。 この論文で使われているコードとデータセットはすべて、http://carlagear.retis.santannapisa.itで利用可能である。

Adversarial examples represent a serious threat for deep neural networks in several application domains and a huge amount of work has been produced to investigate them and mitigate their effects. Nevertheless, no much work has been devoted to the generation of datasets specifically designed to evaluate the adversarial robustness of neural models. This paper presents CARLA-GeAR, a tool for the automatic generation of photo-realistic synthetic datasets that can be used for a systematic evaluation of the adversarial robustness of neural models against physical adversarial patches, as well as for comparing the performance of different adversarial defense/detection methods. The tool is built on the CARLA simulator, using its Python API, and allows the generation of datasets for several vision tasks in the context of autonomous driving. The adversarial patches included in the generated datasets are attached to billboards or the back of a truck and are crafted by using state-of-the-art white-box attack strategies to maximize the prediction error of the model under test. Finally, the paper presents an experimental study to evaluate the performance of some defense methods against such attacks, showing how the datasets generated with CARLA-GeAR might be used in future work as a benchmark for adversarial defense in the real world. All the code and datasets used in this paper are available at http://carlagear.retis.santannapisa.it.
翻訳日:2022-06-10 14:03:25 公開日:2022-06-09
# 可視的熱的人物再同定のためのクロスモーダル局所短経路とグローバルエンハンスメント

Cross-modal Local Shortest Path and Global Enhancement for Visible-Thermal Person Re-Identification ( http://arxiv.org/abs/2206.04401v1 )

ライセンス: Link先を確認
Xiaohong Wang and Chaoqi Li and Xiangcai Ma(参考訳) また,人間の姿勢や咬合による認識難しさも考慮し,可視・熱横断型人物再同定(vt-reid)課題における画像システムの違いによるモーダル差も解決する必要がある。 本稿では,局所的およびグローバル的特徴の合同学習に基づく2ストリームネットワークであるcm-lsp-ge(cross-modal local shortest path and global enhancement)モジュールを提案する。 本論文の中核となる考え方は, 局所的特徴アライメントを用いてオクルージョン問題を解決することであり, グローバル特徴の強化によるモーダル差の解消である。 まず、注意に基づく2ストリームのresnetネットワークは、デュアルモダリティ機能を抽出し、統一された機能空間にマップするように設計されている。 そして、クロスモーダルな人物のポーズやオクルージョンの問題を解決するために、画像を水平に複数の等分して局所的特徴を得るとともに、2つのグラフ間の局所的特徴の最も短い経路を用いて微細な局所的特徴アライメントを実現する。 第3に、バッチ正規化拡張モジュールは、戦略を強化するためにグローバル機能を適用し、異なるクラス間の差分拡張をもたらす。 多粒度損失融合戦略はアルゴリズムの性能をさらに向上させる。 最後に、地域的特徴とグローバル的特徴の合同学習機構を用いて、個人再同定精度を向上させる。 2つの典型的なデータセットの実験結果は、我々のモデルは明らかに最先端の手法よりも優れていることを示している。 特に、SYSU-MM01データセットでは、ランク1とmAPの全検索項で2.89%と7.96%のゲインが得られる。 ソースコードはまもなくリリースされる予定だ。

In addition to considering the recognition difficulty caused by human posture and occlusion, it is also necessary to solve the modal differences caused by different imaging systems in the Visible-Thermal cross-modal person re-identification (VT-ReID) task. In this paper,we propose the Cross-modal Local Shortest Path and Global Enhancement (CM-LSP-GE) modules,a two-stream network based on joint learning of local and global features. The core idea of our paper is to use local feature alignment to solve occlusion problem, and to solve modal difference by strengthening global feature. Firstly, Attention-based two-stream ResNet network is designed to extract dual-modality features and map to a unified feature space. Then, to solve the cross-modal person pose and occlusion problems, the image are cut horizontally into several equal parts to obtain local features and the shortest path in local features between two graphs is used to achieve the fine-grained local feature alignment. Thirdly, a batch normalization enhancement module applies global features to enhance strategy, resulting in difference enhancement between different classes. The multi granularity loss fusion strategy further improves the performance of the algorithm. Finally, joint learning mechanism of local and global features is used to improve cross-modal person re-identification accuracy. The experimental results on two typical datasets show that our model is obviously superior to the most state-of-the-art methods. Especially, on SYSU-MM01 datasets, our model can achieve a gain of 2.89%and 7.96% in all search term of Rank-1 and mAP. The source code will be released soon.
翻訳日:2022-06-10 14:03:00 公開日:2022-06-09
# VITA:Object Token Associationによるビデオインスタンスセグメンテーション

VITA: Video Instance Segmentation via Object Token Association ( http://arxiv.org/abs/2206.04403v1 )

ライセンス: Link先を確認
Miran Heo, Sukjun Hwang, Seoung Wug Oh, Joon-Young Lee, Seon Joo Kim(参考訳) オフラインビデオインスタンスセグメンテーション(VIS)のための新しいパラダイムを紹介し、明示的なオブジェクト指向情報はシーケンス全体のコンテキストを理解するための強力な手がかりになり得るという仮説に基づく。 そこで本研究では,既製のトランスフォーマーベースイメージインスタンスセグメンテーションモデル上に構築したシンプルな構造であるvitaを提案する。 具体的には、オブジェクト固有のコンテキストをオブジェクトトークンに蒸留する手段として、イメージオブジェクト検出器を用いる。 VITAは、時空間のバックボーン機能を使わずにフレームレベルのオブジェクトトークンを関連付けることで、ビデオレベルの理解を実現する。 縮合情報を用いてオブジェクト間の関係を効果的に構築することにより、VITAはResNet-50のバックボーンで最先端のVISベンチマークを達成している: YouTube-VIS 2019 & 2021 で 49.8 AP、45.7 AP、OVISで 19.6 AP。 さらに、バックボーン機能から切り離されたオブジェクトトークンベースの構造のおかげで、VITAは、従来のオフラインVISメソッドが探索しなかったいくつかの実用的な利点を示している。 コードはhttps://github.com/sukjunhwang/vitaで入手できる。

We introduce a novel paradigm for offline Video Instance Segmentation (VIS), based on the hypothesis that explicit object-oriented information can be a strong clue for understanding the context of the entire sequence. To this end, we propose VITA, a simple structure built on top of an off-the-shelf Transformer-based image instance segmentation model. Specifically, we use an image object detector as a means of distilling object-specific contexts into object tokens. VITA accomplishes video-level understanding by associating frame-level object tokens without using spatio-temporal backbone features. By effectively building relationships between objects using the condensed information, VITA achieves the state-of-the-art on VIS benchmarks with a ResNet-50 backbone: 49.8 AP, 45.7 AP on YouTube-VIS 2019 & 2021 and 19.6 AP on OVIS. Moreover, thanks to its object token-based structure that is disjoint from the backbone features, VITA shows several practical advantages that previous offline VIS methods have not explored - handling long and high-resolution videos with a common GPU and freezing a frame-level detector trained on image domain. Code will be made available at https://github.com/sukjunhwang/VITA.
翻訳日:2022-06-10 14:02:28 公開日:2022-06-09
# デジタル病理学のためのマルチインスタンスラーニング:現状,限界,将来の可能性について

Multiple Instance Learning for Digital Pathology: A Review on the State-of-the-Art, Limitations & Future Potential ( http://arxiv.org/abs/2206.04425v1 )

ライセンス: Link先を確認
Michael Gadermayr, Maximilian Tschuchnig(参考訳) デジタルスライド画像には膨大な情報が含まれており、自動画像分析ツールの開発に強い動機を与えている。 特に深層ニューラルネットワークは、デジタル病理学の分野における様々なタスクに対して高いポテンシャルを示す。 しかし、この制限は、一般的なディープラーニングアルゴリズムが効果的なトレーニングを可能にするために、大量の画像データに加えて、(手動)アノテーションを必要とするという事実によって与えられる。 複数のインスタンス学習は、完全な注釈付きデータなしでシナリオでディープニューラルネットワークを学習するための強力なツールである。 これらの手法はこの領域において特に効果的であり、完全なスライド画像のラベルはしばしば日常的にキャプチャされるが、パッチ、領域、ピクセルのラベルはそうではないためである。 この可能性は既にかなりの数の出版物をもたらし、その大多数は過去3年間に出版された。 データの可用性と医学的な視点による高いモチベーションに加えて、強力なグラフィック処理ユニットの可用性はこの分野においてアクセラレーターを示している。 本稿では,多種多種多様なインスタンス学習手法の広範かつ効果的に活用されている概念の概要,最近の進歩,残る課題と今後の可能性について批判的に論じる。

Digital whole slides images contain an enormous amount of information providing a strong motivation for the development of automated image analysis tools. Particularly deep neural networks show high potential with respect to various tasks in the field of digital pathology. However, a limitation is given by the fact that typical deep learning algorithms require (manual) annotations in addition to the large amounts of image data, to enable effective training. Multiple instance learning exhibits a powerful tool for learning deep neural networks in a scenario without fully annotated data. These methods are particularly effective in this domain, due to the fact that labels for a complete whole slide image are often captured routinely, whereas labels for patches, regions or pixels are not. This potential already resulted in a considerable number of publications, with the majority published in the last three years. Besides the availability of data and a high motivation from the medical perspective, the availability of powerful graphics processing units exhibits an accelerator in this field. In this paper, we provide an overview of widely and effectively used concepts of used deep multiple instance learning approaches, recent advances and also critically discuss remaining challenges and future potential.
翻訳日:2022-06-10 14:02:08 公開日:2022-06-09
# Missing Link: データセット間のラベル関係を見つける

The Missing Link: Finding label relations across datasets ( http://arxiv.org/abs/2206.04453v1 )

ライセンス: Link先を確認
Jasper Uijlings, Thomas Mensink, Vittorio Ferrari(参考訳) コンピュータビジョンは、新しい手法のトレーニングや評価に使用できる多くのデータセットによって駆動される。 しかしながら、各データセットには、クラスラベルの異なるセット、クラスの視覚的定義、特定のディストリビューションに従うイメージ、アノテーションプロトコルなどがあります。 本稿では,データセット間のラベル間の視覚的意味関係の自動発見について検討する。 データセット内のあるクラスのインスタンスが、別のデータセット内の別のクラスのインスタンスとどのように関連しているかを理解したいのです。 彼らはアイデンティティ、親/子、重複関係にあるか? あるいは、それらの関係が全くないのか? データセットにまたがるラベル間の関係を見つけるために,言語に基づく手法,視覚に基づく手法,および両者の組み合わせを提案する。 提案手法は,データセット間のラベル関係と関係のタイプを効果的に検出できる。 これらの結果は、なぜインスタンスが関連するのか、クラスの欠落した側面を見つけ、私たちの関係を使ってよりきめ細かいアノテーションを作成します。 我々は,各データセットがどのように構築されたかに強く依存するため,クラス名だけでラベル関係を確立することはできないと結論付けた。

Computer Vision is driven by the many datasets which can be used for training or evaluating novel methods. However, each dataset has different set of class labels, visual definition of classes, images following a specific distribution, annotation protocols, etc. In this paper we explore the automatic discovery of visual-semantic relations between labels across datasets. We want to understand how the instances of a certain class in a dataset relate to the instances of another class in another dataset. Are they in an identity, parent/child, overlap relation? Or is there no link between them at all? To find relations between labels across datasets, we propose methods based on language, on vision, and on a combination of both. Our methods can effectively discover label relations across datasets and the type of the relations. We use these results for a deeper inspection on why instances relate, find missing aspects of a class, and use our relations to create finer-grained annotations. We conclude that label relations cannot be established by looking at the names of classes alone, as they depend strongly on how each of the datasets was constructed.
翻訳日:2022-06-10 14:01:50 公開日:2022-06-09
# (参考訳) ニューラルプロンプトサーチ

Neural Prompt Search ( http://arxiv.org/abs/2206.04673v1 )

ライセンス: CC BY 4.0
Yuanhan Zhang, Kaiyang Zhou, Ziwei Liu(参考訳) ビジョンモデルのサイズは、特にビジョントランスフォーマーの出現以降、ここ数年で指数関数的に増加している。 これは、適応層や視覚的プロンプトトークンなどのパラメータ効率のよいチューニング手法の開発を動機付け、モデルのパラメータのごく一部をトレーニングできる一方で、事前学習で得られた大多数は凍結する。 しかし、適切なチューニング方法を設計するのは簡単ではない: 各ダウンストリームデータセットがカスタム設計を必要とすることは言うまでもなく、設計選択の長いリストを試す必要があるかもしれない。 本稿では,既存のパラメータ効率の高いチューニング手法を "prompt modules" と捉え,大規模な視覚モデルに対して,ニューラルネットワーク探索アルゴリズムによるプロンプトモジュールの最適設計,特に下流データセット毎に学習する新しいアプローチであるneural prompt search (noah)を提案する。 20以上の視覚データセットを広範囲に実験することで、noahは i)個々のプロンプトモジュールよりも優れている。 (二)優れた数発の学習能力があり、 (iii)ドメイン一般化可能。 コードとモデルはhttps://github.com/davidzhangyuanhan/noahで入手できる。

The size of vision models has grown exponentially over the last few years, especially after the emergence of Vision Transformer. This has motivated the development of parameter-efficient tuning methods, such as learning adapter layers or visual prompt tokens, which allow a tiny portion of model parameters to be trained whereas the vast majority obtained from pre-training are frozen. However, designing a proper tuning method is non-trivial: one might need to try out a lengthy list of design choices, not to mention that each downstream dataset often requires custom designs. In this paper, we view the existing parameter-efficient tuning methods as "prompt modules" and propose Neural prOmpt seArcH (NOAH), a novel approach that learns, for large vision models, the optimal design of prompt modules through a neural architecture search algorithm, specifically for each downstream dataset. By conducting extensive experiments on over 20 vision datasets, we demonstrate that NOAH (i) is superior to individual prompt modules, (ii) has a good few-shot learning ability, and (iii) is domain-generalizable. The code and models are available at https://github.com/Davidzhangyuanhan/NOAH.
翻訳日:2022-06-10 13:59:34 公開日:2022-06-09
# gasp: 塩分予測に注意を向ける

GASP: Gated Attention For Saliency Prediction ( http://arxiv.org/abs/2206.04590v1 )

ライセンス: Link先を確認
Fares Abawi, Tom Weber and Stefan Wermter(参考訳) 正当性予測とは、過剰な注意をモデル化する計算タスクを指す。 社会的手がかりは我々の注意に大きく影響を与え、その結果我々の目の動きと行動を変える。 このような特徴の有効性を強調するために,社会的手がかりの統合と影響の重み付けのためのニューラルモデルを提案する。 私たちのモデルは2つの段階からなる。 第1段階では、視線を追従し、視線方向を推定し、影響を認識することにより、2つの社会的手がかりを検出する。 これらの特徴は画像処理操作によって時空間マップに変換される。 変換された表現は第2段階(GASP)に伝播し,後期融合の様々な技法を探求し,関連する刺激に注意を向ける2つのサブネットワークを導入する。 実験により, 拡散法は静的積分法においてより良い結果が得られることが示されたが, 各モードの影響が不明な非融合法では, 動的塩分率予測の繰り返しモデルと組み合わせることで, より良い結果が得られることがわかった。 視線方向と感情表現は,社会的手がかりのない動的サリエンシモデルと比較して,少なくとも5%の地道対応改善に寄与することを示した。 さらに、情意表現は、敬礼の予測において感情バイアスの注意を考慮する必要性をサポートするため、gaspを改善する。

Saliency prediction refers to the computational task of modeling overt attention. Social cues greatly influence our attention, consequently altering our eye movements and behavior. To emphasize the efficacy of such features, we present a neural model for integrating social cues and weighting their influences. Our model consists of two stages. During the first stage, we detect two social cues by following gaze, estimating gaze direction, and recognizing affect. These features are then transformed into spatiotemporal maps through image processing operations. The transformed representations are propagated to the second stage (GASP) where we explore various techniques of late fusion for integrating social cues and introduce two sub-networks for directing attention to relevant stimuli. Our experiments indicate that fusion approaches achieve better results for static integration methods, whereas non-fusion approaches for which the influence of each modality is unknown, result in better outcomes when coupled with recurrent models for dynamic saliency prediction. We show that gaze direction and affective representations contribute a prediction to ground-truth correspondence improvement of at least 5% compared to dynamic saliency models without social cues. Furthermore, affective representations improve GASP, supporting the necessity of considering affect-biased attention in predicting saliency.
翻訳日:2022-06-10 13:38:40 公開日:2022-06-09
# グラフ注意多層パーセプトロン

Graph Attention Multi-Layer Perceptron ( http://arxiv.org/abs/2206.04355v1 )

ライセンス: Link先を確認
Wentao Zhang, Ziqi Yin, Zeang Sheng, Yang Li, Wen Ouyang, Xiaosen Li, Yangyu Tao, Zhi Yang, Bin Cui(参考訳) グラフニューラルネットワーク(GNN)は多くのグラフベースのアプリケーションで大きな成功を収めている。 しかし、巨大なサイズと高い空間レベルのグラフは、産業シナリオ下での応用を妨げる。 大規模グラフにはスケーラブルなgnnがいくつか提案されているが、各ノードに固定された$k$-hop近傍を採用しており、スパース領域内のノードに対する大きな伝播深さを採用する場合の過剰な問題に直面している。 本稿では,グラフ知識の異なるスケール間の相関関係を捉えるための新しいgnnアーキテクチャ,graph attention multi-layer perceptron (gamlp)を提案する。 我々は Angel プラットフォームで Tencent に GAMLP をデプロイし,実世界のデータセットと大規模産業データセットで GAMLP をさらに評価した。 これらの14のグラフデータセットに対する大規模な実験により、GAMLPは高いスケーラビリティと効率を享受しながら最先端のパフォーマンスを達成することを示した。 具体的には、当社の大規模Tencent Videoデータセットの予測精度について、GATを1.3%上回り、最大50\times$トレーニングスピードアップを達成した。 さらに、Open Graph Benchmarkの最大の均一グラフおよび異種グラフ(ogbn-papers100Mとogbn-mag)のリーダーボードのトップ1にランクインしている。

Graph neural networks (GNNs) have achieved great success in many graph-based applications. However, the enormous size and high sparsity level of graphs hinder their applications under industrial scenarios. Although some scalable GNNs are proposed for large-scale graphs, they adopt a fixed $K$-hop neighborhood for each node, thus facing the over-smoothing issue when adopting large propagation depths for nodes within sparse regions. To tackle the above issue, we propose a new GNN architecture -- Graph Attention Multi-Layer Perceptron (GAMLP), which can capture the underlying correlations between different scales of graph knowledge. We have deployed GAMLP in Tencent with the Angel platform, and we further evaluate GAMLP on both real-world datasets and large-scale industrial datasets. Extensive experiments on these 14 graph datasets demonstrate that GAMLP achieves state-of-the-art performance while enjoying high scalability and efficiency. Specifically, it outperforms GAT by 1.3\% regarding predictive accuracy on our large-scale Tencent Video dataset while achieving up to $50\times$ training speedup. Besides, it ranks top-1 on both the leaderboards of the largest homogeneous and heterogeneous graph (i.e., ogbn-papers100M and ogbn-mag) of Open Graph Benchmark.
翻訳日:2022-06-10 13:35:21 公開日:2022-06-09
# フラクショナルブラウン運動による深部ニューラルネットワークの軌道依存一般化境界

Trajectory-dependent Generalization Bounds for Deep Neural Networks via Fractional Brownian Motion ( http://arxiv.org/abs/2206.04359v1 )

ライセンス: Link先を確認
Chengli Tan, Jiangshe Zhang, Junmin Liu(参考訳) 非常に過度にパラメータ化されているにもかかわらず、確率勾配降下(SGD)によって訓練されたディープニューラルネットワークは驚くほど一般化されていると評価されている。 事前特定された仮説集合のラデマッハ複雑性に基づいて、この現象を説明するために異なるノルムベースの一般化境界が開発された。 しかし、最近の研究では、これらの境界は、経験的証拠とは対照的なトレーニングセットのサイズが大きくなるにつれて問題になる可能性があると示唆されている。 本研究では,SGD が探索する仮説集合は軌道依存的であり,Radecher の複雑性に対してより厳密な拘束力を与える可能性があると論じる。 この目的のために,確率微分方程式によるsgd再帰を,確率的勾配ノイズが分数ブラウン運動に従うことを仮定して特徴付ける。 次に、被覆数の観点からラデマッハ複雑性を特定し、最適化軌道のハウスドルフ次元と関連付ける。 仮説集合の安定性を呼び出すことで、深層ニューラルネットワークに束縛された新しい一般化を導出する。 大規模な実験は、いくつかの一般的な実験介入に対する一般化ギャップをうまく予測することを示した。 さらに、分数ブラウン運動のハーストパラメータは、パワーロー指数やアッパーブルーメンタール・ゲトーア指数のような既存の一般化指標よりも有益であることを示した。

Despite being tremendously overparameterized, it is appreciated that deep neural networks trained by stochastic gradient descent (SGD) generalize surprisingly well. Based on the Rademacher complexity of a pre-specified hypothesis set, different norm-based generalization bounds have been developed to explain this phenomenon. However, recent studies suggest these bounds might be problematic as they increase with the training set size, which is contrary to empirical evidence. In this study, we argue that the hypothesis set SGD explores is trajectory-dependent and thus may provide a tighter bound over its Rademacher complexity. To this end, we characterize the SGD recursion via a stochastic differential equation by assuming the incurred stochastic gradient noise follows the fractional Brownian motion. We then identify the Rademacher complexity in terms of the covering numbers and relate it to the Hausdorff dimension of the optimization trajectory. By invoking the hypothesis set stability, we derive a novel generalization bound for deep neural networks. Extensive experiments demonstrate that it predicts well the generalization gap over several common experimental interventions. We further show that the Hurst parameter of the fractional Brownian motion is more informative than existing generalization indicators such as the power-law index and the upper Blumenthal-Getoor index.
翻訳日:2022-06-10 13:34:57 公開日:2022-06-09
# value memory graph:オフライン強化学習のためのグラフ構造世界モデル

Value Memory Graph: A Graph-Structured World Model for Offline Reinforcement Learning ( http://arxiv.org/abs/2206.04384v1 )

ライセンス: Link先を確認
Deyao Zhu, Li Erran Li, Mohamed Elhoseiny(参考訳) モデルに基づく強化学習における世界モデルは、通常、予測誤差が時間ステップに蓄積するにつれて、複合エラーによる非現実的な長期ホリゾン予測問題に直面する。 グラフ構造化世界モデルにおける最近の研究は、環境を表現するためのグラフを構築することで、長期的推論能力を向上させるが、それらは目標条件で設計されており、外部に与えられた目標状態のない伝統的な強化学習環境で、エピソードリターンを最大化するためのエージェントを誘導することはできない。 この制限を克服するために,オフライン強化学習におけるグラフ構造世界モデルの設計を行い,各有向エッジに報奨を付与した有向グラフベースマルコフ決定プロセス(mdp)を,元の連続環境の抽象化として構築する。 私たちの世界モデルは、元の環境と比較して、小さくて有限な状態/動作空間を持っているので、値の反復は、グラフの状態値を推定し、最良の未来を見出すために簡単に適用できます。 外部から提供されたターゲットを必要とする従来のグラフ構造化の世界モデルとは異なり、VMG(Value Memory Graph)と呼ばれる私たちの世界モデルは、それ自体で高い値で望ましいターゲットを提供することができます。 VMGは,教師付き学習を通じてトレーニングされた低レベルの目標条件ポリシをガイドして,エピソードリターンの最大化に使用することができる。 D4RLベンチマークの実験により、VMGは長い地平線推論能力が不可欠であるいくつかのタスクにおいて最先端のメソッドより優れていることが示された。 コードは公開される予定だ。

World models in model-based reinforcement learning usually face unrealistic long-time-horizon prediction issues due to compounding errors as the prediction errors accumulate over timesteps. Recent works in graph-structured world models improve the long-horizon reasoning ability via building a graph to represent the environment, but they are designed in a goal-conditioned setting and cannot guide the agent to maximize episode returns in a traditional reinforcement learning setting without externally given target states. To overcome this limitation, we design a graph-structured world model in offline reinforcement learning by building a directed-graph-based Markov decision process (MDP) with rewards allocated to each directed edge as an abstraction of the original continuous environment. As our world model has small and finite state/action spaces compared to the original environment, value iteration can be easily applied here to estimate state values on the graph and figure out the best future. Unlike previous graph-structured world models that requires externally provided targets, our world model, dubbed Value Memory Graph (VMG), can provide the desired targets with high values by itself. VMG can be used to guide low-level goal-conditioned policies that are trained via supervised learning to maximize episode returns. Experiments on the D4RL benchmark show that VMG can outperform state-of-the-art methods in several tasks where long horizon reasoning ability is crucial. Code will be made publicly available.
翻訳日:2022-06-10 13:34:35 公開日:2022-06-09
# ジョブショップスケジューリングにおける分散ルールの一般化

Learning to generalize Dispatching rules on the Job Shop Scheduling ( http://arxiv.org/abs/2206.04423v1 )

ライセンス: Link先を確認
Zangir Iklassov, Dmitrii Medvedev, Ruben Solozabal, Martin Takac(参考訳) 本稿では,ジョブショップスケジューリング問題(jsp)に対するヒューリスティックディスパッチルールをより一般化するための強化学習手法を提案する。 現在のJSPのモデルは一般化に重点を置いていないが、この研究で示されているように、この問題に関するより優れたヒューリスティックスを学ぶ上で鍵となる。 一般化を改善するためのよく知られたテクニックは、Curriculum Learning (CL)を使ってますます複雑なインスタンスを学ぶことである。 しかし、多くの文献が示すように、この技法は、異なる問題サイズ間で学習スキルを移す際に、破滅的な忘れに苦しむ可能性がある。 この問題に対処するために,我々は,学習プロセス中の難易度を動的に調整し,最悪のパフォーマンスのインスタンスを再検討する,新しいACL戦略を導入する。 この研究は、ジョブ定義とサイズに依存しない等式であるJSPを解くためのディープラーニングモデルも提示する。 タラードとデミルコールの事例に関する実験により、提案されたアプローチはJSPの現在の最先端モデルを大幅に改善することを示した。 平均最適性ギャップは、タラードの場合19.35\%から10.46\%、デミルコールの場合38.43\%から18.85\%に減少する。 私たちの実装はオンラインで利用可能です。

This paper introduces a Reinforcement Learning approach to better generalize heuristic dispatching rules on the Job-shop Scheduling Problem (JSP). Current models on the JSP do not focus on generalization, although, as we show in this work, this is key to learning better heuristics on the problem. A well-known technique to improve generalization is to learn on increasingly complex instances using Curriculum Learning (CL). However, as many works in the literature indicate, this technique might suffer from catastrophic forgetting when transferring the learned skills between different problem sizes. To address this issue, we introduce a novel Adversarial Curriculum Learning (ACL) strategy, which dynamically adjusts the difficulty level during the learning process to revisit the worst-performing instances. This work also presents a deep learning model to solve the JSP, which is equivariant w.r.t. the job definition and size-agnostic. Conducted experiments on Taillard's and Demirkol's instances show that the presented approach significantly improves the current state-of-the-art models on the JSP. It reduces the average optimality gap from 19.35\% to 10.46\% on Taillard's instances and from 38.43\% to 18.85\% on Demirkol's instances. Our implementation is available online.
翻訳日:2022-06-10 13:34:11 公開日:2022-06-09
# 条件付き価値制約による安全強化学習に向けて

Towards Safe Reinforcement Learning via Constraining Conditional Value-at-Risk ( http://arxiv.org/abs/2206.04436v1 )

ライセンス: Link先を確認
Chengyang Ying, Xinning Zhou, Hang Su, Dong Yan, Ning Chen, Jun Zhu(参考訳) 深層強化学習(DRL)は大きな成功を収めているが、遷移と観測の両方の本質的な不確実性のために破滅的な失敗を経験する可能性がある。 安全強化学習のための既存の方法のほとんどは、これらの2種類の障害がエージェントの異なる部分に影響するため、遷移障害や観察障害のみを扱うことができる。 これらの問題に対処するために、まず、遷移障害と観測障害による性能劣化は、最良状態と最悪の状態の間の値関数のギャップに対応する新しい値関数範囲(VFR)の計量に依存することを理論的に証明する。 本分析では,リスク評価として条件付き値付きリスク(CVaR)を採用し,CVaRを所定の閾値に保ち,リスクに敏感な制約付き最適化問題を定式化するCVaR- Proximal-Policy-Optimization(CPPO)の強化学習アルゴリズムを提案する。 実験の結果, CPPOは累積報酬が高く, MuJoCo の連続制御タスクにおける観測および遷移障害に対してより堅牢であることがわかった。

Though deep reinforcement learning (DRL) has obtained substantial success, it may encounter catastrophic failures due to the intrinsic uncertainty of both transition and observation. Most of the existing methods for safe reinforcement learning can only handle transition disturbance or observation disturbance since these two kinds of disturbance affect different parts of the agent; besides, the popular worst-case return may lead to overly pessimistic policies. To address these issues, we first theoretically prove that the performance degradation under transition disturbance and observation disturbance depends on a novel metric of Value Function Range (VFR), which corresponds to the gap in the value function between the best state and the worst state. Based on the analysis, we adopt conditional value-at-risk (CVaR) as an assessment of risk and propose a novel reinforcement learning algorithm of CVaR-Proximal-Policy-Optimization (CPPO) which formalizes the risk-sensitive constrained optimization problem by keeping its CVaR under a given threshold. Experimental results show that CPPO achieves a higher cumulative reward and is more robust against both observation and transition disturbances on a series of continuous control tasks in MuJoCo.
翻訳日:2022-06-10 13:33:47 公開日:2022-06-09
# Receding Horizon Inverse Reinforcement Learning

Receding Horizon Inverse Reinforcement Learning ( http://arxiv.org/abs/2206.04477v1 )

ライセンス: Link先を確認
Yiqing Xu, Wei Gao, David Hsu(参考訳) 逆強化学習(IRL)は、専門家によるデモンストレーションの目的と好みを説明するコスト関数を推論しようとする。 本稿では,ブラックボックス動的モデルを用いた高次元,ノイズ,連続システムのための新しいirlアルゴリズムであるreceding horizon inverse reinforcement learning (rhirl)を提案する。 RHIRLはスケーラビリティと堅牢性の2つの主要な課題に対処する。 高次元連続システムを扱うために、rrirlは誘導された最適軌跡と専門家のデモンストレーションを局所的に後退地平線法で一致させ、局所解を合わせてコストを学習し、「次元の曲線」を避ける。 これは、高次元状態空間全体にわたって、世界的に専門家のデモンストレーションと一致する以前のアルゴリズムと鋭く対照的である。 不完全な専門家のデモンストレーションやシステム制御ノイズに対して頑健にするために、RHIRLは、穏やかな条件下でシステムダイナミクスから状態依存のコスト関数「切り離された」ことを学ぶ。 ベンチマークタスクの実験では、ほとんどの場合、RHIRLは主要なIRLアルゴリズムよりも優れていた。 また,RHIRLの累積誤差はタスク時間とともに線形に増加することを示す。

Inverse reinforcement learning (IRL) seeks to infer a cost function that explains the underlying goals and preferences of expert demonstrations. This paper presents receding horizon inverse reinforcement learning (RHIRL), a new IRL algorithm for high-dimensional, noisy, continuous systems with black-box dynamic models. RHIRL addresses two key challenges of IRL: scalability and robustness. To handle high-dimensional continuous systems, RHIRL matches the induced optimal trajectories with expert demonstrations locally in a receding horizon manner and 'stitches' together the local solutions to learn the cost; it thereby avoids the 'curse of dimensionality'. This contrasts sharply with earlier algorithms that match with expert demonstrations globally over the entire high-dimensional state space. To be robust against imperfect expert demonstrations and system control noise, RHIRL learns a state-dependent cost function 'disentangled' from system dynamics under mild conditions. Experiments on benchmark tasks show that RHIRL outperforms several leading IRL algorithms in most instances. We also prove that the cumulative error of RHIRL grows linearly with the task duration.
翻訳日:2022-06-10 13:33:24 公開日:2022-06-09
# GCVAE: 汎用制御可能な変分オートエンコーダ

GCVAE: Generalized-Controllable Variational AutoEncoder ( http://arxiv.org/abs/2206.04225v1 )

ライセンス: Link先を確認
Kenneth Ezukwoke, Anis Hoayek, Mireille Batton-Hubert, and Xavier Boucher(参考訳) 変分オートエンコーダ (VAEs) は, 複雑な密度分布の教師なし逆絡学習に最近用いられている。 再現性を改善しつつ、潜伏空間のゆがみを促進するために多くの変種が存在する。 しかし、非常に低い復元誤差と高い絡み合いスコアのトレードオフを同時に管理する者はいなかった。 本稿では,制約付き最適化の下でこの課題に対処するための一般化フレームワークを提案し,再構築のバランスを保ちながら,既存のモデルよりも不連続性に関して優れていることを実証する。 制御可能なラグランジアンハイパーパラメーターを3つ導入し,再構成損失,KL分散損失,相関係数を制御した。 再構成ネットワークにおける情報の最大化は、合理的な仮定と制約緩和の下での償却推論における情報の最大化と等価であることを示す。

Variational autoencoders (VAEs) have recently been used for unsupervised disentanglement learning of complex density distributions. Numerous variants exist to encourage disentanglement in latent space while improving reconstruction. However, none have simultaneously managed the trade-off between attaining extremely low reconstruction error and a high disentanglement score. We present a generalized framework to handle this challenge under constrained optimization and demonstrate that it outperforms state-of-the-art existing models as regards disentanglement while balancing reconstruction. We introduce three controllable Lagrangian hyperparameters to control reconstruction loss, KL divergence loss and correlation measure. We prove that maximizing information in the reconstruction network is equivalent to information maximization during amortized inference under reasonable assumptions and constraint relaxation.
翻訳日:2022-06-10 13:32:50 公開日:2022-06-09
# 条件生成モデルによるアレオータの不確かさの評価

Evaluating Aleatoric Uncertainty via Conditional Generative Models ( http://arxiv.org/abs/2206.04287v1 )

ライセンス: Link先を確認
Ziyi Huang, Henry Lam, Haofeng Zhang(参考訳) aleatoric uncertainty quantificationはランダム応答の分布的知識を求めており、機械学習アプリケーションにおける信頼性分析とロバスト性改善に重要である。 aleatoric uncertainty estimation の以前の研究は、主に閉形式条件密度や分散を対象とし、データ分布や次元に強い制限を必要とする。 これらの制約を克服するため,アレータティック不確実性推定のための条件付き生成モデルについて検討した。 これらのモデルに適合する2つの条件分布間の差を測定するための2つの指標を導入する。 両方のメトリクスは条件付き生成モデルのモンテカルロシミュレーションによって容易に、不偏に計算できるため、評価と訓練が容易になる。 既存のベンチマークと競合する条件付モデルのトレーニングに使用できる,条件付分布の不一致の正確な測定を行うための指標を数値的に示す。

Aleatoric uncertainty quantification seeks for distributional knowledge of random responses, which is important for reliability analysis and robustness improvement in machine learning applications. Previous research on aleatoric uncertainty estimation mainly targets closed-formed conditional densities or variances, which requires strong restrictions on the data distribution or dimensionality. To overcome these restrictions, we study conditional generative models for aleatoric uncertainty estimation. We introduce two metrics to measure the discrepancy between two conditional distributions that suit these models. Both metrics can be easily and unbiasedly computed via Monte Carlo simulation of the conditional generative models, thus facilitating their evaluation and training. We demonstrate numerically how our metrics provide correct measurements of conditional distributional discrepancies and can be used to train conditional models competitive against existing benchmarks.
翻訳日:2022-06-10 13:32:13 公開日:2022-06-09
# 片面フィードバックによる個々に公平な学習

Individually Fair Learning with One-Sided Feedback ( http://arxiv.org/abs/2206.04475v1 )

ライセンス: Link先を確認
Yahav Bechavod, Aaron Roth(参考訳) 学習者が正に予測されたインスタンスに対してのみ真のラベルを観察できる,片面フィードバックによるオンライン学習問題を考える。 各ラウンドにおいて、$k$インスタンスが到着し、学習者が展開するランダム化されたポリシーに従って分類結果を受け取る。 最初にBechavod et al. (2020) の枠組みを拡張し, フェアネス違反を検出するための人間のフェアネス監査者の存在に依存して, 複数の不整合性のある監査者の動的選択パネルからのフィードバックを取り入れた。 We then construct an efficient reduction from our problem of online learning with one-sided feedback and a panel reporting fairness violations to the contextual combinatorial semi-bandit problem (Cesa-Bianchi & Lugosi, 2009, Gy\"{o}rgy et al., 2007). Finally, we show how to leverage the guarantees of two algorithms in the contextual combinatorial semi-bandit setting: Exp2 (Bubeck et al., 2012) and the oracle-efficient Context-Semi-Bandit-FTPL (Syrgkanis et al., 2016), to provide multi-criteria no regret guarantees simultaneously for accuracy and fairness. Our results eliminate two potential sources of bias from prior work: the "hidden outcomes" that are not available to an algorithm operating in the full information setting, and human biases that might be present in any single human auditor, but can be mitigated by selecting a well chosen panel.

We consider an online learning problem with one-sided feedback, in which the learner is able to observe the true label only for positively predicted instances. On each round, $k$ instances arrive and receive classification outcomes according to a randomized policy deployed by the learner, whose goal is to maximize accuracy while deploying individually fair policies. We first extend the framework of Bechavod et al. (2020), which relies on the existence of a human fairness auditor for detecting fairness violations, to instead incorporate feedback from dynamically-selected panels of multiple, possibly inconsistent, auditors. We then construct an efficient reduction from our problem of online learning with one-sided feedback and a panel reporting fairness violations to the contextual combinatorial semi-bandit problem (Cesa-Bianchi & Lugosi, 2009, Gy\"{o}rgy et al., 2007). Finally, we show how to leverage the guarantees of two algorithms in the contextual combinatorial semi-bandit setting: Exp2 (Bubeck et al., 2012) and the oracle-efficient Context-Semi-Bandit-FTPL (Syrgkanis et al., 2016), to provide multi-criteria no regret guarantees simultaneously for accuracy and fairness. Our results eliminate two potential sources of bias from prior work: the "hidden outcomes" that are not available to an algorithm operating in the full information setting, and human biases that might be present in any single human auditor, but can be mitigated by selecting a well chosen panel.
翻訳日:2022-06-10 13:31:59 公開日:2022-06-09
# 過パラメータ化畳み込み残差ネットワークの利点:滑らか性制約下における関数近似

Benefits of Overparameterized Convolutional Residual Networks: Function Approximation under Smoothness Constraint ( http://arxiv.org/abs/2206.04569v1 )

ライセンス: Link先を確認
Hao Liu, Minshuo Chen, Siawpeng Er, Wenjing Liao, Tong Zhang, Tuo Zhao(参考訳) 過パラメータ化されたニューラルネットワークは複雑なデータに対して大きな表現力を持ち、より重要なことは十分な滑らかな出力を産出する。 既存の関数近似理論の多くは、十分多くのパラメーターを持つニューラルネットワークが関数の特定のクラスを関数値の観点から近似できることを示唆している。 しかし、ニューラルネットワーク自体は非常に非滑らかである。 このギャップを埋めるために、畳み込み残余ネットワーク(ConvResNets)を例に挙げ、大きなConvResNetsは関数値で目的関数を近似するだけでなく、十分一階スムーズさを示すことができることを証明した。 さらに、この理論を低次元多様体上の近似関数に拡張する。 我々の理論は、深層ネットワークと広層ネットワークの利点を部分的に正当化している。 本理論を支持するために, 対向ロバスト画像分類に関する数値実験を行った。

Overparameterized neural networks enjoy great representation power on complex data, and more importantly yield sufficiently smooth output, which is crucial to their generalization and robustness. Most existing function approximation theories suggest that with sufficiently many parameters, neural networks can well approximate certain classes of functions in terms of the function value. The neural network themselves, however, can be highly nonsmooth. To bridge this gap, we take convolutional residual networks (ConvResNets) as an example, and prove that large ConvResNets can not only approximate a target function in terms of function value, but also exhibit sufficient first-order smoothness. Moreover, we extend our theory to approximating functions supported on a low-dimensional manifold. Our theory partially justifies the benefits of using deep and wide networks in practice. Numerical experiments on adversarial robust image classification are provided to support our theory.
翻訳日:2022-06-10 13:31:37 公開日:2022-06-09
# 固定バッドベストアーム識別のためのグローバル最適アルゴリズム

Globally Optimal Algorithms for Fixed-Budged Best Arm Identification ( http://arxiv.org/abs/2206.04646v1 )

ライセンス: Link先を確認
Junpei Komiyama, Taira Tsuchiya, Junya Honda(参考訳) 我々は,最大平均のアームを一定数のサンプルで見つけることを目標とする固定予算最良アーム識別問題を考える。 最良の腕を誤認する確率は、ラウンド数に対して指数関数的に小さいことが知られている。 しかし、この値の速度(指数)について限定的な特徴づけが議論されている。 本稿では,全ての可能なパラメータに対する大域的最適化の結果として最適速度を特徴付ける。 R^{\mathrm{go}}$ と $R^{\mathrm{go}}_{\infty}$ という2つのレートを導入する。 R^{\mathrm{go}}$は$R^{\mathrm{go}}$-trackingに関連付けられており、ニューラルネットワークによって効率的に実装でき、既存のアルゴリズムより優れていることが示されている。 しかし、この速度は達成可能な非自明な条件を必要とする。 この問題に対処するために、第二のレート$R^{\mathrm{go}}_\infty$を導入する。 本稿では,遅延最適追跡 (DOT) という概念アルゴリズムを導入することで,この速度が実現可能であることを示す。

We consider the fixed-budget best arm identification problem where the goal is to find the arm of the largest mean with a fixed number of samples. It is known that the probability of misidentifying the best arm is exponentially small to the number of rounds. However, limited characterizations have been discussed on the rate (exponent) of this value. In this paper, we characterize the optimal rate as a result of global optimization over all possible parameters. We introduce two rates, $R^{\mathrm{go}}$ and $R^{\mathrm{go}}_{\infty}$, corresponding to lower bounds on the misidentification probability, each of which is associated with a proposed algorithm. The rate $R^{\mathrm{go}}$ is associated with $R^{\mathrm{go}}$-tracking, which can be efficiently implemented by a neural network and is shown to outperform existing algorithms. However, this rate requires a nontrivial condition to be achievable. To deal with this issue, we introduce the second rate $R^{\mathrm{go}}_\infty$. We show that this rate is indeed achievable by introducing a conceptual algorithm called delayed optimal tracking (DOT).
翻訳日:2022-06-10 13:31:21 公開日:2022-06-09
# 局所時空間表現学習による経時的ニューロ画像解析

Local Spatiotemporal Representation Learning for Longitudinally-consistent Neuroimage Analysis ( http://arxiv.org/abs/2206.04281v1 )

ライセンス: Link先を確認
Mengwei Ren and Neel Dey and Martin A. Styner and Kelly Botteron and Guido Gerig(参考訳) 近年の医療コンピュータビジョンの自己監督的進歩は、分節のような下流のタスクに先立って、グローバルおよび局所的な解剖学的自己相似性を活用している。 しかし、現在の方法ではi.d.画像取得を前提としており、後続の縦スキャンが被験者固有の時間変化を追跡する臨床研究設計では無効である。 さらに、既存の医療関連画像対画像アーキテクチャの自己教師あり手法は、空間的または時間的自己相似性のみを活用し、単一の画像スケールで適用された損失のみを、naive multi-scale spatiotemporal extensions が崩壊して解を縮退させる。 そこで本論文は,(1)長手画像に基づいて訓練された画像・画像アーキテクチャのための局所的・多スケール時空間表現学習手法を提案する。 本研究は,学習対象の多段階内特徴の時空間的自己相似性を利用して事前学習を行い,崩壊した同一性表現を回避したいくつかの特徴量正規化を開発する。 ワンショットセグメンテーション設定でベンチマークされたこのフレームワークは、高度にチューニングされたランダム初期化ベースラインと、i.i.d.と縦型データセットの両方向けに設計された現在の自己教師あり技術の両方を上回っている。 これらの改善は、長手神経変性性成人MRIと幼児脳MRIの両方で示され、より高いパフォーマンスと長手整合性が得られる。

Recent self-supervised advances in medical computer vision exploit global and local anatomical self-similarity for pretraining prior to downstream tasks such as segmentation. However, current methods assume i.i.d. image acquisition, which is invalid in clinical study designs where follow-up longitudinal scans track subject-specific temporal changes. Further, existing self-supervised methods for medically-relevant image-to-image architectures exploit only spatial or temporal self-similarity and only do so via a loss applied at a single image-scale, with naive multi-scale spatiotemporal extensions collapsing to degenerate solutions. To these ends, this paper makes two contributions: (1) It presents a local and multi-scale spatiotemporal representation learning method for image-to-image architectures trained on longitudinal images. It exploits the spatiotemporal self-similarity of learned multi-scale intra-subject features for pretraining and develops several feature-wise regularizations that avoid collapsed identity representations; (2) During finetuning, it proposes a surprisingly simple self-supervised segmentation consistency regularization to exploit intra-subject correlation. Benchmarked in the one-shot segmentation setting, the proposed framework outperforms both well-tuned randomly-initialized baselines and current self-supervised techniques designed for both i.i.d. and longitudinal datasets. These improvements are demonstrated across both longitudinal neurodegenerative adult MRI and developing infant brain MRI and yield both higher performance and longitudinal consistency.
翻訳日:2022-06-10 13:29:10 公開日:2022-06-09
# cfa: ターゲット指向異常局在に対する結合型超球型特徴適応

CFA: Coupled-hypersphere-based Feature Adaptation for Target-Oriented Anomaly Localization ( http://arxiv.org/abs/2206.04325v1 )

ライセンス: Link先を確認
Sungwook Lee, Seunghyun Lee, Byung Cheol Song(参考訳) 長い間、異常なローカライゼーションは産業で広く使われてきた。 従来の研究では、ターゲットデータセットに適応せずに正常な特徴の分布を近似することに焦点を当てていた。 しかし,異常な局所化は正常な特徴と異常な特徴を正確に区別する必要があるため,適応の欠如は異常な特徴の正規性を過大評価する可能性がある。 そこで本研究では,対象データセットに適応した特徴を用いた高度異常な局所化を実現するための結合超球型特徴適応(CFA)を提案する。 cfaは、1ターゲット指向の機能を学び、組み込む学習可能なパッチ記述子、2ターゲットデータセットのサイズに依存しないスケーラブルなメモリバンクで構成される。 また、cfaは、予め訓練されたcnnにパッチ記述子とメモリバンクを適用することで異常な特徴を明確に区別できるように、通常の特徴密度を高めるために転送学習を採用する。 提案手法は,従来の手法よりも定量的,質的に優れる。 例えば、AUROCスコアは99.5%で異常検出は99.5%、MVTec ADベンチマークは98.5%である。 さらに,事前学習したCNNのバイアス特性の負の効果を指摘し,対象データセットへの適応の重要性を強調した。 コードはhttps://github.com/sungwool/CFA_for_anomaly_localizationで公開されている。

For a long time, anomaly localization has been widely used in industries. Previous studies focused on approximating the distribution of normal features without adaptation to a target dataset. However, since anomaly localization should precisely discriminate normal and abnormal features, the absence of adaptation may make the normality of abnormal features overestimated. Thus, we propose Coupled-hypersphere-based Feature Adaptation (CFA) which accomplishes sophisticated anomaly localization using features adapted to the target dataset. CFA consists of (1) a learnable patch descriptor that learns and embeds target-oriented features and (2) scalable memory bank independent of the size of the target dataset. And, CFA adopts transfer learning to increase the normal feature density so that abnormal features can be clearly distinguished by applying patch descriptor and memory bank to a pre-trained CNN. The proposed method outperforms the previous methods quantitatively and qualitatively. For example, it provides an AUROC score of 99.5% in anomaly detection and 98.5% in anomaly localization of MVTec AD benchmark. In addition, this paper points out the negative effects of biased features of pre-trained CNNs and emphasizes the importance of the adaptation to the target dataset. The code is publicly available at https://github.com/sungwool/CFA_for_anomaly_localization.
翻訳日:2022-06-10 13:28:38 公開日:2022-06-09
# draft-and-revise:contextual rq-transformerによる効果的な画像生成

Draft-and-Revise: Effective Image Generation with Contextual RQ-Transformer ( http://arxiv.org/abs/2206.04452v1 )

ライセンス: Link先を確認
Doyup Lee, Chiheon Kim, Saehoon Kim, Minsu Cho, Wook-Shin Han(参考訳) 自己回帰モデルは画像生成において有望な結果を得たが、その一方向生成プロセスは、結果のイメージがグローバルなコンテキストを完全に反映することを防ぐ。 この問題に対処するために、生成プロセス中にグローバルなコンテキストを考慮し、コンテキストRQ変換器を用いたDraft-and-Reviseの効果的な画像生成フレームワークを提案する。 一般化されたVQ-VAEとして、RQ-VAEはまず、離散コードスタックのシーケンスとして高解像度の画像を表す。 シーケンス内のコードスタックがランダムにマスクされた後、Contextual RQ-Transformerは、イメージの未マッピングコンテキストに基づいて、マスクされたコードスタックを埋めるように訓練される。 次に、Contextual RQ-Transformerは、2相デコードであるDraft-and-Reviseを使用して画像を生成し、生成プロセス中に画像のグローバルなコンテキストを活用する。 特に。 ドラフト段階では,我々はまず,品質の低さにもかかわらず多様な画像の生成に重点を置いている。 そして、修正段階では、生成された画像のグローバルなコンテキストを保ちながら、画像の品質を反復的に改善する。 実験では,条件付き画像生成において最先端の結果を得る。 また,画像生成における品質多様性のトレードオフを効果的に制御することにより,Draft-and-Revise復号化により高い性能が得られることを示す。

Although autoregressive models have achieved promising results on image generation, their unidirectional generation process prevents the resultant images from fully reflecting global contexts. To address the issue, we propose an effective image generation framework of Draft-and-Revise with Contextual RQ-transformer to consider global contexts during the generation process. As a generalized VQ-VAE, RQ-VAE first represents a high-resolution image as a sequence of discrete code stacks. After code stacks in the sequence are randomly masked, Contextual RQ-Transformer is trained to infill the masked code stacks based on the unmasked contexts of the image. Then, Contextual RQ-Transformer uses our two-phase decoding, Draft-and-Revise, and generates an image, while exploiting the global contexts of the image during the generation process. Specifically. in the draft phase, our model first focuses on generating diverse images despite rather low quality. Then, in the revise phase, the model iteratively improves the quality of images, while preserving the global contexts of generated images. In experiments, our method achieves state-of-the-art results on conditional image generation. We also validate that the Draft-and-Revise decoding can achieve high performance by effectively controlling the quality-diversity trade-off in image generation.
翻訳日:2022-06-10 13:28:14 公開日:2022-06-09
# 視覚変換器の空間エントロピー正規化

Spatial Entropy Regularization for Vision Transformers ( http://arxiv.org/abs/2206.04636v1 )

ライセンス: Link先を確認
Elia Peruzzo, Enver Sangineto, Yahui Liu, Marco De Nadai, Wei Bi, Bruno Lepri and Nicu Sebe(参考訳) 近年の研究では、視覚トランスフォーマー(vts)の注意マップは、自己スーパービジョンで訓練すると、トレーニングが監督されたときに自然発生しないセマンティックセグメンテーション構造を含むことができることが示されている。 本稿では,この空間クラスタリングの出現をトレーニング正規化の一形態として,自己教師付きプレテキストタスクを標準教師付き学習に含めることを強く推奨する。 具体的には,情報エントロピーの空間的定式化に基づくvt正則化法を提案する。 提案する空間エントロピーを最小化することにより, vt に対して, トレーニング中にオブジェクトベースの事前情報を含む空間的に順序付けられたアテンションマップの作成を明示的に依頼する。 広範な実験を用いて,提案手法が異なるトレーニングシナリオ,データセット,ダウンストリームタスク,vtアーキテクチャにおいて有効であることを示す。 コードは受理後利用可能になる。

Recent work has shown that the attention maps of Vision Transformers (VTs), when trained with self-supervision, can contain a semantic segmentation structure which does not spontaneously emerge when training is supervised. In this paper, we explicitly encourage the emergence of this spatial clustering as a form of training regularization, this way including a self-supervised pretext task into the standard supervised learning. In more detail, we propose a VT regularization method based on a spatial formulation of the information entropy. By minimizing the proposed spatial entropy, we explicitly ask the VT to produce spatially ordered attention maps, this way including an object-based prior during training. Using extensive experiments, we show that the proposed regularization approach is beneficial with different training scenarios, datasets, downstream tasks and VT architectures. The code will be available upon acceptance.
翻訳日:2022-06-10 13:27:50 公開日:2022-06-09
# CLIP-Actor:人間のメッシュをアニメーションするためのテキスト駆動レコメンデーションとスティル化

CLIP-Actor: Text-Driven Recommendation and Stylization for Animating Human Meshes ( http://arxiv.org/abs/2206.04382v1 )

ライセンス: Link先を確認
Kim Youwang, Kim Ji-Yeon, Tae-Hyun Oh(参考訳) 本稿では,人間のメッシュアニメーションのためのクリップアクタ,テキスト駆動モーションレコメンデーションおよびニューラルネットワークスタイライゼーションシステムを提案する。 CLIP-Actorは、モーションシーケンスとメッシュスタイルの属性を推奨することで、テキストプロンプトに適合するように3Dのヒューマンメッシュをアニメイトする。 アーティストが設計したメッシュコンテントが最初からテキストに適合しない場合、先行作業は妥当な結果を生み出すことができない。 代わりに、言語ラベル付き大規模ヒューマンモーションデータセットを活用して、テキスト駆動のヒューマンモーションレコメンデーションシステムを構築する。 自然言語のプロンプトが与えられた場合、CLIP-Actorはまず、粗い方法でプロンプトに適合する人間の動きを示唆する。 そこで本研究では,各フレームのポーズから不連続な方法で,推奨メッシュシーケンスを詳述し,テキスト化する合成・スルー最適化手法を提案する。 スタイル属性は、時間的に一貫性があり、ポーズに依存しない方法でプロンプトに適合する。 分離されたニューラル最適化はまた、多フレームの人間の動きから時空間的なビューの増大を可能にする。 また,前景画素の少ない配置を省略することで,最適化プロセスの安定化を図るマスク重み埋め込み注意を提案する。 クリップアクタは,自然言語プロンプトから詳細な形状とテクスチャを付加した,有理で人間が認識可能な3dヒューマンメッシュを動作させる。

We propose CLIP-Actor, a text-driven motion recommendation and neural mesh stylization system for human mesh animation. CLIP-Actor animates a 3D human mesh to conform to a text prompt by recommending a motion sequence and learning mesh style attributes. Prior work fails to generate plausible results when the artist-designed mesh content does not conform to the text from the beginning. Instead, we build a text-driven human motion recommendation system by leveraging a large-scale human motion dataset with language labels. Given a natural language prompt, CLIP-Actor first suggests a human motion that conforms to the prompt in a coarse-to-fine manner. Then, we propose a synthesize-through-optimization method that detailizes and texturizes a recommended mesh sequence in a disentangled way from the pose of each frame. It allows the style attribute to conform to the prompt in a temporally-consistent and pose-agnostic manner. The decoupled neural optimization also enables spatio-temporal view augmentation from multi-frame human motion. We further propose the mask-weighted embedding attention, which stabilizes the optimization process by rejecting distracting renders containing scarce foreground pixels. We demonstrate that CLIP-Actor produces plausible and human-recognizable style 3D human mesh in motion with detailed geometry and texture from a natural language prompt.
翻訳日:2022-06-10 13:27:16 公開日:2022-06-09
# Scratchによるエンドツーエンド音声テキスト翻訳の再検討

Revisiting End-to-End Speech-to-Text Translation From Scratch ( http://arxiv.org/abs/2206.04571v1 )

ライセンス: Link先を確認
Biao Zhang, Barry Haddow, Rico Sennrich(参考訳) E2E (End-to-end speech-to-text translation) はしばしば、翻訳性能が著しく低下することなく、音声認識やテキスト翻訳タスクを通じて、ソース転写を用いたエンコーダおよび/またはデコーダの事前訓練に依存する。 しかし、写本は必ずしも入手できないため、E2E STの事前学習がどれほど重要であるかは文献ではほとんど研究されていない。 本稿では,この問題を再考し,音声翻訳対のみに訓練されたE2E STの品質をどの程度改善できるかを考察する。 我々は以前にもSTに有益であることが証明されたいくつかのテクニックを再検討し、TransformerベースのE2E STシステムをスクラッチからトレーニングするためのベストプラクティスセットを提供する。 さらに,音声の自己注意モデルにおける局所性のモデル化を容易にするパラメータ化距離ペナルティを提案する。 実験の結果,23言語を対象とした4つのベンチマークでは,本システムでは文字起こしや事前学習を使わずに,事前学習を用いた従来の研究よりも優れていた。 最後に, 入力バイアスを単純化し, モデルに音声記述の自由度を加えることを目的として, 生音声信号から音響特徴を抽出するニューラルモデルを提案する。 初めてその実現可能性を示し、stタスクに奨励的な結果を示す。

End-to-end (E2E) speech-to-text translation (ST) often depends on pretraining its encoder and/or decoder using source transcripts via speech recognition or text translation tasks, without which translation performance drops substantially. However, transcripts are not always available, and how significant such pretraining is for E2E ST has rarely been studied in the literature. In this paper, we revisit this question and explore the extent to which the quality of E2E ST trained on speech-translation pairs alone can be improved. We reexamine several techniques proven beneficial to ST previously, and offer a set of best practices that biases a Transformer-based E2E ST system toward training from scratch. Besides, we propose parameterized distance penalty to facilitate the modeling of locality in the self-attention model for speech. On four benchmarks covering 23 languages, our experiments show that, without using any transcripts or pretraining, the proposed system reaches and even outperforms previous studies adopting pretraining, although the gap remains in (extremely) low-resource settings. Finally, we discuss neural acoustic feature modeling, where a neural model is designed to extract acoustic features from raw speech signals directly, with the goal to simplify inductive biases and add freedom to the model in describing speech. For the first time, we demonstrate its feasibility and show encouraging results on ST tasks.
翻訳日:2022-06-10 13:26:55 公開日:2022-06-09
# テキスト分類におけるプライバシ漏洩:データ抽出アプローチ

Privacy Leakage in Text Classification: A Data Extraction Approach ( http://arxiv.org/abs/2206.04591v1 )

ライセンス: Link先を確認
Adel Elmahdy, Huseyin A. Inan, Robert Sim(参考訳) 近年の研究では、生成言語モデルからトレーニングデータの抽出に成功した。 しかし、学習の目的は次の単語予測ではなくクラスラベルを予測することであるため、テキスト分類モデルにおいてそのような抽出が実現可能かどうかは明らかではない。 これは興味深い課題であり、テキスト分類設定におけるトレーニングデータのプライバシーに関する重要な疑問を提起する。 そこで本研究では,学習課題に関係のない学習データの意図しない記憶の問題について,テキスト分類領域における潜在的なプライバシー漏洩について検討する。 モデルによって提供されるクラスラベルの可能性を利用して,部分テキストの欠落トークンを抽出するアルゴリズムを提案する。 トレーニングセットにカナリアを挿入し,トレーニング後のカナリアのトークン抽出を試みることで,アルゴリズムの有効性を検証した。 実験では,成功例の抽出がある程度可能であることを実証した。 これは、同意なしに個人データの潜在的無許可使用を評価する監査戦略としても用いられる。

Recent work has demonstrated the successful extraction of training data from generative language models. However, it is not evident whether such extraction is feasible in text classification models since the training objective is to predict the class label as opposed to next-word prediction. This poses an interesting challenge and raises an important question regarding the privacy of training data in text classification settings. Therefore, we study the potential privacy leakage in the text classification domain by investigating the problem of unintended memorization of training data that is not pertinent to the learning task. We propose an algorithm to extract missing tokens of a partial text by exploiting the likelihood of the class label provided by the model. We test the effectiveness of our algorithm by inserting canaries into the training set and attempting to extract tokens in these canaries post-training. In our experiments, we demonstrate that successful extraction is possible to some extent. This can also be used as an auditing strategy to assess any potential unauthorized use of personal data without consent.
翻訳日:2022-06-10 13:26:29 公開日:2022-06-09
# Face-Dubbing++:リップシンクロ、ビデオの音声保存

Face-Dubbing++: Lip-Synchronous, Voice Preserving Translation of Videos ( http://arxiv.org/abs/2206.04523v1 )

ライセンス: Link先を確認
Alexander Waibel and Moritz Behr and Fevziye Irem Eyiokur and Dogucan Yaman and Tuan-Nam Nguyen and Carlos Mullov and Mehmet Arif Demirtas and Alperen Kantarc{\i} and Stefan Constantin and Haz{\i}m Kemal Ekenel(参考訳) 本稿では,ビデオの音声保存・唇同期翻訳のためのニューラルエンド・ツー・エンドシステムを提案する。 このシステムは、複数のコンポーネントモデルを組み合わせて、ターゲット言語で話す元話者のビデオを生成し、対象話者と唇同期するが、音声、音声特性、顔映像のエムフェーズを維持できるように設計されている。 パイプラインは強調検出を含む自動音声認識から始まり、その後に翻訳モデルが続く。 翻訳されたテキストはText-to-Speechモデルで合成され、原文からマッピングされた原文のエンフェーズを再現する。 得られた合成音声は、音声変換モデルを用いて元の話者の声にマッピングされる。 最後に、この変換音声と話者の唇を同期させるために、条件付き生成逆ネットワークベースモデルは、入力された顔画像と音声変換モデルの出力に対して適応した唇運動のフレームを生成する。 最後に、システムは生成されたビデオと変換されたオーディオを組み合わせて最終的な出力を生成する。 その結果は、話者が実際にそれを知らずに他の言語で話すビデオである。 設計を評価するため,システム全体のユーザスタディと,単一コンポーネントの個別評価について述べる。 システム全体を評価するためのデータセットが存在しないため、テストセットを収集し、このテストセット上でシステムを評価する。 その結果,本システムは,本来の話者の特徴を保ちながら,対象言語を発話する話者の説得力のある映像を生成できることが示唆された。 収集したデータセットは共有される。

In this paper, we propose a neural end-to-end system for voice preserving, lip-synchronous translation of videos. The system is designed to combine multiple component models and produces a video of the original speaker speaking in the target language that is lip-synchronous with the target speech, yet maintains emphases in speech, voice characteristics, face video of the original speaker. The pipeline starts with automatic speech recognition including emphasis detection, followed by a translation model. The translated text is then synthesized by a Text-to-Speech model that recreates the original emphases mapped from the original sentence. The resulting synthetic voice is then mapped back to the original speakers' voice using a voice conversion model. Finally, to synchronize the lips of the speaker with the translated audio, a conditional generative adversarial network-based model generates frames of adapted lip movements with respect to the input face image as well as the output of the voice conversion model. In the end, the system combines the generated video with the converted audio to produce the final output. The result is a video of a speaker speaking in another language without actually knowing it. To evaluate our design, we present a user study of the complete system as well as separate evaluations of the single components. Since there is no available dataset to evaluate our whole system, we collect a test set and evaluate our system on this test set. The results indicate that our system is able to generate convincing videos of the original speaker speaking the target language while preserving the original speaker's characteristics. The collected dataset will be shared.
翻訳日:2022-06-10 13:25:44 公開日:2022-06-09
# 非学習型ユーザ属性によるレコメンデーションの保護

Unlearning Protected User Attributes in Recommendations with Adversarial Training ( http://arxiv.org/abs/2206.04500v1 )

ライセンス: Link先を確認
Christian Ganh\"or, David Penz, Navid Rekabsaz, Oleg Lesota, Markus Schedl(参考訳) コラボレーティブフィルタリングアルゴリズムは、特定の人口統計やユーザーの保護された情報(性別、人種、場所など)を含む、基本的な消費パターンをキャプチャする。 これらの符号化バイアスは、様々なサブグループに提供されるコンテンツのさらなる分離に向けたレコメンデーションシステム(RS)の決定に影響を与え、ユーザの保護された属性の開示に関するプライバシー上の懸念を高めることができる。 本研究では,rsアルゴリズムの学習したインタラクション表現からユーザの特定保護情報を取り除く可能性と課題について検討し,その効果を維持しながら検討する。 具体的には,最先端のmultvaeアーキテクチャに敵意のトレーニングを組み込んで,レコメンデーション性能を保ちながら保護属性の暗黙的な情報を削除することを目的とした,多項確率を持つ新しいモデルadv-multvae (adv-multvae) を開発した。 我々はMovieLens-1M と LFM-2b-DemoBias のデータセット上で実験を行い、モデルからユーザの性別情報を明らかにする際、外部攻撃者の不確実性に基づいてバイアス軽減手法の有効性を評価する。 ベースラインのMultVAEと比較して、Adv-MultVAEはパフォーマンスの限界劣化(例えばNDCGやリコール)により、両方のデータセットにおけるモデル固有のバイアスを軽減している。

Collaborative filtering algorithms capture underlying consumption patterns, including the ones specific to particular demographics or protected information of users, e.g. gender, race, and location. These encoded biases can influence the decision of a recommendation system (RS) towards further separation of the contents provided to various demographic subgroups, and raise privacy concerns regarding the disclosure of users' protected attributes. In this work, we investigate the possibility and challenges of removing specific protected information of users from the learned interaction representations of a RS algorithm, while maintaining its effectiveness. Specifically, we incorporate adversarial training into the state-of-the-art MultVAE architecture, resulting in a novel model, Adversarial Variational Auto-Encoder with Multinomial Likelihood (Adv-MultVAE), which aims at removing the implicit information of protected attributes while preserving recommendation performance. We conduct experiments on the MovieLens-1M and LFM-2b-DemoBias datasets, and evaluate the effectiveness of the bias mitigation method based on the inability of external attackers in revealing the users' gender information from the model. Comparing with baseline MultVAE, the results show that Adv-MultVAE, with marginal deterioration in performance (w.r.t. NDCG and recall), largely mitigates inherent biases in the model on both datasets.
翻訳日:2022-06-10 13:24:55 公開日:2022-06-09
# カントール埋め込みとワッサーシュタイン距離による予測状態の探索

Exploring Predictive States via Cantor Embeddings and Wasserstein Distance ( http://arxiv.org/abs/2206.04198v1 )

ライセンス: Link先を確認
Samuel P. Loomis and James P. Crutchfield(参考訳) 確率過程の予測状態は、様々なモデリングパラダイムに関連がある非パラメトリックで解釈可能な構造である。 再生カーネルヒルベルト空間の利用に着目した時系列データによる予測状態の自己教師的再構成の最近の進歩 本稿では,シンボルデータの予測等価性を検出するためにwasserstein距離をどのように利用するかを検討する。 基底幾何学のカントールに基づく列の有限次元埋め込みを用いて、列上の分布(予測)間のワッサーシュタイン距離を計算する。 階層的クラスタリングと次元還元による結果の幾何を用いた探索データ解析は、比較的単純な(例えば有限状態隠れマルコフモデル)から非常に複雑な(例えば無限状態インデックス付き文法)までのプロセスの時間構造についての洞察を与える。

Predictive states for stochastic processes are a nonparametric and interpretable construct with relevance across a multitude of modeling paradigms. Recent progress on the self-supervised reconstruction of predictive states from time-series data focused on the use of reproducing kernel Hilbert spaces. Here, we examine how Wasserstein distances may be used to detect predictive equivalences in symbolic data. We compute Wasserstein distances between distributions over sequences ("predictions"), using a finite-dimensional embedding of sequences based on the Cantor for the underlying geometry. We show that exploratory data analysis using the resulting geometry via hierarchical clustering and dimension reduction provides insight into the temporal structure of processes ranging from the relatively simple (e.g., finite-state hidden Markov models) to the very complex (e.g., infinite-state indexed grammars).
翻訳日:2022-06-10 13:24:10 公開日:2022-06-09
# (参考訳) オープンエンディングテキスト生成のためのファクタリティ強化言語モデル

Factuality Enhanced Language Models for Open-Ended Text Generation ( http://arxiv.org/abs/2206.04624v1 )

ライセンス: CC BY 4.0
Nayeon Lee, Wei Ping, Peng Xu, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro(参考訳) 事前訓練された言語モデル(LM)は、非実情報のテキストを生成することができる。 本研究では,オープンエンドテキスト生成のための大規模LMの実際の精度を測定し,改善する。 我々は、LM世代の実測のためのFactalityPromptsテストセットとメトリクスを設計する。 そこで本研究では, 126M から 530B までのパラメータサイズを持つ LM の実測精度について検討した。 興味深いことに、より大きい lms は小さいものよりも事実的であるが、以前の研究では、より大きな lms は誤解の観点からは真理的ではないことが示されている。 さらに、オープンエンドテキスト生成における一般的なサンプリングアルゴリズム(例えばtop-p)は、サンプリングステップ毎に導入された「一様ランダム性」によって事実性を損なう可能性がある。 本稿では,ランダム性を動的に適応させ,品質を維持しつつ生成の事実性を向上する実数核サンプリングアルゴリズムを提案する。 さらに,実際のテキストコーパス(ウィキペディアなど)からエンティティ間の正確な関連を学習する際の標準学習手法の非効率性を分析する。 そこで,本研究では,TopicPrefixを用いて,事実の認識と文の完成を訓練対象とすることで,事実の誤りを大幅に低減できる実感強化トレーニング手法を提案する。

Pretrained language models (LMs) are susceptible to generate text with nonfactual information. In this work, we measure and improve the factual accuracy of large-scale LMs for open-ended text generation. We design the FactualityPrompts test set and metrics to measure the factuality of LM generations. Based on that, we study the factual accuracy of LMs with parameter sizes ranging from 126M to 530B. Interestingly, we find that larger LMs are more factual than smaller ones, although a previous study suggests that larger LMs can be less truthful in terms of misconceptions. In addition, popular sampling algorithms (e.g., top-p) in open-ended text generation can harm the factuality due to the "uniform randomness" introduced at every sampling step. We propose the factual-nucleus sampling algorithm that dynamically adapts the randomness to improve the factuality of generation while maintaining quality. Furthermore, we analyze the inefficiencies of the standard training method in learning correct associations between entities from factual text corpus (e.g., Wikipedia). We propose a factuality-enhanced training method that uses TopicPrefix for better awareness of facts and sentence completion as the training objective, which can vastly reduce the factual errors.
翻訳日:2022-06-10 13:23:11 公開日:2022-06-09
# DORA: ディープニューラルネットワークにおける外部表現の探索

DORA: Exploring outlier representations in Deep Neural Networks ( http://arxiv.org/abs/2206.04530v1 )

ライセンス: Link先を確認
Kirill Bykov, Mayukh Deb, Dennis Grinwald, Klaus-Robert M\"uller, Marina M.-C. H\"ohne(参考訳) ディープニューラルネットワーク(DNN)は、学習した表現からパワーを引き出す。 しかし近年、DNNは複雑な抽象化を学ぶのに驚くほど効果的であるが、トレーニングデータに固有の急激な相関関係のため、バイアス、クレバーハンゼ(CH)、バックドアなどの人工物に感染する傾向にあることが研究で判明した。 これまでのところ、トレーニングされたモデルのアーティファクトと悪意のある振る舞いを明らかにする既存の方法は、入力データ内のアーティファクトを見つけることに焦点を当てている。 本稿では、深層ニューラルネットワークにおいて、潜在的に感染した表現を検出する最初のデータ非依存手法であるdora(data-agnostic representation analysis)を紹介する。 さらに,doraが検出する汚染表現は,任意のデータセットで感染したサンプルを検出できることを示した。 我々は,提案手法の性能を,制御された玩具のシナリオと現実世界の両方で質的に定量的に評価し,安全クリティカルなアプリケーションにおけるDORAのメリットを実証する。

Deep Neural Networks (DNNs) draw their power from the representations they learn. In recent years, however, researchers have found that DNNs, while being incredibly effective in learning complex abstractions, also tend to be infected with artifacts, such as biases, Clever Hanses (CH), or Backdoors, due to spurious correlations inherent in the training data. So far, existing methods for uncovering such artifactual and malicious behavior in trained models focus on finding artifacts in the input data, which requires both availabilities of a data set and human intervention. In this paper, we introduce DORA (Data-agnOstic Representation Analysis): the first automatic data-agnostic method for the detection of potentially infected representations in Deep Neural Networks. We further show that contaminated representations found by DORA can be used to detect infected samples in any given dataset. We qualitatively and quantitatively evaluate the performance of our proposed method in both, controlled toy scenarios, and in real-world settings, where we demonstrate the benefit of DORA in safety-critical applications.
翻訳日:2022-06-10 12:45:54 公開日:2022-06-09
# 模倣ゲームを超えて:言語モデルの能力の定量化と外挿

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models ( http://arxiv.org/abs/2206.04615v1 )

ライセンス: Link先を確認
Aarohi Srivastava, Abhinav Rastogi, Abhishek Rao, Abu Awal Md Shoeb, Abubakar Abid, Adam Fisch, Adam R. Brown, Adam Santoro, Aditya Gupta, Adri\`a Garriga-Alonso, Agnieszka Kluska, Aitor Lewkowycz, Akshat Agarwal, Alethea Power, Alex Ray, Alex Warstadt, Alexander W. Kocurek, Ali Safaya, Ali Tazarv, Alice Xiang, Alicia Parrish, Allen Nie, Aman Hussain, Amanda Askell, Amanda Dsouza, Ameet Rahane, Anantharaman S. Iyer, Anders Andreassen, Andrea Santilli, Andreas Stuhlm\"uller, Andrew Dai, Andrew La, Andrew Lampinen, Andy Zou, Angela Jiang, Angelica Chen, Anh Vuong, Animesh Gupta, Anna Gottardi, Antonio Norelli, Anu Venkatesh, Arash Gholamidavoodi, Arfa Tabassum, Arul Menezes, Arun Kirubarajan, Asher Mullokandov, Ashish Sabharwal, Austin Herrick, Avia Efrat, Aykut Erdem, Ayla Karaka\c{s}, B. Ryan Roberts, Bao Sheng Loe, Barret Zoph, Bart{\l}omiej Bojanowski, Batuhan \"Ozyurt, Behnam Hedayatnia, Behnam Neyshabur, Benjamin Inden, Benno Stein, Berk Ekmekci, Bill Yuchen Lin, Blake Howald, Cameron Diao, Cameron Dour, Catherine Stinson, Cedrick Argueta, C\'esar Ferri Ram\'irez, Chandan Singh, Charles Rathkopf, Chenlin Meng, Chitta Baral, Chiyu Wu, Chris Callison-Burch, Chris Waites, Christian Voigt, Christopher D. Manning, Christopher Potts, Cindy Ramirez, Clara E. Rivera, Clemencia Siro, Colin Raffel, Courtney Ashcraft, Cristina Garbacea, Damien Sileo, Dan Garrette, Dan Hendrycks, Dan Kilman, Dan Roth, Daniel Freeman, Daniel Khashabi, Daniel Levy, Daniel Mosegu\'i Gonz\'alez, Danny Hernandez, Danqi Chen, Daphne Ippolito, Dar Gilboa, David Dohan, David Drakard, David Jurgens, Debajyoti Datta, Deep Ganguli, Denis Emelin, Denis Kleyko, Deniz Yuret, Derek Chen, Derek Tam, Dieuwke Hupkes, Diganta Misra, Dilyar Buzan, Dimitri Coelho Mollo, Diyi Yang, Dong-Ho Lee, Ekaterina Shutova, Ekin Dogus Cubuk, Elad Segal, Eleanor Hagerman, Elizabeth Barnes, Elizabeth Donoway, Ellie Pavlick, Emanuele Rodola, Emma Lam, Eric Chu, Eric Tang, Erkut Erdem, Ernie Chang, Ethan A. Chi, Ethan Dyer, Ethan Jerzak, Ethan Kim, Eunice Engefu Manyasi, Evgenii Zheltonozhskii, Fanyue Xia, Fatemeh Siar, Fernando Mart\'inez-Plumed, Francesca Happ\'e, Francois Chollet, Frieda Rong, Gaurav Mishra, Genta Indra Winata, Gerard de Melo, Germ\'an Kruszewski, Giambattista Parascandolo, Giorgio Mariani, Gloria Wang, Gonzalo Jaimovitch-L\'opez, Gregor Betz, Guy Gur-Ari, Hana Galijasevic, Hannah Kim, Hannah Rashkin, Hannaneh Hajishirzi, Harsh Mehta, Hayden Bogar, Henry Shevlin, Hinrich Sch\"utze, Hiromu Yakura, Hongming Zhang, Hugh Mee Wong, Ian Ng, Isaac Noble, Jaap Jumelet, Jack Geissinger, Jackson Kernion, Jacob Hilton, Jaehoon Lee, Jaime Fern\'andez Fisac, James B. Simon, James Koppel, James Zheng, James Zou, Jan Koco\'n, Jana Thompson, Jared Kaplan, Jarema Radom, Jascha Sohl-Dickstein, Jason Phang, Jason Wei, Jason Yosinski, Jekaterina Novikova, Jelle Bosscher, Jennifer Marsh, Jeremy Kim, Jeroen Taal, Jesse Engel, Jesujoba Alabi, Jiacheng Xu, Jiaming Song, Jillian Tang, Joan Waweru, John Burden, John Miller, John U. Balis, Jonathan Berant, J\"org Frohberg, Jos Rozen, Jose Hernandez-Orallo, Joseph Boudeman, Joseph Jones, Joshua B. Tenenbaum, Joshua S. Rule, Joyce Chua, Kamil Kanclerz, Karen Livescu, Karl Krauth, Karthik Gopalakrishnan, Katerina Ignatyeva, Katja Markert, Kaustubh D. Dhole, Kevin Gimpel, Kevin Omondi, Kory Mathewson, Kristen Chiafullo, Ksenia Shkaruta, Kumar Shridhar, Kyle McDonell, Kyle Richardson, Laria Reynolds, Leo Gao, Li Zhang, Liam Dugan, Lianhui Qin, Lidia Contreras-Ochando, Louis-Philippe Morency, Luca Moschella, Lucas Lam, Lucy Noble, Ludwig Schmidt, Luheng He, Luis Oliveros Col\'on, Luke Metz, L\"utfi Kerem \c{S}enel, Maarten Bosma, Maarten Sap, Maartje ter Hoeve, Madotto Andrea, Maheen Farooqi, Manaal Faruqui, Mantas Mazeika, Marco Baturan, Marco Marelli, Marco Maru, Maria Jose Ram\'irez Quintana, Marie Tolkiehn, Mario Giulianelli, Martha Lewis, Martin Potthast, Matthew L. Leavitt, Matthias Hagen, M\'aty\'as Schubert, Medina Orduna Baitemirova, Melody Arnaud, Melvin McElrath, Michael A. Yee, Michael Cohen, Michael Gu, Michael Ivanitskiy, Michael Starritt, Michael Strube, Micha{\l} Sw\k{e}drowski, Michele Bevilacqua, Michihiro Yasunaga, Mihir Kale, Mike Cain, Mimee Xu, Mirac Suzgun, Mo Tiwari, Mohit Bansal, Moin Aminnaseri, Mor Geva, Mozhdeh Gheini, Mukund Varma T, Nanyun Peng, Nathan Chi, Nayeon Lee, Neta Gur-Ari Krakover, Nicholas Cameron, Nicholas Roberts, Nick Doiron, Nikita Nangia, Niklas Deckers, Niklas Muennighoff, Nitish Shirish Keskar, Niveditha S. Iyer, Noah Constant, Noah Fiedel, Nuan Wen, Oliver Zhang, Omar Agha, Omar Elbaghdadi, Omer Levy, Owain Evans, Pablo Antonio Moreno Casares, Parth Doshi, Pascale Fung, Paul Pu Liang, Paul Vicol, Pegah Alipoormolabashi, Peiyuan Liao, Percy Liang, Peter Chang, Peter Eckersley, Phu Mon Htut, Pinyu Hwang, Piotr Mi{\l}kowski, Piyush Patil, Pouya Pezeshkpour, Priti Oli, Qiaozhu Mei, Qing Lyu, Qinlang Chen, Rabin Banjade, Rachel Etta Rudolph, Raefer Gabriel, Rahel Habacker, Ram\'on Risco Delgado, Rapha\"el Milli\`ere, Rhythm Garg, Richard Barnes, Rif A. Saurous, Riku Arakawa, Robbe Raymaekers, Robert Frank, Rohan Sikand, Roman Novak, Roman Sitelew, Ronan LeBras, Rosanne Liu, Rowan Jacobs, Rui Zhang, Ruslan Salakhutdinov, Ryan Chi, Ryan Lee, Ryan Stovall, Ryan Teehan, Rylan Yang, Sahib Singh, Saif M. Mohammad, Sajant Anand, Sam Dillavou, Sam Shleifer, Sam Wiseman, Samuel Gruetter, Samuel R. Bowman, Samuel S. Schoenholz, Sanghyun Han, Sanjeev Kwatra, Sarah A. Rous, Sarik Ghazarian, Sayan Ghosh, Sean Casey, Sebastian Bischoff, Sebastian Gehrmann, Sebastian Schuster, Sepideh Sadeghi, Shadi Hamdan, Sharon Zhou, Shashank Srivastava, Sherry Shi, Shikhar Singh, Shima Asaadi, Shixiang Shane Gu, Shubh Pachchigar, Shubham Toshniwal, Shyam Upadhyay, Shyamolima (Shammie) Debnath, Siamak Shakeri, Simon Thormeyer, Simone Melzi, Siva Reddy, Sneha Priscilla Makini, Soo-Hwan Lee, Spencer Torene, Sriharsha Hatwar, Stanislas Dehaene, Stefan Divic, Stefano Ermon, Stella Biderman, Stephanie Lin, Stephen Prasad, Steven T. Piantadosi, Stuart M. Shieber, Summer Misherghi, Svetlana Kiritchenko, Swaroop Mishra, Tal Linzen, Tal Schuster, Tao Li, Tao Yu, Tariq Ali, Tatsu Hashimoto, Te-Lin Wu, Th\'eo Desbordes, Theodore Rothschild, Thomas Phan, Tianle Wang, Tiberius Nkinyili, Timo Schick, Timofei Kornev, Timothy Telleen-Lawton, Titus Tunduny, Tobias Gerstenberg, Trenton Chang, Trishala Neeraj, Tushar Khot, Tyler Shultz, Uri Shaham, Vedant Misra, Vera Demberg, Victoria Nyamai, Vikas Raunak, Vinay Ramasesh, Vinay Uday Prabhu, Vishakh Padmakumar, Vivek Srikumar, William Fedus, William Saunders, William Zhang, Wout Vossen, Xiang Ren, Xiaoyu Tong, Xinyi Wu, Xudong Shen, Yadollah Yaghoobzadeh, Yair Lakretz, Yangqiu Song, Yasaman Bahri, Yejin Choi, Yichi Yang, Yiding Hao, Yifu Chen, Yonatan Belinkov, Yu Hou, Yufang Hou, Yuntao Bai, Zachary Seid, Zhao Xinran, Zhuoye Zhao, Zijian Wang, Zijie J. Wang, Zirui Wang, Ziyi Wu(参考訳) 言語モデルは、規模が大きくなるにつれて量的改善と新しい質的能力の両方を示す。 その可能性のある変革的影響にもかかわらず、これらの新しい機能は、まだ不十分な特徴を持っている。 将来の研究を知らせ、破壊的な新しいモデル能力を準備し、社会的に有害な効果を改善するためには、現在および近未来の言語モデルの能力と限界を理解することが不可欠である。 この課題に対処するため,Beyond the Imitation Game benchmark (BIG-bench)を導入する。 BIGベンチは現在204のタスクで構成されており、132の機関で442人の著者が貢献している。 タスクのトピックは多様で、言語学、幼少期の開発、数学、常識推論、生物学、物理学、社会的偏見、ソフトウェア開発などから問題を引き出す。 BIG-benchは、現在の言語モデルの能力を超えると思われるタスクに焦点を当てている。 我々は,OpenAIのGPTモデル,Google内部の高密度トランスフォーマーアーキテクチャ,BIGベンチ上のスイッチスタイルスパーストランスの挙動を,数百万から数十億のパラメータにわたって評価した。 さらに、人間専門家のチームが、強力なベースラインを提供するために、すべてのタスクを実行しました。 Findings include: model performance and calibration both improve with scale, but are poor in absolute terms (and when compared with rater performance); performance is remarkably similar across model classes, though with benefits from sparsity; tasks that improve gradually and predictably commonly involve a large knowledge or memorization component, whereas tasks that exhibit "breakthrough" behavior at a critical scale often involve multiple steps or components, or brittle metrics; social bias typically increases with scale in settings with ambiguous context, but this can be improved with prompting.

Language models demonstrate both quantitative improvement and new qualitative capabilities with increasing scale. Despite their potentially transformative impact, these new capabilities are as yet poorly characterized. In order to inform future research, prepare for disruptive new model capabilities, and ameliorate socially harmful effects, it is vital that we understand the present and near-future capabilities and limitations of language models. To address this challenge, we introduce the Beyond the Imitation Game benchmark (BIG-bench). BIG-bench currently consists of 204 tasks, contributed by 442 authors across 132 institutions. Task topics are diverse, drawing problems from linguistics, childhood development, math, common-sense reasoning, biology, physics, social bias, software development, and beyond. BIG-bench focuses on tasks that are believed to be beyond the capabilities of current language models. We evaluate the behavior of OpenAI's GPT models, Google-internal dense transformer architectures, and Switch-style sparse transformers on BIG-bench, across model sizes spanning millions to hundreds of billions of parameters. In addition, a team of human expert raters performed all tasks in order to provide a strong baseline. Findings include: model performance and calibration both improve with scale, but are poor in absolute terms (and when compared with rater performance); performance is remarkably similar across model classes, though with benefits from sparsity; tasks that improve gradually and predictably commonly involve a large knowledge or memorization component, whereas tasks that exhibit "breakthrough" behavior at a critical scale often involve multiple steps or components, or brittle metrics; social bias typically increases with scale in settings with ambiguous context, but this can be improved with prompting.
翻訳日:2022-06-10 12:45:36 公開日:2022-06-09
# LEGOによるトランスフォーマーの展開:合成推論

Unveiling Transformers with LEGO: a synthetic reasoning task ( http://arxiv.org/abs/2206.04301v1 )

ライセンス: Link先を確認
Yi Zhang, Arturs Backurs, S\'ebastien Bubeck, Ronen Eldan, Suriya Gunasekar, Tal Wagner(参考訳) 我々は,論理の連鎖に従う問題をカプセル化した合成タスクlego(learning equal and group operations)を提案し,トランスフォーマーアーキテクチャがこのタスクをどのように学習するかを検討する。 プレトレーニング(一見無関係なnlpタスク)やデータセット構成(トレーニングやテスト時間におけるチェーン長の違いなど)といったデータ効果や、重み付け層や畳み込みコンポーネントの追加といったアーキテクチャ上のバリエーションには特に注意を払っています。 我々は、トレーニングされたモデルが最終的にタスクにどのように成功するかを研究し、特に、注意のヘッドのいくつかと、ネットワーク内の情報の流れを(ある程度)理解することができる。 これらの観測に基づいて、ネットワークに格納された深い知識ではなく、スマートな初期化のためだけに事前学習が役立つという仮説を提案する。 また、いくつかのデータレジームでは、トレーニングされたトランスフォーマーが推論の連鎖に従うための"ショートカット"ソリューションを見つけ、モデルがメインタスクの単純な変種に一般化する能力を妨げること、そして、適切なアーキテクチャの変更や注意深いデータ準備によってそのような近道を防ぐことができることを観察する。 本研究の目的は,キー/クエリ/バリューマップに畳み込み構造を付加したトランスフォーマーに畳み込みを施すという,Cプログラム実行の学習課題を探求することである。

We propose a synthetic task, LEGO (Learning Equality and Group Operations), that encapsulates the problem of following a chain of reasoning, and we study how the transformer architecture learns this task. We pay special attention to data effects such as pretraining (on seemingly unrelated NLP tasks) and dataset composition (e.g., differing chain length at training and test time), as well as architectural variants such as weight-tied layers or adding convolutional components. We study how the trained models eventually succeed at the task, and in particular, we are able to understand (to some extent) some of the attention heads as well as how the information flows in the network. Based on these observations we propose a hypothesis that here pretraining helps merely due to being a smart initialization rather than some deep knowledge stored in the network. We also observe that in some data regime the trained transformer finds "shortcut" solutions to follow the chain of reasoning, which impedes the model's ability to generalize to simple variants of the main task, and moreover we find that one can prevent such shortcut with appropriate architecture modification or careful data preparation. Motivated by our findings, we begin to explore the task of learning to execute C programs, where a convolutional modification to transformers, namely adding convolutional structures in the key/query/value maps, shows an encouraging edge.
翻訳日:2022-06-10 12:45:11 公開日:2022-06-09
# 逆雑音は(ほぼ)ランダムニューラルネットワークに対して線形に分離可能である

Adversarial Noises Are Linearly Separable for (Nearly) Random Neural Networks ( http://arxiv.org/abs/2206.04316v1 )

ライセンス: Link先を確認
Huishuai Zhang and Da Yu and Yiping Lu and Di He(参考訳) 通常、特定のモデルを持つ特定の入力に対して生成される逆例は、ニューラルネットワークにとってユビキタスである。 本稿では,一段階勾配法で構築した逆雑音が,対応するラベルを装着した場合に線形に分離可能であることなど,逆雑音が組み合わされる場合の意外な特性を明らかにする。 ランダムな初期化エントリを持つ2層ネットワークと,パラメータが初期化から程遠いニューラルネットワークカーネルのセットアップに対して,この特性を理論的に証明する。 証明アイデアは、線形分離性を保ちながら、ラベル情報を効率的に入力に逆伝播させることができることを示すことである。 さらに本理論と実験結果から,訓練データの逆雑音を訓練した線形分類器は,実験データの逆雑音を適切に分類できることが示され,実際の逆雑音が元のデータ分布に分布摂動を注入することを示す。 さらに, 従来の特徴よりも分類が比較的容易でありながら, 上記の条件が逸脱した場合, 逆方向の雑音が線形分離しにくくなることを示した。

Adversarial examples, which are usually generated for specific inputs with a specific model, are ubiquitous for neural networks. In this paper we unveil a surprising property of adversarial noises when they are put together, i.e., adversarial noises crafted by one-step gradient methods are linearly separable if equipped with the corresponding labels. We theoretically prove this property for a two-layer network with randomly initialized entries and the neural tangent kernel setup where the parameters are not far from initialization. The proof idea is to show the label information can be efficiently backpropagated to the input while keeping the linear separability. Our theory and experimental evidence further show that the linear classifier trained with the adversarial noises of the training data can well classify the adversarial noises of the test data, indicating that adversarial noises actually inject a distributional perturbation to the original data distribution. Furthermore, we empirically demonstrate that the adversarial noises may become less linearly separable when the above conditions are compromised while they are still much easier to classify than original features.
翻訳日:2022-06-10 12:43:28 公開日:2022-06-09
# 因果モデルの一般化と適応性能について

On the Generalization and Adaption Performance of Causal Models ( http://arxiv.org/abs/2206.04620v1 )

ライセンス: Link先を確認
Nino Scherrer, Anirudh Goyal, Stefan Bauer, Yoshua Bengio, Nan Rosemary Ke(参考訳) 堅牢な分散の一般化と迅速な適応を提供する学習モデルは、現代の機械学習において重要な課題である。 ニューラルネットワークに因果構造をモデル化することは、堅牢なゼロと少数ショット適応を達成するという約束を果たす。 様々な因果発見の最近の進歩は、データ生成プロセスを一連のモジュール、すなわち、因果親のみが予測子として使用される全ての変数の条件分布のための1つのモジュールに分解することを提案した。 このような知識のモジュラー分解は、パラメータのサブセットを更新するだけで、分布シフトへの適応を可能にする。 本研究では,モジュール型神経因果モデルの一般化と適応性能を,予測器の集合が因果親に拘束されないモノリシックモデルや構造化モデルと比較し,体系的に検討する。 分析の結果,モジュール型ニューラルネットワーク因果モデルは,低データ領域におけるゼロショットと少数ショットの両方の適応モデルよりも優れており,ロバストな一般化が得られている。 また, スパルサーグラフに対する効果は, 密度の高いグラフと比較して有意であることがわかった。

Learning models that offer robust out-of-distribution generalization and fast adaptation is a key challenge in modern machine learning. Modelling causal structure into neural networks holds the promise to accomplish robust zero and few-shot adaptation. Recent advances in differentiable causal discovery have proposed to factorize the data generating process into a set of modules, i.e. one module for the conditional distribution of every variable where only causal parents are used as predictors. Such a modular decomposition of knowledge enables adaptation to distributions shifts by only updating a subset of parameters. In this work, we systematically study the generalization and adaption performance of such modular neural causal models by comparing it to monolithic models and structured models where the set of predictors is not constrained to causal parents. Our analysis shows that the modular neural causal models outperform other models on both zero and few-shot adaptation in low data regimes and offer robust generalization. We also found that the effects are more significant for sparser graphs as compared to denser graphs.
翻訳日:2022-06-10 12:43:09 公開日:2022-06-09
# GSmooth:一般化ランダム化平滑化による意味変換に対するロバスト性証明

GSmooth: Certified Robustness against Semantic Transformations via Generalized Randomized Smoothing ( http://arxiv.org/abs/2206.04310v1 )

ライセンス: Link先を確認
Zhongkai Hao, Chengyang Ying, Yinpeng Dong, Hang Su, Jun Zhu, Jian Song(参考訳) ランダム化スムーシングのような認証された防御は、$\ell_p$-norm境界攻撃に対する信頼性の高い機械学習システムの構築を約束している。 しかし、既存の手法では意味的変換(特にデフォーカスブラーやピクセルレートのような、閉じた表現を持たないもの)に対して十分な防御ができないか、あるいは不可能である。 このギャップを埋めるために,新しい次元拡張戦略による一般意味変換に対するロバスト性を検証するための統一理論フレームワークである一般化ランダム化平滑化(gsmooth)を提案する。 GSmoothフレームワークでは,画像と画像の代理ネットワークを用いて複雑な変換を近似するスケーラブルなアルゴリズムを提案する。 代理モデルは意味変換の性質を研究し、堅牢性を証明するための強力なツールを提供する。 いくつかのデータセットに対する実験結果から,複数の意味変換や汚職に対するロバストネス認証の有効性が示されたが,これは代替のベースラインでは達成できない。

Certified defenses such as randomized smoothing have shown promise towards building reliable machine learning systems against $\ell_p$-norm bounded attacks. However, existing methods are insufficient or unable to provably defend against semantic transformations, especially those without closed-form expressions (such as defocus blur and pixelate), which are more common in practice and often unrestricted. To fill up this gap, we propose generalized randomized smoothing (GSmooth), a unified theoretical framework for certifying robustness against general semantic transformations via a novel dimension augmentation strategy. Under the GSmooth framework, we present a scalable algorithm that uses a surrogate image-to-image network to approximate the complex transformation. The surrogate model provides a powerful tool for studying the properties of semantic transformations and certifying robustness. Experimental results on several datasets demonstrate the effectiveness of our approach for robustness certification against multiple kinds of semantic transformations and corruptions, which is not achievable by the alternative baselines.
翻訳日:2022-06-10 12:41:49 公開日:2022-06-09
# SDQ:混合精度による確率微分可能量子化

SDQ: Stochastic Differentiable Quantization with Mixed Precision ( http://arxiv.org/abs/2206.04459v1 )

ライセンス: Link先を確認
Xijie Huang, Zhiqiang Shen, Shichao Li, Zechun Liu, Xianghong Hu, Jeffry Wicaksana, Eric Xing, Kwang-Ting Cheng(参考訳) 深層モデルを計算効率良く展開するために,モデル量子化手法が頻繁に用いられている。 さらに、混合ビット幅演算をサポートする新しいハードウェアとして、最近のMPQ(Mixedcision Quantization)の研究は、ネットワーク内の異なる層やモジュールに対して最適化ビット幅を探索することによって、表現能力を完全に活用し始めている。 しかし,従来の研究では,強化学習やニューラルネットワーク検索などを用いたmpq戦略の探索や,偏りや副最適化の可能性のあるビット幅割り当てに対する部分事前知識の活用が主であった。 本研究では,よりスムーズな勾配近似を用いて,より柔軟でグローバルに最適化された空間でMPQ戦略を自動的に学習できる新しい確率微分量子化法を提案する。 特に、隣接するビット幅選択間の確率量子化の確率因子として、微分可能なビット幅パラメータ(DBP)が用いられる。 最適なMPQ戦略が得られた後、エントロピーを考慮したビン正規化と知識蒸留によりネットワークをさらに訓練する。 ハードウェア(GPUとFPGA)とデータセットの異なる複数のネットワークに対して,本手法を広範囲に評価する。 SDQは、最先端の混合または単一精度の量子化を低ビット幅で上回り、様々なResNetおよびMobileNetファミリーの完全精度の量子化よりも優れており、本手法の有効性と優位性を示している。

In order to deploy deep models in a computationally efficient manner, model quantization approaches have been frequently used. In addition, as new hardware that supports mixed bitwidth arithmetic operations, recent research on mixed precision quantization (MPQ) begins to fully leverage the capacity of representation by searching optimized bitwidths for different layers and modules in a network. However, previous studies mainly search the MPQ strategy in a costly scheme using reinforcement learning, neural architecture search, etc., or simply utilize partial prior knowledge for bitwidth assignment, which might be biased and sub-optimal. In this work, we present a novel Stochastic Differentiable Quantization (SDQ) method that can automatically learn the MPQ strategy in a more flexible and globally-optimized space with smoother gradient approximation. Particularly, Differentiable Bitwidth Parameters (DBPs) are employed as the probability factors in stochastic quantization between adjacent bitwidth choices. After the optimal MPQ strategy is acquired, we further train our network with entropy-aware bin regularization and knowledge distillation. We extensively evaluate our method for several networks on different hardware (GPUs and FPGA) and datasets. SDQ outperforms all state-of-the-art mixed or single precision quantization with a lower bitwidth and is even better than the full-precision counterparts across various ResNet and MobileNet families, demonstrating the effectiveness and superiority of our method.
翻訳日:2022-06-10 12:41:31 公開日:2022-06-09
# ECLAD: ローカル集約記述子による概念抽出

ECLAD: Extracting Concepts with Local Aggregated Descriptors ( http://arxiv.org/abs/2206.04531v1 )

ライセンス: Link先を確認
Andres Felipe Posada-Moreno, Nikita Surya, Sebastian Trimpe(参考訳) 畳み込みニューラルネットワークは、その堅牢性とアライメントが重要である重要なシステムで、ますます使われています。 この文脈において、説明可能な人工知能の分野は、概念抽出によるハイレベルな説明の生成を提案している。 これらの手法は画像に概念が存在するかどうかを検知するが、位置を特定できない。 さらに、適切な検証手順が欠落しているため、アプローチの公平な比較は難しい。 これらのギャップを埋めるために,CNNのアクティベーションマップの画素ワイドアグリゲーションから得られた表現に基づいて,自動概念抽出とローカライズを行う手法を提案する。 さらに,主成分の画素別アノテーションを用いた合成データセットに基づく概念抽出手法の検証プロセスを導入し,人間の介入を減らす。 合成データセットと実世界のデータセットの両方で広範な実験を行うことで、最先端の代替手法と比較して性能が向上する。

Convolutional neural networks are being increasingly used in critical systems, where ensuring their robustness and alignment is crucial. In this context, the field of explainable artificial intelligence has proposed the generation of high-level explanations through concept extraction. These methods detect whether a concept is present in an image, but are incapable of locating where. What is more, a fair comparison of approaches is difficult, as proper validation procedures are missing. To fill these gaps, we propose a novel method for automatic concept extraction and localization based on representations obtained through the pixel-wise aggregations of activation maps of CNNs. Further, we introduce a process for the validation of concept-extraction techniques based on synthetic datasets with pixel-wise annotations of their main components, reducing human intervention. Through extensive experimentation on both synthetic and real-world datasets, our method achieves better performance in comparison to state-of-the-art alternatives.
翻訳日:2022-06-10 12:41:07 公開日:2022-06-09
# DiSparse:マルチタスクモデル圧縮のためのアンタングルスカラー化

DiSparse: Disentangled Sparsification for Multitask Model Compression ( http://arxiv.org/abs/2206.04662v1 )

ライセンス: Link先を確認
Xinglong Sun, Ali Hassani, Zhangyang Wang, Gao Huang, Humphrey Shi(参考訳) モデル圧縮とマルチタスク学習の人気にもかかわらず、パラメータ空間におけるタスクの難易度のため、マルチタスクモデルを効果的に圧縮する方法は、完全には分析されていない。 本稿では,単純で効果的で初等的なマルチタスク・プラニングとスパース・トレーニング・スキームであるdisparseを提案する。 パラメータ解析と選択を行う際,各タスクの重要度を分離し,全タスクの全体的決定を下すことで,各タスクを独立に検討する。 実験結果は,一般的なスパーストレーニングおよびプルーニング法と比較して,各種設定および設定において優れた性能を示す。 圧縮の有効性に加えて、DiSparseはマルチタスク学習コミュニティに強力なツールを提供する。 驚くべきことに、DiSparseが実施した高モデル間隔にもかかわらず、いくつかのケースにおいて、いくつかの専用マルチタスク学習手法よりも優れたパフォーマンスが見られた。 我々は,DiSparseで生成されたプルーニングマスクを解析し,トレーニング開始前でも各タスクで識別される顕著に類似したスパースネットワークアーキテクチャを観察した。 また,タスク関連性が急激に低下する「流域」層の存在も観察し,継続するパラメータ共有のメリットを示唆している。 私たちのコードとモデルは、https://github.com/SHI-Labs/DiSparse-Multitask-Model-Compressionで利用可能になります。

Despite the popularity of Model Compression and Multitask Learning, how to effectively compress a multitask model has been less thoroughly analyzed due to the challenging entanglement of tasks in the parameter space. In this paper, we propose DiSparse, a simple, effective, and first-of-its-kind multitask pruning and sparse training scheme. We consider each task independently by disentangling the importance measurement and take the unanimous decisions among all tasks when performing parameter pruning and selection. Our experimental results demonstrate superior performance on various configurations and settings compared to popular sparse training and pruning methods. Besides the effectiveness in compression, DiSparse also provides a powerful tool to the multitask learning community. Surprisingly, we even observed better performance than some dedicated multitask learning methods in several cases despite the high model sparsity enforced by DiSparse. We analyzed the pruning masks generated with DiSparse and observed strikingly similar sparse network architecture identified by each task even before the training starts. We also observe the existence of a "watershed" layer where the task relatedness sharply drops, implying no benefits in continued parameters sharing. Our code and models will be available at: https://github.com/SHI-Labs/DiSparse-Multitask-Model-Compression.
翻訳日:2022-06-10 12:40:52 公開日:2022-06-09
# CLTS+: 抽象要約を用いた中国語の長文要約データセット

CLTS+: A New Chinese Long Text Summarization Dataset with Abstractive Summaries ( http://arxiv.org/abs/2206.04253v1 )

ライセンス: Link先を確認
Xiaojun Liu, Shunan Zang, Chuang Zhang, Xiaojun Chen, Yangyang Ding(参考訳) 創造性に欠ける抽象的手法は、特に自動テキスト要約における問題である。 モデルによって生成された要約は、主にソース記事から抽出される。 この問題の主な原因の1つは、特に中国語における抽象性のあるデータセットの欠如である。 この問題を解決するために,中国語長文要約データセットCLTS,中国語長文要約データセット,事実不整合の誤りの正しさを解説し,180K以上の記事と要約のペアを網羅し,オンラインで利用可能な中国語長文要約データセットCLTS+を提案する。 さらに、構築したデータセットを評価するために、共起語に基づく固有メトリックを導入する。 clts+のサマリーで使用される抽出戦略を分析し、新しいデータの抽象性と難易度を定量化し、clts+のいくつかのベースラインをトレーニングし、モデルの創造性を向上させるための有用性を検証する。

The abstractive methods lack of creative ability is particularly a problem in automatic text summarization. The summaries generated by models are mostly extracted from the source articles. One of the main causes for this problem is the lack of dataset with abstractiveness, especially for Chinese. In order to solve this problem, we paraphrase the reference summaries in CLTS, the Chinese Long Text Summarization dataset, correct errors of factual inconsistencies, and propose the first Chinese Long Text Summarization dataset with a high level of abstractiveness, CLTS+, which contains more than 180K article-summary pairs and is available online. Additionally, we introduce an intrinsic metric based on co-occurrence words to evaluate the dataset we constructed. We analyze the extraction strategies used in CLTS+ summaries against other datasets to quantify the abstractiveness and difficulty of our new data and train several baselines on CLTS+ to verify the utility of it for improving the creative ability of models.
翻訳日:2022-06-10 12:40:34 公開日:2022-06-09
# ジュエリーショップ会話チャットボット

Jewelry Shop Conversational Chatbot ( http://arxiv.org/abs/2206.04659v1 )

ライセンス: Link先を確認
Safa Zaid, Aswah Malik, Kisa Fatima(参考訳) 商業分野におけるチャットボットの出現以来、彼らはカスタマーサービス部門で広く採用されてきた。 通常、これらの商用チャットボットは検索ベースであるため、提供されるデータセットにないクエリに応答できない。 それとは対照的に、生成型チャットボットは最も適切な応答を作成しようとするが、主に顧客-ボットダイアログでスムーズなフローを作成できない。 クライアントは応答を受信した後も継続するオプションがほとんどないので、ダイアログは短くなる。 作業を通じて、単純な会話エージェントのインテリジェンスを最大化して、目に見えないクエリに回答し、フォローアップされた質問や発言を生成する。 我々は,入力とコーパスのパターンとの類似性を見出すことで,顧客の問い合わせの基盤となる目的を見つけるジュエリーショップ用のチャットボットを構築した。 我々のシステムはクライアント向けの音声入力インタフェースを備えており、自然言語で話すことができる。 音声をテキストに変換した後、クエリの意図を抽出するためにモデルをトレーニングし、適切な応答を見つけ、自然な人間の声でクライアントと話すようにしました。 システムの性能を評価するために、リコール、精度、F1スコアなどのパフォーマンス指標を使用しました。

Since the advent of chatbots in the commercial sector, they have been widely employed in the customer service department. Typically, these commercial chatbots are retrieval-based, so they are unable to respond to queries absent in the provided dataset. On the contrary, generative chatbots try to create the most appropriate response, but are mostly unable to create a smooth flow in the customer-bot dialog. Since the client has few options left for continuing after receiving a response, the dialog becomes short. Through our work, we try to maximize the intelligence of a simple conversational agent so it can answer unseen queries, and generate follow-up questions or remarks. We have built a chatbot for a jewelry shop that finds the underlying objective of the customer's query by finding similarity of the input to patterns in the corpus. Our system features an audio input interface for clients, so they may speak to it in natural language. After converting the audio to text, we trained the model to extract the intent of the query, to find an appropriate response and to speak to the client in a natural human voice. To gauge the system's performance, we used performance metrics such as Recall, Precision and F1 score.
翻訳日:2022-06-10 12:40:19 公開日:2022-06-09
# (参考訳) ダイナミックシーンのロングビデオの生成

Generating Long Videos of Dynamic Scenes ( http://arxiv.org/abs/2206.03429v2 )

ライセンス: CC BY 4.0
Tim Brooks, Janne Hellsten, Miika Aittala, Ting-Chun Wang, Timo Aila, Jaakko Lehtinen, Ming-Yu Liu, Alexei A. Efros, Tero Karras(参考訳) 本稿では,物体の動きを正確に再現する映像生成モデル,カメラ視点の変化,時間とともに発生する新たなコンテンツについて述べる。 既存のビデオ生成手法は、しばしば時間の関数として新しいコンテンツを生成するのに失敗するが、現実の環境(例えば、可算なダイナミクスやオブジェクトの永続化など)で期待されているコンピテンシーを維持している。 一般的な障害ケースは、ビデオ全体のコンテンツを決定する単一の潜在コードなど、インダクティブバイアスの過度な依存によって、コンテンツが決して変わることはない、というものです。 一方、長期的な一貫性がなければ、生成されたビデオは異なるシーン間で非現実的に変化する可能性がある。 これらの制限に対処するために,時間的潜在表現を再設計し,長いビデオのトレーニングによってデータから長期的な一貫性を学ぶことにより,時間軸を優先する。 この目的のために,我々は2段階のトレーニング戦略を活用し,より長い動画を低解像度で,より短い動画を高解像度で個別にトレーニングする。 本モデルの有効性を評価するため,長期時間変動に着目したベンチマークデータセットを2つ導入した。

We present a video generation model that accurately reproduces object motion, changes in camera viewpoint, and new content that arises over time. Existing video generation methods often fail to produce new content as a function of time while maintaining consistencies expected in real environments, such as plausible dynamics and object persistence. A common failure case is for content to never change due to over-reliance on inductive biases to provide temporal consistency, such as a single latent code that dictates content for the entire video. On the other extreme, without long-term consistency, generated videos may morph unrealistically between different scenes. To address these limitations, we prioritize the time axis by redesigning the temporal latent representation and learning long-term consistency from data by training on longer videos. To this end, we leverage a two-phase training strategy, where we separately train using longer videos at a low resolution and shorter videos at a high resolution. To evaluate the capabilities of our model, we introduce two new benchmark datasets with explicit focus on long-term temporal dynamics.
翻訳日:2022-06-10 12:39:31 公開日:2022-06-09
# (参考訳) 実世界流通シフトに対するロバスト性認定に向けて

Toward Certified Robustness Against Real-World Distribution Shifts ( http://arxiv.org/abs/2206.03669v2 )

ライセンス: CC BY 4.0
Haoze Wu, Teruhiro Tagomori, Alexander Robey, Fengjun Yang, Nikolai Matni, George Pappas, Hamed Hassani, Corina Pasareanu, Clark Barrett(参考訳) 我々は、現実世界の分散シフトに対するディープニューラルネットワークの堅牢性を証明する問題を考える。 そこで我々は,データから摂動を学習するために生成モデルを訓練し,学習したモデルの出力に関して仕様を定義する,新しいニューラルシンボリック検証フレームワークを提案することによって,手作り仕様と現実的な展開設定のギャップを埋める。 この設定から生じるユニークな課題は、既存の検証器が、多くの最先端生成モデルの基本であるsgmoidアクティベーションを厳密に近似できないことである。 この課題に対処するために,古典的な概念である反例誘導的抽象的洗練を利用したシグモイドの活性化処理のための一般メタアルゴリズムを提案する。 鍵となる考え方は、Sigmoid関数の抽象化を「緩やかに」洗練し、以前の抽象化で見いだされた急激な反例を排除し、状態空間を小さく保ちながら検証プロセスの進歩を保証することである。 MNISTとCIFAR-10データセットの実験により、我々のフレームワークは、様々な挑戦的な分散シフトにおいて、既存の手法を著しく上回ります。

We consider the problem of certifying the robustness of deep neural networks against real-world distribution shifts. To do so, we bridge the gap between hand-crafted specifications and realistic deployment settings by proposing a novel neural-symbolic verification framework, in which we train a generative model to learn perturbations from data and define specifications with respect to the output of the learned model. A unique challenge arising from this setting is that existing verifiers cannot tightly approximate sigmoid activations, which are fundamental to many state-of-the-art generative models. To address this challenge, we propose a general meta-algorithm for handling sigmoid activations which leverages classical notions of counter-example-guided abstraction refinement. The key idea is to "lazily" refine the abstraction of sigmoid functions to exclude spurious counter-examples found in the previous abstraction, thus guaranteeing progress in the verification process while keeping the state-space small. Experiments on the MNIST and CIFAR-10 datasets show that our framework significantly outperforms existing methods on a range of challenging distribution shifts.
翻訳日:2022-06-10 12:15:53 公開日:2022-06-09
# (参考訳) ダウンストリームタスクにおけるマスクリコンストラクション事前トレーニングがなぜ役に立つのか

Towards Understanding Why Mask-Reconstruction Pretraining Helps in Downstream Tasks ( http://arxiv.org/abs/2206.03826v2 )

ライセンス: CC BY 4.0
Jiachun Pan, Pan Zhou, Shuicheng Yan(参考訳) 教師なし事前トレーニングでは、マスク再構成事前トレーニング(MRP)がランダムに入力パッチをマスクし、オートエンコーダを介してこれらのマスクパッチのピクセルや意味的特徴を再構成する。 そして、下流タスクでは、事前学習されたエンコーダの微調整が、スクラッチから訓練された従来の教師付き学習(sl)を大幅に上回る。 しかし、まだ不明である。 1)MRPが事前学習フェーズで意味学習を行う方法と課題 2) ダウンストリームタスクになぜ役立つのか。 これらの問題を解決するために,2層/1層畳み込みエンコーダ/デコーダの自動エンコーダにおいて,mrpはプリトレーニングデータセット内のすべての識別意味をキャプチャできることを示す。 具体的には,プレトレーニングデータセットには1-\mu$の複数ビューサンプルと1-\mu$の単一ビューサンプルが含まれていると仮定する。 事前訓練のためには 1) MRPエンコーダの畳み込みカーネルは、事前学習データ中のすべての識別的意味をキャプチャし、 2)畳み込みカーネルは、少なくとも1つの意味をキャプチャする。 したがって、下流の教師付き微調整では、ほとんどのセマンティクスはキャプチャされ、異なるセマンティクスは融合しない。 これにより、下流の微調整ネットワークは、カーネルとセマンティクスクラスラベルの関係を簡単に確立できる。 このようにして、mrpの微調整エンコーダは、マルチビューとシングルビューの両方のテストデータに対して高い確率でゼロテストエラーを実現できる。 一方、~[3]で証明されたように、従来のslはシングルビューテストデータに対して0.5\mu$程度の精度しか得られない。 これらの結果は下流タスクにおけるmrpの利点を説明するものである。 実験結果はマルチビューデータの仮定と理論的意味を検証した。

For unsupervised pretraining, mask-reconstruction pretraining (MRP) approaches randomly mask input patches and then reconstruct pixels or semantic features of these masked patches via an auto-encoder. Then for a downstream task, supervised fine-tuning the pretrained encoder remarkably surpasses the conventional supervised learning (SL) trained from scratch. However, it is still unclear 1) how MRP performs semantic learning in the pretraining phase and 2) why it helps in downstream tasks. To solve these problems, we theoretically show that on an auto-encoder of a two/one-layered convolution encoder/decoder, MRP can capture all discriminative semantics in the pretraining dataset, and accordingly show its provable improvement over SL on the classification downstream task. Specifically, we assume that pretraining dataset contains multi-view samples of ratio $1-\mu$ and single-view samples of ratio $\mu$, where multi/single-view samples has multiple/single discriminative semantics. Then for pretraining, we prove that 1) the convolution kernels of the MRP encoder captures all discriminative semantics in the pretraining data; and 2) a convolution kernel captures at most one semantic. Accordingly, in the downstream supervised fine-tuning, most semantics would be captured and different semantics would not be fused together. This helps the downstream fine-tuned network to easily establish the relation between kernels and semantic class labels. In this way, the fine-tuned encoder in MRP provably achieves zero test error with high probability for both multi-view and single-view test data. In contrast, as proved by~[3], conventional SL can only obtain a test accuracy between around $0.5\mu$ for single-view test data. These results together explain the benefits of MRP in downstream tasks. Experimental results testify to multi-view data assumptions and our theoretical implications.
翻訳日:2022-06-10 11:35:38 公開日:2022-06-09
# (参考訳) 制御可能な応答生成に向けたFew-shot Prompting

Few-shot Prompting Towards Controllable Response Generation ( http://arxiv.org/abs/2206.03931v2 )

ライセンス: CC BY 4.0
Hsuan Su, Pohan Chi, Shih-Cheng Huang, Chung Ho Lam, Saurav Sahay, Shang-Tse Chen, Hung-yi Lee(参考訳) 多くの文献が、プロンプトベースの学習は、大規模な事前学習言語モデルを利用するための効率的な方法であることを示した。 最近の研究では、適切なプロンプトを差し込んでチャットボットの出力を操る可能性も示されている。 勾配に基づく手法は、しばしばプロンプトを乱すために使われる。 しかし、一部の言語モデルは一般には利用できない。 本研究ではまず,モデルのパラメータにアクセスせずにモデル生成を操るためのプロンプトと強化学習(RL)の組み合わせについて検討した。 第二に、トレーニングの労力を減らし、目に見えないタスクへの一般化性を高めるために、モデルを学習させて新しいタスクに一般化させるマルチタスク学習を適用する。 実験の結果,提案手法はパラメータにアクセスすることなく,複数のSOTA(State-of-the-art)対話モデルを制御することができることがわかった。 さらに、モデルは、ベースラインモデルよりも少ないステップで、目に見えないタスクに迅速に適応できる強力な能力を示す。

Much literature has shown that prompt-based learning is an efficient method to make use of the large pre-trained language model. Recent works also exhibit the possibility of steering a chatbot's output by plugging in an appropriate prompt. Gradient-based methods are often used to perturb the prompts. However, some language models are not even available to the public. In this work, we first explored the combination of prompting and reinforcement learning (RL) to steer models' generation without accessing any of the models' parameters. Second, to reduce the training effort and enhance the generalizability to the unseen task, we apply multi-task learning to make the model learn to generalize to new tasks better. The experiment results show that our proposed method can successfully control several state-of-the-art (SOTA) dialogue models without accessing their parameters. Furthermore, the model demonstrates the strong ability to quickly adapt to an unseen task in fewer steps than the baseline model.
翻訳日:2022-06-10 11:34:26 公開日:2022-06-09
# (参考訳) 高分解能画像合成のためのスコアベース生成モデル

Accelerating Score-based Generative Models for High-Resolution Image Synthesis ( http://arxiv.org/abs/2206.04029v2 )

ライセンス: CC BY 4.0
Hengyuan Ma, Li Zhang, Xiatian Zhu, Jingfeng Zhang, Jianfeng Feng(参考訳) スコアベース生成モデル(sgms)は最近、有望な生成モデルのクラスとして登場している。 重要なアイデアは、ターゲット分布、すなわち拡散サンプリングに収束するまで、ガウスノイズや勾配をガウスサンプルに繰り返し付加することにより、高品質な画像を生成することである。 しかし、サンプリングと生成品質の収束の安定性を確保するためには、このシーケンシャルサンプリングプロセスは小さなステップサイズと多くのサンプリング反復(例えば2000)を必要とする。 低解像度生成に焦点をあてた加速法がいくつか提案されている。 本研究では,SGMによる高分解能発生の加速について考察する。 この緩やかな収束の欠点は、主に対象分布の無知に起因することを理論的に証明する。 さらに,空間領域と周波数領域の構造的前提を利用して,TDAS(Target Distribution Aware Smpling)手法を提案する。 CIFAR-10、CelebA、LSUN、FFHQのデータセットに対する大規模な実験は、TDASが一貫して最先端のSGM、特により困難な高解像度(1024x1024)画像生成タスクを18.4倍まで加速できることを示した。 サンプリングを少なくすれば、tdaは高品質な画像を生成することができる。 対照的に、既存のメソッドは劇的に劣化するか、あるいは完全に失敗する

Score-based generative models (SGMs) have recently emerged as a promising class of generative models. The key idea is to produce high-quality images by recurrently adding Gaussian noises and gradients to a Gaussian sample until converging to the target distribution, a.k.a. the diffusion sampling. To ensure stability of convergence in sampling and generation quality, however, this sequential sampling process has to take a small step size and many sampling iterations (e.g., 2000). Several acceleration methods have been proposed with focus on low-resolution generation. In this work, we consider the acceleration of high-resolution generation with SGMs, a more challenging yet more important problem. We prove theoretically that this slow convergence drawback is primarily due to the ignorance of the target distribution. Further, we introduce a novel Target Distribution Aware Sampling (TDAS) method by leveraging the structural priors in space and frequency domains. Extensive experiments on CIFAR-10, CelebA, LSUN, and FFHQ datasets validate that TDAS can consistently accelerate state-of-the-art SGMs, particularly on more challenging high resolution (1024x1024) image generation tasks by up to 18.4x, whilst largely maintaining the synthesis quality. With fewer sampling iterations, TDAS can still generate good quality images. In contrast, the existing methods degrade drastically or even fails completely
翻訳日:2022-06-10 11:21:40 公開日:2022-06-09
# 脳の活動から自然界の映画を自己監督で再現する(動画あり)

A Penny for Your (visual) Thoughts: Self-Supervised Reconstruction of Natural Movies from Brain Activity ( http://arxiv.org/abs/2206.03544v2 )

ライセンス: Link先を確認
Ganit Kupershmidt, Roman Beliy, Guy Gaziv, Michal Irani(参考訳) fMRI脳波記録から自然映像を再構成するのは、大きな2つの理由から非常に難しい。 (i)fMRIデータ取得が困難であるため、監視対象のサンプルは限られており、天然ビデオの膨大な空間をカバーするには不十分である。 (II)fMRI記録の時間分解能は天然ビデオのフレームレートよりもはるかに低い。 本稿では,自然運動再建のための自己教師型アプローチを提案する。 自然ビデオのエンコーディング・デコードよりもサイクルコンシスタンスを採用することで、次のことができる。 (i)トレーニングビデオの全フレームレートを利用して、fMRI記録に対応するクリップに限らない。 (II)fMRI装置内では見たことのない大量の外部天然ビデオを利用する。 これにより、適用可能なトレーニングデータを数桁増やし、デコードネットワークに先立って自然なビデオを導入すると同時に、時間的コヒーレンスも実現する。 我々の手法は、限られた教師付きデータにのみ依存するため、競合する手法よりも優れている。 私たちはさらに、自然ビデオの新しい簡単な時間的プリミティブを導入し、さらにfmriデコーダに折り畳むと、元のfmriサンプルレートの最大x8のフレームレート(hfr)でビデオを再構築できるようになりました。

Reconstructing natural videos from fMRI brain recordings is very challenging, for two main reasons: (i) As fMRI data acquisition is difficult, we only have a limited amount of supervised samples, which is not enough to cover the huge space of natural videos; and (ii) The temporal resolution of fMRI recordings is much lower than the frame rate of natural videos. In this paper, we propose a self-supervised approach for natural-movie reconstruction. By employing cycle-consistency over Encoding-Decoding natural videos, we can: (i) exploit the full framerate of the training videos, and not be limited only to clips that correspond to fMRI recordings; (ii) exploit massive amounts of external natural videos which the subjects never saw inside the fMRI machine. These enable increasing the applicable training data by several orders of magnitude, introducing natural video priors to the decoding network, as well as temporal coherence. Our approach significantly outperforms competing methods, since those train only on the limited supervised data. We further introduce a new and simple temporal prior of natural videos, which - when folded into our fMRI decoder further - allows us to reconstruct videos at a higher frame-rate (HFR) of up to x8 of the original fMRI sample rate.
翻訳日:2022-06-10 11:00:25 公開日:2022-06-09
# cViL:知識蒸留を用いた視覚言語モデルの言語間学習

cViL: Cross-Lingual Training of Vision-Language Models using Knowledge Distillation ( http://arxiv.org/abs/2206.03354v2 )

ライセンス: Link先を確認
Kshitij Gupta, Devansh Gautam, Radhika Mamidi(参考訳) 視覚と言語に関するタスクは研究コミュニティで人気を集めているが、依然として英語に重点を置いている。 対象言語に対する単言語モデルの学習に英語のみの視覚モデルを用いたパイプラインを提案する。 我々は,オブジェクトタグをアンカーポイントとして活用して画像テキストアライメントを学習するモデルであるOSCAR+を拡張し,異なる言語での視覚的質問応答データセットのトレーニングを行う。 並列文を用いた他言語におけるモデルを学習するための知識蒸留の新しい手法を提案する。 事前学習コーパスで対象言語を使用する他のモデルと比較して,既存の英語モデルを利用して,より少ないリソースを用いて対象言語に知識を伝達することができる。 また,日本語とヒンディー語による大規模ビジュアル質問応答データセットも公開している。 我々は視覚的な質問応答に限定するが、我々のモデルは任意のシーケンスレベルの分類タスクに拡張でき、他の言語にも拡張できる。 本稿では,視覚的質問応答課題である日本語とヒンディー語の2つの言語に注目した。 我々のパイプラインは、それぞれ4.4%と13.4%の精度で現在の最先端モデルよりも優れています。

Vision-and-language tasks are gaining popularity in the research community, but the focus is still mainly on English. We propose a pipeline that utilizes English-only vision-language models to train a monolingual model for a target language. We propose to extend OSCAR+, a model which leverages object tags as anchor points for learning image-text alignments, to train on visual question answering datasets in different languages. We propose a novel approach to knowledge distillation to train the model in other languages using parallel sentences. Compared to other models that use the target language in the pretraining corpora, we can leverage an existing English model to transfer the knowledge to the target language using significantly lesser resources. We also release a large-scale visual question answering dataset in Japanese and Hindi language. Though we restrict our work to visual question answering, our model can be extended to any sequence-level classification task, and it can be extended to other languages as well. This paper focuses on two languages for the visual question answering task - Japanese and Hindi. Our pipeline outperforms the current state-of-the-art models by a relative increase of 4.4% and 13.4% respectively in accuracy.
翻訳日:2022-06-10 11:00:06 公開日:2022-06-09
# 実験におけるマルコフ干渉

Markovian Interference in Experiments ( http://arxiv.org/abs/2206.02371v2 )

ライセンス: Link先を確認
Vivek F. Farias, Andrew A. Li, Tianyi Peng, Andrew Zheng(参考訳) 実験ユニットへの介入が制限的制約(在庫制限など)を通じて他のユニットに影響を及ぼす力学系の実験について考察する。 この「マルコフ的」干渉問題に対する最良の推定者は、実用的重要性は大きいが、自然界では概ねヒューリスティックであり、そのバイアスはよく理解されていない。 我々は,政策評価の1つとして,推論の問題を定式化する。 政治以外の推定者は、偏見のないが、明らかに最先端のヒューリスティックスと比較して大きなペナルティをもたらす。 本稿では,DQ(差分-In-Q)推定器を提案する。 概してDQ推定器は,非政治評価よりも指数関数的に分散が小さいことを示す。 同時に、そのバイアスは介入の影響の第2次となる。 これは、DQ推定器が最先端の代替品を効果的に支配するように、顕著なバイアス分散トレードオフをもたらす。 理論的観点からは、強化学習の理論(rl)に独立した関心を持つ3つの異なる新しい手法を導入する。 我々の経験的評価は、都市規模の配車シミュレータの実験を含む。

We consider experiments in dynamical systems where interventions on some experimental units impact other units through a limiting constraint (such as a limited inventory). Despite outsize practical importance, the best estimators for this `Markovian' interference problem are largely heuristic in nature, and their bias is not well understood. We formalize the problem of inference in such experiments as one of policy evaluation. Off-policy estimators, while unbiased, apparently incur a large penalty in variance relative to state-of-the-art heuristics. We introduce an on-policy estimator: the Differences-In-Q's (DQ) estimator. We show that the DQ estimator can in general have exponentially smaller variance than off-policy evaluation. At the same time, its bias is second order in the impact of the intervention. This yields a striking bias-variance tradeoff so that the DQ estimator effectively dominates state-of-the-art alternatives. From a theoretical perspective, we introduce three separate novel techniques that are of independent interest in the theory of Reinforcement Learning (RL). Our empirical evaluation includes a set of experiments on a city-scale ride-hailing simulator.
翻訳日:2022-06-10 10:59:47 公開日:2022-06-09
# 多施設ct画像のためのハイパーネットワークによる個人化連合学習

Hypernetwork-based Personalized Federated Learning for Multi-Institutional CT Imaging ( http://arxiv.org/abs/2206.03709v2 )

ライセンス: Link先を確認
Ziyuan Yang, Wenjun Xia, Zexin Lu, Yingyu Chen, Xiaoxiao Li and Yi Zhang(参考訳) ct(ct)は、侵襲的検査なしで患者の解剖情報を提供する強力な能力があるため、臨床において非常に重要であるが、その潜在的な放射線リスクは人々の関心を惹きつけている。 ディープラーニングベースの手法はCT再構成において有望であると考えられているが、これらのネットワークモデルは、通常、特定の走査プロトコルから得られた測定データで訓練され、大量のデータを集中的に収集する必要がある。 本稿では,これらの問題を解消するために,HyperFedと呼ばれる個人用CT画像のためのハイパーネットワークベースのフェデレーション学習手法を提案する。 hyperfedの基本的な前提は、各機関の最適化問題は、機関固有のハイパーネットワークとグローバルシェアリングイメージングネットワークによってそれぞれ実装されるローカルデータ適応問題とグローバルctイメージング問題という2つの部分に分けられることである。 グローバル共有画像ネットワークの目的は、様々な機関から安定的で効果的な共通特徴を学習することである。 組織固有のハイパーネットワークは,局所的CT再構成のためのグローバル共有画像ネットワークの条件を定めるために,慎重に設計されている。 実験の結果,HyperFedは他のいくつかの最先端手法と比較してCT再構成の競合性能が向上した。 これは、CT画像の画質を改善し、プライバシーデータを共有することなく、異なる機関やスキャナーのパーソナライズされた要求を達成するための有望な方向であると信じられている。 コードはhttps://github.com/zi-yuanyang/hyperfedでリリースされる。

Computed tomography (CT) is of great importance in clinical practice due to its powerful ability to provide patients' anatomical information without any invasive inspection, but its potential radiation risk is raising people's concerns. Deep learning-based methods are considered promising in CT reconstruction, but these network models are usually trained with the measured data obtained from specific scanning protocol and need to centralizedly collect large amounts of data, which will lead to serious data domain shift, and privacy concerns. To relieve these problems, in this paper, we propose a hypernetwork-based federated learning method for personalized CT imaging, dubbed as HyperFed. The basic assumption of HyperFed is that the optimization problem for each institution can be divided into two parts: the local data adaption problem and the global CT imaging problem, which are implemented by an institution-specific hypernetwork and a global-sharing imaging network, respectively. The purpose of global-sharing imaging network is to learn stable and effective common features from different institutions. The institution-specific hypernetwork is carefully designed to obtain hyperparameters to condition the global-sharing imaging network for personalized local CT reconstruction. Experiments show that HyperFed achieves competitive performance in CT reconstruction compared with several other state-of-the-art methods. It is believed as a promising direction to improve CT imaging quality and achieve personalized demands of different institutions or scanners without privacy data sharing. The codes will be released at https://github.com/Zi-YuanYang/HyperFed.
翻訳日:2022-06-10 10:59:30 公開日:2022-06-09
# 胸部x線異常検出のためのdual-distribution discrepancy

Dual-Distribution Discrepancy for Anomaly Detection in Chest X-Rays ( http://arxiv.org/abs/2206.03935v2 )

ライセンス: Link先を確認
Yu Cai, Hao Chen, Xin Yang, Yu Zhou, Kwang-Ting Cheng(参考訳) 胸部X線 (CXR) は様々な疾患の診断において最も典型的な放射線検査である。 高価で時間を要するアノテーションのため、教師なしの方法でCXRの異常を検出することは非常に有望である。 しかし、既存の手法のほとんどは、異常検出を1クラス分類(OCC)問題と見なしている。 トレーニング中の既知の正常画像のみの分布をモデル化し、正常なプロファイルに適合しないサンプルをテストフェーズの異常として同定する。 これにより、臨床で容易に取得できるが、トレーニング段階では、異常を含む多数のラベルなし画像が無視される。 本稿では, 正規画像とラベルなし画像の両方を利用した新しい手法であるDual-Distribution Discrepancy for Anomaly Detection (DDAD)を提案する。 トレーニング中、モジュールAは既知の正規画像と未ラベル画像の両方を入力として、ラベルなし画像から何らかの方法で異常な特徴をキャプチャし、モジュールBは既知の正規画像のみの分布をモデル化する。 その後、モジュールAとB間の相違とモジュールB内の相違は異常を示す異常スコアとして設計される。 3つのCXRデータセットの実験により、提案されたDDADが一貫した重要なゲインを達成し、最先端の手法より優れていることが示された。 コードはhttps://github.com/caiyu6666/DDADで入手できる。

Chest X-ray (CXR) is the most typical radiological exam for diagnosis of various diseases. Due to the expensive and time-consuming annotations, detecting anomalies in CXRs in an unsupervised fashion is very promising. However, almost all of the existing methods consider anomaly detection as a One-Class Classification (OCC) problem. They model the distribution of only known normal images during training and identify the samples not conforming to normal profile as anomalies in the testing phase. A large number of unlabeled images containing anomalies are thus ignored in the training phase, although they are easy to obtain in clinical practice. In this paper, we propose a novel strategy, Dual-distribution Discrepancy for Anomaly Detection (DDAD), utilizing both known normal images and unlabeled images. The proposed method consists of two modules, denoted as A and B. During training, module A takes both known normal and unlabeled images as inputs, capturing anomalous features from unlabeled images in some way, while module B models the distribution of only known normal images. Subsequently, the inter-discrepancy between modules A and B, and intra-discrepancy inside module B are designed as anomaly scores to indicate anomalies. Experiments on three CXR datasets demonstrate that the proposed DDAD achieves consistent, significant gains and outperforms state-of-the-art methods. Code is available at https://github.com/caiyu6666/DDAD.
翻訳日:2022-06-10 10:56:37 公開日:2022-06-09