このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211020となっている論文です。

PDF登録状況(公開日: 20211020)

TitleAuthorsAbstract論文公表日・翻訳日
# 機械知能の不可能性に関する議論

An argument for the impossibility of machine intelligence ( http://arxiv.org/abs/2111.07765v1 )

ライセンス: Link先を確認
Jobst Landgrebe, Barry Smith(参考訳) 名詞の"artificial intelligence"(ai)が作られたため、人間が技術を使って知性を作り出すことができるかどうかが議論されている。 我々はこの問題に熱力学と数学の観点から新たな光を当てた。 まず、AIの担い手になり得るエージェント(デバイス)が何であるかを定義します。 そして、Hutterらによって提案され、まだAIコミュニティによって受け入れられている「知性」の主流の定義は、昆虫に知性を割り当てる際に関係するものを捉えるには弱すぎることを示す。 次に、ロドニー・ブルックスによって提案された基本的な(節足動物)知能の非常に有用な定義を要約し、この定義によって知能の担い手となるためにAIエージェントが持つべき特性を特定する。 最後に、そのようなエージェント、すなわち数学と物理学の創出に必要な規律の観点から、これらの性質は暗黙的でも明示的でもない数学的設計でも、AIが自然に進化できる環境を設定することでも実現可能であることを示す。

Since the noun phrase `artificial intelligence' (AI) was coined, it has been debated whether humans are able to create intelligence using technology. We shed new light on this question from the point of view of themodynamics and mathematics. First, we define what it is to be an agent (device) that could be the bearer of AI. Then we show that the mainstream definitions of `intelligence' proposed by Hutter and others and still accepted by the AI community are too weak even to capture what is involved when we ascribe intelligence to an insect. We then summarise the highly useful definition of basic (arthropod) intelligence proposed by Rodney Brooks, and we identify the properties that an AI agent would need to possess in order to be the bearer of intelligence by this definition. Finally, we show that, from the perspective of the disciplines needed to create such an agent, namely mathematics and physics, these properties are realisable by neither implicit nor explicit mathematical design nor by setting up an environment in which an AI could evolve spontaneously.
翻訳日:2021-11-21 15:07:37 公開日:2021-10-20
# (参考訳) 都市景観画像のセマンティックセグメンテーション [全文訳有]

Semantic Segmentation for Urban-Scene Images ( http://arxiv.org/abs/2110.13813v1 )

ライセンス: CC BY 4.0
Shorya Sharma(参考訳) 都市画像のセグメンテーションは、自動運転のような幅広いユースケースを持つコンピュータビジョンにおける重要かつトレンドのトピックである[1]。 long et alの画期的な仕事から始めます。 [2] 完全畳み込みネットワーク(fcns)の導入により,近年,意味セグメンテーションにおける新しいアーキテクチャの開発とニューラルネットワークの実用化が進められている。 プール化による情報収縮の一般モデル設計における解を求める以外は、都市景観画像自体が位置パターンのような本質的な特徴を持っている[3]。 本研究は,現在最も新しい手法である都市・地域イメージセマンティクスセグメンテーションを対象とする,先進的で統合的なソリューションを追求する。 最先端モデルdeeplabv3+[4]をresnet-101[5]バックボーンで再実装し,強力なベースラインモデルとした。 deeplabv3+ に基づいて,hanet [3] を都市間画像タスクにおける垂直的空間的優先順位として取り入れた。 モデル効率と性能を高めるため、deeplabv3+のatrous spatial pooling (asp)層をさらに探究し、このモデルで"waterfall" atrous spatial pooling (wasp) [6]アーキテクチャと呼ばれる計算効率のよいバリエーションを注入する。 2段階統合モデルでは,平均交点オーバー結合(miou)スコアをベースラインモデルから徐々に改善することが判明した。 特に、HANetは高さ駆動型パターンの識別に成功し、フェンスやバスといった都市シナリオにおいて、一般的なクラスラベルのクラスごとのIoUを改善する。 また、トレーニング中の計算時間と元のASPPモジュールからのパラメータ削減の観点から、WASPの助けを借りてモデル効率の向上を示す。

Urban-scene Image segmentation is an important and trending topic in computer vision with wide use cases like autonomous driving [1]. Starting with the breakthrough work of Long et al. [2] that introduces Fully Convolutional Networks (FCNs), the development of novel architectures and practical uses of neural networks in semantic segmentation has been expedited in the recent 5 years. Aside from seeking solutions in general model design for information shrinkage due to pooling, urban-scene image itself has intrinsic features like positional patterns [3]. Our project seeks an advanced and integrated solution that specifically targets urban-scene image semantic segmentation among the most novel approaches in the current field. We re-implement the cutting edge model DeepLabv3+ [4] with ResNet-101 [5] backbone as our strong baseline model. Based upon DeepLabv3+, we incorporate HANet [3] to account for the vertical spatial priors in urban-scene image tasks. To boost up model efficiency and performance, we further explore the Atrous Spatial Pooling (ASP) layer in DeepLabv3+ and infuse a computational efficient variation called "Waterfall" Atrous Spatial Pooling (WASP) [6] architecture in our model. We find that our two-step integrated model improves the mean Intersection-Over-Un ion (mIoU) score gradually from the baseline model. In particular, HANet successfully identifies height-driven patterns and improves per-class IoU of common class labels in urban scenario like fence and bus. We also demonstrate the improvement of model efficiency with help of WASP in terms of computational times during training and parameter reduction from the original ASPP module.
翻訳日:2021-11-01 06:21:35 公開日:2021-10-20
# (参考訳) ネットワーク埋め込みによるワクチン懐疑症検出 [全文訳有]

Vaccine skepticism detection by network embedding ( http://arxiv.org/abs/2110.13619v1 )

ライセンス: CC BY-SA 4.0
Ferenc B\'eres, Rita Csoma, Tam\'as Vilmos Michaletzky, Andr\'as A. Bencz\'ur(参考訳) 長い歴史の中で議論の的となっているワクチン懐疑論に対するネットワーク埋め込みの適用性を示す。 2019年末の新型コロナウイルス(covid-19)パンデミックで、この話題はこれまで以上に重要になっている。 最初の国際症例が登録されたわずか1年後、複数のワクチンが開発され、臨床試験に合格した。 開発、テスト、物流の課題に加えて、パンデミックとの戦いにおいて重要な役割を果たすかもしれないもう1つの要因は、ワクチンを接種されることをためらう人々、あるいは彼らが提供したワクチンを拒否すると言っても良い。 一般に呼ばれる2つのグループ a)予防接種を支持する人 b) ワクチンの有効性又は新型コロナウイルスに対する一般ワクチン接種の必要性を疑う者。 それぞれのビューを何人が共有しているかを正確に知るのは難しいです。 vax-skepticの意見がより普及している理由を理解するのはさらに難しい。 本研究の目的は,vaxxerとvax-skepticコンテンツの区別を効率的に行う技術を開発することである。 複数のデータ前処理ステップを経た後、ツイートのテキストと、twitter上のユーザインタラクションの構造を分析した。 数百万のエッジを持つグラフに対して,いくつかのノード埋め込みとコミュニティ検出モデルをデプロイしました。

We demonstrate the applicability of network embedding to vaccine skepticism, a controversial topic of long-past history. With the Covid-19 pandemic outbreak at the end of 2019, the topic is more important than ever. Only a year after the first international cases were registered, multiple vaccines were developed and passed clinical testing. Besides the challenges of development, testing, and logistics, another factor that might play a significant role in the fight against the pandemic are people who are hesitant to get vaccinated, or even state that they will refuse any vaccine offered to them. Two groups of people commonly referred to as a) pro-vaxxer, those who support vaccinating people b) vax-skeptic, those who question vaccine efficacy or the need for general vaccination against Covid-19. It is very difficult to tell exactly how many people share each of these views. It is even more difficult to understand all the reasoning why vax-skeptic opinions are getting more popular. In this work, our intention was to develop techniques that are able to efficiently differentiate between pro-vaxxer and vax-skeptic content. After multiple data preprocessing steps, we analyzed the tweet text as well as the structure of user interactions on Twitter. We deployed several node embedding and community detection models that scale well for graphs with millions of edges.
翻訳日:2021-11-01 06:08:24 公開日:2021-10-20
# (参考訳) 生物学的形態素のためのセマンティックウェブベースイメージングデータベースの開発 [全文訳有]

Development of Semantic Web-based Imaging Database for Biological Morphome ( http://arxiv.org/abs/2110.12058v1 )

ライセンス: CC BY 4.0
Satoshi Kume, Hiroshi Masuya, Mitsuyo Maeda, Mitsuo Suga, Yosky Kataoka, Norio Kobayashi(参考訳) 本稿では、リソース記述フレームワーク(rdf)を用いて画像メタデータを記述し、画像に観察される詳細な生物学的特性をリンクオープンデータとして表現できるセマンティックwebベースの画像データベースである、riken microstructureural imaging metadatabaseを紹介する。 メタデータは、ギガバイトレベルで大きなマイクロ構造的タイリング画像を可視化するためのグラフィカルなユーザインタフェースを提供する大規模な画像ビューアの開発に使用される。 本データベースを用いて, 自動走査電子顕微鏡による包括的な微細構造イメージングデータを蓄積した。 その結果, 細胞下成分に発生する形態的表現型や, 画像中に捕獲されたバイオサンプルの解釈など, 多数の画像とそのメタデータをうまく管理できた。 また,本データベースにより促進できる形態画像データの高度活用についても論じる。

We introduce the RIKEN Microstructural Imaging Metadatabase, a semantic web-based imaging database in which image metadata are described using the Resource Description Framework (RDF) and detailed biological properties observed in the images can be represented as Linked Open Data. The metadata are used to develop a large-scale imaging viewer that provides a straightforward graphical user interface to visualise a large microstructural tiling image at the gigabyte level. We applied the database to accumulate comprehensive microstructural imaging data produced by automated scanning electron microscopy. As a result, we have successfully managed vast numbers of images and their metadata, including the interpretation of morphological phenotypes occurring in sub-cellular components and biosamples captured in the images. We also discuss advanced utilisation of morphological imaging data that can be promoted by this database.
翻訳日:2021-11-01 06:05:40 公開日:2021-10-20
# WEEEリサイクル用PSおよびABSブラックプラスチックの分類

Classification of PS and ABS Black Plastics for WEEE Recycling Applications ( http://arxiv.org/abs/2110.12896v1 )

ライセンス: Link先を確認
Anton Persson, Niklas Dymne, Fernando Alonso-Fernandez(参考訳) 汚染と気候変動は人類が直面している最大の課題の一つだ。 このような状況下では、効率的なリサイクルは持続可能な未来に欠かせないツールである。 本研究は, 画像解析, 特にポリスチレン型 (ps) とアクリルニトリルブタジエンスチレン (abs) のブラックプラスチックを用いて, 異なる種類のプラスチックを分類するシステムの構築を目的としている。 電気・電子機器(WEEE)から排出される2種類のプラスチックである。 この目的のために畳み込みニューラルネットワークがテストされ、再訓練され、95%の検証精度を得た。 別個のテストセットを使用して平均精度は86.6%まで低下するが、結果を見てみるとABS型が100%正確に分類されていることが分かるため、すべてのエラーを蓄積するPS型である。 全体として、これはcnn機械学習技術を用いてブラックプラスチックを分類する可能性を示す。 より多様で広範な画像データセットが利用可能になった場合、より信頼性の高いシステムが提案手法を用いて開発できると信じられている。

Pollution and climate change are some of the biggest challenges that humanity is facing. In such a context, efficient recycling is a crucial tool for a sustainable future. This work is aimed at creating a system that can classify different types of plastics by using picture analysis, in particular, black plastics of the type Polystyrene (PS) and Acrylonitrile Butadiene Styrene (ABS). They are two common plastics from Waste from Electrical and Electronic Equipment (WEEE). For this purpose, a Convolutional Neural Network has been tested and retrained, obtaining a validation accuracy of 95%. Using a separate test set, average accuracy goes down to 86.6%, but a further look at the results shows that the ABS type is correctly classified 100% of the time, so it is the PS type that accumulates all the errors. Overall, this demonstrates the feasibility of classifying black plastics using CNN machine learning techniques. It is believed that if a more diverse and extensive image dataset becomes available, a system with higher reliability that generalizes well could be developed using the proposed methodology.
翻訳日:2021-10-31 08:50:23 公開日:2021-10-20
# (参考訳) 自己監督型生涯行動モデリングによるユニバーサルユーザ表現の学習 [全文訳有]

Learning Universal User Representations via Self-Supervised Lifelong Behaviors Modeling ( http://arxiv.org/abs/2110.11337v1 )

ライセンス: CC0 1.0
Bei Yang, Ke Liu, Xiaoxiao Xu, Renjun Xu, Hong Liu, Huan Xu(参考訳) ユニバーサルユーザ表現は業界において重要な研究トピックであり、ユーザプロファイリングやユーザ嗜好予測など、さまざまな下流ユーザ分析タスクで広く利用されている。 インターネットサービスプラットフォームの急速な発展に伴い、非常に長いユーザー行動シーケンスが蓄積された。 しかし,登録以来のユーザ行動の生涯系列に基づくユニバーサルユーザ表現をモデル化する能力は,既存の研究では乏しい。 本研究では,この課題に対処するために,LURM(Lifelong User Representation Model)と呼ばれる新しいフレームワークを提案する。 具体的には、LURMは2つのカスケードサブモデルから構成される。 (i)Bag of Interests(BoI)は、任意の期間におけるユーザ動作を超高次元の疎ベクトル(例:105)に符号化する。 (II) 自己教師型マルチアンカーエンコーダネットワーク(SMEN)は,BoI特徴の列をコントラスト学習により複数の低次元ユーザ表現にマッピングする。 SMENは、ユーザの好みの異なる側面を学習できる新しいマルチアンカーモジュールの恩恵を受け、ほぼ損失のない次元削減を実現している。 いくつかのベンチマークデータセットの実験により、我々の手法は下流タスクにおける最先端の教師なし表現法より優れていることが示された。

Universal user representation is an important research topic in industry, and is widely used in diverse downstream user analysis tasks, such as user profiling and user preference prediction. With the rapid development of Internet service platforms, extremely long user behavior sequences have been accumulated. However, existing researches have little ability to model universal user representation based on lifelong sequences of user behavior since registration. In this study, we propose a novel framework called Lifelong User Representation Model (LURM) to tackle this challenge. Specifically, LURM consists of two cascaded sub-models: (i) Bag of Interests (BoI) encodes user behaviors in any time period into a sparse vector with super-high dimension (e.g.,105); (ii) Self-supervised Multi-anchor EncoderNetwork (SMEN) maps sequences of BoI features to multiple low-dimensional user representations by contrastive learning. SMEN achieves almost lossless dimensionality reduction, benefiting from a novel multi-anchor module which can learn different aspects of user preferences. Experiments on several benchmark datasets show that our approach outperforms state-of-the-art unsupervised representation methods in downstream tasks
翻訳日:2021-10-26 06:29:03 公開日:2021-10-20
# (参考訳) データ駆動型ハードウェアアクセラレータのオフライン最適化 [全文訳有]

Data-Driven Offline Optimization For Architecting Hardware Accelerators ( http://arxiv.org/abs/2110.11346v1 )

ライセンス: CC BY 4.0
Aviral Kumar, Amir Yazdanbakhsh, Milad Hashemi, Kevin Swersky, Sergey Levine(参考訳) 業界は、より高い効率を達成するために、アプリケーション固有のハードウェアアクセラレーターに徐々に移行してきた。 このようなパラダイムシフトはすでに有望な結果を示し始めているが、設計者は設計制約に従って複数のターゲットアプリケーションを加速できるアクセラレータを見つけるために、かなりの手作業と膨大な時間を要するシミュレーションを行う必要がある。 さらに、このような「シミュレーション駆動」アプローチは、ターゲットとなるアプリケーションや設計制約が変わるたびに、スクラッチからやり直さなければならない。 別のパラダイムは、ログ化されたシミュレーションデータを利用する"データ駆動のオフラインアプローチを使用して、ハードウェアアクセラレーションを設計することである。 このようなアプローチは、時間を要するシミュレーションの実行を緩和するだけでなく、データ再利用を可能にし、ターゲットアプリケーションのセットが変更しても適用することができる。 本稿では,ハードウェアアクセラレーション設計のためのデータ駆動型オフライン最適化手法 prime を開発し,これらすべての特性を享受する。 提案手法は,所望のコスト関数の保守的かつ堅牢な見積りを学習し,実現不可能な点を利用して,最適化中に追加のシミュレータークエリを使わずに設計を最適化する。 PRIMEアーキテクトは、シングルアプリケーションとマルチアプリケーションの両方に合わせた、最先端のシミュレーション駆動メソッドのパフォーマンスを約1.54倍と1.20倍改善し、必要なシミュレーション時間をそれぞれ93%と99%削減した。 さらにprimeは、ゼロショット設定のアプリケーションに対して効果的なアクセラレーターを設計でき、シミュレーションベースのメソッドを1.26倍上回っている。

Industry has gradually moved towards application-specific hardware accelerators in order to attain higher efficiency. While such a paradigm shift is already starting to show promising results, designers need to spend considerable manual effort and perform a large number of time-consuming simulations to find accelerators that can accelerate multiple target applications while obeying design constraints. Moreover, such a "simulation-driven&qu ot; approach must be re-run from scratch every time the set of target applications or design constraints change. An alternative paradigm is to use a "data-driven", offline approach that utilizes logged simulation data, to architect hardware accelerators, without needing any form of simulations. Such an approach not only alleviates the need to run time-consuming simulation, but also enables data reuse and applies even when set of target applications changes. In this paper, we develop such a data-driven offline optimization method for designing hardware accelerators, dubbed PRIME, that enjoys all of these properties. Our approach learns a conservative, robust estimate of the desired cost function, utilizes infeasible points, and optimizes the design against this estimate without any additional simulator queries during optimization. PRIME architects accelerators -- tailored towards both single and multiple applications -- improving performance upon state-of-the-art simulation-driven methods by about 1.54x and 1.20x, while considerably reducing the required total simulation time by 93% and 99%, respectively. In addition, PRIME also architects effective accelerators for unseen applications in a zero-shot setting, outperforming simulation-based methods by 1.26x.
翻訳日:2021-10-26 06:14:36 公開日:2021-10-20
# 表面筋電図とドメイン正規化成分分析による味覚知覚における教師なしクロスユーザ適応

Unsupervised cross-user adaptation in taste sensationrecognition based on surface electromyography withconformal prediction and domain regularizedcomponent analysis ( http://arxiv.org/abs/2110.11339v1 )

ライセンス: Link先を確認
Hengyang Wang, Xianghao Zhan, Li Liu, Asif Ullah, Huiyan Li, Han Gao, You Wang, Guang Li(参考訳) ヒトの味覚は表面筋電図で定性的に記述できる。 しかし、ある主題(ソースドメイン)で訓練されたパターン認識モデルは、他の主題(ターゲットドメイン)ではうまく一般化しない。 本研究は, SEMGデータを用いた味覚モデルの一般化性と伝達性を向上させるために, ドメイン正規化成分分析(DRCA)と, シュランケンセントロイド(CPSC)を用いた共形予測(CPSC)の2つの手法を革新的に適用した。 対象領域からのラベルなしデータを含むラベルなしデータ拡張処理において,これら2つの手法の有効性を独立に検討し,同一のクロスユーザ適応パイプラインを6名に実施した。 その結果,ソースドメインデータのみでトレーニングされたベースラインモデルと比較して,drcaは6名の被験者 (p < 0.05) の分類精度が向上したが,cpscは精度向上を保証しなかった。 さらに, DRCAとCPSCの組み合わせは, 6項目の分類精度において統計的に有意な改善(p < 0.05)を示した。 DRCAとCPSCを併用した提案手法は,SEMGに基づく味覚認識アプリケーションにおいて,ユーザ間のデータ分布のドリフトに対処する効果を示した。 さらに、よりクロスユーザー適応アプリケーションの可能性も示しています。

Human taste sensation can be qualitatively described with surface electromyography. However, the pattern recognition models trained on one subject (the source domain) do not generalize well on other subjects (the target domain). To improve the generalizability and transferability of taste sensation models developed with sEMG data, two methods were innovatively applied in this study: domain regularized component analysis (DRCA) and conformal prediction with shrunken centroids (CPSC). The effectiveness of these two methods was investigated independently in an unlabeled data augmentation process with the unlabeled data from the target domain, and the same cross-user adaptation pipeline were conducted on six subjects. The results show that DRCA improved the classification accuracy on six subjects (p < 0.05), compared with the baseline models trained only with the source domain data;, while CPSC did not guarantee the accuracy improvement. Furthermore, the combination of DRCA and CPSC presented statistically significant improvement (p < 0.05) in classification accuracy on six subjects. The proposed strategy combining DRCA and CPSC showed its effectiveness in addressing the cross-user data distribution drift in sEMG-based taste sensation recognition application. It also shows the potential in more cross-user adaptation applications.
翻訳日:2021-10-25 15:25:54 公開日:2021-10-20
# 晩期のうつ病における多次元表現 : 神経画像,認知,臨床症状学,遺伝学の収束

Multidimensional representations in late-life depression: convergence in neuroimaging, cognition, clinical symptomatology and genetics ( http://arxiv.org/abs/2110.11347v1 )

ライセンス: Link先を確認
Junhao Wen, Cynthia H.Y. Fu, Duygu Tosun, Yogasudha Veturi, Zhijian Yang, Ahmed Abdulkadir, Elizabeth Mamourian, Dhivya Srinivasan, Jingxuan Bao, Guray Erus, Haochang Shou, Mohamad Habes, Jimit Doshi, Erdem Varol, Scott R Mackin, Aristeidis Sotiras, Yong Fan, Andrew J. Saykin, Yvette I. Sheline, Li Shen, Marylyn D. Ritchie, David A. Wolk, Marilyn Albert, Susan M. Resnick, Christos Davatzikos(参考訳) 晩期うつ病 (LLD) は臨床症状の多様性に特徴がある。 このような異質性を明らかにすることは、エチオロジーのメカニズムを解明し、精度と個別化医療への道を開くのに役立つだろう。 神経解剖学,認知機能学,臨床症状学,遺伝子プロファイルに関連のあるLDDにおける疾患関連不均一性について検討した。 マルチセンタサンプル (n=996) からのマルチモーダルデータを解析した。 半教師付きクラスタリング法 (HYDRA) を局所灰白質脳容積に適用し, 次元表現の導出を行った。 2つの次元を同定し, voxel-wise GM map, ホワイトマター (WM) fractional anisotropy (FA), 神経認知機能, 臨床表現型, 遺伝学におけるLDD関連不均一性を検討した。 次元1(Dim1)は健常者に対するWM破壊を伴わない比較的保存された脳解剖を示した。 一方,次元2(Dim2)では認知障害やうつ病の重症度が高く,脳萎縮とWM整合性障害がみられた。 さらに、1つのデノボ独立遺伝子変異体(rs13120336)はDim 1と大きく関連していたが、Dim 2には関連しなかった。 特に,SNPによる遺伝率は一般個体群で18~27%(UKBBではN=12,518)であった。 最後に、縦断的測定を持つ個人のサブセットでは、Dim2はGMと脳年齢のより速い経時的減少を示し、Dim1(N=1,413人、ADNI、BLSA、BIOCARDの7,225人)と比較してアルツハイマー病に進行する可能性が高かった。

Late-life depression (LLD) is characterized by considerable heterogeneity in clinical manifestation. Unraveling such heterogeneity would aid in elucidating etiological mechanisms and pave the road to precision and individualized medicine. We sought to delineate, cross-sectionally and longitudinally, disease-related heterogeneity in LLD linked to neuroanatomy, cognitive functioning, clinical symptomatology, and genetic profiles. Multimodal data from a multicentre sample (N=996) were analyzed. A semi-supervised clustering method (HYDRA) was applied to regional grey matter (GM) brain volumes to derive dimensional representations. Two dimensions were identified, which accounted for the LLD-related heterogeneity in voxel-wise GM maps, white matter (WM) fractional anisotropy (FA), neurocognitive functioning, clinical phenotype, and genetics. Dimension one (Dim1) demonstrated relatively preserved brain anatomy without WM disruptions relative to healthy controls. In contrast, dimension two (Dim2) showed widespread brain atrophy and WM integrity disruptions, along with cognitive impairment and higher depression severity. Moreover, one de novo independent genetic variant (rs13120336) was significantly associated with Dim 1 but not with Dim 2. Notably, the two dimensions demonstrated significant SNP-based heritability of 18-27% within the general population (N=12,518 in UKBB). Lastly, in a subset of individuals having longitudinal measurements, Dim2 demonstrated a more rapid longitudinal decrease in GM and brain age, and was more likely to progress to Alzheimers disease, compared to Dim1 (N=1,413 participants and 7,225 scans from ADNI, BLSA, and BIOCARD datasets).
翻訳日:2021-10-25 15:25:32 公開日:2021-10-20
# vldeformer:視覚言語トランスフォーメーションによる視覚視覚埋め込みの学習

VLDeformer: Learning Visual-Semantic Embeddings by Vision-Language Transformer Decomposing ( http://arxiv.org/abs/2110.11338v1 )

ライセンス: Link先を確認
Lisai Zhang and Hongfa Wu and Qingcai Chen and Yimeng Deng and Zhonghua Li and Dejiang Kong and Zhao Cao and Joanna Siebert and Yunpeng Han(参考訳) 視覚言語変換器(VL変換器)は、クロスモーダル検索において顕著な精度を示している。 しかし、既存のvlトランスフォーマのほとんどは、テキスト画像入力の結合表現を計算する初期相互作用データフローを使用している。 検索段階では、これらのモデルがマッチしたテキストと画像の組み合わせを推測する必要があるため、高い計算コストがかかる。 本稿では,vl変圧器内における初期相互作用データフローを分解し,その精度を維持しつつ高速化を実現することを目的とする。 そこで本研究では, コントラスト学習により, VL変換器を1つの画像やテキストに対して個別のエンコーダとして修正し, 検索速度を数千倍に高速化する新しい視覚言語変換器(VLDeformer)を提案する。 一方,本研究では,VLDeformerが背骨VL変換器の顕著な精度を維持することができるように,両モードのハードネガをコントラスト学習目的に構成することを提案する。 COCOとFlickr30kデータセットの大規模な実験は、提案手法の優れた性能を示す。 VLDeformerは、有効性と効率の両方を考慮して、類似の事前学習データスケールでのクロスモーダル検索に優れた選択を提供する。

Vision-language transformers (VL transformers) have shown impressive accuracy in cross-modal retrieval. However, most of the existing VL transformers use early-interaction dataflow that computes a joint representation for the text-image input. In the retrieval stage, such models need to infer on all the matched text-image combinations, which causes high computing costs. The goal of this paper is to decompose the early-interaction dataflow inside the pre-trained VL transformer to achieve acceleration while maintaining its outstanding accuracy. To achieve this, we propose a novel Vision-language Transformer Decomposing (VLDeformer) to modify the VL transformer as an individual encoder for a single image or text through contrastive learning, which accelerates retrieval speed by thousands of times. Meanwhile, we propose to compose bi-modal hard negatives for the contrastive learning objective, which enables the VLDeformer to maintain the outstanding accuracy of the backbone VL transformer. Extensive experiments on COCO and Flickr30k datasets demonstrate the superior performance of the proposed method. Considering both effectiveness and efficiency, VLDeformer provides a superior selection for cross-modal retrieval in the similar pre-training datascale.
翻訳日:2021-10-25 13:48:20 公開日:2021-10-20
# ESOD:Edgeベースのオブジェクト検出のためのタスクスケジューリング

ESOD:Edge-based Task Scheduling for Object Detection ( http://arxiv.org/abs/2110.11342v1 )

ライセンス: Link先を確認
Yihao Wang, Ling Gao, Jie Ren, Rui Cao, Hai Wang, Jie Zheng, Quanli Gao(参考訳) モバイルシステムにおけるオブジェクト検出は、すべてにおいて課題である。 現在、多くの物体検出モデルが設計されており、そのほとんどは精度に集中している。 しかし、モバイルシステムにおけるこれらのモデルの計算負担は許容できない。 研究者たちは、精度を犠牲にしてモバイル用の軽量ネットワークを設計した。 本稿では,オブジェクト検出のためのエッジベースのタスクスケジューリングフレームワーク(esod)を提案する。 詳細は、画像タスクの物理的特性(例えば、明るさ、飽和度)によって、来るべきタスクとどのエッジサーバにどのオブジェクト検出モデルを使うかを予測するために、DNNモデルを訓練する。 その結果、ESODは平均22.13%と29.60%の遅延とエネルギー消費を減少させ、SOTA DETRモデルと比較すると、mAPを45.8(0.9mAP改善)に改善できることがわかった。

Object Detection on the mobile system is a challenge in terms of everything. Nowadays, many object detection models have been designed, and most of them concentrate on precision. However, the computation burden of those models on mobile systems is unacceptable. Researchers have designed some lightweight networks for mobiles by sacrificing precision. We present a novel edge-based task scheduling framework for object detection (termed as ESOD). In detail, we train a DNN model (termed as pre-model) to predict which object detection model to use for the coming task and offloads to which edge servers by physical characteristics of the image task (e.g., brightness, saturation). The results show that ESOD can reduce latency and energy consumption by an average of 22.13% and 29.60% and improve the mAP to 45.8(with 0.9 mAP better), respectively, compared with the SOTA DETR model.
翻訳日:2021-10-25 13:47:59 公開日:2021-10-20
# (参考訳) edge tpuによるディープニューラルネットワークの探索 [全文訳有]

Exploring Deep Neural Networks on Edge TPU ( http://arxiv.org/abs/2110.08826v2 )

ライセンス: CC BY 4.0
Seyedehfaezeh Hosseininoorbin, Siamak Layeghy, Brano Kusy, Raja Jurdak, Marius Portmann(参考訳) 本稿では、フィードフォワードニューラルネットワークにおけるGoogleのEdge TPUの性能について検討する。 当社はEdge TPUをハードウェアプラットフォームとみなし、リソース制約のあるエッジデバイス上での運用がこれまで難しかったディープニューラルネットワーク分類器のさまざまなアーキテクチャを探求しています。 スペクトログラム(Spectrogram)と呼ばれる共同周波数データ表現を用いて、分類性能と推論に消費されるエネルギーとのトレードオフを考察する。 Edge TPUのエネルギー効率は、広く使われている組み込みCPU ARM Cortex-A53と比較される。 その結果、ニューラルネットワークアーキテクチャ仕様がEdge TPUの性能に与える影響を定量化し、TPUの最適動作点に関する決定を導いた。 また,本評価では,ニューラルネットワーク仕様によるエッジtpuとcortex-a53の性能のクロスオーバーに注目した。 分析に基づいて,モデルパラメータとコンテキストに基づいて,プラットフォーム選択に関する意思決定をガイドする意思決定チャートを提供する。

This paper explores the performance of Google's Edge TPU on feed forward neural networks. We consider Edge TPU as a hardware platform and explore different architectures of deep neural network classifiers, which traditionally has been a challenge to run on resource constrained edge devices. Based on the use of a joint-time-frequency data representation, also known as spectrogram, we explore the trade-off between classification performance and the energy consumed for inference. The energy efficiency of Edge TPU is compared with that of widely-used embedded CPU ARM Cortex-A53. Our results quantify the impact of neural network architectural specifications on the Edge TPU's performance, guiding decisions on the TPU's optimal operating point, where it can provide high classification accuracy with minimal energy consumption. Also, our evaluations highlight the crossover in performance between the Edge TPU and Cortex-A53, depending on the neural network specifications. Based on our analysis, we provide a decision chart to guide decisions on platform selection based on the model parameters and context.
翻訳日:2021-10-24 11:35:00 公開日:2021-10-20
# (参考訳) POLE: 署名ネットワークのための偏極埋め込み [全文訳有]

POLE: Polarized Embedding for Signed Networks ( http://arxiv.org/abs/2110.09899v2 )

ライセンス: CC BY 4.0
Zexi Huang, Arlei Silva, Ambuj Singh(参考訳) 2016年のアメリカ合衆国大統領選挙から2021年の議事堂暴動、新型コロナウイルスに関する誤報の拡散に至るまで、多くの人々がソーシャルメディアを、今日の大きく分裂した社会に非難してきた。 署名ネットワークにおける機械学習の最近の進歩は、ソーシャルメディアの分極を減らすことを目的として、小さな介入を導くという約束を掲げている。 しかし、既存のモデルは特にユーザ間の衝突(あるいはネガティブリンク)を予測するのに役に立たない。 これはリンクサインとネットワーク構造の間に強い相関関係があり、偏極化されたコミュニティ間の負のリンクは最先端のアプローチでも予測できないためである。 この問題に対処するために,まず,符号付きランダムウォークに基づく符号付きグラフの分割非依存分極測度を設計し,多くの実世界のグラフが高度に分極されていることを示す。 そこで我々は,符号付き自己共分散による位相的類似性と符号付き類似性の両方を同時にキャプチャする偏波グラフの符号付き埋め込み法POLEを提案する。 広範な実験を通して、POLEは符号付きリンク予測において、特に最大1桁の利得を持つ負のリンクに対して、最先端の手法よりも著しく優れていることを示す。

From the 2016 U.S. presidential election to the 2021 Capitol riots to the spread of misinformation related to COVID-19, many have blamed social media for today's deeply divided society. Recent advances in machine learning for signed networks hold the promise to guide small interventions with the goal of reducing polarization in social media. However, existing models are especially ineffective in predicting conflicts (or negative links) among users. This is due to a strong correlation between link signs and the network structure, where negative links between polarized communities are too sparse to be predicted even by state-of-the-art approaches. To address this problem, we first design a partition-agnostic polarization measure for signed graphs based on the signed random-walk and show that many real-world graphs are highly polarized. Then, we propose POLE (POLarized Embedding for signed networks), a signed embedding method for polarized graphs that captures both topological and signed similarities jointly via signed autocovariance. Through extensive experiments, we show that POLE significantly outperforms state-of-the-art methods in signed link prediction, particularly for negative links with gains of up to one order of magnitude.
翻訳日:2021-10-24 11:19:25 公開日:2021-10-20
# (参考訳) 翻訳ペア予測によるソーシャルメディアテキストの多言語モデル事前学習の改善 [全文訳有]

Improved Multilingual Language Model Pretraining for Social Media Text via Translation Pair Prediction ( http://arxiv.org/abs/2110.10318v1 )

ライセンス: CC BY-SA 4.0
Shubhanshu Mishra, Aria Haghighi(参考訳) ソーシャルメディアコーパス上でmBERTのゼロショット多言語変換を改善するための簡単なアプローチとして,翻訳ペア予測(TPP)と呼ばれる事前学習タスクを追加し,一対のクロスランガルテキストが有効な翻訳であるかどうかを予測する。 このアプローチでは、ソースとターゲットの言語ペア間の翻訳(実か近似か)へのアクセスを想定し、ソース言語タスクデータにモデルを微調整し、対象言語におけるモデルを評価する。 特に,mBERTでは移動学習が困難である言語対に着目し,文字・語彙・言語型でソース言語とターゲット言語が異なる言語に焦点をあてる。 我々は,英語からヒンディー語,アラビア語,日本語へのゼロショット移行において,mBERT単独でのTPPトレーニングの改善を示す。NER(ターゲット言語間のF1の平均的改善率37%)とソーシャルメディアテキストにおける感情分類(12%)であると同時に,ユニバーサル依存POSタグ付けによる非ソーシャルメディアタスクのベンチマーク(6.7%)である。 ソーシャルメディアのbitextコーパスが不足しているため、私たちの結果は有望です。 コードはhttps://github.com/t witter-research/mult ilingual-alignment-t pp.com/で確認できます。

We evaluate a simple approach to improving zero-shot multilingual transfer of mBERT on social media corpus by adding a pretraining task called translation pair prediction (TPP), which predicts whether a pair of cross-lingual texts are a valid translation. Our approach assumes access to translations (exact or approximate) between source-target language pairs, where we fine-tune a model on source language task data and evaluate the model in the target language. In particular, we focus on language pairs where transfer learning is difficult for mBERT: those where source and target languages are different in script, vocabulary, and linguistic typology. We show improvements from TPP pretraining over mBERT alone in zero-shot transfer from English to Hindi, Arabic, and Japanese on two social media tasks: NER (a 37% average relative improvement in F1 across target languages) and sentiment classification (12% relative improvement in F1) on social media text, while also benchmarking on a non-social media task of Universal Dependency POS tagging (6.7% relative improvement in accuracy). Our results are promising given the lack of social media bitext corpus. Our code can be found at: https://github.com/t witter-research/mult ilingual-alignment-t pp.
翻訳日:2021-10-24 05:00:10 公開日:2021-10-20
# (参考訳) LMSOC:社会に敏感な事前訓練のためのアプローチ [全文訳有]

LMSOC: An Approach for Socially Sensitive Pretraining ( http://arxiv.org/abs/2110.10319v1 )

ライセンス: CC BY-SA 4.0
Vivek Kulkarni, Shubhanshu Mishra, Aria Haghighi(参考訳) 大規模事前訓練された言語モデルは、多くのNLPタスクに対して効果的な言語表現を学ぶことが示されているが、現在のアプローチでは捉えられない言語における現実的な文脈的側面は数多く存在する。 例えば、クローゼテスト「今週末は_____ゲームを楽しんだ」を考えると、正しい答えは、話者がどこから来たか、発話がいつ起こったか、話者のより広い社会的不安と好みに大きく依存する。 言語は話者の地理的、時間的、その他の社会的文脈に大きく依存するが、これらの要素は現代のトランスフォーマーベースの言語モデルには組み込まれていない。 大規模言語モデルの学習表現に話者社会コンテキストを組み込むための,シンプルで効果的な手法を提案する。 本手法は,まず,グラフ表現学習アルゴリズムを用いてソーシャルコンテキストの密表現を学習し,その後,これらのソーシャルコンテキスト表現で事前学習する素数言語モデルを構築する。 地理に敏感な言語モデリングタスクに対する我々のアプローチを評価し、ベースラインと比較して大幅に改善した(mrrの相対リフト率100%以上)。

While large-scale pretrained language models have been shown to learn effective linguistic representations for many NLP tasks, there remain many real-world contextual aspects of language that current approaches do not capture. For instance, consider a cloze-test "I enjoyed the ____ game this weekend": the correct answer depends heavily on where the speaker is from, when the utterance occurred, and the speaker's broader social milieu and preferences. Although language depends heavily on the geographical, temporal, and other social contexts of the speaker, these elements have not been incorporated into modern transformer-based language models. We propose a simple but effective approach to incorporate speaker social context into the learned representations of large-scale language models. Our method first learns dense representations of social contexts using graph representation learning algorithms and then primes language model pretraining with these social context representations. We evaluate our approach on geographically-sensi tive language-modeling tasks and show a substantial improvement (more than 100% relative lift on MRR) compared to baselines.
翻訳日:2021-10-24 04:48:23 公開日:2021-10-20
# (参考訳) 不確実環境における人間-ロボット協調のセマンティックセンシングと計画 [全文訳有]

Semantic Sensing and Planning for Human-Robot Collaboration in Uncertain Environments ( http://arxiv.org/abs/2110.10324v1 )

ライセンス: CC BY 4.0
Luke Burks, Hunter M. Ray, Jamison McGinley, Sousheel Vunnam, and Nisar Ahmed(参考訳) 自律ロボットは、不確実なタスク環境や状態の人間が提供するセマンティックな特徴から大きな恩恵を受けることができる。 しかし、ロボットがそのようなソフトデータのモデル化、通信、行動を可能にする統合戦略の開発は依然として困難である。 ここでは、オンラインサンプリングベースのPOMDPポリシー、マルチモーダルセマンティックインタラクション、ベイズデータ融合の利点を正式に組み合わせ、これらのギャップに対処する人間ロボットチームにおけるアクティブなセマンティックセンシングと計画のためのフレームワークを提示する。 このアプローチは、人間が任意のランドマークをスケッチし、ラベリングすることで、不確定な環境でモデル構造を付加し、セマンティックなソフトデータの範囲を拡張できる。 移動目標を探索しながら環境を動的に更新することにより、ロボットエージェントが人間に新しい意味的データを問い合わせ、未知の環境とターゲット状態の信念を改善し、オンライン計画を改善する。 対象探索シミュレーションは、ロボットセンシングのみに基づく従来の計画に比べて、インターセプションに必要な時間と信念状態の推定が大幅に改善したことを示している。 人間の被験者による研究は、一人のロボットのケースと比べて、ダイナミックな目標捕捉率の平均は2倍になり、ユーザー特性や相互作用のモダリティの多様さを推論する。 インタラクションのビデオはhttps://youtu.be/Eh- 82ZJ1o4Iで見ることができる。

Autonomous robots can benefit greatly from human-provided semantic characterizations of uncertain task environments and states. However, the development of integrated strategies which let robots model, communicate, and act on such soft data remains challenging. Here, a framework is presented for active semantic sensing and planning in human-robot teams which addresses these gaps by formally combining the benefits of online sampling-based POMDP policies, multi-modal semantic interaction, and Bayesian data fusion. This approach lets humans opportunistically impose model structure and extend the range of semantic soft data in uncertain environments by sketching and labeling arbitrary landmarks across the environment. Dynamic updating of the environment while searching for a mobile target allows robotic agents to actively query humans for novel and relevant semantic data, thereby improving beliefs of unknown environments and target states for improved online planning. Target search simulations show significant improvements in time and belief state estimates required for interception versus conventional planning based solely on robotic sensing. Human subject studies demonstrate a average doubling in dynamic target capture rate compared to the lone robot case, employing reasoning over a range of user characteristics and interaction modalities. Video of interaction can be found at https://youtu.be/Eh- 82ZJ1o4I.
翻訳日:2021-10-24 04:25:17 公開日:2021-10-20
# (参考訳) R$^3$Net:Relation-embed ded Representation Reconstruction Network for Change Captioning [全文訳有]

R$^3$Net:Relation-embed ded Representation Reconstruction Network for Change Captioning ( http://arxiv.org/abs/2110.10328v1 )

ライセンス: CC BY 4.0
Yunbin Tu, Liang Li, Chenggang Yan, Shengxiang Gao, Zhengtao Yu(参考訳) 字幕の変更は、2つの類似した画像間の微妙な相違を記述するために自然言語文を使用することである。 ビューポイントの変更は、オブジェクトのスケールと位置を変更し、実際の変更の表現を圧倒するため、このタスクで最も典型的な邪魔になる。 本稿では,実際の変化を大量の乱雑な変化と無関係な変化と明確に区別するための関係埋め込み表現再構成ネットワーク(r$^3$net)を提案する。 特に、関係埋め込みモジュールは、まず大量のクラッタの中で変更可能なオブジェクトを探索するために考案された。 そして、2つの画像中の対応する位置のセマンティックな類似性に基づいて、表現再構成モジュール(RRM)を設計し、再構成表現を学習し、さらに差分表現をモデル化する。 さらに,変化局所化とキャプション生成のセマンティック相互作用を強化するための構文的骨格予測器(SSP)を導入する。 広汎な実験により,提案手法は2つの公開データセットに対して最先端の結果が得られることを示した。

Change captioning is to use a natural language sentence to describe the fine-grained disagreement between two similar images. Viewpoint change is the most typical distractor in this task, because it changes the scale and location of the objects and overwhelms the representation of real change. In this paper, we propose a Relation-embedded Representation Reconstruction Network (R$^3$Net) to explicitly distinguish the real change from the large amount of clutter and irrelevant changes. Specifically, a relation-embedded module is first devised to explore potential changed objects in the large amount of clutter. Then, based on the semantic similarities of corresponding locations in the two images, a representation reconstruction module (RRM) is designed to learn the reconstruction representation and further model the difference representation. Besides, we introduce a syntactic skeleton predictor (SSP) to enhance the semantic interaction between change localization and caption generation. Extensive experiments show that the proposed method achieves the state-of-the-art results on two public datasets.
翻訳日:2021-10-24 03:38:45 公開日:2021-10-20
# (参考訳) SLAM: 音声テキスト共同学習による音声・言語モデリングのための統一エンコーダ [全文訳有]

SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text Joint Pre-Training ( http://arxiv.org/abs/2110.10329v1 )

ライセンス: CC BY 4.0
Ankur Bapna, Yu-an Chung, Nan Wu, Anmol Gulati, Ye Jia, Jonathan H. Clark, Melvin Johnson, Jason Riesa, Alexis Conneau, Yu Zhang(参考訳) 教師なし事前学習は、現在、テキストと音声の理解において主要なアプローチである。 大量の無注釈データに基づいて事前学習された自己注意モデルは、さまざまなドメインや言語から下流タスクを微調整することで大きな成功を収めている。 本稿では, 教師なし言語事前学習の普遍性をさらに一歩進め, 音声とテキストの事前学習を単一モデルで統一する。 我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的の単一エンコーダを構築する。 モーダル性にまたがるモデル表現をさらに整合させるため、アライメントの損失、特に教師付き音声テキスト認識データを利用する翻訳言語モデリング(TLM)と音声テキストマッチング(STM)を利用する。 プレトレーニング中に音声データとテキストデータの両方を組み込むことで,LibriSpeechおよびSpeechStew ASRタスクのSotA性能を保ちながら,単一モダリティ事前学習モデルと比較して約1 BLEUで,CoVoST~2音声翻訳の下流品質を著しく向上させることができることを示す。 4つのGLUEタスクとテキスト正規化において、2つのモード間のキャパシティ制限と干渉の証拠を観察し、BERTと競合しながら同等のテキストのみのモデルと比較して性能が低下する。 広範な経験的分析を通じて,音声事前学習における客観的関数の選択の重要性と,教師あり信号の追加が学習表現の品質に与える影響を実証した。

Unsupervised pre-training is now the predominant approach for both text and speech understanding. Self-attention models pre-trained on large amounts of unannotated data have been hugely successful when fine-tuned on downstream tasks from a variety of domains and languages. This paper takes the universality of unsupervised language pre-training one step further, by unifying speech and text pre-training within a single model. We build a single encoder with the BERT objective on unlabeled text together with the w2v-BERT objective on unlabeled speech. To further align our model representations across modalities, we leverage alignment losses, specifically Translation Language Modeling (TLM) and Speech Text Matching (STM) that make use of supervised speech-text recognition data. We demonstrate that incorporating both speech and text data during pre-training can significantly improve downstream quality on CoVoST~2 speech translation, by around 1 BLEU compared to single-modality pre-trained models, while retaining close to SotA performance on LibriSpeech and SpeechStew ASR tasks. On four GLUE tasks and text-normalization, we observe evidence of capacity limitations and interference between the two modalities, leading to degraded performance compared to an equivalent text-only model, while still being competitive with BERT. Through extensive empirical analysis we also demonstrate the importance of the choice of objective function for speech pre-training, and the beneficial effect of adding additional supervised signals on the quality of the learned representations.
翻訳日:2021-10-24 03:22:18 公開日:2021-10-20
# (参考訳) シンプルに - objectness guidance による意味的ラベルの生成 [全文訳有]

Simpler Does It: Generating Semantic Labels with Objectness Guidance ( http://arxiv.org/abs/2110.10335v1 )

ライセンス: CC0 1.0
Md Amirul Islam, Matthew Kowal, Sen Jia, Konstantinos G. Derpanis, Neil D. B. Bruce(参考訳) 既存の弱いまたは半教師付きセマンティックセグメンテーション手法は、画像またはボックスレベルの監督を利用して、弱いラベル付き画像の擬似ラベルを生成する。 しかし、強い監督がないため、生成された擬似ラベルはしばしばオブジェクト境界付近で騒がしくなり、強力な表現を学習するネットワークの能力に大きな影響を与える。 この問題に対処するために、画像のトレーニングのための擬似ラベルを生成する新しいフレームワークを提案し、セグメンテーションモデルをトレーニングする。 擬似ラベルを生成するには、以下の情報を組み合わせる。 (i)オブジェクトライクな領域を認識することを学習するクラス非依存のオブジェクトネスネットワーク (ii)画像レベルまたは境界ボックスアノテーション。 本研究では,対象性ネットワークを自然に活用して,未知のカテゴリに対して対象のような領域を生成する方法を示す。 そこで我々は,生成した擬似ラベルを用いてセマンティクスとオブジェクトのセグメンテーションを共同で学習する,エンドツーエンドのマルチタスク学習戦略を提案する。 広範囲にわたる実験により,生成した擬似ラベルの高品質化と,提案手法の有効性が実証された。 提案手法は,既存の弱教師付きおよび半教師付き手法と比較して,優れた性能と競争力を実現する。

Existing weakly or semi-supervised semantic segmentation methods utilize image or box-level supervision to generate pseudo-labels for weakly labeled images. However, due to the lack of strong supervision, the generated pseudo-labels are often noisy near the object boundaries, which severely impacts the network's ability to learn strong representations. To address this problem, we present a novel framework that generates pseudo-labels for training images, which are then used to train a segmentation model. To generate pseudo-labels, we combine information from: (i) a class agnostic objectness network that learns to recognize object-like regions, and (ii) either image-level or bounding box annotations. We show the efficacy of our approach by demonstrating how the objectness network can naturally be leveraged to generate object-like regions for unseen categories. We then propose an end-to-end multi-task learning strategy, that jointly learns to segment semantics and objectness using the generated pseudo-labels. Extensive experiments demonstrate the high quality of our generated pseudo-labels and effectiveness of the proposed framework in a variety of domains. Our approach achieves better or competitive performance compared to existing weakly-supervised and semi-supervised methods.
翻訳日:2021-10-24 02:59:55 公開日:2021-10-20
# (参考訳) プライバシー保護動的エッジキャッシングのための分散強化学習 [全文訳有]

Distributed Reinforcement Learning for Privacy-Preserving Dynamic Edge Caching ( http://arxiv.org/abs/2110.10349v1 )

ライセンス: CC BY 4.0
Shengheng Liu, Chong Zheng, Yongming Huang, Tony Q. S. Quek(参考訳) モバイルエッジコンピューティング (MEC) は、無線通信の応用分野を拡大する卓越したコンピューティングパラダイムである。 ユーザ機器やMECサーバの容量が制限されているため、エッジキャッシュ(EC)最適化はMEC対応無線ネットワークにおけるキャッシュリソースの有効活用に不可欠である。 しかし、空間や時間のコンテンツ人気度とユーザのプライバシー保護のダイナミクスと複雑さは、EC最適化に重大な課題をもたらしている。 本稿では,MECネットワークにおけるデバイスにおけるキャッシュヒット率を最大化するために,プライバシ保護型分散Deep Deterministic Policy gradient (P2D3PG)アルゴリズムを提案する。 具体的には、コンテンツの人気度が動的で複雑で観測不能であり、プライバシー保護の制約下での分散問題としてデバイスへのキャッシュヒット率の最大化を定式化するという事実を考察する。 特に,分散最適化を分散モデルフリーマルコフ決定プロセス問題に変換し,人気予測のためのプライバシ保存型フェデレーション学習法を導入する。 その後,分散強化学習に基づいてp2d3pgアルゴリズムを開発し,分散問題を解決する。 シミュレーションの結果,ユーザプライバシを保ちながら,ベースライン方式よりもECヒット率を向上させる手法が優れていることが示された。

Mobile edge computing (MEC) is a prominent computing paradigm which expands the application fields of wireless communication. Due to the limitation of the capacities of user equipments and MEC servers, edge caching (EC) optimization is crucial to the effective utilization of the caching resources in MEC-enabled wireless networks. However, the dynamics and complexities of content popularities over space and time as well as the privacy preservation of users pose significant challenges to EC optimization. In this paper, a privacy-preserving distributed deep deterministic policy gradient (P2D3PG) algorithm is proposed to maximize the cache hit rates of devices in the MEC networks. Specifically, we consider the fact that content popularities are dynamic, complicated and unobservable, and formulate the maximization of cache hit rates on devices as distributed problems under the constraints of privacy preservation. In particular, we convert the distributed optimizations into distributed model-free Markov decision process problems and then introduce a privacy-preserving federated learning method for popularity prediction. Subsequently, a P2D3PG algorithm is developed based on distributed reinforcement learning to solve the distributed problems. Simulation results demonstrate the superiority of the proposed approach in improving EC hit rate over the baseline methods while preserving user privacy.
翻訳日:2021-10-24 02:39:15 公開日:2021-10-20
# (参考訳) 制約付きマルコフ決定過程の高速アルゴリズムとシャープ解析 [全文訳有]

Faster Algorithm and Sharper Analysis for Constrained Markov Decision Process ( http://arxiv.org/abs/2110.10351v1 )

ライセンス: CC BY 4.0
Tianjiao Li, Ziwei Guan, Shaofeng Zou, Tengyu Xu, Yingbin Liang and Guanghui Lan(参考訳) 制約付きマルコフ決定プロセス(CMDP)の問題点を考察し、エージェントは、そのユーティリティやコストに対する複数の制約により、期待される累積割引報酬を最大化する。 エントロピー正則化ポリシーオプティマイザ, 双対変数正則化器, ネステロフ加速勾配降下双最適化器の3成分を新たに統合し, より高速な収束を達成するために重要な手法を提案する。 提案手法の有限時間誤差境界を特徴付ける。 非凹型制約を対象とする非凹型目標の挑戦にもかかわらず、提案されたアプローチは、最適性ギャップと制約違反の観点から、$\tilde{\mathcal o}(1/\epsilon)$の複雑性で大域的最適化に収束することを示し、既存の原始双対アプローチの複雑さを$\mathcal o(1/\epsilon)$ \citep{ding2020natural,pate rnain2019constrained }の係数によって改善する。 これは、非凸cmdp問題が凸制約を受ける凸最適化に対する$\mathcal o(1/\epsilon)$の複雑性下限を達成することができる最初の例である。 我々の原始双対アプローチと非漸近解析は、使用するRLオプティマイザに非依存であり、実用的な応用にはより柔軟である。 より一般に、本手法は、既存の制約付き凸最適化のための加速度法が適用できない勾配支配条件のようなジオメトリを利用して、ゼロ双対性ギャップで制約付き非凸最適化を確実に加速する最初のアルゴリズムとしても機能する。

The problem of constrained Markov decision process (CMDP) is investigated, where an agent aims to maximize the expected accumulated discounted reward subject to multiple constraints on its utilities/costs. A new primal-dual approach is proposed with a novel integration of three ingredients: entropy regularized policy optimizer, dual variable regularizer, and Nesterov's accelerated gradient descent dual optimizer, all of which are critical to achieve a faster convergence. The finite-time error bound of the proposed approach is characterized. Despite the challenge of the nonconcave objective subject to nonconcave constraints, the proposed approach is shown to converge to the global optimum with a complexity of $\tilde{\mathcal O}(1/\epsilon)$ in terms of the optimality gap and the constraint violation, which improves the complexity of the existing primal-dual approach by a factor of $\mathcal O(1/\epsilon)$ \citep{ding2020natural,pate rnain2019constrained }. This is the first demonstration that nonconcave CMDP problems can attain the complexity lower bound of $\mathcal O(1/\epsilon)$ for convex optimization subject to convex constraints. Our primal-dual approach and non-asymptotic analysis are agnostic to the RL optimizer used, and thus are more flexible for practical applications. More generally, our approach also serves as the first algorithm that provably accelerates constrained nonconvex optimization with zero duality gap by exploiting the geometries such as the gradient dominance condition, for which the existing acceleration methods for constrained convex optimization are not applicable.
翻訳日:2021-10-24 02:19:13 公開日:2021-10-20
# (参考訳) ポイントクラウド分類器に対するバックドア攻撃の検出 [全文訳有]

Detecting Backdoor Attacks Against Point Cloud Classifiers ( http://arxiv.org/abs/2110.10354v1 )

ライセンス: CC BY 4.0
Zhen Xiang, David J. Miller, Siheng Chen, Xi Li and George Kesidis(参考訳) バックドア攻撃(ba)はディープニューラルネットワーク分類器に対する新たな脅威である。 攻撃対象の分類器は、ソースクラスのテストサンプルがバックドアパターン(bp)に埋め込まれている場合、攻撃者のターゲットクラスに予測される。 近年、ポイントクラウド(PC)分類器に対する最初のBAが提案され、自律運転を含む多くの重要なアプリケーションに対する新たな脅威が生まれた。 このようなPC BAは、独自のBP埋め込み機構のため、既存のBAディフェンスでは検出できない。 本稿では,PC分類器がトレーニングセットへのアクセスや参照のためのクリーン分類器にアクセスできることなく,バックドア攻撃か否かを推測するリバースエンジニアリングディフェンスを提案する。 本研究の有効性を,PC用ベンチマークModeNet40データセットで実証した。

Backdoor attacks (BA) are an emerging threat to deep neural network classifiers. A classifier being attacked will predict to the attacker's target class when a test sample from a source class is embedded with the backdoor pattern (BP). Recently, the first BA against point cloud (PC) classifiers was proposed, creating new threats to many important applications including autonomous driving. Such PC BAs are not detectable by existing BA defenses due to their special BP embedding mechanism. In this paper, we propose a reverse-engineering defense that infers whether a PC classifier is backdoor attacked, without access to its training set or to any clean classifiers for reference. The effectiveness of our defense is demonstrated on the benchmark ModeNet40 dataset for PCs.
翻訳日:2021-10-24 01:05:50 公開日:2021-10-20
# (参考訳) 説明可能な勧告のための階層的アスペクト誘導説明生成 [全文訳有]

Hierarchical Aspect-guided Explanation Generation for Explainable Recommendation ( http://arxiv.org/abs/2110.10358v1 )

ライセンス: CC BY 4.0
Yidan Hu, Yong Liu, Chunyan Miao, Gongqi Lin, Yuan Miao(参考訳) 説明可能なレコメンデーションシステムは、透明性と説得力を改善するためのレコメンデーション結果の説明を提供する。 既存の説明可能な推奨方法は、アイテムの異なる側面に対するユーザの好みを明示的に考慮することなく、テキストによる説明を生成する。 本稿では,階層的アスペクト誘導型説明生成(HAG)と呼ばれる新しい説明生成フレームワークを提案する。 具体的には、HAGはレビューベースの構文グラフを使用して、ユーザ/イテムの詳細を統一したビューを提供する。 アスペクトベース構文グラフからアスペクト関連情報を抽出し、アスペクトレベルの項目に対するユーザの好みをモデル化するためにアスペクト誘導グラフプーリング演算子を提案する。 そして、アテンション機構に基づいてアスペクトおよびアスペクト関連説明を生成する階層的説明デコーダを開発する。 3つの実データを用いた実験結果から,hagは,単一検査と複数検査の両方において最先端の説明生成手法よりも優れており,かつ,強力なベースライン法と同等あるいはそれ以上の選好予測精度が得られた。

Explainable recommendation systems provide explanations for recommendation results to improve their transparency and persuasiveness. The existing explainable recommendation methods generate textual explanations without explicitly considering the user's preferences on different aspects of the item. In this paper, we propose a novel explanation generation framework, named Hierarchical Aspect-guided explanation Generation (HAG), for explainable recommendation. Specifically, HAG employs a review-based syntax graph to provide a unified view of the user/item details. An aspect-guided graph pooling operator is proposed to extract the aspect-relevant information from the review-based syntax graphs to model the user's preferences on an item at the aspect level. Then, a hierarchical explanation decoder is developed to generate aspects and aspect-relevant explanations based on the attention mechanism. The experimental results on three real datasets indicate that HAG outperforms state-of-the-art explanation generation methods in both single-aspect and multi-aspect explanation generation tasks, and also achieves comparable or even better preference prediction accuracy than strong baseline methods.
翻訳日:2021-10-24 00:53:32 公開日:2021-10-20
# (参考訳) パターンを記憶する学習: トラフィック予測のためのパターンマッチングメモリネットワーク [全文訳有]

Learning to Remember Patterns: Pattern Matching Memory Networks for Traffic Forecasting ( http://arxiv.org/abs/2110.10380v1 )

ライセンス: CC BY 4.0
Hyunwook Lee, Seungmin Jin, Hyeshin Chu, Hongkyu Lim, Sungahn Ko(参考訳) 交通予測は複雑な道路網と道路上の様々なイベントによる突然の速度変化のために難しい問題である。 この問題を解決するために,道路の時空間依存を学習することに焦点を当てたモデルが提案されている。 本研究では,大容量データを一組のパターンで表現できることを前提として,予測問題をパターンマッチングタスクに変換する新たな視点を提案する。 新たな視点の有効性を評価するため、入力データを代表パターンとキー値のメモリ構造にマッチさせることを学習するパターンマッチングメモリネットワーク(PM-MemNet)と呼ばれる新しいトラフィック予測モデルを設計する。 まず,メモリ内のキーとして機能する代表的トラフィックパターンの抽出とクラスタ化を行う。 そして抽出したキーと入力をマッチングすることで、PM-MemNetはメモリから既存のトラフィックパターンの必要な情報を取得し、予測に使用する。 トラフィックの時空間相関をモデル化するために,注目とグラフ畳み込みを統合した新しいメモリアーキテクチャGCMemを提案する。 実験の結果,PM-MemNetの応答性が高いグラフウェーブネットのような最先端モデルよりも精度が高いことが示された。 また,PM-MemNetの動作状況について定性的解析を行い,道路速度の急激な変化による精度の向上を図った。

Traffic forecasting is a challenging problem due to complex road networks and sudden speed changes caused by various events on roads. A number of models have been proposed to solve this challenging problem with a focus on learning spatio-temporal dependencies of roads. In this work, we propose a new perspective of converting the forecasting problem into a pattern matching task, assuming that large data can be represented by a set of patterns. To evaluate the validness of the new perspective, we design a novel traffic forecasting model, called Pattern-Matching Memory Networks (PM-MemNet), which learns to match input data to the representative patterns with a key-value memory structure. We first extract and cluster representative traffic patterns, which serve as keys in the memory. Then via matching the extracted keys and inputs, PM-MemNet acquires necessary information of existing traffic patterns from the memory and uses it for forecasting. To model spatio-temporal correlation of traffic, we proposed novel memory architecture GCMem, which integrates attention and graph convolution for memory enhancement. The experiment results indicate that PM-MemNet is more accurate than state-of-the-art models, such as Graph WaveNet with higher responsiveness. We also present a qualitative analysis result, describing how PM-MemNet works and achieves its higher accuracy when road speed rapidly changes.
翻訳日:2021-10-24 00:29:44 公開日:2021-10-20
# (参考訳) HDRイメージングのためのディープラーニング:現状と将来展望 [全文訳有]

Deep Learning for HDR Imaging: State-of-the-Art and Future Trends ( http://arxiv.org/abs/2110.10394v1 )

ライセンス: CC BY-SA 4.0
Lin Wang and Kuk-Jin Yoon(参考訳) 高ダイナミックレンジ(high dynamic range, hdr)イメージングは、画像処理、コンピュータグラフィックス、コンピュータビジョンにおいて重要な、幅広いダイナミックレンジの露出を可能にする技術である。 近年,deep learning (dl) を用いたhdr画像の高度化が進んでいる。 本研究は, 深部HDRイメージング法における最近の進展に関する包括的かつ洞察的な調査と分析を行う。 我々は,(1)入力露出の数/領域,(2)学習タスク数,(3)新しいセンサデータ,(4)新しい学習戦略,(5)応用に基づいて,既存の深部HDRイメージング手法を階層的に,構造的に5つのカテゴリに分類する。 重要なのは、その可能性と課題について、各カテゴリについて建設的な議論をすることです。 さらに,データセットや評価指標など,深部hdrイメージングの重要な側面について概説する。 最後に、いくつかのオープンな問題を取り上げ、今後の研究の方向性を指摘する。

High dynamic range (HDR) imaging is a technique that allows an extensive dynamic range of exposures, which is important in image processing, computer graphics, and computer vision. In recent years, there has been a significant advancement in HDR imaging using deep learning (DL). This study conducts a comprehensive and insightful survey and analysis of recent developments in deep HDR imaging methodologies. We hierarchically and structurally group existing deep HDR imaging methods into five categories based on (1) number/domain of input exposures, (2) number of learning tasks, (3) novel sensor data, (4) novel learning strategies, and (5) applications. Importantly, we provide a constructive discussion on each category regarding its potential and challenges. Moreover, we review some crucial aspects of deep HDR imaging, such as datasets and evaluation metrics. Finally, we highlight some open problems and point out future research directions.
翻訳日:2021-10-24 00:17:03 公開日:2021-10-20
# (参考訳) 微小領域推定のためのvaesを用いた時空間前兆の符号化 [全文訳有]

Encoding spatiotemporal priors with VAEs for small-area estimation ( http://arxiv.org/abs/2110.10422v1 )

ライセンス: CC BY 4.0
Elizaveta Semenova, Yidan Xu, Adam Howes, Theo Rashid, Samir Bhatt, Swapnil Mishra, Seth Flaxman(参考訳) ガウス過程(英: Gaussian process、GP)は、小面積時空間統計モデリングにおいて最も一般的なアプローチである。 この文脈では、空間と時間上の相関構造を符号化するために使われ、補間タスクにおいてよく一般化することができる。 その柔軟性にもかかわらず、既製のGPは、適用された設定におけるスケーラビリティと実用性を制限する重大な計算課題を提示する。 本稿では,この課題に対処するための,より深い生成的モデリング手法を提案する。特定の時空間設定に対しては,事前サンプリングと変分オートエンコーダ(VAE)の付加により,GP先行のクラスを近似する。 トレーニングされたVAEが与えられた場合、結果のデコーダは、VAEの低次元で独立に分散された潜在ガウス空間表現のために、時空間の時空間推論が信じられないほど効率的になる。 トレーニングが完了すると、VAEデコーダを使用した推論がベイズサンプリングフレームワーク内のGPを置き換える。 このアプローチは、時空間前駆をおよそエンコードする、扱いやすく実装しやすい手段を提供し、効率的な統計推論を容易にする。 ベイズ型小面積推定タスクにおけるVAE2段階アプローチの有用性を実証する。

Gaussian processes (GPs), implemented through multivariate Gaussian distributions for a finite collection of data, are the most popular approach in small-area spatiotemporal statistical modelling. In this context they are used to encode correlation structures over space and time and can generalise well in interpolation tasks. Despite their flexibility, off-the-shelf GPs present serious computational challenges which limit their scalability and practical usefulness in applied settings. Here, we propose a novel, deep generative modelling approach to tackle this challenge: for a particular spatiotemporal setting, we approximate a class of GP priors through prior sampling and subsequent fitting of a variational autoencoder (VAE). Given a trained VAE, the resultant decoder allows spatiotemporal inference to become incredibly efficient due to the low dimensional, independently distributed latent Gaussian space representation of the VAE. Once trained, inference using the VAE decoder replaces the GP within a Bayesian sampling framework. This approach provides tractable and easy-to-implement means of approximately encoding spatiotemporal priors and facilitates efficient statistical inference. We demonstrate the utility of our VAE two stage approach on Bayesian, small-area estimation tasks.
翻訳日:2021-10-23 23:15:08 公開日:2021-10-20
# (参考訳) ハダマール深部オートエンコーダを用いた群運動の断片的軌跡の再構成 [全文訳有]

Reconstruction of Fragmented Trajectories of Collective Motion using Hadamard Deep Autoencoders ( http://arxiv.org/abs/2110.10428v1 )

ライセンス: CC BY 4.0
Kelum Gajamannage, Yonggi Park, Randy Paffenroth, Anura P. Jayasumana(参考訳) 魚や人間などの集団移動剤の動的学習は研究の活発な分野である。 閉塞や照明の変化などの自然現象により、そのようなダイナミクスを追跡するマルチオブジェクト法は、構築された軌道の断片化を引き起こすエージェントの追跡を失う可能性がある。 本稿では,その損失関数を,出力とラベルの絶対的な差を持つ二進表示行列のハダマール積として定義することにより,完全に観測された軌道のセグメントのみを訓練する拡張型深層オートエンコーダ(da)を提案する。 アダマール深層オートエンコーダ(hda)がトレーニング中にコードする基本パターンとして使用するエージェント間の相互相互作用と依存関係のため、集団動作を実践するエージェントの軌道は低ランクです。 HDAの性能を,断片化軌道再構成の文脈における低ランク行列補完方式と比較した。

Learning dynamics of collectively moving agents such as fish or humans is an active field in research. Due to natural phenomena such as occlusion and change of illumination, the multi-object methods tracking such dynamics might lose track of the agents where that might result fragmentation in the constructed trajectories. Here, we present an extended deep autoencoder (DA) that we train only on fully observed segments of the trajectories by defining its loss function as the Hadamard product of a binary indicator matrix with the absolute difference between the outputs and the labels. The trajectories of the agents practicing collective motion is low-rank due to mutual interactions and dependencies between the agents that we utilize as the underlying pattern that our Hadamard deep autoencoder (HDA) codes during its training. The performance of our HDA is compared with that of a low-rank matrix completion scheme in the context of fragmented trajectory reconstruction.
翻訳日:2021-10-23 23:03:32 公開日:2021-10-20
# (参考訳) 強化学習によるレーシング車動特性のフィードバック線形化 [全文訳有]

Feedback Linearization of Car Dynamics for Racing via Reinforcement Learning ( http://arxiv.org/abs/2110.10441v1 )

ライセンス: CC BY 4.0
Michael Estrada, Sida Li, Xiangyu Cai(参考訳) フィードバック線形化を学習する手法を用いて,リニアイゼーションコントローラを学習し,車両の自律走行制御プロセスを簡素化する。 ソフトアクター批判的手法は、手動設計の線形化制御器の誤差を効果的に補正するデカップリング行列とドリフトベクトルを学習するために用いられる。 その結果、線形システムのよく発達した理論を利用して、実装が容易で計算的に要求の少ない経路計画と追跡スキームを設計できる正確な線形化コントローラが得られた。 フィードバック線形化の手法を実証するために、まず、正確な構造が分かっているが初期制御器から異なるシミュレーションモデルを学習し、エラーを発生させる。 さらに,カーレースのダイナミックスをモデル化するためのジム環境として,さらに多くのエラーを発生させるシステムに本手法を適用することを提案する。 そこで我々は、線形化制御器の出力をレース環境に必要な入力に変換するために教師付き学習を用いてトレーニングされたニューラルネットワークであるフィードバック線形化法の拡張を提案する。 これらの目標に向けた我々の進歩を報告し、その達成の次のステップについて論じる。

Through the method of Learning Feedback Linearization, we seek to learn a linearizing controller to simplify the process of controlling a car to race autonomously. A soft actor-critic approach is used to learn a decoupling matrix and drift vector that effectively correct for errors in a hand-designed linearizing controller. The result is an exactly linearizing controller that can be used to enable the well-developed theory of linear systems to design path planning and tracking schemes that are easy to implement and significantly less computationally demanding. To demonstrate the method of feedback linearization, it is first used to learn a simulated model whose exact structure is known, but varied from the initial controller, so as to introduce error. We further seek to apply this method to a system that introduces even more error in the form of a gym environment specifically designed for modeling the dynamics of car racing. To do so, we posit an extension to the method of learning feedback linearization; a neural network that is trained using supervised learning to convert the output of our linearizing controller to the required input for the racing environment. Our progress towards these goals is reported and the next steps in their accomplishment are discussed.
翻訳日:2021-10-23 22:35:45 公開日:2021-10-20
# (参考訳) Moir\'e Attack (MA): スクリーン写真の新たなリスク [全文訳有]

Moir\'e Attack (MA): A New Potential Risk of Screen Photos ( http://arxiv.org/abs/2110.10444v1 )

ライセンス: CC BY 4.0
Dantong Niu, Ruohao Guo, Yisen Wang(参考訳) カメラが捉えた画像は、ディープニューラルネットワーク(DNN)のトレーニングにおいて重要な役割を果たす。 通常、カメラが取得した画像は人間の目で認識した画像と一致していると仮定する。 しかし、人間の視覚システムとコンピュータビジョンシステムの間で物理的メカニズムが異なるため、デジタルモニターでの撮影など、最終的な知覚イメージは大きく異なる場合がある。 本稿では,デジタル画像処理における特別な現象であるmoir\'e効果が,DNNに対する未確認のセキュリティ脅威を引き起こす可能性があることを明らかにする。 そこで本研究では,デジタルデバイスの撮影過程を模倣して画像に物理世界moir\'eパターンを付加するmoir\'e攻撃(ma)を提案する。 広範な実験により,提案するデジタルmoir\'e攻撃 (ma) は,攻撃者が高い成功率(100.0\%$,ノイズ予算$\epsilon=4$),異なるモデル間の高い伝達率,様々な防御下で高い堅牢性を有するdnnを改ざんするための完璧なカモフラージュであることが示された。 さらに、maは、カメラの内部構造のためにmoir\'e効果が避けられないため、人間の意識を惹きつけることがほとんどないため、非常にステルス性が高い。 私たちのコードはhttps://github.com/D antong88/Moire_Attac k.comから入手可能です。

Images, captured by a camera, play a critical role in training Deep Neural Networks (DNNs). Usually, we assume the images acquired by cameras are consistent with the ones perceived by human eyes. However, due to the different physical mechanisms between human-vision and computer-vision systems, the final perceived images could be very different in some cases, for example shooting on digital monitors. In this paper, we find a special phenomenon in digital image processing, the moir\'e effect, that could cause unnoticed security threats to DNNs. Based on it, we propose a Moir\'e Attack (MA) that generates the physical-world moir\'e pattern adding to the images by mimicking the shooting process of digital devices. Extensive experiments demonstrate that our proposed digital Moir\'e Attack (MA) is a perfect camouflage for attackers to tamper with DNNs with a high success rate ($100.0\%$ for untargeted and $97.0\%$ for targeted attack with the noise budget $\epsilon=4$), high transferability rate across different models, and high robustness under various defenses. Furthermore, MA owns great stealthiness because the moir\'e effect is unavoidable due to the camera's inner physical structure, which therefore hardly attracts the awareness of humans. Our code is available at https://github.com/D antong88/Moire_Attac k.
翻訳日:2021-10-23 22:20:20 公開日:2021-10-20
# (参考訳) 物体検出のためのノイズアノテーションリファインメント [全文訳有]

Noisy Annotation Refinement for Object Detection ( http://arxiv.org/abs/2110.10456v1 )

ライセンス: CC BY 4.0
Jiafeng Mao, Qing Yu, Yoko Yamakata and Kiyoharu Aizawa(参考訳) オブジェクト検出器の教師付きトレーニングには、十分な注釈付き大規模データセットが必要である。 そのため、クラウドソーシングなど、経済的な手法でアノテーションを得ることが試みられている。 しかし、これらの方法によって得られたデータセットは、不正確なバウンディングボックスや誤ったクラスラベルのようなノイズの多いアノテーションを含む傾向がある。 本研究では,クラスラベルとバウンディングボックスのアノテーションが絡み合ったデータセット上でオブジェクト検出器を訓練する新たな問題設定を提案する。 提案手法は, 絡み合った雑音を効率よく分離し, ノイズを補正し, 修正したアノテーションを用いて検出器を訓練する。 提案手法の有効性を検証し,ノイズレベルの異なる雑音データセットのベースラインと比較した。 実験の結果,提案手法がベースラインを大きく上回ることがわかった。

Supervised training of object detectors requires well-annotated large-scale datasets, whose production is costly. Therefore, some efforts have been made to obtain annotations in economical ways, such as cloud sourcing. However, datasets obtained by these methods tend to contain noisy annotations such as inaccurate bounding boxes and incorrect class labels. In this study, we propose a new problem setting of training object detectors on datasets with entangled noises of annotations of class labels and bounding boxes. Our proposed method efficiently decouples the entangled noises, corrects the noisy annotations, and subsequently trains the detector using the corrected annotations. We verified the effectiveness of our proposed method and compared it with the baseline on noisy datasets with different noise levels. The experimental results show that our proposed method significantly outperforms the baseline.
翻訳日:2021-10-23 22:01:01 公開日:2021-10-20
# (参考訳) 異種表現アンサンブルを用いた知識グラフによるフェイクニュース分類

Knowledge Graph informed Fake News Classification via Heterogeneous Representation Ensembles ( http://arxiv.org/abs/2110.10457v1 )

ライセンス: CC BY 4.0
Boshko Koloski and Timen Stepi\v{s}nik-Perdih and Marko Robnik-\v{S}ikonja and Senja Pollak and Bla\v{z} \v{S}krlj(参考訳) テキストとリレーショナルの両方で自由に利用できるデータが増えれば、よりリッチなドキュメント表現の探索が可能になり、モデルの性能と堅牢性が向上する可能性がある。 現代の新しい問題は、偽ニュースの検出である -- 簡単に入手できる情報の多くは、事実的に正しいとは限らないため、誤った結論につながるか、操作に使用される可能性がある。 本研究では,単純な記号のバッグ・オブ・ワードから,文脈的,ニューラルネットワークモデルに基づく表現まで,さまざまな文書表現が,効率的な偽ニュース識別にどのように使用できるかを検討する。 重要な貢献の1つは、知識グラフのみに基づいた、新しい文書表現学習方法のセットである。 我々は,知識グラフに基づく表現が,従来受け入れられていた表現学習者に対する競合性能をすでに達成していることを示す。 さらに、既存のコンテキスト表現と組み合わせると、知識グラフベースのドキュメント表現は最先端のパフォーマンスを達成できます。 我々の知る限り、これは知識グラフに基づく表現を偽ニュース分類のプロセスに体系的に組み込むための、最初の大規模評価である。

Increasing amounts of freely available data both in textual and relational form offers exploration of richer document representations, potentially improving the model performance and robustness. An emerging problem in the modern era is fake news detection -- many easily available pieces of information are not necessarily factually correct, and can lead to wrong conclusions or are used for manipulation. In this work we explore how different document representations, ranging from simple symbolic bag-of-words, to contextual, neural language model-based ones can be used for efficient fake news identification. One of the key contributions is a set of novel document representation learning methods based solely on knowledge graphs, i.e. extensive collections of (grounded) subject-predicate-ob ject triplets. We demonstrate that knowledge graph-based representations already achieve competitive performance to conventionally accepted representation learners. Furthermore, when combined with existing, contextual representations, knowledge graph-based document representations can achieve state-of-the-art performance. To our knowledge this is the first larger-scale evaluation of how knowledge graph-based representations can be systematically incorporated into the process of fake news classification.
翻訳日:2021-10-23 21:49:23 公開日:2021-10-20
# (参考訳) 自然言語処理におけるディープラーニングモデルの解釈

Interpreting Deep Learning Models in Natural Language Processing: A Review ( http://arxiv.org/abs/2110.10470v1 )

ライセンス: CC BY 4.0
Xiaofei Sun, Diyi Yang, Xiaoya Li, Tianwei Zhang, Yuxian Meng, Qiu Han, Guoyin Wang, Eduard Hovy, Jiwei Li(参考訳) ニューラルネットワークモデルは、幅広い自然言語処理(NLP)タスクにおいて最先端のパフォーマンスを達成した。 しかしながら、ニューラルネットワークモデルに対する長年にわたる批判は、解釈可能性の欠如である。これは、ニューラルNLPシステムの信頼性を低下させるだけでなく、解釈可能性が不可欠である領域(例えば、医療応用)におけるアプリケーションの範囲を制限する。 これに対し、ニューラルNLPモデルの解釈に対する関心が高まり、近年は様々な解釈方法が生まれている。 本研究では,NLPにおけるニューラルモデルに対する様々な解釈手法について概説する。 まず,NLPにおける解釈手法,すなわちトレーニングベースアプローチ,テストベースアプローチ,ハイブリッドアプローチの高レベルな分類法について述べる。 次に、影響関数に基づく方法、knに基づく方法、注意に基づくモデル、給与に基づく方法、摂動に基づく方法など、各カテゴリのサブカテゴリを詳細に記述する。 我々は,現在の手法の欠陥を指摘し,今後の研究への道のりを示唆する。

Neural network models have achieved state-of-the-art performances in a wide range of natural language processing (NLP) tasks. However, a long-standing criticism against neural network models is the lack of interpretability, which not only reduces the reliability of neural NLP systems but also limits the scope of their applications in areas where interpretability is essential (e.g., health care applications). In response, the increasing interest in interpreting neural NLP models has spurred a diverse array of interpretation methods over recent years. In this survey, we provide a comprehensive review of various interpretation methods for neural models in NLP. We first stretch out a high-level taxonomy for interpretation methods in NLP, i.e., training-based approaches, test-based approaches, and hybrid approaches. Next, we describe sub-categories in each category in detail, e.g., influence-function based methods, KNN-based methods, attention-based models, saliency-based methods, perturbation-based methods, etc. We point out deficiencies of current methods and suggest some avenues for future research.
翻訳日:2021-10-23 21:48:22 公開日:2021-10-20
# (参考訳) 量子化潜在リプレイによるオンデバイス連続学習のためのTinyMLプラットフォーム [全文訳有]

A TinyML Platform for On-Device Continual Learning with Quantized Latent Replays ( http://arxiv.org/abs/2110.10486v1 )

ライセンス: CC BY 4.0
Leonardo Ravaglia, Manuele Rusci, Davide Nadalini, Alessandro Capotondi, Francesco Conti, Luca Benini(参考訳) ここ数年、単語中の超低消費電力デバイスのためのディープラーニングモデルと技術の研究と開発において、TinyMLは主に、クラウドベースのデータ収集と微調整なしで新たに収集されたデータに適応できない静的モデルによる、列車を配置する仮定に焦点を当ててきた。 Latent Replay-based Continual Learning (CL) Technique[1]は、オンライン、サーバレスの原則による適応を可能にするが、これまでのところ、マイクロコントローラをベースとする超低消費電力のTinyMLデバイスには、計算とメモリ不足が多すぎる。 本研究では,10コアFP32対応並列超低消費電力(PULP)プロセッサを用いたエンドツーエンドCLのためのHW/SWプラットフォームを提案する。 我々は,Latent Replay CLアルゴリズムを再考し,モデルとLatent Replays(LR)の凍結ステージの量子化を利用して,メモリコストを最小限の精度で削減する。 特に、LRメモリの8ビット圧縮は、フル精度のベースライン実装と比較してほとんどロスレス(-0.26%と3000LR)であることが証明されているが、メモリは4倍少なく、さらに7ビットは、より最小限の精度の劣化(最大5%)で使用できる。 また,PULPプロセッサ上での前方・後方伝搬に最適化プリミティブを導入する。 これらの手法を組み合わせることで,64MB未満のメモリをTinyMLデバイスに組み込むことで,連続的な学習を実現することができることを示す。 VEGAと呼ばれる先進的な22nmのプロトタイプでは、提案手法は低消費電力のSTM32 L4マイクロコントローラよりも平均65倍高速に動作し、新しいミニバッチを毎分1回学習すると、寿命535時間で37倍エネルギー効率が向上する。

In the last few years, research and development on Deep Learning models and techniques for ultra-low-power devices in a word, TinyML has mainly focused on a train-then-deploy assumption, with static models that cannot be adapted to newly collected data without cloud-based data collection and fine-tuning. Latent Replay-based Continual Learning (CL) techniques[1] enable online, serverless adaptation in principle, but so farthey have still been too computation and memory-hungry for ultra-low-power TinyML devices, which are typically based on microcontrollers. In this work, we introduce a HW/SW platform for end-to-end CL based on a 10-core FP32-enabled parallel ultra-low-power (PULP) processor. We rethink the baseline Latent Replay CL algorithm, leveraging quantization of the frozen stage of the model and Latent Replays (LRs) to reduce their memory cost with minimal impact on accuracy. In particular, 8-bit compression of the LR memory proves to be almost lossless (-0.26% with 3000LR) compared to the full-precision baseline implementation, but requires 4x less memory, while 7-bit can also be used with an additional minimal accuracy degradation (up to 5%). We also introduce optimized primitives for forward and backward propagation on the PULP processor. Our results show that by combining these techniques, continual learning can be achieved in practice using less than 64MB of memory an amount compatible with embedding in TinyML devices. On an advanced 22nm prototype of our platform, called VEGA, the proposed solution performs onaverage 65x faster than a low-power STM32 L4 microcontroller, being 37x more energy efficient enough for a lifetime of 535h when learning a new mini-batch of data once every minute.
翻訳日:2021-10-23 21:47:19 公開日:2021-10-20
# (参考訳) 3次元畳み込みニューラルネットワークを用いたfMRIデータからの自閉症スペクトラム障害の分類法の検討 [全文訳有]

Evaluation of augmentation methods in classifying autism spectrum disorders from fMRI data with 3D convolutional neural networks ( http://arxiv.org/abs/2110.10489v1 )

ライセンス: CC BY 4.0
Johan J\"onemo, David Abramian, Anders Eklund(参考訳) 神経画像データを使って被験者を健康的または病気と分類することは、過去10年間に多くの注目を集めてきた。 本稿では, 静止状態のfMRIデータから導出したディープラーニングを適用し, 異なる3次元増強技術がテスト精度に与える影響について検討する。 具体的には、3D畳み込みニューラルネットワーク(CNN)を前処理した1,112人の被験者の安静状態誘導体を用いて分類を行う。 その結果,強化はテスト精度にわずかな改善しか与えないことがわかった。

Classifying subjects as healthy or diseased using neuroimaging data has gained a lot of attention during the last 10 years. Here we apply deep learning to derivatives from resting state fMRI data, and investigate how different 3D augmentation techniques affect the test accuracy. Specifically, we use resting state derivatives from 1,112 subjects in ABIDE preprocessed to train a 3D convolutional neural network (CNN) to perform the classification. Our results show that augmentation only provide minor improvements to the test accuracy.
翻訳日:2021-10-23 21:07:01 公開日:2021-10-20
# (参考訳) STALP:補助リミテッドペアリングによるスタイルトランスファー [全文訳有]

STALP: Style Transfer with Auxiliary Limited Pairing ( http://arxiv.org/abs/2110.10501v1 )

ライセンス: CC BY 4.0
David Futschik, Michal Ku\v{c}era, Michal Luk\'a\v{c}, Zhaowen Wang, Eli Shechtman, Daniel S\'ykora(参考訳) 本稿では,1対のソース画像と,そのスタイリング画像を用いた画像の例ベーススタイリング手法を提案する。 本研究では,ソースコードと類似した内容のターゲット画像に対して,リアルタイムな意味論的スタイル転送が可能な画像翻訳ネットワークの訓練方法を示す。 このアプローチの重要な付加価値は、トレーニング中にターゲット画像の一貫性も考慮していることです。 これらはスタイリングされたものではないが、スタイリングされたソースから抽出した情報とニューラルレスポンスの統計の整合性を維持するために翻訳を制約する。 類似した入力を使用する並行手法とは対照的に,本手法はソーススタイルの重要な視覚的特徴をよりよく保存し,時間的一貫性を明示的に扱わずに時間的安定な結果を提供できる。 ビデオスタイリング,パノラマへのスタイル転送,顔,3Dモデルなど,様々なアプリケーションで実用性を示す。

We present an approach to example-based stylization of images that uses a single pair of a source image and its stylized counterpart. We demonstrate how to train an image translation network that can perform real-time semantically meaningful style transfer to a set of target images with similar content as the source image. A key added value of our approach is that it considers also consistency of target images during training. Although those have no stylized counterparts, we constrain the translation to keep the statistics of neural responses compatible with those extracted from the stylized source. In contrast to concurrent techniques that use a similar input, our approach better preserves important visual characteristics of the source style and can deliver temporally stable results without the need to explicitly handle temporal consistency. We demonstrate its practical utility on various applications including video stylization, style transfer to panoramas, faces, and 3D models.
翻訳日:2021-10-23 21:01:09 公開日:2021-10-20
# (参考訳) 四元軌道の周期的DMP定式化 [全文訳有]

Periodic DMP formulation for Quaternion Trajectories ( http://arxiv.org/abs/2110.10510v1 )

ライセンス: CC BY 4.0
Fares J. Abu-Dakka, Matteo Saveriano, Luka Peternel(参考訳) 模倣学習技術はロボットにスキルを伝達する方法として使われてきた。 その中でも、動的運動プリミティブ(DMP)は、複雑な離散的かつ周期的なスキルを学習し、再現するための効果的で効率的な技術として広く利用されている。 dmpは翻訳と方向の両方でポイントツーポイントの動きを学ぶために適切に定式化されているが、周期的なものは方向を学ぶための定式化を欠いている。 そこで本研究では,周期軌道の符号化が可能な新しいDMP形式を提案する。 この定式化の中で、リーマン計量に基づく射影法と単位四元数に基づく周期DMPの2つのアプローチを開発する。 どちらの定式化も、向きを表すために単位四元数を利用する。 しかし、第一はリーマン多様体の性質を利用して単位球面の接空間で作用する。 第2は、生成した四元数の一元ノルムを保証しながら、単位四元数軌道を直接符号化する。 シミュレーションにおける提案手法の技術的側面を検証した。 そして, 周期的な方向変化(表面研磨/ワイピング, 振動による液体混合など)を伴う日常作業を行う実ロボット実験を行った。

Imitation learning techniques have been used as a way to transfer skills to robots. Among them, dynamic movement primitives (DMPs) have been widely exploited as an effective and an efficient technique to learn and reproduce complex discrete and periodic skills. While DMPs have been properly formulated for learning point-to-point movements for both translation and orientation, periodic ones are missing a formulation to learn the orientation. To address this gap, we propose a novel DMP formulation that enables encoding of periodic orientation trajectories. Within this formulation we develop two approaches: Riemannian metric-based projection approach and unit quaternion based periodic DMP. Both formulations exploit unit quaternions to represent the orientation. However, the first exploits the properties of Riemannian manifolds to work in the tangent space of the unit sphere. The second encodes directly the unit quaternion trajectory while guaranteeing the unitary norm of the generated quaternions. We validated the technical aspects of the proposed methods in simulation. Then we performed experiments on a real robot to execute daily tasks that involve periodic orientation changes (i.e., surface polishing/wiping and liquid mixing by shaking).
翻訳日:2021-10-23 20:43:21 公開日:2021-10-20
# (参考訳) 符号化位相シフト3Dスキャナの開発と精度評価 [全文訳有]

Development and accuracy evaluation of Coded Phase-shift 3D scanner ( http://arxiv.org/abs/2110.10520v1 )

ライセンス: CC BY 4.0
Pranav Kant Gaur, D.M.Sarode, S.K.Bose(参考訳) 本稿では,2次符号化パターンと正弦波位相シフトパターンの組み合わせによる構造光3Dスキャナの開発の概要について述べる。 さらに,本システムの測定精度と精度を評価するために実施した実験について述べる。 この種の研究は、現在の構造化光3dスキャナの基本動作と、それに続くアプローチとの性能評価を理解するのに役立つと期待されている。

In this paper, we provide an overview of development of a structured light 3D-scanner based on combination of binary-coded patterns and sinusoidal phase-shifted fringe patterns called Coded Phase-shift technique. Further, we describe the experiments performed to evaluate measurement accuracy and precision of the developed system. A study of this kind is expected to be helpful in understanding the basic working of current structured-light 3D scanners and the approaches followed for their performance assessment.
翻訳日:2021-10-23 20:30:57 公開日:2021-10-20
# (参考訳) データ拡張による学習表現の合意によるモデル一般化の改善 [全文訳有]

Improving Model Generalization by Agreement of Learned Representations from Data Augmentation ( http://arxiv.org/abs/2110.10536v1 )

ライセンス: CC BY-SA 4.0
Rowel Atienza(参考訳) データ拡張は、入力画像の異なる変換に対する不変表現の学習をモデルに強制することで一般化誤差を低減する。 コンピュータビジョンでは、標準的な画像処理機能に加えて、CutOut、MixUp、CutMixなどの地域ドロップアウトに基づくデータ拡張技術やAutoAugmentのようなポリシーベースの選択は、最先端(SOTA)の結果を示した。 データ拡張アルゴリズムが提案されているため、常に入出力マッピングの最適化に重点を置いているが、同じラベルで変換された画像に未入力の値があるとは認識していない。 2つの変換の表現を一致させることで、モデルの一般化誤差をさらに減らすことができると仮定する。 我々は提案手法を最大化あるいは単にagmaxと呼ぶ。 この単純な制約をトレーニング中に適用することで、データ拡張アルゴリズムはimagenetのresnet50の分類精度を最大1.5%、cifar10のesnet40-2を最大0.7%、cifar100のsnet40-2を最大1.6%、音声コマンドデータセットのlenet5を最大1.4%向上させることができる。 さらに実験結果から,ラベルの平滑化など他の正規化用語とは異なり,AgMaxはデータ拡張を利用してモデルの一般化を一定のマージンで一貫的に改善できることを示した。 PascalVOCとCOCOのオブジェクト検出やセグメンテーションなどの下流タスクでは、AgMax事前訓練されたモデルは、1.0mAP(ボックス)と0.5mAP(マスク)で他のデータ拡張メソッドよりも優れている。 コードはhttps://github.com/r oatienza/agmaxで入手できる。

Data augmentation reduces the generalization error by forcing a model to learn invariant representations given different transformations of the input image. In computer vision, on top of the standard image processing functions, data augmentation techniques based on regional dropout such as CutOut, MixUp, and CutMix and policy-based selection such as AutoAugment demonstrated state-of-the-art (SOTA) results. With an increasing number of data augmentation algorithms being proposed, the focus is always on optimizing the input-output mapping while not realizing that there might be an untapped value in the transformed images with the same label. We hypothesize that by forcing the representations of two transformations to agree, we can further reduce the model generalization error. We call our proposed method Agreement Maximization or simply AgMax. With this simple constraint applied during training, empirical results show that data augmentation algorithms can further improve the classification accuracy of ResNet50 on ImageNet by up to 1.5%, WideResNet40-2 on CIFAR10 by up to 0.7%, WideResNet40-2 on CIFAR100 by up to 1.6%, and LeNet5 on Speech Commands Dataset by up to 1.4%. Experimental results further show that unlike other regularization terms such as label smoothing, AgMax can take advantage of the data augmentation to consistently improve model generalization by a significant margin. On downstream tasks such as object detection and segmentation on PascalVOC and COCO, AgMax pre-trained models outperforms other data augmentation methods by as much as 1.0mAP (box) and 0.5mAP (mask). Code is available at https://github.com/r oatienza/agmax.
翻訳日:2021-10-23 20:24:07 公開日:2021-10-20
# (参考訳) 階層型深層学習システムにおける最適並列性配置と削減戦略の合成 [全文訳有]

Synthesizing Optimal Parallelism Placement and Reduction Strategies on Hierarchical Systems for Deep Learning ( http://arxiv.org/abs/2110.10548v1 )

ライセンス: CC BY 4.0
Ningning Xie, Tamara Norman, Dominik Grewe, Dimitrios Vytiniotis(参考訳) 本稿では,複数の並列化形式(例えばデータやモデル並列化)を階層的に認識し,ソフトウェアからハードウェアへのマッピングの空間を大幅に削減する階層型アクセラレータシステムにマッピングする手法を提案する。 これらのマッピングが全再現性能(最大448倍)に与える影響を実験的に検証した。 1つ以上の並列性軸上の還元を階層的かつマッピング対応的な方法で集合のシーケンスに分解できる、新しい構文誘導型プログラム合成フレームワークを提供する。 並列処理の配置とユーザ要求の削減の69%については、GPU階層(max 2.04x, average 1.27x)で評価した場合、デフォルトのオールリデュース実装よりも優れたプログラムを合成する。 我々は,90%のtop-10精度を超えるシミュレータを用いて合成ツールの補完を行い,最適なプログラムとマッピングを決定するための合成結果の大規模評価の必要性を低減した。

We present a novel characterization of the mapping of multiple parallelism forms (e.g. data and model parallelism) onto hierarchical accelerator systems that is hierarchy-aware and greatly reduces the space of software-to-hardware mapping. We experimentally verify the substantial effect of these mappings on all-reduce performance (up to 448x). We offer a novel syntax-guided program synthesis framework that is able to decompose reductions over one or more parallelism axes to sequences of collectives in a hierarchy- and mapping-aware way. For 69% of parallelism placements and user requested reductions, our framework synthesizes programs that outperform the default all-reduce implementation when evaluated on different GPU hierarchies (max 2.04x, average 1.27x). We complement our synthesis tool with a simulator exceeding 90% top-10 accuracy, which therefore reduces the need for massive evaluations of synthesis results to determine a small set of optimal programs and mappings.
翻訳日:2021-10-23 20:07:56 公開日:2021-10-20
# (参考訳) クエリアダプティブトランスフォーマーによる短時間時間動作定位 [全文訳有]

Few-Shot Temporal Action Localization with Query Adaptive Transformer ( http://arxiv.org/abs/2110.10552v1 )

ライセンス: CC BY 4.0
Sauradip Nag, Xiatian Zhu and Tao Xiang(参考訳) 既存の時間的アクションローカライゼーション(TAL)の作業は、セグメントレベルのアノテーションを徹底した多数のトレーニングビデオに依存しており、新しいクラスへのスケーリングを妨げている。 この問題の解決策として、FS-TAL(英語版)は、モデルを単一のビデオで表される新しいクラスに適応することを目的としている。 FS-TALメソッドの出力は、新しいクラスのトレーニングビデオをトリミングする。 しかし、この設定は、通常、不自然なアクションがトリミングされていないビデオでキャプチャされるだけでなく、前景アクションセグメンテーションのための重要なコンテキストを含む背景ビデオセグメントも無視する。 本研究では,まず,未編集のトレーニングビデオを用いたFS-TAL設定を提案する。 さらに,学習クラスからの知識伝達を最大化しつつ,新たなクラスと各クラスのビデオに動的に適応できる新しいFS-TALモデルを提案する。 これは、モデルにクエリ適応トランスフォーマーを導入することで実現される。 2つのアクションローカライゼーションベンチマークに関する広範囲な実験は、単一ドメインとクロスドメインのシナリオの両方において、この手法がアートの代替案の全ての状態を著しく上回ることを証明している。 ソースコードはhttps://github.com/s auradip/fewshotqatにある。

Existing temporal action localization (TAL) works rely on a large number of training videos with exhaustive segment-level annotation, preventing them from scaling to new classes. As a solution to this problem, few-shot TAL (FS-TAL) aims to adapt a model to a new class represented by as few as a single video. Exiting FS-TAL methods assume trimmed training videos for new classes. However, this setting is not only unnatural actions are typically captured in untrimmed videos, but also ignores background video segments containing vital contextual cues for foreground action segmentation. In this work, we first propose a new FS-TAL setting by proposing to use untrimmed training videos. Further, a novel FS-TAL model is proposed which maximizes the knowledge transfer from training classes whilst enabling the model to be dynamically adapted to both the new class and each video of that class simultaneously. This is achieved by introducing a query adaptive Transformer in the model. Extensive experiments on two action localization benchmarks demonstrate that our method can outperform all the state of the art alternatives significantly in both single-domain and cross-domain scenarios. The source code can be found in https://github.com/s auradip/fewshotQAT
翻訳日:2021-10-23 19:31:35 公開日:2021-10-20
# (参考訳) SocialVisTUM - ソーシャルメディアオピニオンマイニングにおける関連ニューラルトピックモデルのためのインタラクティブ可視化ツールキット [全文訳有]

SocialVisTUM: An Interactive Visualization Toolkit for Correlated Neural Topic Models on Social Media Opinion Mining ( http://arxiv.org/abs/2110.10575v1 )

ライセンス: CC BY 4.0
Gerhard Hagerer, Martin Kirchhoff, Hannah Danner, Robert Pesch, Mainak Ghosh, Archishman Roy, Jiaxi Zhao, Georg Groh(参考訳) 意見マイニングにおける最近の研究は,従来のトピックモデリングに比べて一貫性に優れた単語埋め込みに基づくトピックモデリング手法を提案する。 本稿では,これらの手法を用いてソーシャルビジュアライゼーションツールキットsocialvistumを用いて,ソーシャルメディアのテキストに関連づけられたトピックモデルを表示できることを実証する。 トピックをノードとしてグラフを表示し、相関をエッジとして表示する。 トピックや感情の分布、階層的なトピッククラスタリング、カスタマイズ可能な事前定義されたトピックラベルなど、大きなテキストコレクションの探索を支援するために、さらに詳細がインタラクティブに表示される。 このツールキットは最適なコヒーレンスのためにカスタムデータを自動的に最適化する。 本稿では,有機食品消費に関する英ソーシャルメディアの議論から収集したデータに基づくツールキットの動作例を示す。 ビジュアライゼーションは、質的な消費者調査の結果を確認します。 SocialVisTUMとそのトレーニング手順はオンラインで利用できる。

Recent research in opinion mining proposed word embedding-based topic modeling methods that provide superior coherence compared to traditional topic modeling. In this paper, we demonstrate how these methods can be used to display correlated topic models on social media texts using SocialVisTUM, our proposed interactive visualization toolkit. It displays a graph with topics as nodes and their correlations as edges. Further details are displayed interactively to support the exploration of large text collections, e.g., representative words and sentences of topics, topic and sentiment distributions, hierarchical topic clustering, and customizable, predefined topic labels. The toolkit optimizes automatically on custom data for optimal coherence. We show a working instance of the toolkit on data crawled from English social media discussions about organic food consumption. The visualization confirms findings of a qualitative consumer research study. SocialVisTUM and its training procedures are accessible online.
翻訳日:2021-10-23 19:19:04 公開日:2021-10-20
# (参考訳) 私がやっていること:教育ビデオにおけるナレーションの自己監督型空間グラウンド [全文訳有]

Look at What I'm Doing: Self-Supervised Spatial Grounding of Narrations in Instructional Videos ( http://arxiv.org/abs/2110.10596v1 )

ライセンス: CC BY 4.0
Reuben Tan, Bryan A. Plummer, Kate Saenko, Hailin Jin, Bryan Russell(参考訳) ビデオにおけるナレーション相互作用を空間的局所化するタスクを紹介する。 提案手法の鍵となるのは,映像の大規模コーパスにおける自己スーパービジョンとの相互作用の空間的ローカライズを学習できることである。 この目的を達成するために,訓練中にコントラスト損失を効果的に最適化する多層クロスモーダルアテンションネットワークを提案する。 視覚と自然言語のモダリティを横断するモダリティ間およびモダリティ内注意の計算を交互に行う分割戦略を導入し,2つのモダリティの表現を直接比較することで効果的なトレーニングを可能にする。 howto100mインストラクションビデオデータセット上での自己学習と,youcook2データセットで新たに収集したローカライズドインタラクションのデータセットの評価により,本手法の有効性を実証した。 我々のアプローチは、浅いコ・アテンションや完全なクロスモーダルな注意を含む、代替のベースラインよりも優れています。 また,flickr30kでは,複数の注意層を積み重ねることが効果的であることを示すとともに,単語から地域への損失と組み合わせることで,リコール・ア・ワンとポインティング・ハンド・アキュラリティーの技術を実現できることを示す。

We introduce the task of spatially localizing narrated interactions in videos. Key to our approach is the ability to learn to spatially localize interactions with self-supervision on a large corpus of videos with accompanying transcribed narrations. To achieve this goal, we propose a multilayer cross-modal attention network that enables effective optimization of a contrastive loss during training. We introduce a divided strategy that alternates between computing inter- and intra-modal attention across the visual and natural language modalities, which allows effective training via directly contrasting the two modalities' representations. We demonstrate the effectiveness of our approach by self-training on the HowTo100M instructional video dataset and evaluating on a newly collected dataset of localized described interactions in the YouCook2 dataset. We show that our approach outperforms alternative baselines, including shallow co-attention and full cross-modal attention. We also apply our approach to grounding phrases in images with weak supervision on Flickr30K and show that stacking multiple attention layers is effective and, when combined with a word-to-region loss, achieves state of the art on recall-at-one and pointing hand accuracies.
翻訳日:2021-10-23 19:10:24 公開日:2021-10-20
# (参考訳) 機械学習開発のためのカラーチーム [全文訳有]

Color Teams for Machine Learning Development ( http://arxiv.org/abs/2110.10601v1 )

ライセンス: CC BY-SA 4.0
Josh Kalin, David Noever, Matthew Ciolino(参考訳) 機械学習とソフトウェア開発は、顧客に製品を確実に提供するためのプロセスと方法論を共有します。 この研究は、敵攻撃者に対抗するために、機械学習チームを形成するための新しいチーム構成を提案する。 サイバーセキュリティにおいて、インフラストラクチャはこれらのチームを使ってシステムビルダーとプログラマを使ってシステムを保護する。 カラーチームは各チームの個人に対して、ベースライン(黄色)、アタック(赤)、ディフェンス(青)のパイプラインのブレークアウトを明確な責任とします。 色を組み合わせることで、チーム間で共有される知識と、開発中に構築されたより堅牢なモデルにつながります。 新しいチームの責任はオレンジ、グリーン、パープルで、これらのチームが成功するために必要なリソースの概要とともに、この論文で概説されます。

Machine learning and software development share processes and methodologies for reliably delivering products to customers. This work proposes the use of a new teaming construct for forming machine learning teams for better combatting adversarial attackers. In cybersecurity, infrastructure uses these teams to protect their systems by using system builders and programmers to also offer more robustness to their platforms. Color teams provide clear responsibility to the individuals on each team for which part of the baseline (Yellow), attack (Red), and defense (Blue) breakout of the pipeline. Combining colors leads to additional knowledge shared across the team and more robust models built during development. The responsibilities of the new teams Orange, Green, and Purple will be outlined during this paper along with an overview of the necessary resources for these teams to be successful.
翻訳日:2021-10-23 18:53:54 公開日:2021-10-20
# (参考訳) トランスダクティブロバスト学習保証 [全文訳有]

Transductive Robust Learning Guarantees ( http://arxiv.org/abs/2110.10602v1 )

ライセンス: CC BY 4.0
Omar Montasser, Steve Hanneke, Nathan Srebro(参考訳) トランスダクティブ・セッティングにおける敵対的ロバスト学習の問題点について検討する。 有界VC次元のクラス $\mathcal{H}$ に対して、簡単なトランスダクティブ学習器を提案し、ラベル付きトレーニング例のセットとラベル付きテスト例のセット(どちらも逆摂動の可能性がある)を提示すると、VC次元において線形で摂動集合の複雑さに適応する頑健な誤差率でテスト例を正しくラベル付けする。 この結果は、最適なロバスト誤差というより制限的な概念と競合する代わりに、帰納的設定におけるロバストエラーに最もよく知られた上限よりもVC次元への依存を指数関数的に改善する。

We study the problem of adversarially robust learning in the transductive setting. For classes $\mathcal{H}$ of bounded VC dimension, we propose a simple transductive learner that when presented with a set of labeled training examples and a set of unlabeled test examples (both sets possibly adversarially perturbed), it correctly labels the test examples with a robust error rate that is linear in the VC dimension and is adaptive to the complexity of the perturbation set. This result provides an exponential improvement in dependence on VC dimension over the best known upper bound on the robust error in the inductive setting, at the expense of competing with a more restrictive notion of optimal robust error.
翻訳日:2021-10-23 18:47:29 公開日:2021-10-20
# (参考訳) 独立した自然政策勾配は、常にマルコフポテンシャルゲームに収束する [全文訳有]

Independent Natural Policy Gradient Always Converges in Markov Potential Games ( http://arxiv.org/abs/2110.10614v1 )

ライセンス: CC BY 4.0
Roy Fox, Stephen McAleer, Will Overman, Ioannis Panageas(参考訳) マルチエージェント強化学習は, 完全協調・完全競争環境に適用されているが, 複合協調・競争環境についてはほとんど知られていない。 本稿では,協調ゲームを含むマルチエージェント混合協調・競争的確率ゲームであるマルコフポテンシャルゲーム(mpgs)について考察する。 近年、独立政策勾配がMPGに収束することが示されているが、独立自然政策勾配がMPGにも収束するかどうかは分かっていない。 独立自然政策グラディエントは常に一定の学習率を用いて最終回に収束することを示す。 証明は既存のアプローチから逸脱しており、マルコフポテンシャルゲームは(単一エージェントの設定が示すように)一意の最適値を持っていないため、異なる初期化は異なる極限点値をもたらす。 我々は, ルーティングゲームや混雑ゲームにおいて, 自然政策勾配が政策勾配を上回っていることを示す実験によって, 理論結果を補完する。

Multi-agent reinforcement learning has been successfully applied to fully-cooperative and fully-competitive environments, but little is currently known about mixed cooperative/competit ive environments. In this paper, we focus on a particular class of multi-agent mixed cooperative/competit ive stochastic games called Markov Potential Games (MPGs), which include cooperative games as a special case. Recent results have shown that independent policy gradient converges in MPGs but it was not known whether Independent Natural Policy Gradient converges in MPGs as well. We prove that Independent Natural Policy Gradient always converges in the last iterate using constant learning rates. The proof deviates from the existing approaches and the main challenge lies in the fact that Markov Potential Games do not have unique optimal values (as single-agent settings exhibit) so different initializations can lead to different limit point values. We complement our theoretical results with experiments that indicate that Natural Policy Gradient outperforms Policy Gradient in routing games and congestion games.
翻訳日:2021-10-23 18:17:59 公開日:2021-10-20
# (参考訳) 行動系列同値に関する記号的先行によるより効率的な探索 [全文訳有]

More Efficient Exploration with Symbolic Priors on Action Sequence Equivalences ( http://arxiv.org/abs/2110.10632v1 )

ライセンス: CC BY 4.0
Toby Johnstone, Nathan Grinsztajn, Johan Ferret, Philippe Preux(参考訳) 強化学習アルゴリズムに事前知識を組み込むことは、主にオープン質問である。 環境ダイナミクスに関する洞察が利用可能である場合でも、強化学習は伝統的にタブララサ設定で使われ、すべてをスクラッチから探索し、学習しなければならない。 本稿では,アクションシーケンスの等価性に関する先行問題,すなわち,異なるアクションシーケンスが同じ効果をもたらす場合の問題を考察する。 我々は,衝突を最小限に抑え,新しい国家訪問を最大化する新しい地域探査戦略を提案する。 凸最適化問題を解くことにより,この戦略を少ないコストで計算できることが示される。 DQNにおける通常のepsilon-greedy戦略を置き換えることで、様々な動的構造を持ついくつかの環境でその可能性を示す。

Incorporating prior knowledge in reinforcement learning algorithms is mainly an open question. Even when insights about the environment dynamics are available, reinforcement learning is traditionally used in a tabula rasa setting and must explore and learn everything from scratch. In this paper, we consider the problem of exploiting priors about action sequence equivalence: that is, when different sequences of actions produce the same effect. We propose a new local exploration strategy calibrated to minimize collisions and maximize new state visitations. We show that this strategy can be computed at little cost, by solving a convex optimization problem. By replacing the usual epsilon-greedy strategy in a DQN, we demonstrate its potential in several environments with various dynamic structures.
翻訳日:2021-10-23 17:59:18 公開日:2021-10-20
# (参考訳) セマンティックセグメンテーションのための半教師付きドメイン適応 [全文訳有]

Semi-supervised Domain Adaptation for Semantic Segmentation ( http://arxiv.org/abs/2110.10639v1 )

ライセンス: CC BY 4.0
Ying Chen, Xu Ouyang, Kaiyue Zhu, Gady Agam(参考訳) セマンティックセグメンテーションのためのディープラーニングアプローチは、主に教師付き学習アプローチに依存しており、ピクセルレベルのアノテーションの作成にかなりの労力を要する。 さらに、見えない画像領域に適用しても、そのようなアプローチは不十分である。 これらの制限に対処するため、Unsupervised domain adaptation (UDA) と完全なソース管理を伴うが、ターゲット監視や部分的な監視を伴う半教師付き学習 (SSL) が提案されている。 このような手法は、異なる特徴分布の調整に有効であるが、教師なしのデータを効率的に活用して、完全な教師付きメソッドのパフォーマンスギャップに対処する必要がある。 本稿では,大量のラベル付きソースデータと少量のラベル付きターゲットデータが存在するセグメンテーションのための半教師付きドメイン適応(SSDA)について述べる。 意味セグメンテーションにおけるクロスドメインとイントラドメインの両方のギャップに対処するために,二段階半教師付きデュアルドメイン適応法(ssdda)を提案する。 提案するフレームワークは、2つの混合モジュールで構成される。 まず,画像レベルの混合戦略を通したクロスドメイン適応を行い,ソースデータと対象データ間の特徴の分布シフトを整合させることを学ぶ。 第2に、予測されたオブジェクト境界を尊重する方法でラベルなしのターゲットデータを混合することにより、カテゴリレベルのデータ拡張を生成するために構築された、個別の学生・教師ネットワークを用いてドメイン内適応を実現する。 提案手法は,2つの一般的な合成から実へのセマンティクスセグメンテーションベンチマークにおいて最先端手法よりも優れていることを示す。 本手法の有効性をさらに検証するために広範なアブレーション研究を行った。

Deep learning approaches for semantic segmentation rely primarily on supervised learning approaches and require substantial efforts in producing pixel-level annotations. Further, such approaches may perform poorly when applied to unseen image domains. To cope with these limitations, both unsupervised domain adaptation (UDA) with full source supervision but without target supervision and semi-supervised learning (SSL) with partial supervision have been proposed. While such methods are effective at aligning different feature distributions, there is still a need to efficiently exploit unlabeled data to address the performance gap with respect to fully-supervised methods. In this paper we address semi-supervised domain adaptation (SSDA) for semantic segmentation, where a large amount of labeled source data as well as a small amount of labeled target data are available. We propose a novel and effective two-step semi-supervised dual-domain adaptation (SSDDA) approach to address both cross- and intra-domain gaps in semantic segmentation. The proposed framework is comprised of two mixing modules. First, we conduct a cross-domain adaptation via an image-level mixing strategy, which learns to align the distribution shift of features between the source data and target data. Second, intra-domain adaptation is achieved using a separate student-teacher network which is built to generate category-level data augmentation by mixing unlabeled target data in a way that respects predicted object boundaries. We demonstrate that the proposed approach outperforms state-of-the-art methods on two common synthetic-to-real semantic segmentation benchmarks. An extensive ablation study is provided to further validate the effectiveness of our approach.
翻訳日:2021-10-23 17:33:59 公開日:2021-10-20
# (参考訳) 多元的階層強化学習による対人ソーシャルボット学習 [全文訳有]

Adversarial Socialbot Learning via Multi-Agent Deep Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2110.10655v1 )

ライセンス: CC BY 4.0
Thai Le, Long Tran-Thanh, Dongwon Lee(参考訳) Socialbotsは、ソーシャルプラットフォーム上でのソフトウェア駆動のユーザーアカウントであり、(人間の行動を模倣する)自律的に行動し、他のユーザーの意見に影響を与えることや、特定の目的のためにターゲットの誤情報を広めることを目的としている。 ソーシャルボットは社会プラットフォームのエコシステムを損なうため、しばしば有害と見なされる。 そのため、ソーシャルボットを自動検出する計算作業がいくつか行われている。 しかし、我々の知る限り、これらの社会ボットの敵対的な性質はまだ研究されていない。 この質問は、"敵がソーシャルボットをコントロールし、AIテクニックを有利に活用できるか? そこで本研究では,敵が強化学習(rl)などの計算学習機構を利用して,検出を回避しつつソーシャルボットの影響を最大化することが可能であることを実証する。 まず,2つの機能的階層的RLエージェント間の協調ゲームとして,対向型ソーシャルボット学習を定式化する。 一方のエージェントは検出を回避できる一連のアクティビティをキュレートする一方、他方のエージェントは、適切なユーザと選択的に接続することで、ネットワークの影響を最大化する。 提案するポリシネットワークは,ネットワークの影響を最大化(最大+18%まで)し,強力なボット検出(90%検出精度)下で持続的ステルス性(最大+40%非検出性)の両方において,膨大な量の合成グラフを訓練し,目に見えない実生活グラフのベースラインよりもよく一般化する。 推論の間、我々のアプローチの複雑さは、ネットワークの構造とニュースのバイラル性から独立して線形にスケールする。 これにより,本手法は実環境に展開する際の現実的な攻撃となる。

Socialbots are software-driven user accounts on social platforms, acting autonomously (mimicking human behavior), with the aims to influence the opinions of other users or spread targeted misinformation for particular goals. As socialbots undermine the ecosystem of social platforms, they are often considered harmful. As such, there have been several computational efforts to auto-detect the socialbots. However, to our best knowledge, the adversarial nature of these socialbots has not yet been studied. This begs a question "can adversaries, controlling socialbots, exploit AI techniques to their advantage?" To this question, we successfully demonstrate that indeed it is possible for adversaries to exploit computational learning mechanism such as reinforcement learning (RL) to maximize the influence of socialbots while avoiding being detected. We first formulate the adversarial socialbot learning as a cooperative game between two functional hierarchical RL agents. While one agent curates a sequence of activities that can avoid the detection, the other agent aims to maximize network influence by selectively connecting with right users. Our proposed policy networks train with a vast amount of synthetic graphs and generalize better than baselines on unseen real-life graphs both in terms of maximizing network influence (up to +18%) and sustainable stealthiness (up to +40% undetectability) under a strong bot detector (with 90% detection accuracy). During inference, the complexity of our approach scales linearly, independent of a network's structure and the virality of news. This makes our approach a practical adversarial attack when deployed in a real-life setting.
翻訳日:2021-10-23 17:19:56 公開日:2021-10-20
# (参考訳) SILG: マルチ環境シンボリック対話型言語グラウンドベンチマーク [全文訳有]

SILG: The Multi-environment Symbolic Interactive Language Grounding Benchmark ( http://arxiv.org/abs/2110.10661v1 )

ライセンス: CC BY 4.0
Victor Zhong and Austin W. Hanjie and Sida I. Wang and Karthik Narasimhan and Luke Zettlemoyer(参考訳) 言語基盤における既存の作業は通常、単一の環境を研究する。 複数の環境に適用可能な統一モデルをどのように構築するか? 本稿では,多言語学習環境を共通インタフェースで統合する多環境シンボリック対話型言語基盤ベンチマーク(SILG)を提案する。 SILGは、新しいダイナミックス、エンティティ、部分的に観察された世界(RTFM、Messenger、NetHack)への一般化を必要とするグリッドワールド環境と、複雑なシーン(ALFWorld、Touchdown)に関してリッチな自然言語を解釈する必要がある視覚世界の象徴的な環境で構成されている。 これらの環境は、観察空間の豊かさ、行動空間、言語仕様、計画複雑さといった様々な基礎的な課題を提供する。 さらに,これらの環境におけるrlのための最初の共有モデルアーキテクチャを提案し,自己中心型局所畳み込み,再帰的状態追跡,エンティティ中心の注意,silgを用いた事前学習されたlmなどの最近の進歩を評価する。 共有アーキテクチャは環境特化アーキテクチャに匹敵する性能を達成する。 さらに,近年のモデリングの進歩の多くは,設計した環境以外の環境において大きな利益を得られないことが判明した。 これはマルチ環境ベンチマークの必要性を強調している。 そして最後に、最高のモデルがSILG上で人間を著しく下回る結果となり、将来の作業には十分な余地が示唆された。 SILGにより、コミュニティは、様々な環境とその関連する課題に一般化する言語基盤の新しい方法論を迅速に特定できることを期待します。

Existing work in language grounding typically study single environments. How do we build unified models that apply across multiple environments? We propose the multi-environment Symbolic Interactive Language Grounding benchmark (SILG), which unifies a collection of diverse grounded language learning environments under a common interface. SILG consists of grid-world environments that require generalization to new dynamics, entities, and partially observed worlds (RTFM, Messenger, NetHack), as well as symbolic counterparts of visual worlds that require interpreting rich natural language with respect to complex scenes (ALFWorld, Touchdown). Together, these environments provide diverse grounding challenges in richness of observation space, action space, language specification, and plan complexity. In addition, we propose the first shared model architecture for RL on these environments, and evaluate recent advances such as egocentric local convolution, recurrent state-tracking, entity-centric attention, and pretrained LM using SILG. Our shared architecture achieves comparable performance to environment-specific architectures. Moreover, we find that many recent modelling advances do not result in significant gains on environments other than the one they were designed for. This highlights the need for a multi-environment benchmark. Finally, the best models significantly underperform humans on SILG, which suggests ample room for future work. We hope SILG enables the community to quickly identify new methodologies for language grounding that generalize to a diverse set of environments and their associated challenges.
翻訳日:2021-10-23 17:00:10 公開日:2021-10-20
# (参考訳) スタイルトランスファーの評価指標の評価--多言語形式トランスファーを事例として [全文訳有]

Evaluating the Evaluation Metrics for Style Transfer: A Case Study in Multilingual Formality Transfer ( http://arxiv.org/abs/2110.10668v1 )

ライセンス: CC BY 4.0
Eleftheria Briakou, Sweta Agrawal, Joel Tetreault and Marine Carpuat(参考訳) スタイル転送(ST)の分野は急速に成長しているが、自動評価のための標準化されたプラクティスの欠如によって妨げられている。 本稿では,定式化方式の伝達作業における先行ST自動測定値の評価を行う。 英語のみに焦点を当てた以前の評価とは違って、ブラジル-ポルトガル語、フランス語、イタリア語に焦点を絞って、この作業は、サンクトペテルブルクで最初の多言語間メトリクス評価を行い、(形式的)スタイル転送における自動評価のベストプラクティスを概説し、人間の判断とよく関連し、言語間で堅牢なモデルをいくつか識別する。 人間の評価を収集することがしばしば難しいSTの開発を加速する上で、この取り組みが役立つことを期待しています。

While the field of style transfer (ST) has been growing rapidly, it has been hampered by a lack of standardized practices for automatic evaluation. In this paper, we evaluate leading ST automatic metrics on the oft-researched task of formality style transfer. Unlike previous evaluations, which focus solely on English, we expand our focus to Brazilian-Portuguese , French, and Italian, making this work the first multilingual evaluation of metrics in ST. We outline best practices for automatic evaluation in (formality) style transfer and identify several models that correlate well with human judgments and are robust across languages. We hope that this work will help accelerate development in ST, where human evaluation is often challenging to collect.
翻訳日:2021-10-23 16:23:28 公開日:2021-10-20
# (参考訳) マルチ参照による自己説明可能なスタイリッシュ画像キャプションフレームワーク [全文訳有]

A Self-Explainable Stylish Image Captioning Framework via Multi-References ( http://arxiv.org/abs/2110.10704v1 )

ライセンス: CC BY 4.0
Chengxi Li and Brent Harrison(参考訳) 本稿では,Multi-style Multi modality mechanism (2M)を用いて,スタイリッシュな画像キャプションモデルを構築することを提案する。 2Mでは,スタイリッシュなスタイリッシュなキャプタを効果的に構築でき,モデルが生成するマルチ参照も,誤入力の特徴を誤検出してモデルの説明を支援することができることを示す。 この2mメカニズムをスタイリッシュなキャプションモデルの構築に利用し,モデル内の可能性のあるエラーの説明に活用する方法を示す。

In this paper, we propose to build a stylish image captioning model through a Multi-style Multi modality mechanism (2M). We demonstrate that with 2M, we can build an effective stylish captioner and that multi-references produced by the model can also support explaining the model through identifying erroneous input features on faulty examples. We show how this 2M mechanism can be used to build stylish captioning models and show how these models can be utilized to provide explanations of likely errors in the models.
翻訳日:2021-10-23 16:04:04 公開日:2021-10-20
# (参考訳) 確率的近似とオンライン学習設定における確率的学習率最適化 [全文訳有]

Stochastic Learning Rate Optimization in the Stochastic Approximation and Online Learning Settings ( http://arxiv.org/abs/2110.10710v1 )

ライセンス: CC BY 4.0
Theodoros Mamalis, Dusan Stipanovic, Petros Voulgaris(参考訳) 本研究では,確率的最適化アルゴリズムの学習率に乗法的確率性を適用し,確率的学習率スキームを生み出した。 確率的設定下での確率的学習率スキームを備えた確率的勾配降下の予測論的収束結果と、オンライン最適化設定下での収束結果を提供する。 経験的結果は適応的に分布する乗法確率性の場合を考え、確率的勾配降下だけでなく、確率的学習率を備えた他の一般的なアルゴリズムも含む。 彼らは決定論的学習率のバージョンに関して、顕著な最適化性能の向上を示している。

In this work, multiplicative stochasticity is applied to the learning rate of stochastic optimization algorithms, giving rise to stochastic learning-rate schemes. In-expectation theoretical convergence results of Stochastic Gradient Descent equipped with this novel stochastic learning rate scheme under the stochastic setting, as well as convergence results under the online optimization settings are provided. Empirical results consider the case of an adaptively uniformly distributed multiplicative stochasticity and include not only Stochastic Gradient Descent, but also other popular algorithms equipped with a stochastic learning rate. They demonstrate noticeable optimization performance gains, with respect to their deterministic-learni ng-rate versions.
翻訳日:2021-10-23 15:50:58 公開日:2021-10-20
# (参考訳) ppfs: 予測置換特徴の選択 [全文訳有]

PPFS: Predictive Permutation Feature Selection ( http://arxiv.org/abs/2110.10713v1 )

ライセンス: CC BY 4.0
Atif Hassan, Jiaul H. Paik, Swanand Khare and Syed Asif Hassan(参考訳) 本稿では,Markov Blanket (MB) の概念に基づく新しいラッパーに基づく特徴選択手法であるPPFS(Predictive Permutation Feature Selection)を提案する。 従来のMBメソッドとは異なり、PPFSは普遍的な特徴選択技術であり、分類および/または連続的な特徴を含むデータセットの回帰タスクの両方で機能する。 本稿では,PPI(Predictive Permutation Independence)という新しい条件付き独立性テストを提案し,PPFSをラッパー特徴選択法として分類する。 これは、Gradient Boosting Machines (GBM)のような教師付きアルゴリズムの進歩を利用することができない現在のフィルタベースのMB特徴選択技術とは対照的である。 PPIテストは、ノックオフフレームワークに基づいており、教師付きアルゴリズムを使用して、個人または一連の特徴と対象変数の関係を測定する。 また,サンプル非効率性の問題に対処する新しいMBアグリゲーションステップを提案する。 多数のデータセットに対する実証的な評価と比較は、PPFSが最先端のマルコフ毛布発見アルゴリズムおよびよく知られたラッパー手法よりも優れていることを示している。 また,本手法の正当性証明のスケッチも提供する。 この実装は \url{https://github.com/a tif-hassan/pyimpetus } で利用可能である。

We propose Predictive Permutation Feature Selection (PPFS), a novel wrapper-based feature selection method based on the concept of Markov Blanket (MB). Unlike previous MB methods, PPFS is a universal feature selection technique as it can work for both classification as well as regression tasks on datasets containing categorical and/or continuous features. We propose Predictive Permutation Independence (PPI), a new Conditional Independence (CI) test, which enables PPFS to be categorised as a wrapper feature selection method. This is in contrast to current filter based MB feature selection techniques that are unable to harness the advancements in supervised algorithms such as Gradient Boosting Machines (GBM). The PPI test is based on the knockoff framework and utilizes supervised algorithms to measure the association between an individual or a set of features and the target variable. We also propose a novel MB aggregation step that addresses the issue of sample inefficiency. Empirical evaluations and comparisons on a large number of datasets demonstrate that PPFS outperforms state-of-the-art Markov blanket discovery algorithms as well as, well-known wrapper methods. We also provide a sketch of the proof of correctness of our method. Implementation of this work is available at \url{https://github.com/a tif-hassan/PyImpetus }
翻訳日:2021-10-23 15:36:59 公開日:2021-10-20
# (参考訳) オープン検索におけるプライバシ - 課題と解決策のレビュー [全文訳有]

Privacy in Open Search: A Review of Challenges and Solutions ( http://arxiv.org/abs/2110.10720v1 )

ライセンス: CC BY 4.0
Samuel Sousa, Roman Kern and Christian Guetl(参考訳) プライバシーは、機密データを含む活動やプロセスに関する世界中の関心事である。 このため、多くの国や地域は最近、人々が提供したデータを活用できる範囲を規制する規制を承認している。 機械学習や自然言語処理といった人工知能分野は、膨大な数のアプリケーションでデータプライバシを保護するために、すでにプライバシ保存機構をうまく採用している。 情報検索(ir)も同様に、攻撃や文書や検索履歴の意図しない開示といったプライバシーの脅威にさらされやすく、ユーザーのセキュリティを損なう恐れがあり、データ保護法によって罰せられる。 この研究は、ユーザの生成したテキストデータを含むタスクに焦点を当て、最近のIR文学におけるプライバシーに関するオープンな課題を強調し、議論することを目的としている。 第1に,irタスクに対するプライバシの脅威の概要を示す。第2に,プライバシハザードを抑制するソリューションで採用される可能性のある,適切なプライバシ保存メカニズムについて論じる。最後に,プライバシの保護とirタスクのユーティリティパフォーマンスとのトレードオフに関する洞察を提供する。

Privacy is of worldwide concern regarding activities and processes that include sensitive data. For this reason, many countries and territories have been recently approving regulations controlling the extent to which organizations may exploit data provided by people. Artificial intelligence areas, such as machine learning and natural language processing, have already successfully employed privacy-preserving mechanisms in order to safeguard data privacy in a vast number of applications. Information retrieval (IR) is likewise prone to privacy threats, such as attacks and unintended disclosures of documents and search history, which may cripple the security of users and be penalized by data protection laws. This work aims at highlighting and discussing open challenges for privacy in the recent literature of IR, focusing on tasks featuring user-generated text data. Our contribution is threefold: firstly, we present an overview of privacy threats to IR tasks; secondly, we discuss applicable privacy-preserving mechanisms which may be employed in solutions to restrain privacy hazards; finally, we bring insights on the tradeoffs between privacy preservation and utility performance for IR tasks.
翻訳日:2021-10-23 15:17:29 公開日:2021-10-20
# (参考訳) Part-X:確率的保証を持つ探索ベーステスト生成のための確率アルゴリズムの一家系 [全文訳有]

Part-X: A Family of Stochastic Algorithms for Search-Based Test Generation with Probabilistic Guarantees ( http://arxiv.org/abs/2110.10729v1 )

ライセンス: CC BY 4.0
Giulia Pedrielli, Tanmay Kandhait, Surdeep Chotaliya, Quinn Thibeault, Hao Huang, Mauricio Castillo-Effen, Georgios Fainekos(参考訳) 要件駆動検索ベースのテスト(改ざん)は、サイバー物理システムにおける誤った行動を発見するための実用的かつ効果的な方法であることが証明されている。 偽造法の性能と適用性が常に改善されているにもかかわらず、それらは共通の特徴を共有している。 すなわち、テスト予算が枯渇したときの誤動作(誤動作)がないことを保証しないベストエフォートメソッドである。 有限時間保証の欠如は、認証手続きにおいてファルシフィケーション手法の使用を防止する大きな制限である。 本稿では,新しい確率的アルゴリズムを開発し,有限時間保証問題に対処する。 提案アルゴリズムは, 偽造行動が存在する確率を推定するだけでなく, 偽造行動が起こる可能性のある地域を特定する。 本稿では、最適化文献とF16ベンチマーク問題から標準ベンチマーク関数へのアプローチの適用性を示す。

Requirements driven search-based testing (also known as falsification) has proven to be a practical and effective method for discovering erroneous behaviors in Cyber-Physical Systems. Despite the constant improvements on the performance and applicability of falsification methods, they all share a common characteristic. Namely, they are best-effort methods which do not provide any guarantees on the absence of erroneous behaviors (falsifiers) when the testing budget is exhausted. The absence of finite time guarantees is a major limitation which prevents falsification methods from being utilized in certification procedures. In this paper, we address the finite-time guarantees problem by developing a new stochastic algorithm. Our proposed algorithm not only estimates (bounds) the probability that falsifying behaviors exist, but also it identifies the regions where these falsifying behaviors may occur. We demonstrate the applicability of our approach on standard benchmark functions from the optimization literature and on the F16 benchmark problem.
翻訳日:2021-10-23 15:06:00 公開日:2021-10-20
# (参考訳) クラスインクリメンタルなオンラインストリーミング学習 [全文訳有]

Class Incremental Online Streaming Learning ( http://arxiv.org/abs/2110.10741v1 )

ライセンス: CC BY 4.0
Soumya Banerjee, Vinay Kumar Verma, Toufiq Parag, Maneesh Singh, Vinay P. Namboodiri(参考訳) 従来のディープニューラルネットワークにおいて、生涯学習を可能にする様々な方法が開発されている。 しかし、成功させるためには、サンプルの‘バッチ’を入手し、トレーニング中に何度も訪問する必要がある。 これは静的な環境ではうまく機能するが、これらのメソッドは \emph{online streaming manner} でデータが到着するより現実的な状況に苦しむ。 入力が以下の制限付きデータのストリームとして取得された場合、現在のアプローチのパフォーマンスは劣化するということを実証的に実証する。 (i)$ 各インスタンスは一度に1つずつ現れ、一度だけ見ることができ、$ (ii) 入力データがi.i.dの仮定に違反している場合、すなわちクラスベースの相関が存在する。 本稿では,これらの課題に対処するために,‘emph{online streaming set}’におけるクラスインクリメンタル学習のための新しいアプローチ(CIOSL)を提案する。 提案手法は暗黙的かつ明示的な二重重み正規化と経験リプレイを活用する。 暗黙の正則化は知識蒸留によって利用され、明示的な正則化はバッファリプレイと現在のサンプルの共分散を学習することでパラメータ正則化の新しいアプローチを取り入れている。 また,モデルの性能を著しく向上させる効率的なオンラインメモリ再生および置換バッファ戦略を提案する。 挑戦的データセットに対する大規模な実験とアブレーションは,提案手法の有効性を示す。

A wide variety of methods have been developed to enable lifelong learning in conventional deep neural networks. However, to succeed, these methods require a `batch' of samples to be available and visited multiple times during training. While this works well in a static setting, these methods continue to suffer in a more realistic situation where data arrives in \emph{online streaming manner}. We empirically demonstrate that the performance of current approaches degrades if the input is obtained as a stream of data with the following restrictions: $(i)$ each instance comes one at a time and can be seen only once, and $(ii)$ the input data violates the i.i.d assumption, i.e., there can be a class-based correlation. We propose a novel approach (CIOSL) for the class-incremental learning in an \emph{online streaming setting} to address these challenges. The proposed approach leverages implicit and explicit dual weight regularization and experience replay. The implicit regularization is leveraged via the knowledge distillation, while the explicit regularization incorporates a novel approach for parameter regularization by learning the joint distribution of the buffer replay and the current sample. Also, we propose an efficient online memory replay and replacement buffer strategy that significantly boosts the model's performance. Extensive experiments and ablation on challenging datasets show the efficacy of the proposed method.
翻訳日:2021-10-23 14:32:19 公開日:2021-10-20
# (参考訳) 平均より優れている:nlpシステムのペア化評価 [全文訳有]

Better than Average: Paired Evaluation of NLP Systems ( http://arxiv.org/abs/2110.10746v1 )

ライセンス: CC BY 4.0
Maxime Peyrard, Wei Zhao, Steffen Eger, Robert West(参考訳) NLPの評価は通常、テストインスタンスの共通セットに対して独立に平均された競合システムのスコアを比較することで行われる。 そこで本研究では,評価スコアの集計に平均値を使うことを疑問視する。平均値や中央値などの代替案は,同じテストインスタンスでシステムが評価されるという事実から生じるペアリングを無視しているため,どのシステムが最適かを決定するのに使用される最終数に平均値を用いる。 評価スコアのインスタンスレベルでのペアリングを考慮に入れ、理論上および経験上、テストセットにおいて与えられたシステムが他のシステムよりも優れたスコアを推定する確率に基づくメカニズムであるbradley-terry (bt) モデルのようなペア比較に基づく集約法の利点を実証することの重要性を示す。 4つのタスクと18つの評価指標にまたがって296個の実NLP評価設定を再評価することにより、集約機構の選択が重要であり、どのシステムが技術の現状であるかを約30%で異なる結論を得ることを示す。 平均, 中央値, BT, 2種類のBT(EloとTrueSkill)を用いて評価スコアの完全な分析を行うための実用的ツールを, 適切な統計的検査のための機能とともにリリースする。

Evaluation in NLP is usually done by comparing the scores of competing systems independently averaged over a common set of test instances. In this work, we question the use of averages for aggregating evaluation scores into a final number used to decide which system is best, since the average, as well as alternatives such as the median, ignores the pairing arising from the fact that systems are evaluated on the same test instances. We illustrate the importance of taking the instance-level pairing of evaluation scores into account and demonstrate, both theoretically and empirically, the advantages of aggregation methods based on pairwise comparisons, such as the Bradley-Terry (BT) model, a mechanism based on the estimated probability that a given system scores better than another on the test set. By re-evaluating 296 real NLP evaluation setups across four tasks and 18 evaluation metrics, we show that the choice of aggregation mechanism matters and yields different conclusions as to which systems are state of the art in about 30% of the setups. To facilitate the adoption of pairwise evaluation, we release a practical tool for performing the full analysis of evaluation scores with the mean, median, BT, and two variants of BT (Elo and TrueSkill), alongside functionality for appropriate statistical testing.
翻訳日:2021-10-23 14:08:35 公開日:2021-10-20
# (参考訳) 確率的ODE解法のためのピック・アンド・ミクス情報演算子 [全文訳有]

Pick-and-Mix Information Operators for Probabilistic ODE Solvers ( http://arxiv.org/abs/2110.10770v1 )

ライセンス: CC BY 4.0
Nathanael Bosch, Filip Tronarp, Philipp Hennig(参考訳) 常微分方程式に対する確率的数値解法は、ベイズ推論による初期値問題の解上の後続分布を計算する。 本稿では,それらの確率的定式化を生かして,追加情報を一般の確率項としてシームレスに含む。 問題を一階に変換するのではなく, 2階微分方程式を解法に直接提供すべきであることを示す。 さらに、高次情報や物理保存則をモデルに含めることで、解はより正確で物理的に有意義になる。 最後に,微分代数方程式を解いたフレキシブル情報演算子の有用性を示す。 結論として、数値解法の確率的定式化は、様々な種類の情報を取り込む柔軟な方法を提供し、結果として得られる解を改善する。

Probabilistic numerical solvers for ordinary differential equations compute posterior distributions over the solution of an initial value problem via Bayesian inference. In this paper, we leverage their probabilistic formulation to seamlessly include additional information as general likelihood terms. We show that second-order differential equations should be directly provided to the solver, instead of transforming the problem to first order. Additionally, by including higher-order information or physical conservation laws in the model, solutions become more accurate and more physically meaningful. Lastly, we demonstrate the utility of flexible information operators by solving differential-algebra ic equations. In conclusion, the probabilistic formulation of numerical solvers offers a flexible way to incorporate various types of information, thus improving the resulting solutions.
翻訳日:2021-10-23 13:46:02 公開日:2021-10-20
# (参考訳) SciXGen:コンテキスト対応テキスト生成のための科学論文データセット [全文訳有]

SciXGen: A Scientific Paper Dataset for Context-Aware Text Generation ( http://arxiv.org/abs/2110.10774v1 )

ライセンス: CC BY 4.0
Hong Chen, Hiroya Takamura, Hideki Nakayama(参考訳) 科学論文中のテキストを生成するには、入力に含まれるコンテンツをキャプチャするだけでなく、しばしば \textit{context} と呼ばれる外部情報を取得する必要がある。 我々は,新しいタスクである \textbf{context-aware text generation} を科学領域で提案することで,文脈の寄与を活用し,科学的テキスト生成を推進する。 そこで本稿では,conte\textbf{x}t-aware text \textbf{gen}eration (scixgen) に対して,広く使用されているオブジェクト (例えば表,図形,アルゴリズム) への完全な参照を持つ205,304枚の注釈付き論文からなる,大規模に挑戦的な論文データセットを提案する。 我々は,最新の技術を用いて,新たに構築したscixgenデータセットによる記述と段落生成の有効性を総合的にベンチマークした。 私たちのデータセットとベンチマークは、科学的なテキスト生成研究を促進するために公開されます。

Generating texts in scientific papers requires not only capturing the content contained within the given input but also frequently acquiring the external information called \textit{context}. We push forward the scientific text generation by proposing a new task, namely \textbf{context-aware text generation} in the scientific domain, aiming at exploiting the contributions of context in generated texts. To this end, we present a novel challenging large-scale \textbf{Sci}entific Paper Dataset for Conte\textbf{X}t-Aware Text \textbf{Gen}eration (SciXGen), consisting of well-annotated 205,304 papers with full references to widely-used objects (e.g., tables, figures, algorithms) in a paper. We comprehensively benchmark, using state-of-the-arts, the efficacy of our newly constructed SciXGen dataset in generating description and paragraph. Our dataset and benchmarks will be made publicly available to hopefully facilitate the scientific text generation research.
翻訳日:2021-10-23 13:28:11 公開日:2021-10-20
# (参考訳) EHRに基づく臨床研究のためのオープン自然言語処理開発フレームワーク:National COVID Cohort Collaborative (N3C)を用いた事例 [全文訳有]

An Open Natural Language Processing Development Framework for EHR-based Clinical Research: A case demonstration using the National COVID Cohort Collaborative (N3C) ( http://arxiv.org/abs/2110.10780v1 )

ライセンス: CC BY 4.0
Sijia Liu, Andrew Wen, Liwei Wang, Huan He, Sunyang Fu, Robert Miller, Andrew Williams, Daniel Harris, Ramakanth Kavuluru, Mei Liu, Noor Abu-el-rub, Rui Zhang, John D. Osborne, Masoud Rouhizadeh, Yongqun He, Emily Pfaff, Christopher G. Chute, Tim Duong, Melissa A. Haendel, Rafael Fuentes, Peter Szolovits, Hua Xu, Hongfang Liu (N3C Natural Language Processing (NLP) Subgroup)(参考訳) 臨床自然言語処理(NLP)の最近の進歩に留意しながらも, 透明性, 解釈可能性, ユーザビリティの制限により, 臨床・翻訳研究コミュニティのNLPモデル導入に対する抵抗性に気付くことができる。 本研究では,N3C(National COVID Cohort Collaborative)のためのNLPアルゴリズムの実装を通じて,オープンな自然言語処理開発フレームワークを提案し,評価を行った。 新型コロナウイルス関連臨床ノートからの情報抽出の関心に基づいて,本研究は本研究を含む。 1) 症例として、新型コロナウイルスの徴候及び症状を用いたオープンデータアノテーションプロセス。 2)コミュニティ主導のルールセット作成プラットフォーム、及び 3)人体を介さずに情報抽出タスクのためのテキストを生成する合成テキストデータ生成ワークフロー。 複数の直観から得られたテキストと金標準アノテーションから生成されたコーパスを、1つの機関のルールセットでテストし、それぞれF1スコア0.876、0.706、0.694の成績を有する。 N3C NLPサブグループのコンソーシアムとしてのこの研究は、多施設NLP研究を強化するために、フェデレーションNLPアルゴリズムの開発とベンチマークプラットフォームを作成する可能性を示している。

While we pay attention to the latest advances in clinical natural language processing (NLP), we can notice some resistance in the clinical and translational research community to adopt NLP models due to limited transparency, Interpretability and usability. Built upon our previous work, in this study, we proposed an open natural language processing development framework and evaluated it through the implementation of NLP algorithms for the National COVID Cohort Collaborative (N3C). Based on the interests in information extraction from COVID-19 related clinical notes, our work includes 1) an open data annotation process using COVID-19 signs and symptoms as the use case, 2) a community-driven ruleset composing platform, and 3) a synthetic text data generation workflow to generate texts for information extraction tasks without involving human subjects. The generated corpora derived out of the texts from multiple intuitions and gold standard annotation are tested on a single institution's rule set has the performances in F1 score of 0.876, 0.706 and 0.694, respectively. The study as a consortium effort of the N3C NLP subgroup demonstrates the feasibility of creating a federated NLP algorithm development and benchmarking platform to enhance multi-institution clinical NLP study.
翻訳日:2021-10-23 13:14:16 公開日:2021-10-20
# (参考訳) ベイズ予測動的モデルに対する逆攻撃 [全文訳有]

Adversarial attacks against Bayesian forecasting dynamic models ( http://arxiv.org/abs/2110.10783v1 )

ライセンス: CC BY 4.0
Roi Naveiro(参考訳) 過去10年で、Adversarial Machine Learning (AML)が台頭した。 この規律は、データを不正な推論エンジンに操作する方法と、そのような操作攻撃からシステムを保護する方法を研究する。 回帰システムと分類システムに対する攻撃に関する広範な研究は利用可能であるが、時系列予測システムへの攻撃にはほとんど注意が払われていない。 本稿では,ベイズ予測動的モデルに対して活用可能な決定分析に基づく攻撃戦略を提案する。

The last decade has seen the rise of Adversarial Machine Learning (AML). This discipline studies how to manipulate data to fool inference engines, and how to protect those systems against such manipulation attacks. Extensive work on attacks against regression and classification systems is available, while little attention has been paid to attacks against time series forecasting systems. In this paper, we propose a decision analysis based attacking strategy that could be utilized against Bayesian forecasting dynamic models.
翻訳日:2021-10-23 13:03:20 公開日:2021-10-20
# (参考訳) 人間中心型説明可能なAI(XAI):アルゴリズムからユーザエクスペリエンスへ [全文訳有]

Human-Centered Explainable AI (XAI): From Algorithms to User Experiences ( http://arxiv.org/abs/2110.10790v1 )

ライセンス: CC BY 4.0
Q. Vera Liao, Kush R. Varshney(参考訳) 人工知能(AI)の技術的サブフィールドとして、説明可能なAI(XAI)は近年、膨大な数のアルゴリズムを生み出している。 しかし、説明可能性は本質的に人間中心の性質であり、分野は学際的視点と人間中心的アプローチを受け入れ始めている。 研究者や実践者がXAIアルゴリズムを活用してXAIアプリケーションを構築し始めるにつれ、説明容易性は、開発中のモデルを理解するためのデータサイエンティストや研究者の要求を超えて、多くのドメインにデプロイされたAIを信頼し、採用するための必須要件となっている。 この領域におけるヒューマン・コンピュータ・インタラクション(HCI)の研究とユーザ・エクスペリエンス(UX)の設計はますます重要になっている。 本章では,XAIアルゴリズムの技術的展望を概観し,人間中心のアプローチでXAIの設計,評価,概念的,方法論的なツールを提供するHCIの最近の研究を選択的に調査する。 我々は,「XAIにとって人間中心のアプローチは何か」という問いに対して,XAI技術を形成する上で果たすべき役割を3つ挙げる。ユーザの説明可能性のニーズを理解することによって技術的選択を推進し,実証的研究を通じて既存のXAI手法の落とし穴を解き,新しい方法を通知し,人と互換性のあるXAIの概念的なフレームワークを提供する。

As a technical sub-field of artificial intelligence (AI), explainable AI (XAI) has produced a vast collection of algorithms in recent years. However, explainability is an inherently human-centric property and the field is starting to embrace inter-disciplinary perspectives and human-centered approaches. As researchers and practitioners begin to leverage XAI algorithms to build XAI applications, explainability has moved beyond a demand by data scientists or researchers to comprehend the models they are developing, to become an essential requirement for people to trust and adopt AI deployed in numerous domains. Human-computer interaction (HCI) research and user experience (UX) design in this area are therefore increasingly important. In this chapter, we begin with a high-level overview of the technical landscape of XAI algorithms, then selectively survey recent HCI work that takes human-centered approaches to design, evaluate, provide conceptual and methodological tools for XAI. We ask the question "what are human-centered approaches doing for XAI" and highlight three roles that they should play in shaping XAI technologies: to drive technical choices by understanding users' explainability needs, to uncover pitfalls of existing XAI methods through empirical studies and inform new methods, and to provide conceptual frameworks for human-compatible XAI.
翻訳日:2021-10-23 12:56:04 公開日:2021-10-20
# (参考訳) スパース復号による識別可能な変分オートエンコーダ [全文訳有]

Identifiable Variational Autoencoders via Sparse Decoding ( http://arxiv.org/abs/2110.10804v1 )

ライセンス: CC BY 4.0
Gemma E. Moran, Dhanya Sridhar, Yixin Wang and David M. Blei(参考訳) 高次元データに基づく教師なし表現学習のための深層生成モデルであるSparse VAEを開発した。 観測のデータセットが与えられた後、Sparse VAEは、その分布を捉える潜在因子のセットを学ぶ。 このモデルはデータセットの各特徴(つまり各次元)が潜在因子の小さな部分集合に依存するという意味では疎い。 例えば、格付けデータでは、各映画はいくつかのジャンルでのみ記述され、テキストデータでは、各単語は、いくつかのトピックにのみ適用され、ゲノム学では、各遺伝子は、いくつかの生物学的プロセスでのみ活性する。 まず、Sparse VAEが識別可能であることを示し、モデルから引き出されたデータを考えると、一意に最適な要素の集合が存在する。 (対照的に、ほとんどのVAEベースのモデルは識別できない) スパース・ベイ(sparse-vae)の識別可能性の背後にある重要な仮定は、"アンカー特徴(anchor features)"の存在である。 重要なのは、アンカー機能は事前に知る必要がないことだ。 次に、Sparse VAEと変分EMの適合方法を示す。 最後に、シミュレーションデータと実データの両方を用いてSparse VAEを実証研究する。 その結果,有意な潜伏因子を回復し,関連する手法よりもホールドアウト復元誤差が小さいことがわかった。

We develop the Sparse VAE, a deep generative model for unsupervised representation learning on high-dimensional data. Given a dataset of observations, the Sparse VAE learns a set of latent factors that captures its distribution. The model is sparse in the sense that each feature of the dataset (i.e., each dimension) depends on a small subset of the latent factors. As examples, in ratings data each movie is only described by a few genres; in text data each word is only applicable to a few topics; in genomics, each gene is active in only a few biological processes. We first show that the Sparse VAE is identifiable: given data drawn from the model, there exists a uniquely optimal set of factors. (In contrast, most VAE-based models are not identifiable.) The key assumption behind Sparse-VAE identifiability is the existence of "anchor features", where for each factor there exists a feature that depends only on that factor. Importantly, the anchor features do not need to be known in advance. We then show how to fit the Sparse VAE with variational EM. Finally, we empirically study the Sparse VAE with both simulated and real data. We find that it recovers meaningful latent factors and has smaller heldout reconstruction error than related methods.
翻訳日:2021-10-23 12:34:54 公開日:2021-10-20
# (参考訳) 限定データを用いたテキスト型人物検索 [全文訳有]

Text-Based Person Search with Limited Data ( http://arxiv.org/abs/2110.10807v1 )

ライセンス: CC BY 4.0
Xiao Han, Sen He, Li Zhang, Tao Xiang(参考訳) テキストベースの人物検索(TBPS)は、画像ギャラリーから対象人物を記述的なテキストクエリで検索することを目的としている。 このようなきめ細かいクロスモーダル検索タスクの解決は困難であり、大規模なデータセットの欠如によりさらに妨げられる。 本稿では,制限データによる問題に対処する2つの新しいコンポーネントを持つフレームワークを提案する。 まず、既存の小規模ベンチマークデータセットを、より識別的な特徴学習に活用するために、与えられたミニバッチのトレーニングデータを豊かにするクロスモーダルモメンタムコントラスト学習フレームワークを提案する。 第2に,TBPSトレーニングデータの欠如を補うために,画像テキストペアを含む既存の粗大な大規模データセットから学習した知識の伝達を提案する。 ドメインギャップが大きいにもかかわらず有用な情報を伝達できるように転写学習法を設計する。 これらのコンポーネントを組み込んだ本手法は,rank-1 と map に関して,先行技術よりも大幅に改良された cuhk-pedes データセットの新たな最先端技術を実現する。 私たちのコードはhttps://github.com/B randonHanx/TextReIDで利用可能です。

Text-based person search (TBPS) aims at retrieving a target person from an image gallery with a descriptive text query. Solving such a fine-grained cross-modal retrieval task is challenging, which is further hampered by the lack of large-scale datasets. In this paper, we present a framework with two novel components to handle the problems brought by limited data. Firstly, to fully utilize the existing small-scale benchmarking datasets for more discriminative feature learning, we introduce a cross-modal momentum contrastive learning framework to enrich the training data for a given mini-batch. Secondly, we propose to transfer knowledge learned from existing coarse-grained large-scale datasets containing image-text pairs from drastically different problem domains to compensate for the lack of TBPS training data. A transfer learning method is designed so that useful information can be transferred despite the large domain gap. Armed with these components, our method achieves new state of the art on the CUHK-PEDES dataset with significant improvements over the prior art in terms of Rank-1 and mAP. Our code is available at https://github.com/B randonHanx/TextReID.
翻訳日:2021-10-23 12:11:47 公開日:2021-10-20
# (参考訳) 効率的な探索のための階層的スキル [全文訳有]

Hierarchical Skills for Efficient Exploration ( http://arxiv.org/abs/2110.10809v1 )

ライセンス: CC BY 4.0
Jonas Gehring, Gabriel Synnaeve, Andreas Krause, Nicolas Usunier(参考訳) 強化学習において、事前訓練された低レベルスキルは、探索を大いに促進する可能性がある。 しかし、下流タスクの事前知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。 前回の継続的制御に関する作業では、locomotionが最も関心を寄せていたナビゲーションタスクの優先事項であるため、このトレードオフに対するメソッドの感度は明確には解決されていない。 本研究では,二足歩行ロボットのための多様で疎いタスクからなる新しいベンチマークスイートを用いて,低レベルの政策事前学習におけるこのトレードオフを分析した。 様々な複雑性のスキルを教師なしの方法で習得する階層的スキル学習フレームワークを提案することにより,事前知識の必要性を軽減する。 ダウンストリームタスクの活用のために,各タスクが必要とする一般的なスキルと特定のスキルを自動的にトレードオフする3層階層学習アルゴリズムを提案する。 本実験では, このトレードオフを効果的に実現し, エンドツーエンドの階層的強化学習と教師なしスキル発見の最先端手法よりも優れた結果が得られることを示す。 コードとビデオはhttps://facebookrese arch.github.io/hsd3で入手できる。

In reinforcement learning, pre-trained low-level skills have the potential to greatly facilitate exploration. However, prior knowledge of the downstream task is required to strike the right balance between generality (fine-grained control) and specificity (faster learning) in skill design. In previous work on continuous control, the sensitivity of methods to this trade-off has not been addressed explicitly, as locomotion provides a suitable prior for navigation tasks, which have been of foremost interest. In this work, we analyze this trade-off for low-level policy pre-training with a new benchmark suite of diverse, sparse-reward tasks for bipedal robots. We alleviate the need for prior knowledge by proposing a hierarchical skill learning framework that acquires skills of varying complexity in an unsupervised manner. For utilization on downstream tasks, we present a three-layered hierarchical learning algorithm to automatically trade off between general and specific skills as required by the respective task. In our experiments, we show that our approach performs this trade-off effectively and achieves better results than current state-of-the-art methods for end- to-end hierarchical reinforcement learning and unsupervised skill discovery. Code and videos are available at https://facebookrese arch.github.io/hsd3 .
翻訳日:2021-10-23 11:50:49 公開日:2021-10-20
# (参考訳) HALP:ハードウェア対応のレイテンシ・プルーニング [全文訳有]

HALP: Hardware-Aware Latency Pruning ( http://arxiv.org/abs/2110.10811v1 )

ライセンス: CC BY 4.0
Maying Shen, Hongxu Yin, Pavlo Molchanov, Lei Mao, Jianna Liu, Jose M. Alvarez(参考訳) 構造解析はネットワークアーキテクチャを単純化し、推論速度を改善する。 本稿では,事前定義された予算内でレイテンシを制約しながら精度を最大化することを目的とした,グローバルリソース割り当て最適化問題として構造的プルーニングを定式化するハードウェア・アウェア・レイテンシ・プルーニング(halp)を提案する。 フィルタ重要度ランキングにおいて、HALPはレイテンシー検索テーブルを利用してレイテンシー低減ポテンシャルとグローバルサリエンシスコアを追跡し、精度低下を測定する。 どちらの指標もプルーニング中に非常に効率的に評価でき、ターゲット制約が与えられた報酬最大化問題の下でグローバル構造プルーニングを再構成できる。 これにより、拡張knapsackソルバによる問題解決が可能となり、HALPは、有効性と精度-効率トレードオフの事前の作業を上回ることができる。 本稿では,分類タスクと検出タスク,さまざまなネットワーク上でのHALPを,ImageNetおよびVOCデータセット上で検討する。 特にimagenetのresnet-50/-101プルーニングでは、halpはネットワークスループットを$.60\times$/$1.90\ti mes$で$+0.3\%$/$-0.2\%$ top-1で改善する。 VOC上でのSSDプルーニングでは、HALPは1.94\times$を0.56$ mAPドロップで改善している。 HALPは、しばしば大きなマージンで、常に先行技術より優れている。

Structural pruning can simplify network architecture and improve inference speed. We propose Hardware-Aware Latency Pruning (HALP) that formulates structural pruning as a global resource allocation optimization problem, aiming at maximizing the accuracy while constraining latency under a predefined budget. For filter importance ranking, HALP leverages latency lookup table to track latency reduction potential and global saliency score to gauge accuracy drop. Both metrics can be evaluated very efficiently during pruning, allowing us to reformulate global structural pruning under a reward maximization problem given target constraint. This makes the problem solvable via our augmented knapsack solver, enabling HALP to surpass prior work in pruning efficacy and accuracy-efficiency trade-off. We examine HALP on both classification and detection tasks, over varying networks, on ImageNet and VOC datasets. In particular, for ResNet-50/-101 pruning on ImageNet, HALP improves network throughput by $1.60\times$/$1.90\t imes$ with $+0.3\%$/$-0.2\%$ top-1 accuracy changes, respectively. For SSD pruning on VOC, HALP improves throughput by $1.94\times$ with only a $0.56$ mAP drop. HALP consistently outperforms prior art, sometimes by large margins.
翻訳日:2021-10-23 11:21:02 公開日:2021-10-20
# (参考訳) cxr-net : 胸部x線画像を用いたcovid-19肺炎の診断と診断のためのエンコーダ・デコーダ・エンコーダ・マルチタスクディープニューラルネットワーク [全文訳有]

CXR-Net: An Encoder-Decoder-Enco der Multitask Deep Neural Network for Explainable and Accurate Diagnosis of COVID-19 pneumonia with Chest X-ray Images ( http://arxiv.org/abs/2110.10813v1 )

ライセンス: CC BY 4.0
Xin Zhang, Liangxiu Han, Tam Sobeih, Lianghao Han, Nina Dempsey, Symeon Lechareas, Ascanio Tridente, Haoming Chen, Stephen White(参考訳) 新型コロナウイルス肺炎の正確な迅速検出は最適な治療に不可欠である。 Chest X-Ray(CXR)は、新型コロナウイルスの肺炎診断のための最初の線画像検査である。 コンピュータビジョンにおけるディープラーニング(DL)の成功に触発された多くのDLモデルが、CXR画像を用いて新型コロナウイルス肺炎を検出するために提案されている。 残念ながら、これらの深層分類器は発見を解釈する透明性に欠けており、臨床における応用を制限する可能性がある。 既存の一般的な視覚的説明法はノイズが多いか不正確であり、解像度が低いため、診断には適さない。 本研究では,CXR画像からのピクセルレベルの視覚的説明を改良した,新型コロナウイルスの正確な肺炎検出のための新しい説明可能なディープラーニングフレームワーク(CXRNet)を提案する。 提案するフレームワークはEncoder-Decoder-Enco derマルチタスクアーキテクチャをベースにしており、病気の分類と視覚的説明が可能である。 本手法は, 健康, 細菌性肺炎, ウイルス性肺炎, COVID-19肺炎の患者を含む, 公共および民間のデータソースから得られた実世界のCXRデータセットを用いて評価され, 提案手法が良好な精度を達成でき, 肺疾患検出における視覚的説明のための詳細な分類アクティベーションマップを提供することを示す実験結果が得られた。 平均精度, 精度, リコール, F1スコアはそれぞれ0.879, 0.985, 0.992, 0.989であった。 また,肺分画(CXR)画像を用いることで,モデルの性能向上が期待できることがわかった。 提案手法は,現在の最先端の視覚的な説明法と比較して,分類決定のより詳細な高分解能な視覚的説明を提供することができ,新型コロナウイルスの診断に臨床応用の可能性も高い。

Accurate and rapid detection of COVID-19 pneumonia is crucial for optimal patient treatment. Chest X-Ray (CXR) is the first line imaging test for COVID-19 pneumonia diagnosis as it is fast, cheap and easily accessible. Inspired by the success of deep learning (DL) in computer vision, many DL-models have been proposed to detect COVID-19 pneumonia using CXR images. Unfortunately, these deep classifiers lack the transparency in interpreting findings, which may limit their applications in clinical practice. The existing commonly used visual explanation methods are either too noisy or imprecise, with low resolution, and hence are unsuitable for diagnostic purposes. In this work, we propose a novel explainable deep learning framework (CXRNet) for accurate COVID-19 pneumonia detection with an enhanced pixel-level visual explanation from CXR images. The proposed framework is based on a new Encoder-Decoder-Enco der multitask architecture, allowing for both disease classification and visual explanation. The method has been evaluated on real world CXR datasets from both public and private data sources, including: healthy, bacterial pneumonia, viral pneumonia and COVID-19 pneumonia cases The experimental results demonstrate that the proposed method can achieve a satisfactory level of accuracy and provide fine-resolution classification activation maps for visual explanation in lung disease detection. The Average Accuracy, the Precision, Recall and F1-score of COVID-19 pneumonia reached 0.879, 0.985, 0.992 and 0.989, respectively. We have also found that using lung segmented (CXR) images can help improve the performance of the model. The proposed method can provide more detailed high resolution visual explanation for the classification decision, compared to current state-of-the-art visual explanation methods and has a great potential to be used in clinical practice for COVID-19 pneumonia diagnosis.
翻訳日:2021-10-23 10:58:53 公開日:2021-10-20
# (参考訳) ディープ線形ネットワークにおけるフィードバックアライメントの収束解析と帰納規則化 [全文訳有]

Convergence Analysis and Implicit Regularization of Feedback Alignment for Deep Linear Networks ( http://arxiv.org/abs/2110.10815v1 )

ライセンス: CC BY 4.0
Manuela Girotti and Ioannis Mitliagkas and Gauthier Gidel(参考訳) ニューラルネットワークをトレーニングするためのバックプロパゲーションの効率的な代替手段であるフィードバックアライメント(fa)アルゴリズムを理論的に解析した。 我々は,連続ダイナミクスと離散ダイナミクスの両方に対して,ディープリニアネットワークのレートを伴う収束保証を提供する。 さらに,浅い線形ネットワークに対する漸進学習現象について検討した。 興味深いことに、特定の特定の初期化は、無視可能な成分が主成分よりも先に学習されることを暗黙の反正則化として分類する現象である。 また,課題の構成要素が重要度を減らして概ね学習される初期化スキームも提供し,暗黙の正則化の形式を提供する。

We theoretically analyze the Feedback Alignment (FA) algorithm, an efficient alternative to backpropagation for training neural networks. We provide convergence guarantees with rates for deep linear networks for both continuous and discrete dynamics. Additionally, we study incremental learning phenomena for shallow linear networks. Interestingly, certain specific initializations imply that negligible components are learned before the principal ones, thus potentially negatively affecting the effectiveness of such a learning algorithm; a phenomenon we classify as implicit anti-regularization. We also provide initialization schemes where the components of the problem are approximately learned by decreasing order of importance, thus providing a form of implicit regularization.
翻訳日:2021-10-23 10:33:35 公開日:2021-10-20
# PET画像における人工知能による検出・分類・予測・予後:ラジオフェノミクスに向けて

Artificial Intelligence-Based Detection, Classification and Prediction/Prognosis in PET Imaging: Towards Radiophenomics ( http://arxiv.org/abs/2110.10332v1 )

ライセンス: Link先を確認
Fereshteh Yousefirizi, Pierre Decasez, Amine Amyar, Su Ruan, Babak Saboury, Arman Rahmim(参考訳) 人工知能(AI)技術は、微妙なパターンの識別を含む、効果的で堅牢で自動化された画像表現を可能にする大きな可能性を秘めている。 AIベースの検出は、画像空間を検索して、パターンや特徴に基づいて関心のある領域を見つける。 良性から悪性まで腫瘍組織学のスペクトルがあり、画像特徴を用いたAIベースの分類アプローチによって同定できる。 画像から縮小可能な情報を抽出することは、放射能の分野に道を譲り、明示的(手作り/工学的)と深い放射能の枠組みを通して探究することができる。 放射線分析は、診断および治療モニタリングを改善するために、腫瘍の正確な評価のための非侵襲的手法として利用される可能性がある。 この研究はAIベースのテクニックをレビューし、特に腫瘍学的なPETとPET/CTイメージングに焦点を当て、異なる検出、分類、予測/予後タスクに焦点をあてている。 また、日常的な臨床ワークフローにAI技術の翻訳を可能にするために必要な取り組みや、電子健康記録やニューロシンボリックAI技術における自然言語処理の使用など、潜在的な改善と補完技術についても論じる。

Artificial intelligence (AI) techniques have significant potential to enable effective, robust, and automated image phenotyping including identification of subtle patterns. AI-based detection searches the image space to find the regions of interest based on patterns and features. There is a spectrum of tumor histologies from benign to malignant that can be identified by AI-based classification approaches using image features. The extraction of minable information from images gives way to the field of radiomics and can be explored via explicit (handcrafted/enginee red) and deep radiomics frameworks. Radiomics analysis has the potential to be utilized as a noninvasive technique for the accurate characterization of tumors to improve diagnosis and treatment monitoring. This work reviews AI-based techniques, with a special focus on oncological PET and PET/CT imaging, for different detection, classification, and prediction/prognosis tasks. We also discuss needed efforts to enable the translation of AI techniques to routine clinical workflows, and potential improvements and complementary techniques such as the use of natural language processing on electronic health records and neuro-symbolic AI techniques.
翻訳日:2021-10-22 18:47:09 公開日:2021-10-20
# トリプルト学習による深部クラウド正規化推定

Deep Point Cloud Normal Estimation via Triplet Learning ( http://arxiv.org/abs/2110.10494v1 )

ライセンス: Link先を確認
Weijia Wang, Xuequan Lu, Dasith de Silva Edirimuni, Xiao Liu, Antonio Robles-Kelly(参考訳) 3Dポイントクラウドの正規推定は、3Dビジョンとグラフィックスの基本的な問題である。 現在の手法では、シャープな特徴(例えば、エッジやコーナー)で正常を予測できる精度が限られており、ノイズに対する堅牢性が低い。 本稿では,点群に対する新しい正規推定法を提案する。 2つの段階からなる。 (a)局所パッチの表現を学習する特徴符号化、及び b) 学習した表現を入力として取り、正規ベクトルを回帰する正規推定。 等方性面と異方性面の局所パッチは、類似または異なる正規性を持ち、分離可能な特徴や表現が通常の推定を容易にするために学習できることを動機としている。 これを実現するため、我々はまず3dポイントクラウドデータにトリプレットのローカルパッチを作成し、特徴エンコーディングのためにトリプレットロスを持つトリプレットネットワークを設計する。 次に、複数のMLPと損失関数を持つ単純なネットワークを設計し、通常のベクトルを回帰する。 他の手法に比べてネットワークサイズは小さいが,本手法は鋭い特徴を保ち,cad形状の正常な推定結果が得られることを示した。

Normal estimation on 3D point clouds is a fundamental problem in 3D vision and graphics. Current methods often show limited accuracy in predicting normals at sharp features (e.g., edges and corners) and less robustness to noise. In this paper, we propose a novel normal estimation method for point clouds. It consists of two phases: (a) feature encoding which learns representations of local patches, and (b) normal estimation that takes the learned representation as input and regresses the normal vector. We are motivated that local patches on isotropic and anisotropic surfaces have similar or distinct normals, and that separable features or representations can be learned to facilitate normal estimation. To realise this, we first construct triplets of local patches on 3D point cloud data, and design a triplet network with a triplet loss for feature encoding. We then design a simple network with several MLPs and a loss function to regress the normal vector. Despite having a smaller network size compared to most other methods, experimental results show that our method preserves sharp features and achieves better normal estimation results on CAD-like shapes.
翻訳日:2021-10-22 18:46:48 公開日:2021-10-20
# 異なるV1脳モデル変数を組み合わせてCNNにおける画像破壊に対するロバスト性を改善する

Combining Different V1 Brain Model Variants to Improve Robustness to Image Corruptions in CNNs ( http://arxiv.org/abs/2110.10645v1 )

ライセンス: Link先を確認
Avinash Baidya, Joel Dapello, James J. DiCarlo, Tiago Marques(参考訳) いくつかの畳み込みニューラルネットワーク(CNN)は、オブジェクト分類において人間の視覚能力を超えたが、異なる種類の共通のノイズパターンで劣化した画像内のオブジェクトを認識するのに苦労し、このモデルのファミリーの大きな制限を強調している。 近年、cnnの前面で一次視覚野(v1)をシミュレートすることで、これらの画像の摂動に対するロバスト性が小さいことが示されている。 本研究は,V1モデルの異なる変種が,特定の汚損タイプに対して利得を示すという観察から始める。 次に、複数の個別モデルと異なるV1フロントエンドモデルを組み合わせたアンサンブル手法を用いて、新しいモデルを構築する。 モデルアンサンブルは個々のモデルの強みを活用し、すべての汚職カテゴリにおけるロバスト性を大幅に改善し、ベースモデルを平均で38%上回る結果となった。 最後に, 蒸留により, アンサンブルモデルの知識を, V1フロントエンドを持つ単一モデルに部分的に圧縮することができることを示す。 ここで用いられるセンシング技術や蒸留技術は生物学的に評価できないが、v1における異なるニューロン回路の特定の強度を組み合わせることで、広範囲の摂動に対するcnnの堅牢性を向上させることが可能である。

While some convolutional neural networks (CNNs) have surpassed human visual abilities in object classification, they often struggle to recognize objects in images corrupted with different types of common noise patterns, highlighting a major limitation of this family of models. Recently, it has been shown that simulating a primary visual cortex (V1) at the front of CNNs leads to small improvements in robustness to these image perturbations. In this study, we start with the observation that different variants of the V1 model show gains for specific corruption types. We then build a new model using an ensembling technique, which combines multiple individual models with different V1 front-end variants. The model ensemble leverages the strengths of each individual model, leading to significant improvements in robustness across all corruption categories and outperforming the base model by 38% on average. Finally, we show that using distillation, it is possible to partially compress the knowledge in the ensemble model into a single model with a V1 front-end. While the ensembling and distillation techniques used here are hardly biologically-plausib le, the results presented here demonstrate that by combining the specific strengths of different neuronal circuits in V1 it is possible to improve the robustness of CNNs for a wide range of perturbations.
翻訳日:2021-10-22 18:46:28 公開日:2021-10-20
# Triggered Attention-based Streaming ASRにおけるCTCモデルの強化に関する検討

An Investigation of Enhancing CTC Model for Triggered Attention-based Streaming ASR ( http://arxiv.org/abs/2110.10402v1 )

ライセンス: Link先を確認
Huaibo Zhao, Yosuke Higuchi, Tetsuji Ogawa, Tetsunori Kobayashi(参考訳) 本稿では,マスクctcとトリガーアテンション機構を組み合わせて,低レイテンシで高性能なasr(streaming end-to-end automatic speech recognition)システムを構築する試みを行う。 CTCスパイクによって引き起こされる自己回帰復号を行う誘導アテンション機構は、ASRのストリーミングに有効であることが示されている。 しかし、その性能の鍵となるctc出力に基づくアライメント推定の高精度性を維持するためには、将来的な情報入力(すなわち、高いレイテンシで)でデコードを行うことは避けられない。 ストリーミングASRでは、レイテンシを低く保ちながら高い認識精度を達成することが望ましい点に注意が必要だ。 そこで本研究では,将来情報(すなわち,長期的文脈を考慮できる)をエンコーダ事前学習に期待する特徴表現を学習できるマスクctcを導入することで,低レイテンシで高精度なストリーミングasrを実現することを目的としている。 WSJデータを用いて行った実験結果から,提案手法は従来のトリガアテンションベースストリーミングASRシステムよりも低レイテンシで高い精度を実現することが示された。

In the present paper, an attempt is made to combine Mask-CTC and the triggered attention mechanism to construct a streaming end-to-end automatic speech recognition (ASR) system that provides high performance with low latency. The triggered attention mechanism, which performs autoregressive decoding triggered by the CTC spike, has shown to be effective in streaming ASR. However, in order to maintain high accuracy of alignment estimation based on CTC outputs, which is the key to its performance, it is inevitable that decoding should be performed with some future information input (i.e., with higher latency). It should be noted that in streaming ASR, it is desirable to be able to achieve high recognition accuracy while keeping the latency low. Therefore, the present study aims to achieve highly accurate streaming ASR with low latency by introducing Mask-CTC, which is capable of learning feature representations that anticipate future information (i.e., that can consider long-term contexts), to the encoder pre-training. Experimental comparisons conducted using WSJ data demonstrate that the proposed method achieves higher accuracy with lower latency than the conventional triggered attention-based streaming ASR system.
翻訳日:2021-10-22 18:44:20 公開日:2021-10-20
# デューティ比マッピングによるdc-dc buckコンバータ制御の強化学習:シミュレーションから実装へ

Transferring Reinforcement Learning for DC-DC Buck Converter Control via Duty Ratio Mapping: From Simulation to Implementation ( http://arxiv.org/abs/2110.10490v1 )

ライセンス: Link先を確認
Chenggang Cui, Tianxiao Yang, Yuxuan Dai, Chuanlin Zhang(参考訳) 電力エレクトロニクスシステムへの応用による強化学習(RL)制御アプローチは新たな話題となっているが、シム・トゥ・リアル問題はまだ問題であり、文献にはほとんど言及できない。 実際、シミュレーションモデルと実生活システムとの必然的なミスマッチのため、オフラインで訓練されたRL制御戦略は、転送手順の実践において予期せぬハードルを負う可能性がある。 本論文の主な貢献として,DC-DCバックコンバータにおいて,デリケートに設計されたデューティ比マッピング(DRM)を用いた転送手法を提案する。 そして、モデルフリー深部強化学習(DRL)コントローラの実装を可能にするために、詳細なsim-to-realプロセスを示す。 提案手法の有効性と有効性は比較実験により実証された。

Reinforcement learning (RL) control approach with application into power electronics systems has become an emerging topic whilst the sim-to-real issue remains a challenging problem as very few results can be referred to in the literature. Indeed, due to the inevitable mismatch between simulation models and real-life systems, offline trained RL control strategies may sustain unexpected hurdles in practical implementation during transferring procedure. As the main contribution of this paper, a transferring methodology via a delicately designed duty ratio mapping (DRM) is proposed for a DC-DC buck converter. Then, a detailed sim-to-real process is presented to enable the implementation of a model-free deep reinforcement learning (DRL) controller. The feasibility and effectiveness of the proposed methodology are demonstrated by comparative experimental studies.
翻訳日:2021-10-22 18:43:57 公開日:2021-10-20
# 階層的制約訓練による時間領域マッピングに基づく単一チャネル音声分離

Time-Domain Mapping Based Single-Channel Speech Separation With Hierarchical Constraint Training ( http://arxiv.org/abs/2110.10593v1 )

ライセンス: Link先を確認
Chenyang Gao, Yue Gu, and Ivan Marsic(参考訳) 複数話者音声認識には単一チャンネル音声分離が必要である。 近年,時間領域オーディオ分離網 (TasNet) に注目が集まっている。これは従来の時間周波数ベース (T-F-based) の手法と比較して,性能とレイテンシが低いためである。 これらの作業のほとんどは、各話者の線形マッピング関数(mask)を推定するマスキングベースの方法に依存している。 しかし、SNRの変動に敏感でない写像に基づく他の手法は、時間領域において不十分に研究されている。 音声分離用混合物からクリーンソースを直接近似する注意増強型DPRNN(AttnAugDPRNN)を導入することにより、マッピング手法の可能性を探る。 置換不変訓練(Permutation Invariant Training, PIT)は、音声分離のためのラベルあいまい性問題を解決するパラダイムであるが、通常は準最適性能をもたらす。 そこで本研究では,HCT(Hierarchical Constraint Training)と呼ばれる効率的なトレーニング戦略を提案する。 PITでは,トレーニングコーパスが大きい場合,地図ベースの AttnAugDPRNN がマスキングベースの AttnAugDPRNN より優れていた。 HCTを使用したマッピングベースのAttnAugDPRNNは、HCTを使用せずに、マスクベースのAttnAugDPRNNと比較して、SI-SDRを10.1%改善した。

Single-channel speech separation is required for multi-speaker speech recognition. Recent deep learning-based approaches focused on time-domain audio separation net (TasNet) because it has superior performance and lower latency compared to the conventional time-frequency-based (T-F-based) approaches. Most of these works rely on the masking-based method that estimates a linear mapping function (mask) for each speaker. However, the other commonly used method, the mapping-based method that is less sensitive to SNR variations, is inadequately studied in the time domain. We explore the potential of the mapping-based method by introducing attention augmented DPRNN (AttnAugDPRNN) which directly approximates the clean sources from the mixture for speech separation. Permutation Invariant Training (PIT) has been a paradigm to solve the label ambiguity problem for speech separation but usually leads to suboptimal performance. To solve this problem, we propose an efficient training strategy called Hierarchical Constraint Training (HCT) to regularize the training, which could effectively improve the model performance. When using PIT, our results showed that mapping-based AttnAugDPRNN outperformed masking-based AttnAugDPRNN when the training corpus is large. Mapping-based AttnAugDPRNN with HCT significantly improved the SI-SDR by 10.1% compared to the masking-based AttnAugDPRNN without HCT.
翻訳日:2021-10-22 18:43:43 公開日:2021-10-20
# 多変量MRI形態計測,スパース符号化,コレントロピーによる大脳皮質の Tau 蓄積予測

Predicting Tau Accumulation in Cerebral Cortex with Multivariate MRI Morphometry Measurements, Sparse Coding, and Correntropy ( http://arxiv.org/abs/2110.10709v1 )

ライセンス: Link先を確認
Jianfeng Wu, Wenhui Zhu, Yi Su, Jie Gui, Natasha Lepore, Eric M. Reiman, Richard J. Caselli, Paul M. Thompson, Kewei Chen, Yalin Wang(参考訳) バイオマーカーによるアルツハイマー病(AD)の診断と治療がブレークスルー予防の鍵となる可能性がある。 ADの目印の1つは、ヒト脳におけるタウプラークの蓄積である。 しかし、現在のタウ病検出法は、侵襲的(腰椎穿刺)か、非常に高価で広く利用できない(タウPET)。 前回の研究で, 構造的MRIを用いた海馬多変量解析(MMS)は, 脳アミロイド予測のための強力な統計力を持つ低次元表現を生成する能力に優れ, 表面コレントロピー誘発スパース符号化(PASCS-MP)に有効な神経変性バイオマーカーとして優れた性能を示した。 本研究では,尾根回帰モデルを用いて,Braak12とBraak34の脳領域におけるTau沈着を別々に予測する。 アルツハイマー病の神経画像化イニシアチブ (adni) から得られた925名について検討した。 各被験者は、ほぼ同時に収集されたPET画像とMRIスキャンからなる1対のペアを持つ。 実験結果から,我々のmmsとpass-mpからの表現はより強い予測力を有し,予測されたbraak12とbraak34は海馬表面積や容積といった他の手法による測定値よりも実際の値に近いこと,球面高調波(spharm)に基づく形状モーフォメトリーの特徴が示唆された。

Biomarker-assisted diagnosis and intervention in Alzheimer's disease (AD) may be the key to prevention breakthroughs. One of the hallmarks of AD is the accumulation of tau plaques in the human brain. However, current methods to detect tau pathology are either invasive (lumbar puncture) or quite costly and not widely available (Tau PET). In our previous work, structural MRI-based hippocampal multivariate morphometry statistics (MMS) showed superior performance as an effective neurodegenerative biomarker for preclinical AD and Patch Analysis-based Surface Correntropy-induced Sparse coding and max-pooling (PASCS-MP) has excellent ability to generate low-dimensional representations with strong statistical power for brain amyloid prediction. In this work, we apply this framework together with ridge regression models to predict Tau deposition in Braak12 and Braak34 brain regions separately. We evaluate our framework on 925 subjects from the Alzheimer's Disease Neuroimaging Initiative (ADNI). Each subject has one pair consisting of a PET image and MRI scan which were collected at about the same times. Experimental results suggest that the representations from our MMS and PASCS-MP have stronger predictive power and their predicted Braak12 and Braak34 are closer to the real values compared to the measures derived from other approaches such as hippocampal surface area and volume, and shape morphometry features based on spherical harmonics (SPHARM).
翻訳日:2021-10-22 18:41:46 公開日:2021-10-20
# 機械学習のためのデータ中心最適化フレームワーク

A Data-Centric Optimization Framework for Machine Learning ( http://arxiv.org/abs/2110.10802v1 )

ライセンス: Link先を確認
Oliver Rausch, Tal Ben-Nun, Nikoli Dryden, Andrei Ivanov, Shigang Li, Torsten Hoefler(参考訳) ディープラーニングの急速な進歩は、急速に変化するモデルの多様なセットにつながり、計算に対する需要が劇的に増加しています。 しかし、人気ネットワークのパターンに対する最適化を専門とするフレームワークでは、研究の進展を促す新しいモデルや多様なモデルを暗黙的に制約している。 データムーブメントの最小化に基づいて、任意のディープニューラルネットワークのトレーニングを最適化するフレキシブルでユーザカスタマイズ可能なパイプラインを定義することで、ディープラーニング研究者に力を与える。 パイプラインはPyTorchやONNXの標準的なネットワークから始まり、プログレッシブローディングを通じて計算を変換する。 演算子内最適化からグローバルデータ移動の削減に至るまで,汎用変換の4つのレベルを定義した。 これらは、畳み込みなどの基本的な演算子を基礎となる計算に拡張するなど、あらゆる抽象レベルで計算とデータ移動を表現する、データ中心のグラフ中間表現で動作する。 設計の中心は、パイプラインのインタラクティブでイントロスペクティブな性質である。 それぞれの部分はPython APIを通じて拡張可能であり、GUIを使って対話的にチューニングすることができる。 我々は10の異なるネットワーク上での競争性能やスピードアップを実演し、インタラクティブな最適化によってEfficientNetの新しい機会を発見する。

Rapid progress in deep learning is leading to a diverse set of quickly changing models, with a dramatically growing demand for compute. However, as frameworks specialize optimization to patterns in popular networks, they implicitly constrain novel and diverse models that drive progress in research. We empower deep learning researchers by defining a flexible and user-customizable pipeline for optimizing training of arbitrary deep neural networks, based on data movement minimization. The pipeline begins with standard networks in PyTorch or ONNX and transforms computation through progressive lowering. We define four levels of general-purpose transformations, from local intra-operator optimizations to global data movement reduction. These operate on a data-centric graph intermediate representation that expresses computation and data movement at all levels of abstraction, including expanding basic operators such as convolutions to their underlying computations. Central to the design is the interactive and introspectable nature of the pipeline. Every part is extensible through a Python API, and can be tuned interactively using a GUI. We demonstrate competitive performance or speedups on ten different networks, with interactive optimizations discovering new opportunities in EfficientNet.
翻訳日:2021-10-22 18:41:15 公開日:2021-10-20
# REAL-M:リアルミキサーの音声分離に向けて

REAL-M: Towards Speech Separation on Real Mixtures ( http://arxiv.org/abs/2110.10812v1 )

ライセンス: Link先を確認
Cem Subakan, Mirco Ravanelli, Samuele Cornell, Fran\c{c}ois Grondin(参考訳) 近年,ディープラーニングに基づくソース分離が目覚ましい成果を上げている。 しかし、ほとんどの研究は、合成データセットの分離モデルを評価する一方で、現在進行中の音声データの最先端技術の性能は未解決のままである。 本稿は,このギャップを2つの方法で満たすことに寄与する。 まず,実生活混合のクラウドソースコーパスであるreal-mデータセットをリリースする。 第二に, 基礎的真理が得られない実生活混合体の性能評価の問題に対処する。 本稿では,SI-SNR(Invariant Signal-to-Noise Ratio)ニューラル推定器を慎重に設計することで,この問題を回避する。 ユーザ調査の結果,実混合液の分離性能を確実に評価できることが判明した。 SI-SNR推定器の性能予測は人間の意見とよく相関している。 また,実mデータセット上で推定した性能傾向は,一般的な音声分離モデルの評価において,合成ベンチマークで得られた結果に密接に従っている。

In recent years, deep learning based source separation has achieved impressive results. Most studies, however, still evaluate separation models on synthetic datasets, while the performance of state-of-the-art techniques on in-the-wild speech data remains an open question. This paper contributes to fill this gap in two ways. First, we release the REAL-M dataset, a crowd-sourced corpus of real-life mixtures. Secondly, we address the problem of performance evaluation of real-life mixtures, where the ground truth is not available. We bypass this issue by carefully designing a blind Scale-Invariant Signal-to-Noise Ratio (SI-SNR) neural estimator. Through a user study, we show that our estimator reliably evaluates the separation performance on real mixtures. The performance predictions of the SI-SNR estimator indeed correlate well with human opinions. Moreover, we observe that the performance trends predicted by our estimator on the REAL-M dataset closely follow those achieved on synthetic benchmarks when evaluating popular speech separation models.
翻訳日:2021-10-22 18:40:57 公開日:2021-10-20
# 正定値行列に対する一般化Bures-Wasserstein幾何学

Generalized Bures-Wasserstein Geometry for Positive Definite Matrices ( http://arxiv.org/abs/2110.10464v1 )

ライセンス: Link先を確認
Andi Han, Bamdev Mishra, Pratik Jawanpuria, Junbin Gao(参考訳) 本稿では、対称正定値行列の多様体に対する一般化されたbures-wasserstein(bw )リーマン幾何学を提案する。 我々は、BW幾何学の一般化を3つの異なる方法で探求する。 1) 計量におけるリャプノフ作用素を一般化することにより、 2)直交プロクリスト距離を一般化し, 3) ガウス間のワッサーシュタイン距離を一般化する。 それらがすべて同じ幾何学に繋がることを示す。 提案された一般化は対称正定値行列 $\mathbf{M}$ によってパラメータ化され、$\mathbf{M} = \mathbf{I}$ のとき、BW 幾何を回復する。 一般化されたBW幾何学の下で距離、測地、指数/対数写像、Levi-Civita接続、および断面曲率の式を導出する。 また,提案手法の有効性を示す応用例と実験も紹介する。

This paper proposes a generalized Bures-Wasserstein (BW) Riemannian geometry for the manifold of symmetric positive definite matrices. We explore the generalization of the BW geometry in three different ways: 1) by generalizing the Lyapunov operator in the metric, 2) by generalizing the orthogonal Procrustes distance, and 3) by generalizing the Wasserstein distance between the Gaussians. We show that they all lead to the same geometry. The proposed generalization is parameterized by a symmetric positive definite matrix $\mathbf{M}$ such that when $\mathbf{M} = \mathbf{I}$, we recover the BW geometry. We derive expressions for the distance, geodesic, exponential/logarith m maps, Levi-Civita connection, and sectional curvature under the generalized BW geometry. We also present applications and experiments that illustrate the efficacy of the proposed geometry.
翻訳日:2021-10-22 18:38:20 公開日:2021-10-20
# n$-dimensional quasi-conformal mappings のための統一フレームワーク

A unifying framework for $n$-dimensional quasi-conformal mappings ( http://arxiv.org/abs/2110.10437v1 )

ライセンス: Link先を確認
Daoping Zhang, Gary P. T. Choi, Jianping Zhang, Lok Ming Lui(参考訳) コンピュータ技術の進歩に伴い、高次元空間におけるオブジェクトの効率的なマッピング手法への関心が高まっている。 対象間の一対一対応を確立するために、写像の単射性を保証するために高次元準共形理論を利用することができる。 加えて、マッピングが一定の幾何学的制約を満たし、共形性や体積の歪みが少ないことがしばしば望ましい。 本研究では,n$-dimensional quasi-conformal mapping を計算するための統一フレームワークを開発した。 より具体的には, 準共形歪み, 体積歪, ランドマーク対応, 強度ミスマッチ, 体積先行情報を統合し, 様々な変形問題に対処する変分モデルを提案する。 さらに,提案モデルの最小化器の存在を証明し,最適化問題を解くための効率的な数値解法を考案する。 2次元および3次元の様々な実験を用いて提案手法の有効性を実証し, 医用画像登録, 適応リメッシング, 形状モデリングへの応用について述べる。

With the advancement of computer technology, there is a surge of interest in effective mapping methods for objects in higher-dimensional spaces. To establish a one-to-one correspondence between objects, higher-dimensional quasi-conformal theory can be utilized for ensuring the bijectivity of the mappings. In addition, it is often desirable for the mappings to satisfy certain prescribed geometric constraints and possess low distortion in conformality or volume. In this work, we develop a unifying framework for computing $n$-dimensional quasi-conformal mappings. More specifically, we propose a variational model that integrates quasi-conformal distortion, volumetric distortion, landmark correspondence, intensity mismatch and volume prior information to handle a large variety of deformation problems. We further prove the existence of a minimizer for the proposed model and devise efficient numerical methods to solve the optimization problem. We demonstrate the effectiveness of the proposed framework using various experiments in two- and three-dimensions, with applications to medical image registration, adaptive remeshing and shape modeling.
翻訳日:2021-10-22 18:38:06 公開日:2021-10-20
# Colosseum:ハードウェア・イン・ザ・ループネットワークエミュレーションによる大規模ワイヤレス実験

Colosseum: Large-Scale Wireless Experimentation Through Hardware-in-the-Loop Network Emulation ( http://arxiv.org/abs/2110.10617v1 )

ライセンス: Link先を確認
Leonardo Bonati, Pedram Johari, Michele Polese, Salvatore D'Oro, Subhramoy Mohanti, Miead Tehrani-Moayyed, Davide Villa, Shweta Shrivastava, Chinenye Tassie, Kurt Yoder, Ajeet Bagga, Paresh Patel, Ventz Petkov, Michael Seltser, Francesco Restuccia, Abhimanyu Gosain, Kaushik R. Chowdhury, Stefano Basagni, Tommaso Melodia(参考訳) colosseumは、完全なプログラマブルな"ホワイトボックス"プラットフォーム上で、仮想的でソフトウォーリズされた波形とプロトコルスタックを介して実験研究を行うための、オープンアクセスと一般公開の大規模無線テストベッドである。 256の最先端のSoftware-Defined RadiosとMassive Channel Emulatorコアを通じて、Colosseumは事実上あらゆるシナリオをモデル化し、様々なデプロイメントやチャネル条件におけるソリューションの設計、開発、テストを可能にする。 これらのコロッセウム無線周波数シナリオは、有限インパルス応答フィルタを用いた高忠実FPGAエミュレーションにより再現される。 フィルタは、所望の無線チャネルのタップをモデル化し、無線ノードが生成する信号に適用し、現実世界の無線環境の状態を忠実に模倣する。 本稿では,Colosseumのアーキテクチャとその実験とエミュレーション機能について述べる。 次に,無線技術(セルラーやwi-fiなど)を広範に利用し,スペクトル共有や無人航空機のシナリオにおいて,大規模実験におけるcolosseumの有効性を実証する。 Colosseumの将来アップデートのロードマップは、この論文を締めくくっている。

Colosseum is an open-access and publicly-available large-scale wireless testbed for experimental research via virtualized and softwarized waveforms and protocol stacks on a fully programmable, "white-box" platform. Through 256 state-of-the-art Software-defined Radios and a Massive Channel Emulator core, Colosseum can model virtually any scenario, enabling the design, development and testing of solutions at scale in a variety of deployments and channel conditions. These Colosseum radio-frequency scenarios are reproduced through high-fidelity FPGA-based emulation with finite-impulse response filters. Filters model the taps of desired wireless channels and apply them to the signals generated by the radio nodes, faithfully mimicking the conditions of real-world wireless environments. In this paper we describe the architecture of Colosseum and its experimentation and emulation capabilities. We then demonstrate the effectiveness of Colosseum for experimental research at scale through exemplary use cases including prevailing wireless technologies (e.g., cellular and Wi-Fi) in spectrum sharing and unmanned aerial vehicle scenarios. A roadmap for Colosseum future updates concludes the paper.
翻訳日:2021-10-22 18:28:07 公開日:2021-10-20
# 一般グラフトポロジーによる$\ell_{\infty}$-LossにおけるBradley-Terry-LuceモデルにおけるMLEの性能

The Performance of the MLE in the Bradley-Terry-Luce Model in $\ell_{\infty}$-Loss and under General Graph Topologies ( http://arxiv.org/abs/2110.10825v1 )

ライセンス: Link先を確認
Wanshan Li, Shamindra Shrotriya, Alessandro Rinaldo(参考訳) Bradley-Terry-Luceモデル (BTL) は、ペア比較を用いて興味ある項目の集合のグローバルランキングを推定する一般的な統計手法である。 正確なランキングを確保するためには、$\ell_{\infty}$-loss のモデルパラメータの正確な推定値を得る必要がある。 この作業の難しさは、与えられた項目に対する対比較グラフのトポロジーに大きく依存する。 しかしながら、完全かつ Erd\"os-R\'enyi 比較グラフのような非常によく研究されたケース以外にも、より一般的なグラフトポロジーの下での$\ell_{\infty}$-lossのBTLモデルパラメータの最大極大推定器(MLE)の性能についてはほとんど知られていない。 本稿では,比較グラフの代数的接続性,項目間の最大性能ギャップ,サンプル複雑性に明示的に依存する btl mle の $\ell_{\infty}$ 推定誤差に関する新奇,一般上限を導出する。 異なる損失関数とより制限された仮定とグラフトポロジを用いて得られた既知の結果と比較して、導出境界が良好であり、場合によってはより鋭いことを示す。 さらに、十分正則なグラフトポロジーのクラス上の上界にほぼ一致する$\ell_{\infty}$-errorの下でミニマックス下界を提供する。 最後に,効率的なトーナメント設計における限界の影響について検討する。 様々な例やシミュレーションを通じて,本研究の成果を解説し,議論する。

The Bradley-Terry-Luce (BTL) model is a popular statistical approach for estimating the global ranking of a collection of items of interest using pairwise comparisons. To ensure accurate ranking, it is essential to obtain precise estimates of the model parameters in the $\ell_{\infty}$-loss. The difficulty of this task depends crucially on the topology of the pairwise comparison graph over the given items. However, beyond very few well-studied cases, such as the complete and Erd\"os-R\'enyi comparison graphs, little is known about the performance of the maximum likelihood estimator (MLE) of the BTL model parameters in the $\ell_{\infty}$-loss under more general graph topologies. In this paper, we derive novel, general upper bounds on the $\ell_{\infty}$ estimation error of the BTL MLE that depend explicitly on the algebraic connectivity of the comparison graph, the maximal performance gap across items and the sample complexity. We demonstrate that the derived bounds perform well and in some cases are sharper compared to known results obtained using different loss functions and more restricted assumptions and graph topologies. We further provide minimax lower bounds under $\ell_{\infty}$-error that nearly match the upper bounds over a class of sufficiently regular graph topologies. Finally, we study the implications of our bounds for efficient tournament design. We illustrate and discuss our findings through various examples and simulations.
翻訳日:2021-10-22 18:26:06 公開日:2021-10-20
# 進化的計算におけるフロンティア--ワークショップ報告

Frontiers in Evolutionary Computation: A Workshop Report ( http://arxiv.org/abs/2110.10320v1 )

ライセンス: Link先を確認
Tyler Millhouse, Melanie Moses, Melanie Mitchell(参考訳) 2021年7月、サンタフェ研究所は自然と人工のシステムにおける知性の基礎の一部として進化的計算に関するワークショップを開催した。 このプロジェクトは、人工知能の性質に関する学際的な研究を促進することによって、人工知能の分野を推し進めようとしている。 このワークショップはコンピュータ科学者と生物学者を集めて、進化の性質と進化計算の将来についての洞察を共有した。 本報告では,各講演とその後の議論について要約する。 また、いくつかの重要なテーマを描き、将来の研究において重要なフロンティアを特定します。

In July of 2021, the Santa Fe Institute hosted a workshop on evolutionary computation as part of its Foundations of Intelligence in Natural and Artificial Systems project. This project seeks to advance the field of artificial intelligence by promoting interdisciplinary research on the nature of intelligence. The workshop brought together computer scientists and biologists to share their insights about the nature of evolution and the future of evolutionary computation. In this report, we summarize each of the talks and the subsequent discussions. We also draw out a number of key themes and identify important frontiers for future research.
翻訳日:2021-10-22 18:24:20 公開日:2021-10-20
# Robust lEarned Shrinkage-Thresholdi ng (REST): スパースリカバリのためのロバストアンロール

Robust lEarned Shrinkage-Thresholdi ng (REST): Robust unrolling for sparse recover ( http://arxiv.org/abs/2110.10391v1 )

ライセンス: Link先を確認
Wei Pu, Chao Zhou, Yonina C. Eldar and Miguel R.D. Rodrigues(参考訳) 本稿では,モデル誤特定にロバストな逆問題を解くために,ディープニューラルネットワークを提案する。 具体的には,測定操作者の不確実性を考慮した低次元観測から疎高次元ベクトルの回収を希望するモデルミスマッチによるセンシング問題を扱う。 次に,アルゴリズム展開法を基礎となる回復問題のロバスト版に適用することにより,新たなロバストなディープニューラルネットワークアーキテクチャを設計する。 提案するネットワーク - Robust lEarned Shrinkage-Thresholdi ng (REST) - は、Learted Iterative Shrinkage-Thresholdi ng Algorithm (LISTA)と比較して、さらなる正規化処理を示し、サンプルワイドモデルミスマッチによる信号の信頼性回復を実現する。 提案するrestネットワークは,モデルミスマッチを考慮した圧縮センシングとレーダイメージングの問題において,最先端のモデルベースおよびデータ駆動アルゴリズムを上回っている。

In this paper, we consider deep neural networks for solving inverse problems that are robust to forward model mis-specifications. Specifically, we treat sensing problems with model mismatch where one wishes to recover a sparse high-dimensional vector from low-dimensional observations subject to uncertainty in the measurement operator. We then design a new robust deep neural network architecture by applying algorithm unfolding techniques to a robust version of the underlying recovery problem. Our proposed network - named Robust lEarned Shrinkage-Thresholdi ng (REST) - exhibits an additional normalization processing compared to Learned Iterative Shrinkage-Thresholdi ng Algorithm (LISTA), leading to reliable recovery of the signal under sample-wise varying model mismatch. The proposed REST network is shown to outperform state-of-the-art model-based and data-driven algorithms in both compressive sensing and radar imaging problems wherein model mismatch is taken into consideration.
翻訳日:2021-10-22 18:22:40 公開日:2021-10-20
# JavaBERT: Javaプログラミング言語のためのトランスフォーマーベースのモデルをトレーニングする

JavaBERT: Training a transformer-based model for the Java programming language ( http://arxiv.org/abs/2110.10404v1 )

ライセンス: Link先を確認
Nelson Tavares de Sousa, Wilhelm Hasselbring(参考訳) コード品質は、新しいソフトウェアコードの開発において重要な要素であり、機能的で信頼性の高いコードを確保するために適切なツールを必要とする。 機械学習の技術は、ソフトウェアエンジニアリングツールにはまだ使われず、アプリケーションの潜在的な利点を欠いている。 自然言語処理は、様々なタスクに関するテキストデータを処理できる可能性を示している。 このようなモデルは、ソフトウェアコード処理にも同様のメリットがある、と私たちは主張する。 本稿では,自然言語処理に使用されるモデルをソフトウェアコードで学習する方法を検討する。 ソフトウェアコードのためのデータ検索パイプラインを導入し,Javaソフトウェアコード上でモデルをトレーニングする。 結果として得られたモデルであるJavaBERTは、ソフトウェア工学ツールの可能性を示すマスク付き言語モデリングタスクに対して高い精度を示している。

Code quality is and will be a crucial factor while developing new software code, requiring appropriate tools to ensure functional and reliable code. Machine learning techniques are still rarely used for software engineering tools, missing out the potential benefits of its application. Natural language processing has shown the potential to process text data regarding a variety of tasks. We argue, that such models can also show similar benefits for software code processing. In this paper, we investigate how models used for natural language processing can be trained upon software code. We introduce a data retrieval pipeline for software code and train a model upon Java software code. The resulting model, JavaBERT, shows a high accuracy on the masked language modeling task showing its potential for software engineering tools.
翻訳日:2021-10-22 18:22:16 公開日:2021-10-20
# 潜時ニューラルネットワークによる量子力学の学習

Learning quantum dynamics with latent neural ODEs ( http://arxiv.org/abs/2110.10721v1 )

ライセンス: Link先を確認
Matthew Choi, Daniel Flam-Shepherd, Thi Ha Kyaw, Al\'an Aspuru-Guzik(参考訳) 機械支援科学発見の中核的な目的は、問題のシステムの事前知識なしで実験データから物理法則を学習することである。 量子物理学の分野では、次元の呪いや量子力学の反直観的な性質により、これらの目標に向かって前進することが著しく困難である。 ここでは,クローズドおよびオープン量子システムからダイナミクスを学習した潜在性ニューラルodeであるqnodeを提案する。 QNODEは、クローズドおよびオープン量子系に対するフォン・ノイマンおよび時間局所リンドブラッドマスター方程式を満たすトレーニング領域の外で量子力学の生成と外挿を学ぶことができる。 さらに、QNODEはハイゼンベルクの不確実性原理のような量子力学的法則を、制約やガイダンスなしで完全にデータ駆動の方法で再検討している。 さらに,qノードから生成し,その潜在空間に近接する軌道は,学習系の物理を保ちながら同様の量子力学を持つことを示した。

The core objective of machine-assisted scientific discovery is to learn physical laws from experimental data without prior knowledge of the systems in question. In the area of quantum physics, making progress towards these goals is significantly more challenging due to the curse of dimensionality as well as the counter-intuitive nature of quantum mechanics. Here, we present the QNODE, a latent neural ODE trained on dynamics from closed and open quantum systems. The QNODE can learn to generate quantum dynamics and extrapolate outside of its training region that satisfy the von Neumann and time-local Lindblad master equations for closed and open quantum systems. Furthermore the QNODE rediscovers quantum mechanical laws such as Heisenberg's uncertainty principle in a totally data-driven way, without constraints or guidance. Additionally, we show that trajectories that are generated from the QNODE and are close in its latent space have similar quantum dynamics while preserving the physics of the training system.
翻訳日:2021-10-22 18:22:06 公開日:2021-10-20
# GAN HEMTのI-V特性予測のための半教師付き物理ガイド型DLフレームワーク

Semi-supervised physics guided DL framework for predicting the I-V characteristics of GAN HEMT ( http://arxiv.org/abs/2110.10724v1 )

ライセンス: Link先を確認
Shivanshu Mishra, Bipin Gaikwad and Nidhi Chaturvedi(参考訳) 本稿では、物理に基づく問題を解決するためのディープラーニング技術の導入において、2つの大きなハードルに対処する新しいディープラーニングフレームワーク(DLF)を提案する。 1)dlモデルのトレーニングのための大規模データセットの要件 2)dlモデルと現象の物理との整合性。 このフレームワークは本質的に汎用的であり、その振る舞いが知られている限り、他の研究分野の現象をモデル化するために適用することができる。 この技術を実証するために、窒化ガリウム系高電子移動トランジスタ(GaN HEMT)のI-V特性を予測する半教師付き物理誘導ニューラルネットワーク(SPGNN)を開発した。 dlモデルに物理挙動を組み込んだモデルの損失関数として、電界効果トランジスタのi-v方程式を用いた教師なし学習法を用いてdlモデルを訓練し、第2段階では、dlモデルを非常に小さな実験データで微調整した。 SPGNNは、目に見えない状況であっても、従来のニューラルネットワーク(TNN)と同じような、あるいは優れたパフォーマンスを達成するために、トレーニングデータの要求を80%以上削減する。 SPGNNは、未確認テストデータの32.4%、エラーの1%未満、未確認テストデータのわずか0.4%、エラーの10%以上を予測している。

This letter proposes a novel deep learning framework (DLF) that addresses two major hurdles in the adoption of deep learning techniques for solving physics-based problems: 1) requirement of the large dataset for training the DL model, 2) consistency of the DL model with the physics of the phenomenon. The framework is generic in nature and can be applied to model a phenomenon from other fields of research too as long as its behaviour is known. To demonstrate the technique, a semi-supervised physics guided neural network (SPGNN) has been developed that predicts I-V characteristics of a gallium nitride-based high electron mobility transistor (GaN HEMT). A two-stage training method is proposed, where in the first stage, the DL model is trained via the unsupervised learning method using the I-V equations of a field-effect transistor as a loss function of the model that incorporates physical behaviors in the DL model and in the second stage, the DL model has been fine-tuned with a very small set of experimental data. The SPGNN significantly reduces the requirement of the training data by more than 80% for achieving similar or better performance than a traditional neural network (TNN) even for unseen conditions. The SPGNN predicts 32.4% of the unseen test data with less than 1% of error and only 0.4% of the unseen test data with more than 10% of error.
翻訳日:2021-10-22 18:21:49 公開日:2021-10-20
# 確率的確率的ラベル木

Propensity-scored Probabilistic Label Trees ( http://arxiv.org/abs/2110.10803v1 )

ライセンス: Link先を確認
Marek Wydmuch, Kalina Jasinska-Kobus, Rohit Babbar, Krzysztof Dembczy\'nski(参考訳) Extreme Multi-label Classification (XMLC)は、すべての可能なラベルの非常に大きなセットから、関連するラベルの小さなサブセットでインスタンスをタグ付けするタスクを指す。 近年、XMLCは自動コンテンツラベリング、オンライン広告、レコメンデーションシステムなど様々なウェブアプリケーションに広く応用されている。 このような環境では、ラベルの分布は高度にバランスが取れず、ほとんどがレアなテールラベルであり、関連するラベルが欠落することがある。 これらの問題に対する対策として、確率モデルが導入され、いくつかのXMLCアルゴリズムで適用されている。 本稿では,XMLC問題に対する一般的なアプローチである確率的ラベルツリーに対するモデルに基づく最適予測の問題に焦点を当てる。 a^*$-searchアルゴリズムに基づく推論手順を導入し、すべての確率と確率が知られていることを仮定して、最適解を効率的に発見する。 我々は、人気のあるxmlcベンチマークデータセットに関する幅広い実証研究において、このアプローチの魅力を実証する。

Extreme multi-label classification (XMLC) refers to the task of tagging instances with small subsets of relevant labels coming from an extremely large set of all possible labels. Recently, XMLC has been widely applied to diverse web applications such as automatic content labeling, online advertising, or recommendation systems. In such environments, label distribution is often highly imbalanced, consisting mostly of very rare tail labels, and relevant labels can be missing. As a remedy to these problems, the propensity model has been introduced and applied within several XMLC algorithms. In this work, we focus on the problem of optimal predictions under this model for probabilistic label trees, a popular approach for XMLC problems. We introduce an inference procedure, based on the $A^*$-search algorithm, that efficiently finds the optimal solution, assuming that all probabilities and propensities are known. We demonstrate the attractiveness of this approach in a wide empirical study on popular XMLC benchmark datasets.
翻訳日:2021-10-22 18:21:21 公開日:2021-10-20
# 肘骨折分類のための知識指導型多視点深部学習

Knowledge-Guided Multiview Deep Curriculum Learning for Elbow Fracture Classification ( http://arxiv.org/abs/2110.10383v1 )

ライセンス: Link先を確認
Jun Luo, Gene Kitamura, Dooman Arefan, Emine Doganay, Ashok Panigrahy, Shandong Wu(参考訳) 肘関節骨折の診断には、前側と横側の両方のx線撮影が必要となることが多い。 本稿では,肘骨折サブタイプ分類タスクに対する多視点深層学習手法を提案する。 提案手法では,まず前景と横景の2つの単視点モデルをトレーニングし,その後,提案するマルチビューネットワークアーキテクチャの対応するレイヤに重みを移すことで,転送学習を活用する。 一方、定量的な医学知識はカリキュラム学習フレームワークを通じてトレーニングプロセスに統合され、モデルがまず"より簡単"なサンプルから学び、次に"より難しい"サンプルに移行してパフォーマンスが向上する。 さらに、マルチビューネットワークはデュアルビュー設定でも、入力として単一のビューでも動作可能である。 肘関節骨折の分類課題を1,964枚の画像を用いて広範囲な実験により評価した。 以上の結果から, 本手法は, 骨骨折研究において, 関連する2つの方法に勝ることを示し, 比較法の性能を高めることができた。 コードはhttps://github.com/l jaiverson/multiview- curriculumで入手できる。

Elbow fracture diagnosis often requires patients to take both frontal and lateral views of elbow X-ray radiographs. In this paper, we propose a multiview deep learning method for an elbow fracture subtype classification task. Our strategy leverages transfer learning by first training two single-view models, one for frontal view and the other for lateral view, and then transferring the weights to the corresponding layers in the proposed multiview network architecture. Meanwhile, quantitative medical knowledge was integrated into the training process through a curriculum learning framework, which enables the model to first learn from "easier" samples and then transition to "harder" samples to reach better performance. In addition, our multiview network can work both in a dual-view setting and with a single view as input. We evaluate our method through extensive experiments on a classification task of elbow fracture with a dataset of 1,964 images. Results show that our method outperforms two related methods on bone fracture study in multiple settings, and our technique is able to boost the performance of the compared methods. The code is available at https://github.com/l jaiverson/multiview- curriculum.
翻訳日:2021-10-22 17:42:31 公開日:2021-10-20
# depth360:学習可能な軸対称カメラモデルによる球面カメラ画像の単眼深度推定

Depth360: Monocular Depth Estimation using Learnable Axisymmetric Camera Model for Spherical Camera Image ( http://arxiv.org/abs/2110.10415v1 )

ライセンス: Link先を確認
Noriaki Hirose and Kosuke Tahara(参考訳) 自己教師付き単眼深度推定は,RGB画像から深度画像と相対的なポーズを推定するために広く研究されている。 この枠組みは、深度とポーズのネットワークは、基礎的な真理の深さとポーズを必要とせずに、時系列画像から訓練できるため、研究者にとって魅力的である。 本研究では,パラメータが未知のカメラから時系列球面カメラ画像を用いて,ロボットの周囲の深さ(360度ビュー)を推定する。 魚眼カメラ画像が2つある球面カメラ画像の歪みを受け入れる学習可能な軸対称カメラモデルを提案する。 さらに,地中真相深度画像を生成するために,フォトリアリスティックシミュレータを用いてモデルを訓練した。 さらに,反射床面から生じるアーティファクトを低減するために,フロア制約を提供する損失関数を導入した。 GOスタンフォードデータセットの球面カメラ画像とKITTIデータセットのピンホールカメラ画像を用いて,本手法の有効性を実証し,カメラパラメータの学習におけるベースライン法との比較を行った。

Self-supervised monocular depth estimation has been widely investigated to estimate depth images and relative poses from RGB images. This framework is attractive for researchers because the depth and pose networks can be trained from just time sequence images without the need for the ground truth depth and poses. In this work, we estimate the depth around a robot (360 degree view) using time sequence spherical camera images, from a camera whose parameters are unknown. We propose a learnable axisymmetric camera model which accepts distorted spherical camera images with two fisheye camera images. In addition, we trained our models with a photo-realistic simulator to generate ground truth depth images to provide supervision. Moreover, we introduced loss functions to provide floor constraints to reduce artifacts that can result from reflective floor surfaces. We demonstrate the efficacy of our method using the spherical camera images from the GO Stanford dataset and pinhole camera images from the KITTI dataset to compare our method's performance with that of baseline method in learning the camera parameters.
翻訳日:2021-10-22 17:42:09 公開日:2021-10-20
# 埋め込みプレゼンテーションアタック検出による指紋認識:準備はいいか?

Fingerprint recognition with embedded presentation attacks detection: are we ready? ( http://arxiv.org/abs/2110.10567v1 )

ライセンス: Link先を確認
Marco Micheletto, Gian Luca Marcialis, Giulia Orr\`u and Fabio Roli(参考訳) セキュリティアプリケーションのための指紋認証システムの拡散は,ソフトウェアベースのプレゼンテーション攻撃検出アルゴリズム(PAD)をそのようなシステムに組み込むことを急ぐ。 企業や機関は、そのような統合によってシステムがより安全になるかどうか、利用可能な技術が準備できているかどうか、そしてもしそうであれば、どんな運用条件で動くかを知る必要がある。 指紋認証システムへの深層学習アプローチの採用による大幅な改善にもかかわらず、現在の研究では、指紋認証システムに組み込む場合の有効性についてはあまり言及されていない。 我々は,2つの非ゼロエラーフリーなシステムが協調して動作する場合の因果関係をモデル化する手法が不足していることから,作業の欠如が説明できると考えている。 そこで,本論文では,パッドと検証段階を順次実施する場合に,2つのシステムの受信機動作特性(roc)間の関係を確率論的にモデル化した性能シミュレータを提案,検証システムへのパッドの融合について検討する。 実際、これは最も単純で柔軟性があり、広く普及しているアプローチです。 我々は,最新版の LivDet (2017-2019) や最先端の NIST Bozorth3 ,トップレベルの Veryfinger 12 マッチラーに提案された PAD アルゴリズムの ROC のシミュレーションを実行する。 報告された実験は、個人認証の全体的な性能を低下させるのではなく、埋め込まれたPADと指紋マッチングが改善できる条件を得るための重要なシナリオを探求している。

The diffusion of fingerprint verification systems for security applications makes it urgent to investigate the embedding of software-based presentation attack detection algorithms (PAD) into such systems. Companies and institutions need to know whether such integration would make the system more "secure" and whether the technology available is ready, and, if so, at what operational working conditions. Despite significant improvements, especially by adopting deep learning approaches to fingerprint PAD, current research did not state much about their effectiveness when embedded in fingerprint verification systems. We believe that the lack of works is explained by the lack of instruments to investigate the problem, that is, modeling the cause-effect relationships when two non-zero error-free systems work together. Accordingly, this paper explores the fusion of PAD into verification systems by proposing a novel investigation instrument: a performance simulator based on the probabilistic modeling of the relationships among the Receiver Operating Characteristics (ROC) of the two individual systems when PAD and verification stages are implemented sequentially. As a matter of fact, this is the most straightforward, flexible, and widespread approach. We carry out simulations on the PAD algorithms' ROCs submitted to the most recent editions of LivDet (2017-2019), the state-of-the-art NIST Bozorth3, and the top-level Veryfinger 12 matchers. Reported experiments explore significant scenarios to get the conditions under which fingerprint matching with embedded PAD can improve, rather than degrade, the overall personal verification performance.
翻訳日:2021-10-22 17:41:51 公開日:2021-10-20
# ハードウェア適応分解モデルによる実世界画像の超解像化に向けて

Toward Real-world Image Super-resolution via Hardware-based Adaptive Degradation Models ( http://arxiv.org/abs/2110.10755v1 )

ライセンス: Link先を確認
Rui Ma, Johnathan Czernik, Xian Du(参考訳) ほとんどの単一画像超解像(SR)法は、合成低分解能(LR)と高分解能(HR)画像対で開発され、バイコビックダウンサンプリングなどの所定の劣化操作によってシミュレーションされる。 しかし、これらの手法は所定演算の逆過程のみを学習するため、実世界のLR画像の超解に失敗し、真の定式化は所定演算から逸脱する。 この問題に対処するために,画像システムのハードウェア知識を包含して未知の劣化過程をシミュレートする新しい教師あり手法を提案する。 教師あり学習フレームワークにおける適応的ぼかし層 (ABL) を設計し, 対象LR画像を推定する。 ABLのハイパーパラメータは、異なる撮像ハードウェアに対して調整することができる。 実世界のデータセットを用いた実験により, 劣化モデルが所定の劣化操作よりも高精度にlr画像を推定できること, また, 既存のsr法を用いて実世界のlr画像の再構成を従来よりも高精度に行えることを確認した。

Most single image super-resolution (SR) methods are developed on synthetic low-resolution (LR) and high-resolution (HR) image pairs, which are simulated by a predetermined degradation operation, e.g., bicubic downsampling. However, these methods only learn the inverse process of the predetermined operation, so they fail to super resolve the real-world LR images; the true formulation deviates from the predetermined operation. To address this problem, we propose a novel supervised method to simulate an unknown degradation process with the inclusion of the prior hardware knowledge of the imaging system. We design an adaptive blurring layer (ABL) in the supervised learning framework to estimate the target LR images. The hyperparameters of the ABL can be adjusted for different imaging hardware. The experiments on the real-world datasets validate that our degradation model can estimate LR images more accurately than the predetermined degradation operation, as well as facilitate existing SR methods to perform reconstructions on real-world LR images more accurately than the conventional approaches.
翻訳日:2021-10-22 17:41:25 公開日:2021-10-20
# DVIO:RGBDセンサの深度支援型視覚慣性計測

DVIO: Depth aided visual inertial odometry for RGBD sensors ( http://arxiv.org/abs/2110.10805v1 )

ライセンス: Link先を確認
Abhishek Tyagi, Yangwen Liang, Shuangquan Wang, Dongwoon Bai(参考訳) 近年,モバイルデバイスにおけるRGBDセンサの利用が増加していることが報告されている。 これらのセンサーは、カメラフレームの深度マップを適切に推定し、多くの拡張現実アプリケーションで使用できる。 本稿では,rgbdセンサと慣性測定ユニット(imu)センサを用いて,モバイルデバイスの動作状態を推定する新しい視覚慣性オドメトリ(vio)システムを提案する。 このシステムはDVIO(Deep-Aided VIO)システムと呼ばれる。 本システムでは非線形最適化プロセスの一部として深度測定を追加する。 具体的には,1次元(1D)特徴パラメータ化と3次元(3D)特徴パラメータ化を用いた深度測定手法を提案する。 また,非同期imuセンサとrgbdセンサとの時間オフセットを推定するために,深さ測定の活用を提案する。 最後に,限界化プロセスの高速化と,システム全体のリアルタイム性能を維持するために,ブロックベースの新たな限界化手法を提案する。 実験により,提案したDVIOシステムは,軌道精度および処理時間の観点から,他の最先端のVIOシステムよりも優れていることを確認した。

In past few years we have observed an increase in the usage of RGBD sensors in mobile devices. These sensors provide a good estimate of the depth map for the camera frame, which can be used in numerous augmented reality applications. This paper presents a new visual inertial odometry (VIO) system, which uses measurements from a RGBD sensor and an inertial measurement unit (IMU) sensor for estimating the motion state of the mobile device. The resulting system is called the depth-aided VIO (DVIO) system. In this system we add the depth measurement as part of the nonlinear optimization process. Specifically, we propose methods to use the depth measurement using one-dimensional (1D) feature parameterization as well as three-dimensional (3D) feature parameterization. In addition, we propose to utilize the depth measurement for estimating time offset between the unsynchronized IMU and the RGBD sensors. Last but not least, we propose a novel block-based marginalization approach to speed up the marginalization processes and maintain the real-time performance of the overall system. Experimental results validate that the proposed DVIO system outperforms the other state-of-the-art VIO systems in terms of trajectory accuracy as well as processing time.
翻訳日:2021-10-22 17:41:02 公開日:2021-10-20
# Cascaded Compressed Sensing Networks: 階層学習のための可逆的アーキテクチャ

Cascaded Compressed Sensing Networks: A Reversible Architecture for Layerwise Learning ( http://arxiv.org/abs/2110.10379v1 )

ライセンス: Link先を確認
Weizhi Lu, Mingrui Chen, Kai Guo and Weiyu Li(参考訳) 近年,ネットワーク層を階層的に学習する手法が注目されている。 本手法の主な課題は,ネットワークのグローバルなターゲットを逆伝播させることにより,各レイヤの最適化対象を導出することである。 伝搬問題は、低次元空間から高次元空間への非線形活性化の反転を伴って生じる。 この問題に対処するために、既存の解決策は、ターゲットを特別に伝播する補助ネットワークを学ぶことである。 しかし、ネットワークは安定性に欠けており、ネットワーク学習の複雑さも高くなる。 本報告では,補助ネットワークを必要とせず,各レイヤのネットワークsを圧縮センシングでモデル化することで,ターゲットの伝搬を実現できることを示す。 実験の結果,提案手法は補助ネットワークベース手法よりも優れた性能が得られることがわかった。

Recently, the method that learns networks layer by layer has attracted increasing interest for its ease of analysis. For the method, the main challenge lies in deriving an optimization target for each layer by inversely propagating the global target of the network. The propagation problem is ill posed, due to involving the inversion of nonlinear activations from lowdimensional to high-dimensional spaces. To address the problem, the existing solution is to learn an auxiliary network to specially propagate the target. However, the network lacks stability, and moreover, it results in higher complexity for network learning. In the letter, we show that target propagation could be achieved by modeling the network s each layer with compressed sensing, without the need of auxiliary networks. Experiments show that the proposed method could achieve better performance than the auxiliary network-based method.
翻訳日:2021-10-22 17:36:50 公開日:2021-10-20
# ProxyBO: ゼロコストプロキシによるベイズ最適化によるニューラルネットワーク検索の高速化

ProxyBO: Accelerating Neural Architecture Search via Bayesian Optimization with Zero-cost Proxies ( http://arxiv.org/abs/2110.10423v1 )

ライセンス: Link先を確認
Yu Shen, Yang Li, Jian Zheng, Wentao Zhang, Peng Yao, Jixiang Li, Sen Yang, Ji Liu, Cui Bin(参考訳) ニューラルネットワークの設計には膨大な手作業が必要です。 これにより、この設計を自動化するためにneural architecture search(nas)の開発が進められた。 従来のNAS法は期待できる結果が得られるが, 速度は遅く, コストゼロのプロキシは非常に高速だが, あまり期待できない。 既存の手法には2つの制限があるが、これは予期せぬ信頼性とワンショットの使用法である。 この制限に対処するために,ゼロコストプロキシを用いてニューラルネットワーク探索を高速化する効率の良いベイズ最適化フレームワークであるProxyBOを提案する。 本稿では,各イテレーション中のタスク上のプロキシの適合度を推定する一般化能力測定法を提案し,動的影響結合によりBOとゼロコストプロキシを結合する。 大規模な実証研究により、ProxyBOは3つの公開ベンチマークから5つのタスクの競争ベースラインを一貫して上回っていることが示されている。 具体的には、ProxyBOは最先端のREAとBRP-NASに対して最大5.41倍と3.83倍のスピードアップを達成する。

Designing neural architectures requires immense manual efforts. This has promoted the development of neural architecture search (NAS) to automate this design. While previous NAS methods achieve promising results but run slowly and zero-cost proxies run extremely fast but are less promising, recent work considers utilizing zero-cost proxies via a simple warm-up. The existing method has two limitations, which are unforeseeable reliability and one-shot usage. To address the limitations, we present ProxyBO, an efficient Bayesian optimization framework that utilizes the zero-cost proxies to accelerate neural architecture search. We propose the generalization ability measurement to estimate the fitness of proxies on the task during each iteration and then combine BO with zero-cost proxies via dynamic influence combination. Extensive empirical studies show that ProxyBO consistently outperforms competitive baselines on five tasks from three public benchmarks. Concretely, ProxyBO achieves up to 5.41x and 3.83x speedups over the state-of-the-art approach REA and BRP-NAS, respectively.
翻訳日:2021-10-22 17:36:36 公開日:2021-10-20
# トレーニング済みモデルのランク付けとチューニング - エクスプロイトモデルハブの新たなパラダイム

Ranking and Tuning Pre-trained Models: A New Paradigm of Exploiting Model Hubs ( http://arxiv.org/abs/2110.10545v1 )

ライセンス: Link先を確認
Kaichao You, Yong Liu, Jianmin Wang, Michael I. Jordan, Mingsheng Long(参考訳) 多くの事前学習モデル(PTM)を持つ事前学習モデルハブは、ディープラーニングの基盤となっている。 実践者は一般的に、提供されたモデルハブから1つのPTMを選択し、ターゲットタスクを解決するためにPTMを微調整する。 このna\"ve but common practiceは、事前訓練されたモデルハブを十分に活用するための2つの障害を提起する: (1) ptm選択手順には最適性保証がない。 理想的には、事前訓練されたモデルハブを最大限活用するためには、PTMのすべての組み合わせを試し、各組み合わせを広範囲に微調整する必要がある。 本稿では,事前学習モデルのランク付けとチューニングにより,モデルハブを利用する新たなパラダイムを提案する。(1) 事前学習モデルから抽出した特徴量からラベルエビデンスを最大値として推定し,各種のPTMやタスクのモデルハブにおける全てのPTMをランク付けする,という,我々の会議ワーク~\citep{you_logme:_2021} の提案。 2) 最上位のPTMは、モデルアーキテクチャを好まない場合、微調整および展開が可能であり、また、ターゲットのPTMは、提案したB-Tuningアルゴリズムを介してトップKランクのPTMで調整できる。 ランク付け部は会議論文に基づいており,その理論的解析(ヒューリスティックな証拠の最大化手順の収束証明,特徴次元の影響)を本論文で完成する。 チューニング部では,複数 PTM チューニングのための新しい Bayesian Tuning (B-Tuning) 手法を導入し,同種 PTM チューニング用に設計された専用メソッドを超越し,異種 PTM チューニングのための新しい技術状態を設定する。 PTMハブを利用する新しいパラダイムは、コミュニティの大勢の聴衆を惹きつけることができると考えています。

Pre-trained model hubs with many pre-trained models (PTMs) have been a cornerstone in deep learning. Although built at a high cost, they are in fact \emph{under-exploited}: practitioners usually pick one PTM from the provided model hub by popularity, and then fine-tune the PTM to solve the target task. This na\"ve but common practice poses two obstacles to sufficiently exploiting pre-trained model hubs: (1) the PTM selection procedure has no optimality guarantee; (2) only one PTM is used while the rest PTMs are overlooked. Ideally, to maximally exploit pre-trained model hubs, trying all combinations of PTMs and extensively fine-tuning each combination of PTMs are required, which incurs exponential combinations and unaffordable computational budget. In this paper, we propose a new paradigm of exploiting model hubs by ranking and tuning pre-trained models: (1) Our conference work~\citep{you_logme:_2021} proposed LogME to estimate the maximum value of label evidence given features extracted by pre-trained models, which can rank all the PTMs in a model hub for various types of PTMs and tasks \emph{before fine-tuning}. (2) the best ranked PTM can be fine-tuned and deployed if we have no preference for the model's architecture, or the target PTM can be tuned by top-K ranked PTMs via the proposed B-Tuning algorithm. The ranking part is based on the conference paper, and we complete its theoretical analysis (convergence proof of the heuristic evidence maximization procedure, and the influence of feature dimension) in this paper. The tuning part introduces a novel Bayesian Tuning (B-Tuning) method for multiple PTMs tuning, which surpasses dedicated methods designed for homogeneous PTMs tuning and sets up new state of the art for heterogeneous PTMs tuning. We believe the new paradigm of exploiting PTM hubs can interest a large audience of the community.
翻訳日:2021-10-22 17:36:15 公開日:2021-10-20
# カタストロフィックフォーミングを理解するための行動実験

Behavioral Experiments for Understanding Catastrophic Forgetting ( http://arxiv.org/abs/2110.10570v1 )

ライセンス: Link先を確認
Samuel J. Bell and Neil D. Lawrence(参考訳) 本稿では,実験心理学の基本的ツールである行動実験が,人間や動物だけでなく,人工システムにも洞察をもたらす能力を持っているかを検討する。 実験心理学の手法をニューラルネットワークにおける破滅的忘れの研究に適用する。 本稿では,2層ReLUネットワークを用いた一連の制御実験を行い,破滅的忘れの挙動の新たな理解を明らかにする。 実験結果と並行して,ニューラルネット現象を調査するための行動優先のアプローチを示す。

In this paper we explore whether the fundamental tool of experimental psychology, the behavioral experiment, has the power to generate insight not only into humans and animals, but artificial systems too. We apply the techniques of experimental psychology to investigating catastrophic forgetting in neural networks. We present a series of controlled experiments with two-layer ReLU networks, and exploratory results revealing a new understanding of the behavior of catastrophic forgetting. Alongside our empirical findings, we demonstrate an alternative, behavior-first approach to investigating neural network phenomena.
翻訳日:2021-10-22 17:35:34 公開日:2021-10-20
# AdamD: バイアス補正を改善したAdam

AdamD: Improved bias-correction in Adam ( http://arxiv.org/abs/2110.10828v1 )

ライセンス: Link先を確認
John St John(参考訳) ここでは、最初の数ステップでうまく振る舞うという利点を持つAdamオプティマイザのバイアス補正項を少し更新します。 Adamのデフォルトの実装は、もともと提案されたバイアス補正手順と、トレーニングの初期段階における振る舞いによって、ハイパーパラメータよりも感度が高いかもしれない。

Here I present a small update to the bias correction term in the Adam optimizer that has the advantage of behaving well in the first several steps. The default implementation of Adam may be as sensitive as it is to hyperparameters partially due to the originally proposed bias correction procedure, and its behavior in early steps of training.
翻訳日:2021-10-22 17:34:29 公開日:2021-10-20
# 過去安全操作に基づく将来の安全へのブートストラップ信頼

Bootstrapping confidence in future safety based on past safe operation ( http://arxiv.org/abs/2110.10718v1 )

ライセンス: Link先を確認
Peter Bishop, Andrey Povyakalo and Lorenzo Strigini(参考訳) 自律走行車(AV)では、社会が必要とする範囲(例えば、AVが優れた人間ドライバーと同じくらい安全でなければならない)において、安全の有意義な量的保証を与えることができないことが大きな関心事である。 より穏健な、しかし有用で信頼性の高い、例えば、運用初期の段階で事故を起こす可能性の低い信頼性を達成するためのアプローチを実証する。 これは、不運な操作が安全に対する自信を確証し、より広範な操作を可能にすることを願って、限られたベースでシステムを操作するという、数学的に一般的なアプローチを定式化する。 Translating that intuitive approach into theorems shows: (1) that it is substantially sound in the right circumstances, and could be a good method for deciding about the early deployment phase for an AV; (2) how much confidence can be rightly derived from such a "cautious deployment" approach, so that we can avoid over-optimism; (3) under which conditions our sound formulas for future confidence are applicable; (4) thus, which analyses of the concrete situations, and/or constraints on practice, are needed in order to enjoy the advantages of provably correct confidence in adequate future safety.

With autonomous vehicles (AVs), a major concern is the inability to give meaningful quantitative assurance of safety, to the extent required by society - e.g. that an AV must be at least as safe as a good human driver - before that AV is in extensive use. We demonstrate an approach to achieving more moderate, but useful, confidence, e.g., confidence of low enough probability of causing accidents in the early phases of operation. This formalises mathematically the common approach of operating a system on a limited basis in the hope that mishap-free operation will confirm one's confidence in its safety and allow progressively more extensive operation: a process of "bootstrapping" of confidence. Translating that intuitive approach into theorems shows: (1) that it is substantially sound in the right circumstances, and could be a good method for deciding about the early deployment phase for an AV; (2) how much confidence can be rightly derived from such a "cautious deployment" approach, so that we can avoid over-optimism; (3) under which conditions our sound formulas for future confidence are applicable; (4) thus, which analyses of the concrete situations, and/or constraints on practice, are needed in order to enjoy the advantages of provably correct confidence in adequate future safety.
翻訳日:2021-10-22 17:30:55 公開日:2021-10-20
# pT-Learningによる最適無限水平動的処理レジームの推定

Estimating Optimal Infinite Horizon Dynamic Treatment Regimes via pT-Learning ( http://arxiv.org/abs/2110.10719v1 )

ライセンス: Link先を確認
Wenzhuo Zhou, Ruoqing Zhu and Annie Qu(参考訳) モバイルヘルス(mHealth)技術の最近の進歩は、個人の健康状態を監視し、ジャストインタイムのパーソナライズされた介入を提供する効果的な方法を提供する。 しかし、mHealth 技術の実用化は、最適な動的治療体制の学習において、既存の方法論に固有の課題をもたらす。 多くのmHealthアプリケーションは、多数の介入オプションによる意思決定と、決定段階の数が無限に分散する無限時間水平線設定を含む。 加えて、一時的な薬物不足は最適な治療が不可能になる可能性があるが、どのような代替手段が使えるかは定かではない。 これらの課題に対処するために、決定論的および確率的スパースポリシーモデルの間で適応的に調整された最適体制を推定する、pT学習のための近時整合学習フレームワークを提案する。 結果のminimax推定器は、既存のアルゴリズムの二重サンプリング問題を回避する。 さらに単純化でき、不一致の分布補正なしに簡単にオフポリシーデータを組み込むことができる。 スパース政策の理論的性質を考察し,過大なリスクと性能誤差に対する有限サンプル境界を確立する。 提案手法は近位DTRパッケージにより実装され,広範囲なシミュレーション研究とOttoT1DM mHealthデータセットを用いて評価される。

Recent advances in mobile health (mHealth) technology provide an effective way to monitor individuals' health statuses and deliver just-in-time personalized interventions. However, the practical use of mHealth technology raises unique challenges to existing methodologies on learning an optimal dynamic treatment regime. Many mHealth applications involve decision-making with large numbers of intervention options and under an infinite time horizon setting where the number of decision stages diverges to infinity. In addition, temporary medication shortages may cause optimal treatments to be unavailable, while it is unclear what alternatives can be used. To address these challenges, we propose a Proximal Temporal consistency Learning (pT-Learning) framework to estimate an optimal regime that is adaptively adjusted between deterministic and stochastic sparse policy models. The resulting minimax estimator avoids the double sampling issue in the existing algorithms. It can be further simplified and can easily incorporate off-policy data without mismatched distribution corrections. We study theoretical properties of the sparse policy and establish finite-sample bounds on the excess risk and performance error. The proposed method is implemented by our proximalDTR package and is evaluated through extensive simulation studies and the OhioT1DM mHealth dataset.
翻訳日:2021-10-22 17:28:57 公開日:2021-10-20
# 3DFaceFill: 顔補完のための分析バイシンセシスアプローチ

3DFaceFill: An Analysis-By-Synthesi s Approach to Face Completion ( http://arxiv.org/abs/2110.10395v1 )

ライセンス: Link先を確認
Rahul Dey and Vishnu Boddeti(参考訳) 既存の顔補完ソリューションは、主に2dマスク面の2d補完を直接生成するエンドツーエンドモデルによって駆動される。 このようなアプローチは、顔の形状や外観の幾何学的および測光的変化を暗黙的に考慮しなければならないため、特にポーズ、形状、照明、マスクの大きさのバリエーションにおいて非現実的な完成をもたらす。 この制約を緩和するために,画像形成過程を明示的に考慮した顔補完のための解析合成手法である3dfacefillを提案する。 本発明は,(1)顔を構成する3dメッシュと3dポーズ,照明,アルベド要素を内包するエンコーダ,(2)顔アルベドのuv表現を対向するオートエンコーダ,(3)完成顔の合成を行うレンダラーの3つの構成要素からなる。 UV表現を操作することで、3DFaceFillは対応の力を与え、自然に幾何学的先行(例えば顔対称性)をより効果的に強制することができる。 定量的には、3dfacefillは最大4dbの高psnrと25%の大型マスクのlpipにより最先端の技術を改善している。 そして質的には、グローバルでコンポーネント的な形状、ポーズ、照明、アイガゼの一貫性を保ちながら、マスクやオクルージョンの幅を超えて、フォトリアリスティックな顔の完成度が著しく向上する。

Existing face completion solutions are primarily driven by end-to-end models that directly generate 2D completions of 2D masked faces. By having to implicitly account for geometric and photometric variations in facial shape and appearance, such approaches result in unrealistic completions, especially under large variations in pose, shape, illumination and mask sizes. To alleviate these limitations, we introduce 3DFaceFill, an analysis-by-synthesi s approach for face completion that explicitly considers the image formation process. It comprises three components, (1) an encoder that disentangles the face into its constituent 3D mesh, 3D pose, illumination and albedo factors, (2) an autoencoder that inpaints the UV representation of facial albedo, and (3) a renderer that resynthesizes the completed face. By operating on the UV representation, 3DFaceFill affords the power of correspondence and allows us to naturally enforce geometrical priors (e.g. facial symmetry) more effectively. Quantitatively, 3DFaceFill improves the state-of-the-art by up to 4dB higher PSNR and 25% better LPIPS for large masks. And, qualitatively, it leads to demonstrably more photorealistic face completions over a range of masks and occlusions while preserving consistency in global and component-wise shape, pose, illumination and eye-gaze.
翻訳日:2021-10-22 17:19:41 公開日:2021-10-20
# ARTS:自動修正テキストスポッターによるテキスト検出と認識の不整合の解消

ARTS: Eliminating Inconsistency between Text Detection and Recognition with Auto-Rectification Text Spotter ( http://arxiv.org/abs/2110.10405v1 )

ライセンス: Link先を確認
Humen Zhong, Jun Tang, Wenhai Wang, Zhibo Yang, Cong Yao, Tong Lu(参考訳) 近年のエンドツーエンドテキストスポッティングのアプローチは有望な成果を上げている。 しかし、現在のスポッターのほとんどは、テキスト検出と認識の矛盾に苦しめられている。 本研究では,(1) テキスト検出と認識におけるテキスト認識機能の不整合,(2) テキスト検出と認識における最適化目標の不整合という2つの側面から,不整合問題の存在を紹介し,それを解析する。 上記の課題を解決するため,テキスト検出と認識の不整合をほとんど緩和する検出と認識のターゲットによって,検出ブランチを協調的に最適化できるように,新たなトレーニング戦略とともに,微分可能な自動修正モジュール(ARM)を提案する。 これらの設計に基づいて,自然場面における任意の形状のテキストの検出と認識を行うための,簡易かつ堅牢なエンドツーエンドテキストスポッティングフレームワークであるauto-rectification text spotter (arts)を提案する。 広範な実験により,本手法の優越性が示された。 特に、我々のARTS-Sは、トータルテキスト上の77.1%のテキストスポッティングFを10.5 FPSの競争速度で達成し、従来の手法よりも精度と推論速度の両方で大幅に向上した。

Recent approaches for end-to-end text spotting have achieved promising results. However, most of the current spotters were plagued by the inconsistency problem between text detection and recognition. In this work, we introduce and prove the existence of the inconsistency problem and analyze it from two aspects: (1) inconsistency of text recognition features between training and testing, and (2) inconsistency of optimization targets between text detection and recognition. To solve the aforementioned issues, we propose a differentiable Auto-Rectification Module (ARM) together with a new training strategy to enable propagating recognition loss back into detection branch, so that our detection branch can be jointly optimized by detection and recognition targets, which largely alleviates the inconsistency problem between text detection and recognition. Based on these designs, we present a simple yet robust end-to-end text spotting framework, termed Auto-Rectification Text Spotter (ARTS), to detect and recognize arbitrarily-shaped text in natural scenes. Extensive experiments demonstrate the superiority of our method. In particular, our ARTS-S achieves 77.1% end-to-end text spotting F-measure on Total-Text at a competitive speed of 10.5 FPS, which significantly outperforms previous methods in both accuracy and inference speed.
翻訳日:2021-10-22 17:19:13 公開日:2021-10-20
# 統一型転送

Unified Style Transfer ( http://arxiv.org/abs/2110.10481v1 )

ライセンス: Link先を確認
Guanjie Huang, Hongjian He, Xiang Li, Xingchen Li, Ziang Liu(参考訳) 現在、スタイルのカオス的定義と、スタイル伝達の研究において合意された客観的検証方法がないため、異なるスタイル転送アルゴリズムの比較と評価は困難である。 本稿では,新しいアプローチである統一スタイル転送(UST)モデルを提案する。 内部スタイル表現のための生成モデルを導入することで、ustは2つのアプローチ、すなわちドメインベースとイメージベースを同時に転送することができる。 同時に,トランスファーモデルを評価するための,人間的芸術意識とスタイル分布に基づく新しい哲学を,統計的スタイル分析(statistical style analysis)という形で提示し,実証した。 内部スタイル表現とアート事実の一般的な一貫性を検証することによって、スタイル転送モデルの有効性を検証する新しいパスを提供する。 また,AdaIN特徴の翻訳不変性についても論じる。

Currently, it is hard to compare and evaluate different style transfer algorithms due to chaotic definitions of style and the absence of agreed objective validation methods in the study of style transfer. In this paper, a novel approach, the Unified Style Transfer (UST) model, is proposed. With the introduction of a generative model for internal style representation, UST can transfer images in two approaches, i.e., Domain-based and Image-based, simultaneously. At the same time, a new philosophy based on the human sense of art and style distributions for evaluating the transfer model is presented and demonstrated, called Statistical Style Analysis. It provides a new path to validate style transfer models' feasibility by validating the general consistency between internal style representation and art facts. Besides, the translation-invarian ce of AdaIN features is also discussed.
翻訳日:2021-10-22 17:18:48 公開日:2021-10-20
# イベントガイドによる深度センシング

Event Guided Depth Sensing ( http://arxiv.org/abs/2110.10505v1 )

ライセンス: Link先を確認
Manasi Muglikar, Diederik Paul Moeys, Davide Scaramuzza(参考訳) 構造化光、ライダー、飛行時間システムなどの能動深度センサーは、シーン全体の深さを一定のスキャンレートで均一にサンプリングする。 これにより、冗長な静的情報が過剰サンプリングされ、貴重な動き情報がアンダーサンプリングされるような時空間分解が制限される。 本稿では,バイオインスパイアされた生物カメラ駆動深度推定アルゴリズムを提案する。 提案手法では,イベントカメラで検出されたシーン活動に応じて,関心領域を動的に濃密に照らし,動きのない視野領域を希薄に照らす。 深度推定は、レーザー点プロジェクタと、シーンからのレーザー反射を検出するためにチューニングされた第2のイベントベースセンサとからなるイベントベース構造化光システムによって達成される。 プロトタイプを用いて,シミュレーションされた自律走行シナリオと実際の屋内シーケンスにおけるアプローチの実現可能性を示す。 自律走行や屋内環境のような自然のシーンでは、移動エッジは平均して10%未満のシーンに対応している。 したがって、われわれのセットアップでは、センサーはシーンの10%しかスキャンできず、照明源による消費電力が90%減る可能性がある。 本稿では,イベントベースの構造化光システムの評価と概念実証について述べるが,lidar,time-of-fligh t,standard stereoなど,幅広い深さ検出モードに適用できる。

Active depth sensors like structured light, lidar, and time-of-flight systems sample the depth of the entire scene uniformly at a fixed scan rate. This leads to limited spatio-temporal resolution where redundant static information is over-sampled and precious motion information might be under-sampled. In this paper, we present an efficient bio-inspired event-camera-driven depth estimation algorithm. In our approach, we dynamically illuminate areas of interest densely, depending on the scene activity detected by the event camera, and sparsely illuminate areas in the field of view with no motion. The depth estimation is achieved by an event-based structured light system consisting of a laser point projector coupled with a second event-based sensor tuned to detect the reflection of the laser from the scene. We show the feasibility of our approach in a simulated autonomous driving scenario and real indoor sequences using our prototype. We show that, in natural scenes like autonomous driving and indoor environments, moving edges correspond to less than 10% of the scene on average. Thus our setup requires the sensor to scan only 10% of the scene, which could lead to almost 90% less power consumption by the illumination source. While we present the evaluation and proof-of-concept for an event-based structured-light system, the ideas presented here are applicable for a wide range of depth-sensing modalities like LIDAR, time-of-flight, and standard stereo.
翻訳日:2021-10-22 17:18:37 公開日:2021-10-20
# AniFormer: Transformerを使ったデータ駆動3Dアニメーション

AniFormer: Data-driven 3D Animation with Transformer ( http://arxiv.org/abs/2110.10533v1 )

ライセンス: Link先を確認
Haoyu Chen, Hao Tang, Nicu Sebe, Guoying Zhao(参考訳) 本稿では,ターゲット3Dオブジェクトを原駆動シーケンスの動作によってアニメーションする,新しいタスクを提案する。 これまでの研究では、ソースメッシュとターゲットメッシュまたは中間要素の間の追加の補助相関は、駆動シーケンスの動作を捉えるために避けられない。 入力として生の駆動シーケンスと任意の同種のターゲットメッシュを直接取り込んでアニメーションの3dシーケンスを生成する,新しいトランスフォーマーアーキテクチャであるaniformerを導入する。 具体的には、ターゲットメッシュのスタイルと駆動メッシュの動作を統合することでメッシュシーケンスを生成する3DアニメーションのためのTransformerアーキテクチャをカスタマイズする。 さらに、従来のバニラ変圧器の回帰ヘッドの代わりに、aniformerは複数のフレームを出力として生成し、生成されたメッシュのシーケンシャルな一貫性を維持する。 これを達成するため、私たちは、生成したメッシュシーケンスに対して強い正規化を提供するための2つの回帰制約、すなわち動きと外観の制約を慎重に設計します。 我々のAniFormerは、様々なカテゴリのベンチマークにおいて、高忠実で、現実的で、時間的に一貫性のあるアニメーション結果を実現し、最先端の手法よりも優れています。 コードは、https://github.com/m ikecheninoulu/AniFor mer.comで入手できる。

We present a novel task, i.e., animating a target 3D object through the motion of a raw driving sequence. In previous works, extra auxiliary correlations between source and target meshes or intermedia factors are inevitable to capture the motions in the driving sequences. Instead, we introduce AniFormer, a novel Transformer-based architecture, that generates animated 3D sequences by directly taking the raw driving sequences and arbitrary same-type target meshes as inputs. Specifically, we customize the Transformer architecture for 3D animation that generates mesh sequences by integrating styles from target meshes and motions from the driving meshes. Besides, instead of the conventional single regression head in the vanilla Transformer, AniFormer generates multiple frames as outputs to preserve the sequential consistency of the generated meshes. To achieve this, we carefully design a pair of regression constraints, i.e., motion and appearance constraints, that can provide strong regularization on the generated mesh sequences. Our AniFormer achieves high-fidelity, realistic, temporally coherent animated results and outperforms compared start-of-the-art methods on benchmarks of diverse categories. Code is available: https://github.com/m ikecheninoulu/AniFor mer.
翻訳日:2021-10-22 17:18:15 公開日:2021-10-20
# CNN解釈のための推論グラフ

Inference Graphs for CNN Interpretation ( http://arxiv.org/abs/2110.10568v1 )

ライセンス: Link先を確認
Yael Konforti, Alon Shpigler, Boaz Lernerand Aharon Bar-Hillel(参考訳) 畳み込みニューラルネットワーク(CNN)は多くの視覚関連タスクにおいて優れた精度を実現している。 しかし、中間層による推論プロセスは不透明であり、そのようなネットワークを解釈したり、その操作に対する信頼を育むことは困難である。 確率モデルを用いてネットワーク隠蔽層の活動のモデル化を提案する。 関心層内の活動パターンをガウス混合モデルとしてモデル化し,連続モデル層内のクラスター間の遷移確率を推定した。 ネットワーク予測に関連するノードやパスを最大化して,推論グラフとして選択し,接続し,視覚化する。 このようなグラフは、クラス全体の推論プロセスの理解や、ネットワークが特定の画像に対して行う決定の説明に有用であることを示す。

Convolutional neural networks (CNNs) have achieved superior accuracy in many visual related tasks. However, the inference process through intermediate layers is opaque, making it difficult to interpret such networks or develop trust in their operation. We propose to model the network hidden layers activity using probabilistic models. The activity patterns in layers of interest are modeled as Gaussian mixture models, and transition probabilities between clusters in consecutive modeled layers are estimated. Based on maximum-likelihood considerations, nodes and paths relevant for network prediction are chosen, connected, and visualized as an inference graph. We show that such graphs are useful for understanding the general inference process of a class, as well as explaining decisions the network makes regarding specific images.
翻訳日:2021-10-22 17:17:52 公開日:2021-10-20
# 準等角幾何学に基づく拡散型画像登録のための学習フレームワーク

A Learning Framework for Diffeomorphic Image Registration based on Quasi-conformal Geometry ( http://arxiv.org/abs/2110.10580v1 )

ライセンス: Link先を確認
Qiguang Chen, Zhiwen Li, Lok Ming Lui(参考訳) 画像間の有意義な対応を定義するプロセスである画像登録は、様々な画像解析タスク、特に医用画像解析に不可欠である。 近年提案されている変形可能な画像登録のための多くの学習ベース手法、特に畳み込みニューラルネットワーク(CNN)は、登録問題に対するディープラーニング技術の有効性と優位性を実証している。 さらに,各画像対に対する目的関数の従来のアルゴリズムの最適化方式と比較して,学習ベースのアルゴリズムは桁違いに高速である。 しかし、これらのデータ駆動手法は変形場に適切な制約を持たず、位相的折りたたみに繋がる。 そこで本研究では,非教師なし学習フレームワークである準共形登録ネットワーク (qcregnet) を提案し,二つの多様体間の配向保存同相写像である準共形 (qc) マップに基づく大きな変形を伴う2次元画像登録を得る。 基本的な考え方は、CNNマッピングイメージペアを変形場に設計することである。 QCRegNetは推定器ネットワークとベルトラミソルバネットワーク(BSNet)で構成されている。 推定器ネットワークは、画像対を入力としてベルトラミ係数(BC)を出力する。 BCはQCマップの共形歪みを捕捉し、ビジェクティビティを保証するため、所望のQCマップを再構成するタスク非依存のネットワークであるBSNetに入力される。 さらに, フーリエ近似を用いてbcを圧縮することにより, ネットワークパラメータ数と計算複雑性を低減する。 水中画像や医療画像などの異なるデータで実験が行われている。 登録結果は、登録精度が最先端の手法に匹敵し、微分同相性は他の微分同相登録アルゴリズムと比較してかなり保証されていることを示している。

Image registration, the process of defining meaningful correspondences between images, is essential for various image analysis tasks, especially medical imaging. Numerous learning-based methods, notably convolutional neural networks (CNNs), for deformable image registration proposed in recent years have demonstrated the feasibility and superiority of deep learning techniques for registration problems. Besides, compared to traditional algorithms' optimization scheme of the objective function for each image pair, learning-based algorithms are several orders of magnitude faster. However, these data-driven methods without proper constraint on the deformation field will easily lead to topological foldings. To tackle this problem, We propose the quasi-conformal registration network (QCRegNet), an unsupervised learning framework, to obtain diffeomorphic 2D image registrations with large deformations based on quasi-conformal (QC) map, an orientation-preservi ng homeomorphism between two manifolds. The basic idea is to design a CNN mapping image pairs to deformation fields. QCRegNet consists of the estimator network and the Beltrami solver network (BSNet). The estimator network takes image pair as input and outputs the Beltrami coefficient (BC). The BC, which captures conformal distortion of a QC map and guarantees the bijectivity, will then be input to the BSNet, a task-independent network which reconstructs the desired QC map. Furthermore, we reduce the number of network parameters and computational complexity by utilizing Fourier approximation to compress BC. Experiments have been carried out on different data such as underwater and medical images. Registration results show that the registration accuracy is comparable to state-of-the-art methods and diffeomorphism is to a great extent guaranteed compared to other diffeomorphic registration algorithms.
翻訳日:2021-10-22 17:17:41 公開日:2021-10-20
# インスタンスフローアセンブリによるビデオインスタンス分割

Video Instance Segmentation by Instance Flow Assembly ( http://arxiv.org/abs/2110.10599v1 )

ライセンス: Link先を確認
Xiang Li, Jinglu Wang, Xiao Li, Yan Lu(参考訳) インスタンスのセグメンテーションは、特定のクラスのすべてのオブジェクトインスタンスの分類とセグメンテーションを目的とした、難しいタスクである。 2段階のボックスベースメソッドは、画像領域で最高のパフォーマンスを達成するが、ビデオ領域にその優位性を容易に拡張することはできない。 これは通常、検出された境界ボックスから取得した特徴やイメージをアライメントなしで処理し、ピクセルレベルの時間的一貫性を捉えることができないためである。 我々は,ボックスフリー機能を扱うボトムアップ手法がフレーム間の空間的相関を精度良く提供し,オブジェクトやピクセルレベルのトラッキングに活用できるという観察を取り入れている。 まず,フレーム間相関をよりよくエンコードする時間的コンテキスト融合モジュールを備えたボトムアップフレームワークを提案する。 セマンティクスセグメンテーションとオブジェクトローカライゼーションのためのフレーム内キューを同時に抽出し、共有バックボーンの後に対応するデコーダによって再構築する。 インスタンス間の効率的かつロバストな追跡を行うために,インスタンスフローと呼ばれる中心から中心へのフローで表される隣接フレーム間のインスタンスレベル対応を導入し,乱雑な時間的対応を組み立てる。 実験により、提案手法がyoutube-visデータセットにおける最先端のオンライン手法(画像レベルの入力)よりも優れていることが証明された。

Instance segmentation is a challenging task aiming at classifying and segmenting all object instances of specific classes. While two-stage box-based methods achieve top performances in the image domain, they cannot easily extend their superiority into the video domain. This is because they usually deal with features or images cropped from the detected bounding boxes without alignment, failing to capture pixel-level temporal consistency. We embrace the observation that bottom-up methods dealing with box-free features could offer accurate spacial correlations across frames, which can be fully utilized for object and pixel level tracking. We first propose our bottom-up framework equipped with a temporal context fusion module to better encode inter-frame correlations. Intra-frame cues for semantic segmentation and object localization are simultaneously extracted and reconstructed by corresponding decoders after a shared backbone. For efficient and robust tracking among instances, we introduce an instance-level correspondence across adjacent frames, which is represented by a center-to-center flow, termed as instance flow, to assemble messy dense temporal correspondences. Experiments demonstrate that the proposed method outperforms the state-of-the-art online methods (taking image-level input) on the challenging Youtube-VIS dataset.
翻訳日:2021-10-22 17:17:13 公開日:2021-10-20
# 多人数視点推定のための自己スーパービジョンと空間系列アテンションに基づく損失

Self-Supervision and Spatial-Sequential Attention Based Loss for Multi-Person Pose Estimation ( http://arxiv.org/abs/2110.10734v1 )

ライセンス: Link先を確認
Haiyang Liu, Dingli Luo, Songlin Du, Takeshi Ikenaga(参考訳) ボトムアップに基づく多対人ポーズ推定手法は、補助的な予測を伴うヒートマップを用いて関節位置を推定し、同時に属する。 近年, 補助予測とヒートマップの組合せにより高い性能が提案されており, これらの予測は対応するL2損失関数によって直接制御されている。 しかし、より明示的な監督の欠如は、1つのモデルにおける特徴利用率の低下と予測間の矛盾をもたらす。 これらの問題を解決するために,本論文は提案する。 一 自己監督型ヒートマップを用いて予測矛盾及び空間的注意を低減し、ネットワークの特徴抽出を強化する新たな損失組織方法 熱マップ,部分親和性フィールド (PAF) とブロック内オフセットによって構成される新たな予測の組み合わせにより,画素レベルの関節位置を固定し,さらに損失関数の有効性を示す。 MS COCOキーポイントデータセットで実験を行い、ベースラインモデルとしてOpenPoseを採用する。 提案手法は全体のベースラインを上回っている。 COCO検証データセットでは、私たちの提案でトレーニングされたOpenPoseのmAPが、OpenPoseベースラインを5.5%以上上回っています。

Bottom-up based multi-person pose estimation approaches use heatmaps with auxiliary predictions to estimate joint positions and belonging at one time. Recently, various combinations between auxiliary predictions and heatmaps have been proposed for higher performance, these predictions are supervised by the corresponding L2 loss function directly. However, the lack of more explicit supervision results in low features utilization and contradictions between predictions in one model. To solve these problems, this paper proposes (i) a new loss organization method which uses self-supervised heatmaps to reduce prediction contradictions and spatial-sequential attention to enhance networks' features extraction; (ii) a new combination of predictions composed by heatmaps, Part Affinity Fields (PAFs) and our block-inside offsets to fix pixel-level joints positions and further demonstrates the effectiveness of proposed loss function. Experiments are conducted on the MS COCO keypoint dataset and adopting OpenPose as the baseline model. Our method outperforms the baseline overall. On the COCO verification dataset, the mAP of OpenPose trained with our proposals outperforms the OpenPose baseline by over 5.5%.
翻訳日:2021-10-22 17:16:02 公開日:2021-10-20
# 移動フレキシブルターゲットの連続画像に対する閉ループフィードバック登録

Closed-loop Feedback Registration for Consecutive Images of Moving Flexible Targets ( http://arxiv.org/abs/2110.10772v1 )

ライセンス: Link先を確認
Rui Ma, Xian Du(参考訳) 撮像技術の進歩により、製造ラインの品質監視のために連続した画像シーケンスを取得することができる。 これらの画像シーケンスの登録は、例えばフレキシブルエレクトロニクスの印刷プロセスにおいて、インラインパターン検査やメートル法に不可欠である。 しかし, 従来の画像登録アルゴリズムでは, 製造工程に類似した, 変形可能なパターンが多数含まれている場合, 正確な結果が得られない。 このような失敗は、従来のアルゴリズムが登録に空間強度情報と画素強度情報のみを使用するという事実に由来する。 本稿では,製品画像の時間的連続性と連続性を考慮して,変形可能な印刷パターンを移動可能なフレキシブル基板上に照合・縫い合わせるクローズドループフィードバック登録アルゴリズムを提案する。 このアルゴリズムは、連続した画像の時間的・空間的関係と画像列の連続性を利用して、高速で正確でロバストな点マッチングを行う。 実験結果から,本アルゴリズムは他の最先端アルゴリズムと比較して,より低い根平均二乗誤差 (rmse) を持つマッチング点対を求めることができ,実行時間を大幅に改善できることを示した。

Advancement of imaging techniques enables consecutive image sequences to be acquired for quality monitoring of manufacturing production lines. Registration for these image sequences is essential for in-line pattern inspection and metrology, e.g., in the printing process of flexible electronics. However, conventional image registration algorithms cannot produce accurate results when the images contain many similar and deformable patterns in the manufacturing process. Such a failure originates from a fact that the conventional algorithms only use the spatial and pixel intensity information for registration. Considering the nature of temporal continuity and consecution of the product images, in this paper, we propose a closed-loop feedback registration algorithm for matching and stitching the deformable printed patterns on a moving flexible substrate. The algorithm leverages the temporal and spatial relationships of the consecutive images and the continuity of the image sequence for fast, accurate, and robust point matching. Our experimental results show that our algorithm can find more matching point pairs with a lower root mean squared error (RMSE) compared to other state-of-the-art algorithms while offering significant improvements to running time.
翻訳日:2021-10-22 17:15:43 公開日:2021-10-20
# ABC: クラス不均衡半教師あり学習のための補助均衡分類器

ABC: Auxiliary Balanced Classifier for Class-imbalanced Semi-supervised Learning ( http://arxiv.org/abs/2110.10368v1 )

ライセンス: Link先を確認
Hyuck Lee, Seungjae Shin, Heeyoung Kim(参考訳) 既存の半教師付き学習(SSL)アルゴリズムは通常、多くの実世界のデータセットのクラス分布は不均衡であるが、クラスバランスのデータセットを仮定する。 一般に、クラス不均衡データセットでトレーニングされた分類器は、多数派クラスに偏っている。 SSLアルゴリズムでは、ラベルなしデータのバイアス付き予測をトレーニングに使用するため、この問題がより問題になる。 しかし、ラベル付きデータ用に設計された従来のクラス不均衡学習技術は、簡単にSSLアルゴリズムと組み合わせることはできない。 本稿では,既存のSSLアルゴリズムの表現層に付加された単一層の補助的均衡型分類器(ABC)を導入することにより,クラス不均衡を緩和しつつ,ラベル付きデータを効果的に活用できるスケーラブルなクラス不均衡SSLアルゴリズムを提案する。 abcは,オーバーフィッティングや情報損失を回避するために,backbone sslアルゴリズムを用いて,ミニバッチ内のすべてのデータポイントから学習した高品質な表現を用いて,クラス間のバランスを保ちながら,ミニバッチのクラスバランス損失を訓練する。さらに,ラベルなしデータを利用するための最近のssl技法であるconsistency regularizationを用いて,abcをクラス毎に同じ確率で選択することで,クラス間のバランスをとるように訓練する。 提案アルゴリズムは,4つのベンチマークデータセットを用いて,様々なクラス不均衡SSL実験における最先端性能を実現する。

Existing semi-supervised learning (SSL) algorithms typically assume class-balanced datasets, although the class distributions of many real-world datasets are imbalanced. In general, classifiers trained on a class-imbalanced dataset are biased toward the majority classes. This issue becomes more problematic for SSL algorithms because they utilize the biased prediction of unlabeled data for training. However, traditional class-imbalanced learning techniques, which are designed for labeled data, cannot be readily combined with SSL algorithms. We propose a scalable class-imbalanced SSL algorithm that can effectively use unlabeled data, while mitigating class imbalance by introducing an auxiliary balanced classifier (ABC) of a single layer, which is attached to a representation layer of an existing SSL algorithm. The ABC is trained with a class-balanced loss of a minibatch, while using high-quality representations learned from all data points in the minibatch using the backbone SSL algorithm to avoid overfitting and information loss.Moreover, we use consistency regularization, a recent SSL technique for utilizing unlabeled data in a modified way, to train the ABC to be balanced among the classes by selecting unlabeled data with the same probability for each class. The proposed algorithm achieves state-of-the-art performance in various class-imbalanced SSL experiments using four benchmark datasets.
翻訳日:2021-10-22 16:36:06 公開日:2021-10-20
# 効率的な点クラウド表現学習のための異方性分離集合抽象化

Anisotropic Separable Set Abstraction for Efficient Point Cloud Representation Learning ( http://arxiv.org/abs/2110.10538v1 )

ライセンス: Link先を確認
Guocheng Qian, Hasan Abed Al Kader Hammoud, Guohao Li, Ali Thabet, Bernard Ghanem(参考訳) 3Dポイントのクラウド表現へのアクセスは、様々なモバイルデバイスに埋め込まれたLiDARセンサーによって広く促進されている。 これにより、高速で正確なポイントクラウド処理技術の必要性が高まっている。 本稿では、最も影響力があり、未調査のネットワークであるpointnet++を再検討し、より高速で正確なモデルの変種を開発する。 まず,pointnet++で使用されるvanilla saモジュールを,(1)学習チャネル相関と(2)学習空間相関という2つの学習段階に分けた,新たな分離可能集合抽象化(sa)モジュールを提案する。 Separable SAモジュールは、バニラバージョンよりも大幅に高速だが、同等のパフォーマンスを実現している。 次に、分離可能なSAモジュールに新しい異方性還元関数を導入し、ネットワークの精度を大幅に向上させるAnisotropic Separable SA(ASSA)モジュールを提案する。 その後、PointNet++のバニラSAモジュールをASSAモジュールに置き換え、修正されたネットワークをASSANetと表現した。 ポイントクラウド分類、セマンティックセグメンテーション、パートセグメンテーションに関する大規模な実験は、ASSANetがPointNet++や他のメソッドより優れており、はるかに高い精度と高速なスピードを実現していることを示している。 特にASSANetは、S3DIS Area 5でPointNet++を74$ mIoUで上回り、1つのNVIDIA 2080Ti GPUで1.6 \times $高速推論速度を維持している。 当社のスケールしたASSANetは660.8ドルのmIoUを実現し、KPConvを上回っています。

Access to 3D point cloud representations has been widely facilitated by LiDAR sensors embedded in various mobile devices. This has led to an emerging need for fast and accurate point cloud processing techniques. In this paper, we revisit and dive deeper into PointNet++, one of the most influential yet under-explored networks, and develop faster and more accurate variants of the model. We first present a novel Separable Set Abstraction (SA) module that disentangles the vanilla SA module used in PointNet++ into two separate learning stages: (1) learning channel correlation and (2) learning spatial correlation. The Separable SA module is significantly faster than the vanilla version, yet it achieves comparable performance. We then introduce a new Anisotropic Reduction function into our Separable SA module and propose an Anisotropic Separable SA (ASSA) module that substantially increases the network's accuracy. We later replace the vanilla SA modules in PointNet++ with the proposed ASSA module, and denote the modified network as ASSANet. Extensive experiments on point cloud classification, semantic segmentation, and part segmentation show that ASSANet outperforms PointNet++ and other methods, achieving much higher accuracy and faster speeds. In particular, ASSANet outperforms PointNet++ by $7.4$ mIoU on S3DIS Area 5, while maintaining $1.6 \times $ faster inference speed on a single NVIDIA 2080Ti GPU. Our scaled ASSANet variant achieves $66.8$ mIoU and outperforms KPConv, while being more than $54 \times$ faster.
翻訳日:2021-10-22 16:34:57 公開日:2021-10-20
# ゴミか宝物か? 単一画像反射分離のための対話型デュアルストリーム戦略

Trash or Treasure? An Interactive Dual-Stream Strategy for Single Image Reflection Separation ( http://arxiv.org/abs/2110.10546v1 )

ライセンス: Link先を確認
Qiming Hu, Xiaojie Guo(参考訳) 単一画像反射分離(sirs、single image reflection separation)は、代表的なブラインドソース分離タスクとして、1つの混合観察から$\textit{i.e}$という2つの層を復元することを目的としている。 既存のディープラーニングベースのソリューションは、通常、ターゲット層を個別に復元するか、出力の最後にいくつかの懸念を持って、2つのストリーム/ブランチ間の相互作用をほとんど考慮しない。 情報をより効率的に活用するために、この研究は、二重ストリーム分解ネットワークを構築するための一般的な単純な対話戦略である$\textit{your trash is my treasure}$ (YTMT)を提示している。 具体的には、2つのストリームをブロックごとに通信するために明示的に強制します。 2つのコンポーネント間の付加特性にインスパイアされた対話パスは、ReLU整流器による非活性化情報を1つのストリームからもう1つのストリームへ転送することで簡単に構築できる。 広く使用されているSIRSデータセットに対するアブレーション研究と実験結果の両方を、YTMTの有効性を実証し、他の最先端の代替品よりもその優位性を明らかにするために実施した。 実装は非常にシンプルで、コードは$\href{https://github.com/m ingcv/ytmt-strategy}{\textit{https://github.com/m ingcv/ytmt-strategy}}$で公開されています。

Single image reflection separation (SIRS), as a representative blind source separation task, aims to recover two layers, $\textit{i.e.}$, transmission and reflection, from one mixed observation, which is challenging due to the highly ill-posed nature. Existing deep learning based solutions typically restore the target layers individually, or with some concerns at the end of the output, barely taking into account the interaction across the two streams/branches. In order to utilize information more efficiently, this work presents a general yet simple interactive strategy, namely $\textit{your trash is my treasure}$ (YTMT), for constructing dual-stream decomposition networks. To be specific, we explicitly enforce the two streams to communicate with each other block-wisely. Inspired by the additive property between the two components, the interactive path can be easily built via transferring, instead of discarding, deactivated information by the ReLU rectifier from one stream to the other. Both ablation studies and experimental results on widely-used SIRS datasets are conducted to demonstrate the efficacy of YTMT, and reveal its superiority over other state-of-the-art alternatives. The implementation is quite simple and our code is publicly available at $\href{https://github.com/m ingcv/YTMT-Strategy}{\textit{https://github.com/m ingcv/YTMT-Strategy}}$.
翻訳日:2021-10-22 16:34:27 公開日:2021-10-20
# 逆方向移動による3次元形状認識

Style Agnostic 3D Reconstruction via Adversarial Style Transfer ( http://arxiv.org/abs/2110.10784v1 )

ライセンス: Link先を確認
Felix Petersen, Bastian Goldluecke, Oliver Deussen, Hilde Kuehne(参考訳) 画像から物体の3次元形状を再構築することは、コンピュータビジョンの大きな課題である。 最近導入された微分可能レンダラは、2d画像からオブジェクトの3d幾何学を学ぶために利用できるが、これらのアプローチはレンダラーが入力画像と比較可能な出力を生成するために追加の監督を必要とする。 これはシーン情報や、オブジェクトシルエット、均一な背景、材料、テクスチャ、照明といった制約である。 本稿では,シルエットの監督を必要とせず,背景を持つ画像から3Dオブジェクトを識別可能なレンダリングベースで学習する手法を提案する。 入力に近接して画像をレンダリングする代わりに、入力された画像ドメインをレンダリングされた画像ドメインに変換することができる、逆向きのスタイル変換とドメイン適応パイプラインを提案する。 これにより、3次元オブジェクト再構成ネットワークをトレーニングするために、翻訳画像と3次元オブジェクト再構成の微分レンダリングを直接比較することができる。 本研究では,背景を持つ画像から3次元形状を学習し,単一視点の3次元オブジェクト再構成のための制約付き手法よりも優れた性能を提供する。

Reconstructing the 3D geometry of an object from an image is a major challenge in computer vision. Recently introduced differentiable renderers can be leveraged to learn the 3D geometry of objects from 2D images, but those approaches require additional supervision to enable the renderer to produce an output that can be compared to the input image. This can be scene information or constraints such as object silhouettes, uniform backgrounds, material, texture, and lighting. In this paper, we propose an approach that enables a differentiable rendering-based learning of 3D objects from images with backgrounds without the need for silhouette supervision. Instead of trying to render an image close to the input, we propose an adversarial style-transfer and domain adaptation pipeline that allows to translate the input image domain to the rendered image domain. This allows us to directly compare between a translated image and the differentiable rendering of a 3D object reconstruction in order to train the 3D object reconstruction network. We show that the approach learns 3D geometry from images with backgrounds and provides a better performance than constrained methods for single-view 3D object reconstruction on this task.
翻訳日:2021-10-22 16:34:00 公開日:2021-10-20
# 言語モデルから音響モデルへの知識蒸留:階層的マルチタスク学習アプローチ

Knowledge distillation from language model to acoustic model: a hierarchical multi-task learning approach ( http://arxiv.org/abs/2110.10429v1 )

ライセンス: Link先を確認
Mun-Hak Lee, Joon-Hyuk Chang(参考訳) 自己教師付き学習を用いた事前学習言語モデル(LM)の顕著な性能は、自然言語処理の研究において大きなパラダイムシフトをもたらした。 これらの変化に伴い、大規模なディープラーニングに基づくlmsを用いた音声認識システムの性能向上が音声認識研究の主要なトピックとなっている。 本稿では,音声認識システムにLMを適用する様々な手法の中で,異なるモーダル性を持つ2種類のディープニューラルネットワーク間で知識を伝達するクロスモーダルな知識蒸留手法に焦点を当てる。 クロスモーダル蒸留のための複数の補助出力層を有する音響モデル構造を提案し,提案手法が既存のラベル補間蒸留法の欠点を効果的に補うことを実証した。 さらに,提案手法を異なる単位(セノン,モノフォン,サブワード)で訓練されたLMを用いた階層蒸留法に拡張し,アブレーションによる階層蒸留法の有効性を明らかにする。

The remarkable performance of the pre-trained language model (LM) using self-supervised learning has led to a major paradigm shift in the study of natural language processing. In line with these changes, leveraging the performance of speech recognition systems with massive deep learning-based LMs is a major topic of speech recognition research. Among the various methods of applying LMs to speech recognition systems, in this paper, we focus on a cross-modal knowledge distillation method that transfers knowledge between two types of deep neural networks with different modalities. We propose an acoustic model structure with multiple auxiliary output layers for cross-modal distillation and demonstrate that the proposed method effectively compensates for the shortcomings of the existing label-interpolation- based distillation method. In addition, we extend the proposed method to a hierarchical distillation method using LMs trained in different units (senones, monophones, and subwords) and reveal the effectiveness of the hierarchical distillation method through an ablation study.
翻訳日:2021-10-22 16:29:42 公開日:2021-10-20
# ガウス平滑スライス確率分布の統計的および位相的性質

Statistical and Topological Properties of Gaussian Smoothed Sliced Probability Divergences ( http://arxiv.org/abs/2110.10524v1 )

ライセンス: Link先を確認
Alain Rakotomamonjy, Mokhtar Z. Alaya (LMAC), Maxime Berar (DocApp - LITIS), Gilles Gasso (DocApp - LITIS)(参考訳) gaussian smoothed sliced wasserstein distanceは、データのプライバシーを保ちながら確率分布を比較するために最近導入された。 ドメイン適応(domain adaptation)のようなアプリケーションでは、非プライベート(非smoothed)のものと同じようなパフォーマンスを提供することが示されている。 しかし、そのような計量の計算的および統計的性質はまだ十分に確立されていない。 本稿では,この距離の理論的性質と,ガウス平滑化スライス発散として表される一般化バージョンの理論特性について解析する。 滑らか化とスライシングが計量特性と弱位相を保存することを示す。 また、これらの分散のサンプル複雑性に関する結果も提供する。 プライバシーレベルはガウスの平滑化量に依存するため,このパラメータが分散に与える影響を解析する。 我々は,ガウスのスムーズ化とスライス化によるワッサーテイン距離,シンクホーンの発散,最大平均差 (MMD) の実証的研究により,理論的知見を裏付ける。 プライバシ保護ドメイン適応の文脈では、ガウス的平滑化されたwassersteinとmmdダイバージェンスがデータのプライバシを確保しながら、非常にうまく機能していることを確認します。

Gaussian smoothed sliced Wasserstein distance has been recently introduced for comparing probability distributions, while preserving privacy on the data. It has been shown, in applications such as domain adaptation, to provide performances similar to its non-private (non-smoothed) counterpart. However, the computational and statistical properties of such a metric is not yet been well-established. In this paper, we analyze the theoretical properties of this distance as well as those of generalized versions denoted as Gaussian smoothed sliced divergences. We show that smoothing and slicing preserve the metric property and the weak topology. We also provide results on the sample complexity of such divergences. Since, the privacy level depends on the amount of Gaussian smoothing, we analyze the impact of this parameter on the divergence. We support our theoretical findings with empirical studies of Gaussian smoothed and sliced version of Wassertein distance, Sinkhorn divergence and maximum mean discrepancy (MMD). In the context of privacy-preserving domain adaptation, we confirm that those Gaussian smoothed sliced Wasserstein and MMD divergences perform very well while ensuring data privacy.
翻訳日:2021-10-22 16:27:35 公開日:2021-10-20
# PSDモデルによる任意関数からのサンプリング

Sampling from Arbitrary Functions via PSD Models ( http://arxiv.org/abs/2110.10527v1 )

ライセンス: Link先を確認
Ulysse Marteau-Ferey (SIERRA, PSL), Alessandro Rudi (PSL, SIERRA), Francis Bach (PSL, SIERRA)(参考訳) 応用統計学と機械学習の多くの分野において、与えられた分布から任意の数の独立かつ同一に分布するサンプルを生成することが重要な課題である。 分布が密度の評価によってのみ知られている場合、現在の手法は次元でひどくスケールするか、非常に複雑な実装を必要とする。 その代わりに、確率分布をモデル化し、そのモデルからサンプリングすることで、2段階のアプローチをとる。 最近導入された正半定義(psd)モデルを用いて,確率密度の近似に効率的であることが示されている。 これらのモデルが簡潔に,少数の評価結果を用いて,多種多様な密度を近似できることを示すとともに,これらのモデルから効果的にサンプルする簡単なアルゴリズムを提案する。 また、我々の主張を説明するための予備的な実証結果も提示する。

In many areas of applied statistics and machine learning, generating an arbitrary number of independent and identically distributed (i.i.d.) samples from a given distribution is a key task. When the distribution is known only through evaluations of the density, current methods either scale badly with the dimension or require very involved implementations. Instead, we take a two-step approach by first modeling the probability distribution and then sampling from that model. We use the recently introduced class of positive semi-definite (PSD) models, which have been shown to be efficient for approximating probability densities. We show that these models can approximate a large class of densities concisely using few evaluations, and present a simple algorithm to effectively sample from these models. We also present preliminary empirical results to illustrate our assertions.
翻訳日:2021-10-22 16:27:14 公開日:2021-10-20
# OMB-Py: HPCシステム上でのMPIライブラリの性能評価のためのPythonマイクロベンチマーク

OMB-Py: Python Micro-Benchmarks for Evaluating Performance of MPI Libraries on HPC Systems ( http://arxiv.org/abs/2110.10659v1 )

ライセンス: Link先を確認
Nawras Alnaasan, Arpan Jain, Aamir Shafi, Hari Subramoni, and Dhabaleswar K Panda(参考訳) Pythonは機械学習(ML)、ディープラーニング(DL)、データサイエンス(DS)といった新興分野において支配的なプログラミング言語となっている。 Pythonの魅力的な特徴は、ライブラリ開発者がハイパフォーマンスコンピューティング(HPC)プラットフォームが提供するコンピューティングパワーを利用することで、アプリケーションのパフォーマンスを向上させると同時に、使いやすいプログラミングインターフェイスを提供することである。 効率的な通信は並列システム上のアプリケーションのスケーリングの鍵であり、通常はMPI(Message Passing Interface)標準とHPCハードウェア上の準拠ライブラリによって実現される。 mpi4pyはPythonベースの通信ライブラリで、Pythonアプリケーション向けのMPIライクなインターフェースを提供する。 しかし、現在のHPCシステムでは、mpi4py -- およびPython MPIコード全般の通信性能を評価するベンチマークスイートは存在しない。 このギャップを埋めるため、我々はオープンソースのOSU Micro-Benchmark (OMB) スイートへのOMB-Py-Python拡張を提案し、PythonにおけるMPIベースの並列アプリケーションの通信性能を評価することを目的とした。 私たちの知る限りでは、OMB-Pyは並列Pythonアプリケーションのための最初の通信ベンチマークスイートです。 OMB-Pyは、NumPy、CuPy、Numba、PyCUDAなど、人気のあるPythonライブラリ向けに実装されている様々なポイントツーポイントおよび集合的な通信ベンチマークテストで構成されている。 また、ML/DLワークロードのパフォーマンス向上の可能性を理解するためのベンチマークとして、複数の分散MLアルゴリズムに対するPython実装も提供します。 評価の結果,mpi4pyはネイティブMPIライブラリに比べてオーバーヘッドが小さいことがわかった。 また、ml/dlワークロードを評価し、224cpuコアの最大106倍の高速化をシーケンシャル実行と比較した。 我々はPython HPCコミュニティに利益をもたらすため、OMB-Pyを一般公開する予定です。

Python has become a dominant programming language for emerging areas like Machine Learning (ML), Deep Learning (DL), and Data Science (DS). An attractive feature of Python is that it provides easy-to-use programming interface while allowing library developers to enhance performance of their applications by harnessing the computing power offered by High Performance Computing (HPC) platforms. Efficient communication is key to scaling applications on parallel systems, which is typically enabled by the Message Passing Interface (MPI) standard and compliant libraries on HPC hardware. mpi4py is a Python-based communication library that provides an MPI-like interface for Python applications allowing application developers to utilize parallel processing elements including GPUs. However, there is currently no benchmark suite to evaluate communication performance of mpi4py -- and Python MPI codes in general -- on modern HPC systems. In order to bridge this gap, we propose OMB-Py -- Python extensions to the open-source OSU Micro-Benchmark (OMB) suite -- aimed to evaluate communication performance of MPI-based parallel applications in Python. To the best of our knowledge, OMB-Py is the first communication benchmark suite for parallel Python applications. OMB-Py consists of a variety of point-to-point and collective communication benchmark tests that are implemented for a range of popular Python libraries including NumPy, CuPy, Numba, and PyCUDA. We also provide Python implementation for several distributed ML algorithms as benchmarks to understand the potential gain in performance for ML/DL workloads. Our evaluation reveals that mpi4py introduces a small overhead when compared to native MPI libraries. We also evaluate the ML/DL workloads and report up to 106x speedup on 224 CPU cores compared to sequential execution. We plan to publicly release OMB-Py to benefit Python HPC community.
翻訳日:2021-10-22 16:27:01 公開日:2021-10-20
# 計算グラフの完成

Computational Graph Completion ( http://arxiv.org/abs/2110.10323v1 )

ライセンス: Link先を確認
Houman Owhadi(参考訳) 本稿では,計算知識を生成,整理,推論するためのフレームワークを提案する。 計算科学・工学(CSE)のほとんどの問題は、関数と変数間の依存関係を表す計算グラフを(データから)完成させるものであると記述できる。 関数と変数は未知、未知、ランダムでもよい。 データは、グラフの変数の有限個の部分集合の異なる値の観測の形式で得られる。 その根底にある問題は回帰問題(未知の関数を近似する)と行列完備問題(データの未観測変数を復元する)を組み合わせることである。 ガウス過程(GP)による未知の関数の置き換えと観測データへの条件付けは、そのようなグラフを完備化するための単純かつ効率的なアプローチを提供する。 提案されたフレームワークは高度に表現力があり、アプリケーションの範囲が広い。 完了プロセスは自動化できるので、ポケット電卓上で$\sqrt{\sqrt{2}+\sqrt{3}}$を考慮せずに解くことができるので、提案されたフレームワークを使えば、図を描いて複雑なcse問題を解決することができる。 従来のクリギングと比較して、提案フレームワークは、複数の関数と変数の相互依存性を利用して、多くの不足データを持つ未知の関数の復元に使用できる。 したがって,提案手法が解決した計算グラフ補完問題(cgc)は,未知変数や関数の非線形依存度を近似する方程式の線形解法を一般化したものとも解釈できる。 数多くの例は、CGCフレームワークの柔軟性、スコープ、有効性、堅牢性を示し、古典的なCSE問題(デジタル双対モデリング、次元縮小、モード分解など)に対する単純な解決策を特定するための経路としてどのように使用できるかを示している。

We introduce a framework for generating, organizing, and reasoning with computational knowledge. It is motivated by the observation that most problems in Computational Sciences and Engineering (CSE) can be described as that of completing (from data) a computational graph representing dependencies between functions and variables. Functions and variables may be known, unknown, or random. Data comes in the form of observations of distinct values of a finite number of subsets of the variables of the graph. The underlying problem combines a regression problem (approximating unknown functions) with a matrix completion problem (recovering unobserved variables in the data). Replacing unknown functions by Gaussian Processes (GPs) and conditioning on observed data provides a simple but efficient approach to completing such graphs. Since the proposed framework is highly expressive, it has a vast potential application scope. Since the completion process can be automatized, as one solves $\sqrt{\sqrt{2}+\sqrt{3}}$ on a pocket calculator without thinking about it, one could, with the proposed framework, solve a complex CSE problem by drawing a diagram. Compared to traditional kriging, the proposed framework can be used to recover unknown functions with much scarcer data by exploiting interdependencies between multiple functions and variables. The Computational Graph Completion (CGC) problem addressed by the proposed framework could therefore also be interpreted as a generalization of that of solving linear systems of equations to that of approximating unknown variables and functions with noisy, incomplete, and nonlinear dependencies. Numerous examples illustrate the flexibility, scope, efficacy, and robustness of the CGC framework and show how it can be used as a pathway to identifying simple solutions to classical CSE problems (digital twin modeling, dimension reduction, mode decomposition, etc.).
翻訳日:2021-10-22 16:26:07 公開日:2021-10-20
# シャッフル機能付きミニバッチ対ローカルSGD:タイトコンバージェンス境界を超えて

Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and Beyond ( http://arxiv.org/abs/2110.10342v1 )

ライセンス: Link先を確認
Chulhee Yun, Shashank Rajput, Suvrit Sra(参考訳) 分散学習では、局所SGD(フェデレート平均化とも呼ばれる)とその単純なベースラインミニバッチSGDが広く研究されている。 これらの手法の既存の分析のほとんどは、非依存で偏りのない勾配推定を with-replacement sampling によって得られる。 対照的に、我々はシャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について研究し、置換せずに確率勾配を描き、したがって実践に近づいた。 polyak-{\l}ojasiewicz条件を満たす滑らかな関数に対して、これらのシャッフルベースの変種は、それらの再配置条件よりも高速に収束することを示す収束境界(大きなエポック領域)を得る。 さらに, 収束解析が厳密であることを示す下界の一致を証明した。 最後に,ほぼ均質な設定において,下限よりも収束速度が速い同期シャッフリングと呼ばれるアルゴリズム修正を提案する。

In distributed learning, local SGD (also known as federated averaging) and its simple baseline minibatch SGD are widely studied optimization methods. Most existing analyses of these methods assume independent and unbiased gradient estimates obtained via with-replacement sampling. In contrast, we study shuffling-based variants: minibatch and local Random Reshuffling, which draw stochastic gradients without replacement and are thus closer to practice. For smooth functions satisfying the Polyak-{\L}ojasiewicz condition, we obtain convergence bounds (in the large epoch regime) which show that these shuffling-based variants converge faster than their with-replacement counterparts. Moreover, we prove matching lower bounds showing that our convergence analysis is tight. Finally, we propose an algorithmic modification called synchronized shuffling that leads to convergence rates faster than our lower bounds in near-homogeneous settings.
翻訳日:2021-10-22 16:23:51 公開日:2021-10-20
# X線画像による肘骨折診断のための知識指導深部学習

Medical Knowledge-Guided Deep Curriculum Learning for Elbow Fracture Diagnosis from X-Ray Images ( http://arxiv.org/abs/2110.10381v1 )

ライセンス: Link先を確認
Jun Luo, Gene Kitamura, Emine Doganay, Dooman Arefan, Shandong Wu(参考訳) 肘骨折は最も一般的な骨折の1つである。 肘骨折の診断は、長年の訓練を受けた専門の放射線技師によって読み取られるように、画像診断の助けを必要とすることが多い。 近年のディープラーニングの進歩により、異なるタイプの骨骨折を分類し、検出できるモデルは、トレーニングの数時間しか必要とせず、有望な結果を示している。 しかし、既存のディープラーニングモデルのほとんどは純粋にデータ駆動であり、人間の専門家による既知のドメイン知識が組み込まれていない。 本研究では,領域固有の医学知識をカリキュラム学習フレームワークに統合することにより,肘x線画像から肘関節骨折を診断する新しい深層学習法を提案する。 本手法では,各トレーニングエポックの開始時に,置換することなくサンプリングによってトレーニングデータを置換する。 各トレーニングサンプルのサンプリング確率は、ヒトの専門家による臨床知識に基づいて構築されたスコア基準により誘導され、スコアは異なる肘骨折サブタイプの診断困難度を示す。 また,他のサンプリング型カリキュラム学習フレームワークに適用可能な,各時代におけるサンプリング確率を更新するアルゴリズムを提案する。 フラクチャー/ノーマルバイナリ分類タスクのための1865個の肘X線画像を用いた実験を設計し,提案手法をベースライン法と従来手法との比較を行った。 その結果,提案手法が最も高い分類性能が得られることがわかった。 また,提案する確率更新アルゴリズムにより,従来の手法の性能が向上する。

Elbow fractures are one of the most common fracture types. Diagnoses on elbow fractures often need the help of radiographic imaging to be read and analyzed by a specialized radiologist with years of training. Thanks to the recent advances of deep learning, a model that can classify and detect different types of bone fractures needs only hours of training and has shown promising results. However, most existing deep learning models are purely data-driven, lacking incorporation of known domain knowledge from human experts. In this work, we propose a novel deep learning method to diagnose elbow fracture from elbow X-ray images by integrating domain-specific medical knowledge into a curriculum learning framework. In our method, the training data are permutated by sampling without replacement at the beginning of each training epoch. The sampling probability of each training sample is guided by a scoring criterion constructed based on clinically known knowledge from human experts, where the scoring indicates the diagnosis difficultness of different elbow fracture subtypes. We also propose an algorithm that updates the sampling probabilities at each epoch, which is applicable to other sampling-based curriculum learning frameworks. We design an experiment with 1865 elbow X-ray images for a fracture/normal binary classification task and compare our proposed method to a baseline method and a previous method using multiple metrics. Our results show that the proposed method achieves the highest classification performance. Also, our proposed probability update algorithm boosts the performance of the previous method.
翻訳日:2021-10-22 16:20:40 公開日:2021-10-20
# AFTer-UNet:医療画像分割のための軸核融合変換器UNet

AFTer-UNet: Axial Fusion Transformer UNet for Medical Image Segmentation ( http://arxiv.org/abs/2110.10403v1 )

ライセンス: Link先を確認
Xiangyi Yan, Hao Tang, Shanlin Sun, Haoyu Ma, Deying Kong, Xiaohui Xie(参考訳) 近年のトランスフォーマーモデルの発展は, 医用画像セグメンテーションにおいて, 特にU-Netモデル(またはその変種)とともに, 2次元と3次元の両方の条件下で, 医療用画像セグメンテーションにおいて大きな成功をおさめている。 現在の2Dベースの手法では、畳み込み層を直接純粋なトランスフォーマーに置き換えるか、トランスフォーマーをエンコーダとU-Netのデコーダの間の中間エンコーダとして考える。 しかし,これらの手法は1つのスライス内でのみ注意符号化を考慮し,3次元ボリュームで自然に提供される軸軸情報を利用しない。 3D設定では、ボリュームデータとトランスフォーマーの畳み込みはどちらも大きなGPUメモリを消費する。 イメージをダウンサンプルするか、トリミングされたローカルパッチを使用してGPUメモリ使用量を削減し、パフォーマンスを制限しなければならない。 本稿では、畳み込み層の長周期モデリングにおける詳細特徴の抽出と変圧器の強度の利点を両立する軸核融合変圧器UNet(AFTer-UNet)を提案する。 セグメンテーションを導くために、スライス内およびスライス間長距離キューの両方を考慮する。 一方、パラメータは少なく、トレーニングに必要なgpuメモリは以前のtransformerベースのモデルよりも少ない。 3つのマルチオーガンセグメンテーションデータセットに関する広範囲な実験により、本手法が現在の最先端手法よりも優れていることが証明された。

Recent advances in transformer-based models have drawn attention to exploring these techniques in medical image segmentation, especially in conjunction with the U-Net model (or its variants), which has shown great success in medical image segmentation, under both 2D and 3D settings. Current 2D based methods either directly replace convolutional layers with pure transformers or consider a transformer as an additional intermediate encoder between the encoder and decoder of U-Net. However, these approaches only consider the attention encoding within one single slice and do not utilize the axial-axis information naturally provided by a 3D volume. In the 3D setting, convolution on volumetric data and transformers both consume large GPU memory. One has to either downsample the image or use cropped local patches to reduce GPU memory usage, which limits its performance. In this paper, we propose Axial Fusion Transformer UNet (AFTer-UNet), which takes both advantages of convolutional layers' capability of extracting detailed features and transformers' strength on long sequence modeling. It considers both intra-slice and inter-slice long-range cues to guide the segmentation. Meanwhile, it has fewer parameters and takes less GPU memory to train than the previous transformer-based models. Extensive experiments on three multi-organ segmentation datasets demonstrate that our method outperforms current state-of-the-art methods.
翻訳日:2021-10-22 16:20:18 公開日:2021-10-20
# 自律運転システムにおける光信号攻撃の検出と同定

Detecting and Identifying Optical Signal Attacks on Autonomous Driving Systems ( http://arxiv.org/abs/2110.10523v1 )

ライセンス: Link先を確認
Jindi Zhang, Yifan Zhang, Kejie Lu, Jianping Wang, Kui Wu, Xiaohua Jia, Bin Liu(参考訳) 自動運転では、周囲の物体を正確に検出することが重要な課題である。 この目的のために、既存のシステムのほとんどは、カメラや光検出、測位(lidar)センサーを含む光学デバイスを使用して、環境データをリアルタイムで収集している。 近年、多くの研究者が周囲の物体を検出するための高度な機械学習モデルを開発した。 それでも、前述の光学デバイスは光学信号攻撃に弱いため、物体検出の精度を損なう可能性がある。 この重要な問題に対処するため,攻撃対象のセンサーを検出し,識別する枠組みを提案する。 具体的には,まず3つのセンサからなるシステムに対する攻撃を検出する新しい手法を開発した。 私たちの主なアイデアは 1)3つのセンサからのデータを用いて2種類の深度マップ(すなわち不均一性)を取得し、 2)不一致誤差の分布を分析して攻撃を検出する。 本研究では,実データと最先端機械学習モデルを用いて攻撃検出手法の評価を行い,本手法の有効性を確認した。 この検出方式に基づき,1つのlidarとnカメラを用いて,最大n-2攻撃型センサを識別可能な識別モデルの開発を行った。 識別方式の正確性を証明し,識別手法の正確性を示す実験を行う。 最後に,フレームワークの全体的な感度について検討する。

For autonomous driving, an essential task is to detect surrounding objects accurately. To this end, most existing systems use optical devices, including cameras and light detection and ranging (LiDAR) sensors, to collect environment data in real time. In recent years, many researchers have developed advanced machine learning models to detect surrounding objects. Nevertheless, the aforementioned optical devices are vulnerable to optical signal attacks, which could compromise the accuracy of object detection. To address this critical issue, we propose a framework to detect and identify sensors that are under attack. Specifically, we first develop a new technique to detect attacks on a system that consists of three sensors. Our main idea is to: 1) use data from three sensors to obtain two versions of depth maps (i.e., disparity) and 2) detect attacks by analyzing the distribution of disparity errors. In our study, we use real data sets and the state-of-the-art machine learning model to evaluate our attack detection scheme and the results confirm the effectiveness of our detection method. Based on the detection scheme, we further develop an identification model that is capable of identifying up to n-2 attacked sensors in a system with one LiDAR and n cameras. We prove the correctness of our identification scheme and conduct experiments to show the accuracy of our identification method. Finally, we investigate the overall sensitivity of our framework.
翻訳日:2021-10-22 16:19:51 公開日:2021-10-20
# OSS-Net:3次元医療データの高分解能セマンティックセグメンテーション

OSS-Net: Memory Efficient High Resolution Semantic Segmentation of 3D Medical Data ( http://arxiv.org/abs/2110.10640v1 )

ライセンス: Link先を確認
Christoph Reich, Tim Prangemeier, \"Ozdemir Cetin, Heinz Koeppl(参考訳) 畳み込みニューラルネットワーク(convolutional neural network, cnns)は、新型コロナウイルス感染した組織をコンピュータ断層撮影で局在化したり、磁気共鳴画像で腫瘍体積を検出したりする、医学データのボリューム分割のための現在のメタアルゴリズムである。 voxelized dataにおける3d cnnの鍵となる制限は、トレーニングデータの解像度でメモリ消費が立方的に増加することである。 占有ネットワーク(o-nets)は、データを連続的に関数空間に表現し、3次元形状を連続的な決定境界として学習する代替手段である。 O-Netは3D CNNよりもはるかにメモリ効率が高いが、単純な形状に限られており、推論が比較的遅いため、医療データの3Dセマンティックセグメンテーションにはまだ適応していない。 本稿では,セマンティックセグメンテーションのためのOccupancy Networks for Semantic Segmentation (OSS-Nets)を提案する。 我々は3次元CNNに匹敵するセグメンテーション性能の向上と高速な推論のための修正を実現するために,表現性の向上のためにオリジナルのO-Net上に構築した。 局所観測を複素形状表現に活用し,事前エンコーダ予測を迅速化するために活用する。 機能空間ベースライン(o-net)、パフォーマンスベースライン(3d残量u-net)、効率ベースライン(2d残量u-net)に対する3d脳腫瘍および肝セグメンテーションにおけるoss-netの性能を示す。 OSS-Netは性能ベースラインと同じようなセグメンテーション結果をもたらし、関数空間と効率ベースラインに勝る。 メモリ効率の面では、oss-netは、関数空間のベースラインとして同等量のメモリを消費し、効率のベースラインよりも若干多くのメモリを消費し、パフォーマンスのベースラインよりもかなり少ない。 そのため、OSS-Netはメモリ効率が高く正確な3Dセマンティックセマンティックセマンティクスを可能にする。

Convolutional neural networks (CNNs) are the current state-of-the-art meta-algorithm for volumetric segmentation of medical data, for example, to localize COVID-19 infected tissue on computer tomography scans or the detection of tumour volumes in magnetic resonance imaging. A key limitation of 3D CNNs on voxelised data is that the memory consumption grows cubically with the training data resolution. Occupancy networks (O-Nets) are an alternative for which the data is represented continuously in a function space and 3D shapes are learned as a continuous decision boundary. While O-Nets are significantly more memory efficient than 3D CNNs, they are limited to simple shapes, are relatively slow at inference, and have not yet been adapted for 3D semantic segmentation of medical data. Here, we propose Occupancy Networks for Semantic Segmentation (OSS-Nets) to accurately and memory-efficiently segment 3D medical data. We build upon the original O-Net with modifications for increased expressiveness leading to improved segmentation performance comparable to 3D CNNs, as well as modifications for faster inference. We leverage local observations to represent complex shapes and prior encoder predictions to expedite inference. We showcase OSS-Net's performance on 3D brain tumour and liver segmentation against a function space baseline (O-Net), a performance baseline (3D residual U-Net), and an efficiency baseline (2D residual U-Net). OSS-Net yields segmentation results similar to the performance baseline and superior to the function space and efficiency baselines. In terms of memory efficiency, OSS-Net consumes comparable amounts of memory as the function space baseline, somewhat more memory than the efficiency baseline and significantly less than the performance baseline. As such, OSS-Net enables memory-efficient and accurate 3D semantic segmentation that can scale to high resolutions.
翻訳日:2021-10-22 16:19:30 公開日:2021-10-20
# 高次元パラメータ学習のための反復ブロック粒子フィルタ:次元の呪いを破る

Iterated Block Particle Filter for High-dimensional Parameter Learning: Beating the Curse of Dimensionality ( http://arxiv.org/abs/2110.10745v1 )

ライセンス: Link先を確認
Ning Ning and Edward L. Ionides(参考訳) 高次元、部分観測、非線形確率過程のパラメータ学習は方法論的な課題である。 時空間疾患伝達システムは、そのようなプロセスの例を示し、オープン推論問題を引き起こす。 一般状態空間,測度,遷移密度,グラフ構造を有するグラフィカルな状態空間モデル上で高次元パラメータを学習するための反復ブロック粒子フィルタ(IBPF)アルゴリズムを提案する。 理論的な性能保証は、次元の呪い(COD)、アルゴリズムの収束、最大化について得られる。 超非線形・非ガウス時空間モデルによる麻疹伝播実験により,イテレーテッドアンサンブルカルマンフィルタアルゴリズム (li et al. (2020)) が非有効であり,イテレーテッドフィルタリングアルゴリズム (ionides et al. (2015)) がcodに苦しむことが明らかとなった。

Parameter learning for high-dimensional, partially observed, and nonlinear stochastic processes is a methodological challenge. Spatiotemporal disease transmission systems provide examples of such processes giving rise to open inference problems. We propose the iterated block particle filter (IBPF) algorithm for learning high-dimensional parameters over graphical state space models with general state spaces, measures, transition densities and graph structure. Theoretical performance guarantees are obtained on beating the curse of dimensionality (COD), algorithm convergence, and likelihood maximization. Experiments on a highly nonlinear and non-Gaussian spatiotemporal model for measles transmission reveal that the iterated ensemble Kalman filter algorithm (Li et al. (2020)) is ineffective and the iterated filtering algorithm (Ionides et al. (2015)) suffers from the COD, while our IBPF algorithm beats COD consistently across various experiments with different metrics.
翻訳日:2021-10-22 16:16:08 公開日:2021-10-20
# ニュースベースビジネス感と経済指標としての特質

News-based Business Sentiment and its Properties as an Economic Index ( http://arxiv.org/abs/2110.10340v1 )

ライセンス: Link先を確認
Kazuhiro Seki, Yusuke Ikuta, and Yoichi Matsubayashi(参考訳) 本稿では,テキストデータに基づくビジネス感情の測定手法を提案する。 ビジネスの感情は、行動するのにコストと時間を要する従来の調査によって測定されています。 この問題に対処するために、日刊新聞記事を利用して、s-apir(s-apir)とよばれるビジネス感情指標を定義し、ニュース記事のさまざまなジャンルを適切に扱うために、外れ値検出モデルを調査した。 さらに、特定のイベントが予測ビジネス感情指数にどの程度貢献したかを時間的に分析するための単純なアプローチを提案する。 提案手法の有効性を実証するため,12年分の新聞記事に対して広範な分析を行った。 分析の結果,S-APIR指数は確立された調査ベース指標(相関係数r=0.937まで)と強く正の相関を示し,特に一般新聞においてアウトラヤ検出が有効であることが示唆された。 また、S-APIRは様々な経済指標と比較され、S-APIRの特性がマクロ経済の傾向や経済エージェントの経済見通しや感情を反映していることを明らかにした。 さらに、S-APIRが経済学者や政策立案者にどのような恩恵をもたらすかを説明するために、時間とともにビジネス感情に与える影響についていくつかのイベントが分析される。

This paper presents an approach to measuring business sentiment based on textual data. Business sentiment has been measured by traditional surveys, which are costly and time-consuming to conduct. To address the issues, we take advantage of daily newspaper articles and adopt a self-attention-based model to define a business sentiment index, named S-APIR, where outlier detection models are investigated to properly handle various genres of news articles. Moreover, we propose a simple approach to temporally analyzing how much any given event contributed to the predicted business sentiment index. To demonstrate the validity of the proposed approach, an extensive analysis is carried out on 12 years' worth of newspaper articles. The analysis shows that the S-APIR index is strongly and positively correlated with established survey-based index (up to correlation coefficient r=0.937) and that the outlier detection is effective especially for a general newspaper. Also, S-APIR is compared with a variety of economic indices, revealing the properties of S-APIR that it reflects the trend of the macroeconomy as well as the economic outlook and sentiment of economic agents. Moreover, to illustrate how S-APIR could benefit economists and policymakers, several events are analyzed with respect to their impacts on business sentiment over time.
翻訳日:2021-10-22 16:15:35 公開日:2021-10-20
# 外国語としての不連続文法

Discontinuous Grammar as a Foreign Language ( http://arxiv.org/abs/2110.10431v1 )

ライセンス: Link先を確認
Daniel Fern\'andez-Gonz\'alez and Carlos G\'omez-Rodr\'iguez(参考訳) 自然言語の理解を深めるためには、構文的構成解析は重要なステップであり、多くの人工知能システムがテキストと音声の両方を処理するために非常に要求している。 最新の提案の1つは、タスク固有のパーサを適用する代わりに、標準シーケンス・ツー・シーケンスモデルを使用して、機械翻訳タスクとして構成解析を実行することである。 競争力のある性能を示す一方で、これらのテキストからパースへのトランスデューサは、精度、カバレッジ、スピードの点で従来の技術に遅れを取っている。 このギャップを埋めるために,本論文では,構文解析のためのシーケンシャル・ツー・シーケンスモデルの枠組みを拡張し,その性能を向上させるためのより強力なニューラルネットワークアーキテクチャを提供するだけでなく,最も複雑な構文的現象である不連続構造を扱うためにそのカバレッジを拡大する。 そこで我々は,不連続性を完全に生成できる新しい線形化を設計し,まず主要な不連続性ベンチマーク上でシーケンス・ツー・シーケンス・モデルを試行し,タスク固有の不連続成分解析器と同等に競合する結果を得た。

In order to achieve deep natural language understanding, syntactic constituent parsing is a vital step, highly demanded by many artificial intelligence systems to process both text and speech. One of the most recent proposals is the use of standard sequence-to-sequence models to perform constituent parsing as a machine translation task, instead of applying task-specific parsers. While they show a competitive performance, these text-to-parse transducers are still lagging behind classic techniques in terms of accuracy, coverage and speed. To close the gap, we here extend the framework of sequence-to-sequence models for constituent parsing, not only by providing a more powerful neural architecture for improving their performance, but also by enlarging their coverage to handle the most complex syntactic phenomena: discontinuous structures. To that end, we design several novel linearizations that can fully produce discontinuities and, for the first time, we test a sequence-to-sequence model on the main discontinuous benchmarks, obtaining competitive results on par with task-specific discontinuous constituent parsers and achieving state-of-the-art scores on the (discontinuous) English Penn Treebank.
翻訳日:2021-10-22 16:13:36 公開日:2021-10-20
# Denoising Adaptersを用いた多言語教師なしニューラルネットワーク翻訳

Multilingual Unsupervised Neural Machine Translation with Denoising Adapters ( http://arxiv.org/abs/2110.10472v1 )

ライセンス: Link先を確認
Ahmet \"Ust\"un, Alexandre B\'erard, Laurent Besacier, Matthias Gall\'e(参考訳) 補助並列言語ペアを用いて,単言語データのみを持つ言語への翻訳を行い,多言語間非教師付き機械翻訳の問題を考える。 この問題に対して、モノリンガルデータを活用するための標準的な手順は、計算コストが高くチューニングが難しいバックトランスレーションである。 本稿では,事前学習したmbart-50上に,デノイジングアダプタ,デノイジング目的のアダプタ層を使用することを提案する。 このようなアプローチのモジュラリティと柔軟性に加えて、BLEUが測定したバック翻訳と同等の変換結果を示し、さらに、目に見えない言語を漸進的に追加できるようにする。

We consider the problem of multilingual unsupervised machine translation, translating to and from languages that only have monolingual data by using auxiliary parallel language pairs. For this problem the standard procedure so far to leverage the monolingual data is back-translation, which is computationally costly and hard to tune. In this paper we propose instead to use denoising adapters, adapter layers with a denoising objective, on top of pre-trained mBART-50. In addition to the modularity and flexibility of such an approach we show that the resulting translations are on-par with back-translating as measured by BLEU, and furthermore it allows adding unseen languages incrementally.
翻訳日:2021-10-22 16:13:13 公開日:2021-10-20
# 言語特異的埋め込みによる多言語nmtの連続学習

Continual Learning in Multilingual NMT via Language-Specific Embeddings ( http://arxiv.org/abs/2110.10478v1 )

ライセンス: Link先を確認
Alexandre Berard(参考訳) 本稿では,既存の多言語nmtモデルに新たなソース言語やターゲット言語を追加する手法を提案する。 共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。 いくつかの追加の言語固有のコンポーネントは、パフォーマンスを改善するためにトレーニングすることができる(トランスフォーマー層やアダプタモジュールなど)。 元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。 TEDトークの小型化とParaCrawlの大規模化の2つの実験において、このアプローチはよりコストのかかる代替手法と同等以上の性能を示し、ゼロショット性能に優れており、英語中心のデータによるトレーニングは、新しい言語と初期言語のいずれかを翻訳するのに十分であることを示した。

This paper proposes a technique for adding a new source or target language to an existing multilingual NMT model without re-training it on the initial set of languages. It consists in replacing the shared vocabulary with a small language-specific vocabulary and fine-tuning the new embeddings on the new language's parallel data. Some additional language-specific components may be trained to improve performance (e.g., Transformer layers or adapter modules). Because the parameters of the original model are not modified, its performance on the initial languages does not degrade. We show on two sets of experiments (small-scale on TED Talks, and large-scale on ParaCrawl) that this approach performs as well or better as the more costly alternatives; and that it has excellent zero-shot performance: training on English-centric data is enough to translate between the new language and any of the initial languages.
翻訳日:2021-10-22 16:12:58 公開日:2021-10-20
# 2021年キーポイント分析共有タスクの概要

Overview of the 2021 Key Point Analysis Shared Task ( http://arxiv.org/abs/2110.10577v1 )

ライセンス: Link先を確認
Roni Friedman, Lena Dankin, Yufang Hou, Ranit Aharonov, Yoav Katz and Noam Slonim(参考訳) EMNLP 2021の8th Workshop on Argument Mining(Arg Mining 2021)の一環として,キーポイント分析における2021年キーポイント分析(KPA-2021)の共有タスクについて述べる。 様々なアプローチを概説し、共有タスクの結果について論じる。 本論文で報告された課題と成果は,テキスト要約と議論マイニングに携わる研究者に当てはまるものと期待している。

We describe the 2021 Key Point Analysis (KPA-2021) shared task on key point analysis that we organized as a part of the 8th Workshop on Argument Mining (ArgMining 2021) at EMNLP 2021. We outline various approaches and discuss the results of the shared task. We expect the task and the findings reported in this paper to be relevant for researchers working on text summarization and argument mining.
翻訳日:2021-10-22 16:12:43 公開日:2021-10-20
# グラフ注意ネットワークを用いたコントラスト文書表現学習

Contrastive Document Representation Learning with Graph Attention Networks ( http://arxiv.org/abs/2110.10778v1 )

ライセンス: Link先を確認
Peng Xu, Xinchi Chen, Xiaofei Ma, Zhiheng Huang, Bing Xiang(参考訳) 事前訓練されたトランスフォーマーベース言語モデルの最近の進歩は、テキストの文脈表現の学習に大きな成功を収めている。 しかし、二次的な自己アテンションの複雑さのため、事前訓練されたトランスフォーマーモデルのほとんどは比較的短いテキストしか扱えない。 非常に長いドキュメントをモデリングすることに関してはまだ課題です。 本研究では,事前学習されたトランスフォーマーモデル上にグラフアテンションネットワークを用いて文書埋め込みを学習する方法を提案する。 このグラフアテンションネットワークにより、ドキュメントのハイレベルなセマンティクス構造を活用できます。 さらに,グラフ文書モデルに基づいて,大量のラベルなしコーパス上でモデルを事前学習するための,単純なコントラスト学習戦略を設計した。 文書分類と文書検索タスクにおける手法の有効性を実証的に示す。

Recent progress in pretrained Transformer-based language models has shown great success in learning contextual representation of text. However, due to the quadratic self-attention complexity, most of the pretrained Transformers models can only handle relatively short text. It is still a challenge when it comes to modeling very long documents. In this work, we propose to use a graph attention network on top of the available pretrained Transformers model to learn document embeddings. This graph attention network allows us to leverage the high-level semantic structure of the document. In addition, based on our graph document model, we design a simple contrastive learning strategy to pretrain our models on a large amount of unlabeled corpus. Empirically, we demonstrate the effectiveness of our approaches in document classification and document retrieval tasks.
翻訳日:2021-10-22 16:12:35 公開日:2021-10-20
# 強化学習で2048をプレイする

Playing 2048 With Reinforcement Learning ( http://arxiv.org/abs/2110.10374v1 )

ライセンス: Link先を確認
Shilun Li, Veronica Peng(参考訳) 2048年のゲームは、非常に中毒的なゲームです。 ゲームを学ぶのは簡単だが、何億回もプレイされたゲームのうち、わずか1%のゲームしか勝たないことが明らかになったため、マスターすることは難しい。 本稿では,2048年に勝利するための強化学習手法について検討する。 私たちが行ったアプローチには、深いqラーニングとビームサーチが含まれ、ビームサーチが204828.5時間に達する。

The game of 2048 is a highly addictive game. It is easy to learn the game, but hard to master as the created game revealed that only about 1% games out of hundreds million ever played have been won. In this paper, we would like to explore reinforcement learning techniques to win 2048. The approaches we have took include deep Q-learning and beam search, with beam search reaching 2048 28.5 of time.
翻訳日:2021-10-22 16:09:50 公開日:2021-10-20
# R4: ルート表現とルート推薦のためのフレームワーク

R4: A Framework for Route Representation and Route Recommendation ( http://arxiv.org/abs/2110.10474v1 )

ライセンス: Link先を確認
Ran Cheng, Chao Chen, Longfei Xu, Shen Li, Lei Wang, Hengbin Cui, Kaikui Liu, Xiaolong Li(参考訳) ルートレコメンデーションはナビゲーションサービスにおいて重要である。 ルートレコメンデーションの2つの大きな課題は、ルート表現とユーザ表現である。 伝統的なレコメンデーションにおいてユニークなIDによって識別できるアイテムとは異なり、ルートはリンク(道路セグメントと左折のような次のアクション)の組み合わせであり、組み合わせの数は無限に近い可能性がある。 さらに、異なるシナリオの下でルートの表現が変化する。 これらの事実は、経路の厳格なスパース性をもたらし、経路表現の難しさを増大させる。 さらに、リンク属性の欠陥やエラーは経路表現の正確性に影響する。 経路のスパーシティのため、ユーザとルート間のインタラクションデータも不足している。 これにより、従来のレコメンデーションのように、過去のユーザ-テーマインタラクションからユーザ表現を取得することは容易ではない。 これらの課題に対処するために,新しい学習フレームワークR4を提案する。 R4では、経路の表現を得るために疎密なネットワークを設計する。 スパースユニットは、リンクid埋め込みを学習し、ルートを表すために集約し、暗黙のルート特性をキャプチャし、リンク属性の欠陥やエラーに起因する問題を緩和する。 密集部はリンク属性からルートの暗黙の局所的特徴を抽出する。 ユーザ表現には,一連の履歴ナビゲーションを用いてユーザの好みを抽出する。 R4はオフラインとオンラインの両方の実験で顕著なパフォーマンスを実現している。

Route recommendation is significant in navigation service. Two major challenges for route recommendation are route representation and user representation. Different from items that can be identified by unique IDs in traditional recommendation, routes are combinations of links (i.e., a road segment and its following action like turning left) and the number of combinations could be close to infinite. Besides, the representation of a route changes under different scenarios. These facts result in severe sparsity of routes, which increases the difficulty of route representation. Moreover, link attribute deficiencies and errors affect preciseness of route representation. Because of the sparsity of routes, the interaction data between users and routes are also sparse. This makes it not easy to acquire user representation from historical user-item interactions as traditional recommendations do. To address these issues, we propose a novel learning framework R4. In R4, we design a sparse & dense network to obtain representations of routes. The sparse unit learns link ID embeddings and aggregates them to represent a route, which captures implicit route characteristics and subsequently alleviates problems caused by link attribute deficiencies and errors. The dense unit extracts implicit local features of routes from link attributes. For user representation, we utilize a series of historical navigation to extract user preference. R4 achieves remarkable performance in both offline and online experiments.
翻訳日:2021-10-22 16:09:42 公開日:2021-10-20
# グラフ逆数攻撃に対する等尺写像を用いた代理表現学習

Surrogate Representation Learning with Isometric Mapping for Gray-box Graph Adversarial Attacks ( http://arxiv.org/abs/2110.10482v1 )

ライセンス: Link先を確認
Zihan Liul, Yun Luo, Zelin Zang, Stan Z. Li(参考訳) グレイボックスグラフ攻撃は、被害者モデルに関する知識が限られた目立たない攻撃を用いて、被害者モデルのパフォーマンスを損なうことを目的としている。 被害者モデルのパラメータとテストノードのラベルは攻撃者には見えない。 ノード属性やグラフ構造の勾配を求めるため、攻撃者は監督下で訓練された仮想代理モデルを構築する。 しかし、サロゲートモデルのトレーニングや提供された勾配情報の堅牢性については議論の余地がない。 一般的なノード分類モデルは、グラフ上のノードのトポロジーを失う。 本稿では,グラフ逆数攻撃の伝達性に及ぼす代理モデルの表現学習の影響について検討する。 サロゲート埋め込みにおけるトポロジーを予約するために,isometric mapping (srlim) を用いたサロゲート表現学習を提案する。 Isometric mapping法を用いることで,提案するSRLIMは,入力層から埋め込み空間へのノードのトポロジ的構造,すなわち伝搬過程におけるノードの類似性を維持することができる。 グラデーションベースの攻撃者による非標的のグレーボックス装置における敵攻撃の性能向上により, 本手法の有効性を実証した。

Gray-box graph attacks aim at disrupting the performance of the victim model by using inconspicuous attacks with limited knowledge of the victim model. The parameters of the victim model and the labels of the test nodes are invisible to the attacker. To obtain the gradient on the node attributes or graph structure, the attacker constructs an imaginary surrogate model trained under supervision. However, there is a lack of discussion on the training of surrogate models and the robustness of provided gradient information. The general node classification model loses the topology of the nodes on the graph, which is, in fact, an exploitable prior for the attacker. This paper investigates the effect of representation learning of surrogate models on the transferability of gray-box graph adversarial attacks. To reserve the topology in the surrogate embedding, we propose Surrogate Representation Learning with Isometric Mapping (SRLIM). By using Isometric mapping method, our proposed SRLIM can constrain the topological structure of nodes from the input layer to the embedding space, that is, to maintain the similarity of nodes in the propagation process. Experiments prove the effectiveness of our approach through the improvement in the performance of the adversarial attacks generated by the gradient-based attacker in untargeted poisoning gray-box setups.
翻訳日:2021-10-22 16:09:25 公開日:2021-10-20
# 不確実性学習を用いた高精度で信頼性の高いアイリスセグメンテーションに向けて

Toward Accurate and Reliable Iris Segmentation Using Uncertainty Learning ( http://arxiv.org/abs/2110.10334v1 )

ライセンス: Link先を確認
Jianze Wei, Huaibo Huang, Muyi Sun, Ran He, Zhenan Sun(参考訳) iris認識の上流タスクとして、irisのセグメンテーションは、ローカライゼーションやマッチングなど、その後の複数のタスクにおいて重要な役割を果たす。 アイリスセグメンテーションのわずかなバイアスは、しばしばアイリス認識システムの明らかな性能低下をもたらす。 本稿では,Iris U-transformer (IrisUsformer) を提案する。 IrisUsformerを精度良く設計するために、位置感応操作と再パッケージング・トランスフォーマーブロックを採用し、モデルの空間知覚能力を高める。 信頼性を向上させるため、IrisUsformerは補助ヘッドを使用してセグメンテーション予測の高域と低域を区別し、モデルの最適化を導く重み付け方式を採用する。 3つの公開データベースの実験結果は、IrisUsformerがSOTA IrisParseNetの35%のMACを使用してより良いセグメンテーション精度を達成することを示した。 さらに重要なことは、虹彩認識システムにおけるその後の処理のセグメンテーション予測に対応する不確実性マップを推定することである。

As an upstream task of iris recognition, iris segmentation plays a vital role in multiple subsequent tasks, including localization and matching. A slight bias in iris segmentation often results in obvious performance degradation of the iris recognition system. In the paper, we propose an Iris U-transformer (IrisUsformer) for accurate and reliable iris segmentation. For better accuracy, we elaborately design IrisUsformer by adopting position-sensitive operation and re-packaging transformer block to raise the spatial perception ability of the model. For better reliability, IrisUsformer utilizes an auxiliary head to distinguishes the high- and low-uncertainty regions of segmentation predictions and then adopts a weighting scheme to guide model optimization. Experimental results on three publicly available databases demonstrate that IrisUsformer achieves better segmentation accuracy using 35% MACs of the SOTA IrisParseNet. More importantly, our method estimates the uncertainty map corresponding to the segmentation prediction for subsequent processing in iris recognition systems.
翻訳日:2021-10-22 16:07:59 公開日:2021-10-20
# GTM:映像認識のための灰色の時間モデル

GTM: Gray Temporal Model for Video Recognition ( http://arxiv.org/abs/2110.10348v1 )

ライセンス: Link先を確認
Yanping Zhang, Yongxin Yu(参考訳) データ入力モダリティは、ビデオアクション認識において重要な役割を果たす。 通常、入力にはrgb、フローストリーム、圧縮データという3つのタイプがある。 本稿では,新しい入力モダリティであるグレーストリームを提案する。 具体的には、rgbと同じ大きさの入力としてスタックされた3つのグレー画像を取ることで、ビデオデコーディングデータからrgbへの変換プロセスをスキップできるだけでなく、ゼロ計算とゼロパラメータでの時空間モデリング能力を向上させることができる。 一方,制御可能な計算予算(パラメータG&R)内で,チャネル機能レベルでの時間的関係をキャプチャする1D Identity Channel-wise Spatio-temporal Convolution(1D-ICSC) を提案する。 最後に,Kineetics, something-Something, HMDB-51, UCF-101 などの動作認識ベンチマークの有効性と効率を確認し,優れた結果を得た。

Data input modality plays an important role in video action recognition. Normally, there are three types of input: RGB, flow stream and compressed data. In this paper, we proposed a new input modality: gray stream. Specifically, taken the stacked consecutive 3 gray images as input, which is the same size of RGB, can not only skip the conversion process from video decoding data to RGB, but also improve the spatio-temporal modeling ability at zero computation and zero parameters. Meanwhile, we proposed a 1D Identity Channel-wise Spatio-temporal Convolution(1D-ICSC) which captures the temporal relationship at channel-feature level within a controllable computation budget(by parameters G & R). Finally, we confirm its effectiveness and efficiency on several action recognition benchmarks, such as Kinetics, Something-Something, HMDB-51 and UCF-101, and achieve impressive results.
翻訳日:2021-10-22 16:07:41 公開日:2021-10-20
# ファウショット学習のための文脈勾配スケーリング

Contextual Gradient Scaling for Few-Shot Learning ( http://arxiv.org/abs/2110.10353v1 )

ライセンス: Link先を確認
Sanghyuk Lee, Seunghyun Lee, Byung Cheol Song(参考訳) Model-Agnostic Meta-learning (MAML) は、最適化に基づくメタラーニングアルゴリズムで、様々なコンピュータビジョンタスク、例えば少数ショット分類でうまく機能する。 MAMLは、モデルがいくつかのステップで新しいタスクに適応できるように初期化を学ぶことである。 しかし、分類器(ヘッド)の勾配ノルムはバックボーン層よりもはるかに大きいため、モデルでは分類器の決定境界を同様の表現で学習することに焦点を当てている。 さらに、高レベル層の勾配ノルムは他の層よりも小さい。 したがって、MAMLのバックボーンは通常タスクジェネリックな特徴を学習し、インナーループの適応性能が劣化する。 この問題を解消または緩和するために,バックボーンの勾配ノルムを拡大し,内部ループにおけるタスク固有の知識の学習を容易にするコンテキスト勾配スケーリング(CxGrad)を提案する。 スケーリング係数はタスク条件パラメータから生成されるため、バックボーンの勾配ノルムはタスク単位でスケールすることができる。 実験結果から,CxGradは内ループにおけるタスク固有の知識の学習を効果的に促進し,MAMLの性能を同一領域とクロスドメインの両方で有意な差まで向上させることが示された。

Model-agnostic meta-learning (MAML) is a well-known optimization-based meta-learning algorithm that works well in various computer vision tasks, e.g., few-shot classification. MAML is to learn an initialization so that a model can adapt to a new task in a few steps. However, since the gradient norm of a classifier (head) is much bigger than those of backbone layers, the model focuses on learning the decision boundary of the classifier with similar representations. Furthermore, gradient norms of high-level layers are small than those of the other layers. So, the backbone of MAML usually learns task-generic features, which results in deteriorated adaptation performance in the inner-loop. To resolve or mitigate this problem, we propose contextual gradient scaling (CxGrad), which scales gradient norms of the backbone to facilitate learning task-specific knowledge in the inner-loop. Since the scaling factors are generated from task-conditioned parameters, gradient norms of the backbone can be scaled in a task-wise fashion. Experimental results show that CxGrad effectively encourages the backbone to learn task-specific knowledge in the inner-loop and improves the performance of MAML up to a significant margin in both same- and cross-domain few-shot classification.
翻訳日:2021-10-22 16:07:27 公開日:2021-10-20
# マルチビューカメラによるマルチパーソンメッシュのダイナミックリカバリ

Dynamic Multi-Person Mesh Recovery From Uncalibrated Multi-View Cameras ( http://arxiv.org/abs/2110.10355v1 )

ライセンス: Link先を確認
Buzhen Huang, Yuan Shu, Tianshu Zhang and Yangang Wang(参考訳) 動的マルチパーソンメッシュリカバリは、最近3Dビジョンにおいてホットな話題となっている。 一つは対人インタラクションとオクルージョンがカメラのキャリブレーションとモーションキャプチャの両方に固有のあいまいさをもたらすこと、もう一つは、ダイナミックなマルチパーソンシーンにおける疎カメラジオメトリを制限するために、密接な対応の欠如が使用できることである。 私たちのキーとなるアイデアは、ノイズの多い人間のセマンティクスから外部カメラパラメータと人間のメッシュの同時最適化に、モーション事前知識を取り入れることです。 まず, 検出された人間のセマンティクスの低周波ノイズと高周波ノイズを低減するため, 物理幾何学的一貫性を導入する。 そして, 若干のノイズ入力から, 外部カメラパラメータとコヒーレントな人間の動きを同時に最適化するために, 新たな潜在運動プリアーを提案する。 実験の結果,1段階最適化により正確なカメラパラメータと人間の動きが得られることがわかった。 コードは~\url{https://www.yangwang .com}で公開される。

Dynamic multi-person mesh recovery has been a hot topic in 3D vision recently. However, few works focus on the multi-person motion capture from uncalibrated cameras, which mainly faces two challenges: the one is that inter-person interactions and occlusions introduce inherent ambiguities for both camera calibration and motion capture; The other is that a lack of dense correspondences can be used to constrain sparse camera geometries in a dynamic multi-person scene. Our key idea is incorporating motion prior knowledge into simultaneous optimization of extrinsic camera parameters and human meshes from noisy human semantics. First, we introduce a physics-geometry consistency to reduce the low and high frequency noises of the detected human semantics. Then a novel latent motion prior is proposed to simultaneously optimize extrinsic camera parameters and coherent human motions from slightly noisy inputs. Experimental results show that accurate camera parameters and human motions can be obtained through one-stage optimization. The codes will be publicly available at~\url{https://www.yangangw ang.com}.
翻訳日:2021-10-22 16:07:03 公開日:2021-10-20
# nod: 夜間物体検出データセットを用いた極端低照度条件下での検出を詳しく見る

NOD: Taking a Closer Look at Detection under Extreme Low-Light Conditions with Night Object Detection Dataset ( http://arxiv.org/abs/2110.10364v1 )

ライセンス: Link先を確認
Igor Morawski, Yu-An Chen, Yu-Sheng Lin, Winston H. Hsu(参考訳) 最近の研究は、知覚的に心地よい画像を作り出すことの難しさに加えて、低光度は以前考えられていたよりも機械認識に困難であることが示されている。 我々の研究では、低光下での物体検出について詳しく調べる。 まず、この領域における新しい手法の開発と評価を支援するため、夜に路上で撮影された動的シーンを示す高品質の大規模夜間物体検出(nod)データセットを提案する。 次に,照明条件と知覚難易度を直接リンクし,機械認識において低光度が問題となる要因を同定する。 したがって、将来のメソッドを詳細に評価するために、データセットのサブセットにインスタンスレベルのアノテーションを提供する。 また,今後の研究の機会を浮き彫りにするベースラインモデルの性能解析を行い,低照度は研究者の特別な注意を必要とする非自明な問題であることを示す。 さらに、低光による問題に対処するために、画像強調モジュールをオブジェクト検出フレームワークと2つの新しいデータ拡張技術に統合することを提案する。 画像強調モジュールは,物体検出装置の指導のもと,人間の視覚系よりも機械認知に最適な画像表現を学習するために訓練される。 最後に,提案手法が低照度データセットの性能を一貫した改善を示すことを確認した。

Recent work indicates that, besides being a challenge in producing perceptually pleasing images, low light proves more difficult for machine cognition than previously thought. In our work, we take a closer look at object detection in low light. First, to support the development and evaluation of new methods in this domain, we present a high-quality large-scale Night Object Detection (NOD) dataset showing dynamic scenes captured on the streets at night. Next, we directly link the lighting conditions to perceptual difficulty and identify what makes low light problematic for machine cognition. Accordingly, we provide instance-level annotation for a subset of the dataset for an in-depth evaluation of future methods. We also present an analysis of the baseline model performance to highlight opportunities for future research and show that low light is a non-trivial problem that requires special attention from the researchers. Further, to address the issues caused by low light, we propose to incorporate an image enhancement module into the object detection framework and two novel data augmentation techniques. Our image enhancement module is trained under the guidance of the object detector to learn image representation optimal for machine cognition rather than for the human visual system. Finally, experimental results confirm that the proposed method shows consistent improvement of the performance on low-light datasets.
翻訳日:2021-10-22 16:06:44 公開日:2021-10-20
# データ修復は公正なモデルにつながるか? 文脈的に公正なデータをキュレートしてモデルバイアスを減らす

Does Data Repair Lead to Fair Models? Curating Contextually Fair Data To Reduce Model Bias ( http://arxiv.org/abs/2110.10389v1 )

ライセンス: Link先を確認
Sharat Agarwal, Sumanyu Muku, Saket Anand, Chetan Arora(参考訳) コンテキスト情報は、より優れた表現を学び、精度を向上させるために、ディープニューラルネットワーク(DNN)にとって貴重なキューである。 しかし、トレーニングデータセットの共起バイアスは、DNNモデルの現実のシナリオに対する一般化性を阻害する可能性がある。 例えば、COCOでは、多くの対象カテゴリーは、男性よりも男性の方がはるかに高い共起性を持ち、DNNの予測に偏りがある。 最近の研究は、このようなシナリオにおけるバイアスに対処するタスク固有のトレーニング戦略にフォーカスしているが、利用可能なデータの修正はしばしば無視される。 本稿では,保護属性に対する様々なクラスとの共起という観点から,サンプルのサブセットを選択することで,データセットの文脈バイアスに対処する新しい汎用的なソリューションを提案する。 本稿では,保護されたクラス(es)に対して公平かつ文脈的にバランスのとれたデータをキュレートできる変動係数を用いたデータ修復アルゴリズムを提案する。 これはタスクやアーキテクチャ、トレーニング方法論に関係なく、公正なモデルをトレーニングするのに役立ちます。 提案手法は単純で効果的であり,データラベルが存在しない,あるいは漸進的に生成されない,アクティブな学習環境でも使用できる。 提案手法は,異なるデータセットにまたがる物体検出とマルチラベル画像分類のタスクに有効であることを示す。 一連の実験を通じて,モデル全体の性能を損なうことなく,保護されたクラスに対する真の陽性率のバランスをとることにより,文脈的に公平なデータのキュレーションがモデル予測の公正化に役立つことを検証した。

Contextual information is a valuable cue for Deep Neural Networks (DNNs) to learn better representations and improve accuracy. However, co-occurrence bias in the training dataset may hamper a DNN model's generalizability to unseen scenarios in the real world. For example, in COCO, many object categories have a much higher co-occurrence with men compared to women, which can bias a DNN's prediction in favor of men. Recent works have focused on task-specific training strategies to handle bias in such scenarios, but fixing the available data is often ignored. In this paper, we propose a novel and more generic solution to address the contextual bias in the datasets by selecting a subset of the samples, which is fair in terms of the co-occurrence with various classes for a protected attribute. We introduce a data repair algorithm using the coefficient of variation, which can curate fair and contextually balanced data for a protected class(es). This helps in training a fair model irrespective of the task, architecture or training methodology. Our proposed solution is simple, effective, and can even be used in an active learning setting where the data labels are not present or being generated incrementally. We demonstrate the effectiveness of our algorithm for the task of object detection and multi-label image classification across different datasets. Through a series of experiments, we validate that curating contextually fair data helps make model predictions fair by balancing the true positive rate for the protected class across groups without compromising on the model's overall performance.
翻訳日:2021-10-22 16:06:21 公開日:2021-10-20
# 複数雑音サンプルを用いた一段階帰納的マルチターゲット学習

One-Step Abductive Multi-Target Learning with Diverse Noisy Samples ( http://arxiv.org/abs/2110.10325v1 )

ライセンス: Link先を確認
Yongquan Yang(参考訳) 複雑な雑音ラベルを扱うために,一段階誘導型マルチターゲット学習(OSAMTL)を提案する。 本稿では,多種多様なノイズサンプル(DNS)を定義した上で,複雑なノイズラベルを扱うタスクに拡張するために,DNS(OSAMTL-DNS)を用いた一段階誘導型マルチターゲット学習を提案する。

One-step abductive multi-target learning (OSAMTL) was proposed to handle complex noisy labels. In this paper, giving definition of diverse noisy samples (DNS), we propose one-step abductive multi-target learning with DNS (OSAMTL-DNS) to expand the original OSAMTL to a wider range of tasks that handle complex noisy labels.
翻訳日:2021-10-22 14:38:37 公開日:2021-10-20
# CIM-PPO:Liu-Correntr opy誘発計量を用いた最適政策最適化

CIM-PPO:Proximal Policy Optimization with Liu-Correntropy Induced Metric ( http://arxiv.org/abs/2110.10522v1 )

ライセンス: Link先を確認
Yunxiao Guo, Han Long, Xiaojun Duan, Kaiyuan Feng, Maochu Li, Xiaying Ma(参考訳) 深層強化学習に基づくアルゴリズムとして、PPO(Proximal Policy Optimization)は多くの複雑なタスクでよく機能し、近年で最も人気のあるRLアルゴリズムの1つとなっている。 代理目的のペナルティのメカニズムにより、PPOはKLディバージェンス(KL-PPO)とClip関数(Clip-PPO)のPPOに分けられる。 clip-ppoは様々な実用シナリオで広く使われ、多くの研究者の注目を集めている。 そのため、多くのバリエーションが作成され、アルゴリズムがより良くなっている。 しかし、より理論的なアルゴリズムとして、KL-PPOはCliP-PPOほど性能が良くなかったため無視された。 本稿では、PPOの目的関数に対するKL分散の非対称性効果を分析し、その非対称性がKL-PPOの効率にいつ影響するかを示す不等式を与える。 コレントロピー誘導計量アルゴリズム(CIM-PPO)を用いて提案されたPPOは、コレントロピー(M推定で広く用いられていた対称性メートル法)の理論を用いてPPOに適用した。 そこで我々は,OpenAIgymをベースとした実験を行い,新しいアルゴリズムの有効性を検証し,KL-PPOとCliP-PPOと比較した。

As an algorithm based on deep reinforcement learning, Proximal Policy Optimization (PPO) performs well in many complex tasks and has become one of the most popular RL algorithms in recent years. According to the mechanism of penalty in surrogate objective, PPO can be divided into PPO with KL Divergence (KL-PPO) and PPO with Clip function(Clip-PPO). Clip-PPO is widely used in a variety of practical scenarios and has attracted the attention of many researchers. Therefore, many variations have also been created, making the algorithm better and better. However, as a more theoretical algorithm, KL-PPO was neglected because its performance was not as good as CliP-PPO. In this article, we analyze the asymmetry effect of KL divergence on PPO's objective function , and give the inequality that can indicate when the asymmetry will affect the efficiency of KL-PPO. Proposed PPO with Correntropy Induced Metric algorithm(CIM-PPO) that use the theory of correntropy(a symmetry metric method that was widely used in M-estimation to evaluate two distributions' difference)and applied it in PPO. Then, we designed experiments based on OpenAIgym to test the effectiveness of the new algorithm and compare it with KL-PPO and CliP-PPO.
翻訳日:2021-10-22 14:38:29 公開日:2021-10-20
# なぜ1人だけ 落ち着くんだ? EL++オントロジーを多対多の関係で拡張する

Why Settle for Just One? Extending EL++ Ontology Embeddings with Many-to-Many Relationships ( http://arxiv.org/abs/2110.10555v1 )

ライセンス: Link先を確認
Biswesh Mohapatra, Sumit Bhatia, Raghava Mutharaju and G. Srinivasaraghavan(参考訳) 知識グラフ(KG)埋め込みは、知識グラフのエンティティと関係の低次元表現を提供し、質問応答や探索、推論、推論、リンク予測の欠如といった様々なアプリケーションでうまく使われている。 しかし、既存のkg埋め込みのほとんどはグラフのネットワーク構造のみを考慮し、kg内のエンティティ間の関係に関する重要な情報を提供する基礎となるオントロジーのセマンティクスや特性を無視している。 この方向の最近の取り組みは、EL++と呼ばれる記述論理(オントロジーの論理基盤)の埋め込みの学習である。 しかし、このような手法はオントロジーで定義された全ての関係を1対1とみなし、性能と応用を著しく制限する。 我々は,この欠点を克服するために,埋め込み表現を学習しながら多対多の関係を考慮可能な,シンプルで効果的なソリューションを提供する。 3つの異なるel++オントロジーを用いた実験では、5つのベースラインのパフォーマンスが大幅に向上した。 提案手法はsroiqのようなより表現力のある記述論理の埋め込み表現を学習する方法でもある。

Knowledge Graph (KG) embeddings provide a low-dimensional representation of entities and relations of a Knowledge Graph and are used successfully for various applications such as question answering and search, reasoning, inference, and missing link prediction. However, most of the existing KG embeddings only consider the network structure of the graph and ignore the semantics and the characteristics of the underlying ontology that provides crucial information about relationships between entities in the KG. Recent efforts in this direction involve learning embeddings for a Description Logic (logical underpinning for ontologies) named EL++. However, such methods consider all the relations defined in the ontology to be one-to-one which severely limits their performance and applications. We provide a simple and effective solution to overcome this shortcoming that allows such methods to consider many-to-many relationships while learning embedding representations. Experiments conducted using three different EL++ ontologies show substantial performance improvement over five baselines. Our proposed solution also paves the way for learning embedding representations for even more expressive description logics such as SROIQ.
翻訳日:2021-10-22 14:35:49 公開日:2021-10-20
# グラフ上の半教師付き分散ロバスト学習

Distributionally Robust Semi-Supervised Learning Over Graphs ( http://arxiv.org/abs/2110.10582v1 )

ライセンス: Link先を確認
Alireza Sadeghi, Meng Ma, Bingcong Li, Georgios B. Giannakis(参考訳) グラフ構造化データに対する半教師付き学習(SSL)は多くのネットワーク科学アプリケーションに現れる。 グラフ上の学習を効率的に管理するために,近年,グラフニューラルネットワーク(GNN)の変種が開発されている。 局所グラフ構造とノードの特徴を簡潔に符号化することにより、最先端のGNNはグラフのサイズと線形にスケールすることができる。 実際の成功にもかかわらず、既存の手法のほとんどは、不確実な結節属性を持つグラフを扱うことができない。 特に、トレーニングとテストデータ分散のミスマッチが存在する場合、これらのモデルは実際に失敗する。 ノイズ測定によって取得されたデータに関連する分布的不確実性も課題となっている。 この文脈では、分散ロバストな学習フレームワークが開発され、摂動に対する定量的ロバスト性を示すモデルを訓練することが目的である。 データ分布は不明だが、実験的なデータ分布を中心にしたワッサーシュタイン球の中にある。 このボールに対する最悪の損失を最小限に抑え、ロバストなモデルを得る。 しかし、新たな機能最適化問題の解決は不可能ではないが難しい。 強い双対性条件を回避し,問題を抽出可能かつ効率的に解ける原理的手法を開発した。 提案手法の性能評価実験を行った。

Semi-supervised learning (SSL) over graph-structured data emerges in many network science applications. To efficiently manage learning over graphs, variants of graph neural networks (GNNs) have been developed recently. By succinctly encoding local graph structures and features of nodes, state-of-the-art GNNs can scale linearly with the size of graph. Despite their success in practice, most of existing methods are unable to handle graphs with uncertain nodal attributes. Specifically whenever mismatches between training and testing data distribution exists, these models fail in practice. Challenges also arise due to distributional uncertainties associated with data acquired by noisy measurements. In this context, a distributionally robust learning framework is developed, where the objective is to train models that exhibit quantifiable robustness against perturbations. The data distribution is considered unknown, but lies within a Wasserstein ball centered around empirical data distribution. A robust model is obtained by minimizing the worst expected loss over this ball. However, solving the emerging functional optimization problem is challenging, if not impossible. Advocating a strong duality condition, we develop a principled method that renders the problem tractable and efficiently solvable. Experiments assess the performance of the proposed method.
翻訳日:2021-10-22 14:35:31 公開日:2021-10-20
# SEA: グラフニューラルネットワークにおけるグラフシェルの注意

SEA: Graph Shell Attention in Graph Neural Networks ( http://arxiv.org/abs/2110.10674v1 )

ライセンス: Link先を確認
Christian M.M. Frey, Yunpu Ma, Matthias Schubert(参考訳) グラフニューラルネットワーク(GNN)の一般的な問題はオーバースムーシングとして知られている。 gnnのメッセージパス内のイテレーション数を増やすことにより、入力グラフのノード表現は互いに一致し、識別不能となる。 近年,注意機構の統合によるモデルの複雑さの増大は,より表現力のあるアーキテクチャをもたらすことが示されている。 これは主に、ノードの表現を他のノードよりもより情報性の高いノードにのみ向けることに貢献している。 gnnと組み合わせたトランスフォーマーモデルでは、グラフトランスフォーマー層(gtl)を含むアーキテクチャが実現される。 しかし、ノードの表現の計算は依然としてGNNの計算作業フローに限定されている。 本稿では,ルーティングヒューリスティックを実装することで,GNNアーキテクチャを緩和する。 具体的には、ノードの表現は専用の専門家にルーティングされる。 各専門家はそれぞれのGNNワークフローに従って表現を計算する。 識別可能なGNNの定義は、中央ノードから始まるkローカライズされたビューから生じる。 この手順をsea(graph shell attention)と呼び、トランスフォーマーによって異なるサブグラフを処理します。 直感的には、専門家の数を増やすことによって、そのモデルは、専門家の受容フィールド内に位置するノードのみに基づいて、ノードの表現が表現力を高める。 我々は,最先端モデルと比較して競争力のある結果を示すベンチマークデータセット上でアーキテクチャを評価する。

A common issue in Graph Neural Networks (GNNs) is known as over-smoothing. By increasing the number of iterations within the message-passing of GNNs, the nodes' representations of the input graph align with each other and become indiscernible. Recently, it has been shown that increasing a model's complexity by integrating an attention mechanism yields more expressive architectures. This is majorly contributed to steering the nodes' representations only towards nodes that are more informative than others. Transformer models in combination with GNNs result in architectures including Graph Transformer Layers (GTL), where layers are entirely based on the attention operation. However, the calculation of a node's representation is still restricted to the computational working flow of a GNN. In our work, we relax the GNN architecture by means of implementing a routing heuristic. Specifically, the nodes' representations are routed to dedicated experts. Each expert calculates the representations according to their respective GNN workflow. The definitions of distinguishable GNNs result from k-localized views starting from the central node. We call this procedure Graph Shell Attention (SEA), where experts process different subgraphs in a transformer-motivate d fashion. Intuitively, by increasing the number of experts, the models gain in expressiveness such that a node's representation is solely based on nodes that are located within the receptive field of an expert. We evaluate our architecture on various benchmark datasets showing competitive results compared to state-of-the-art models.
翻訳日:2021-10-22 14:35:17 公開日:2021-10-20
# ロバスト自己監視探査のための動的ボトルネック

Dynamic Bottleneck for Robust Self-Supervised Exploration ( http://arxiv.org/abs/2110.10735v1 )

ライセンス: Link先を確認
Chenjia Bai, Lingxiao Wang, Lei Han, Animesh Garg, Jianye Hao, Peng Liu, Zhaoran Wang(参考訳) 遷移の擬似数や力学の好奇心に基づく探索手法は、わずかな報酬で強化学習を解決できる有望な結果を得た。 しかし、このような手法は通常、ホワイトノイズのような環境力学関連情報に敏感である。 このようなダイナミックス関連情報を扱うために,情報・ブートネック原理に基づいた動的ブルネック(DB)モデルを提案する。 dbモデルに基づいてさらに,情報利得の高い状態-アクションペアを探索することをエージェントに促すdb-bonusを提案する。 提案したDB結合と線形の場合の上位信頼境界(UCB)と表状の場合の訪問数との理論的関係を確立する。 Atariスーツの動的非関係雑音に対する提案手法の評価を行った。 実験の結果,DBボーナスによる探索は,ノイズの多い環境での最先端探査方法よりも優れていた。

Exploration methods based on pseudo-count of transitions or curiosity of dynamics have achieved promising results in solving reinforcement learning with sparse rewards. However, such methods are usually sensitive to environmental dynamics-irrelevant information, e.g., white-noise. To handle such dynamics-irrelevant information, we propose a Dynamic Bottleneck (DB) model, which attains a dynamics-relevant representation based on the information-bottlene ck principle. Based on the DB model, we further propose DB-bonus, which encourages the agent to explore state-action pairs with high information gain. We establish theoretical connections between the proposed DB-bonus, the upper confidence bound (UCB) for linear case, and the visiting count for tabular case. We evaluate the proposed method on Atari suits with dynamics-irrelevant noises. Our experiments show that exploration with DB bonus outperforms several state-of-the-art exploration methods in noisy environments.
翻訳日:2021-10-22 14:34:56 公開日:2021-10-20
# 基礎:相互作用と制御のためのシーケンスモデルにおける妄想

Shaking the foundations: delusions in sequence models for interaction and control ( http://arxiv.org/abs/2110.10819v1 )

ライセンス: Link先を確認
Pedro A. Ortega, Markus Kunesch, Gr\'egoire Del\'etang, Tim Genewein, Jordi Grau-Moya, Joel Veness, Jonas Buchli, Jonas Degrave, Bilal Piot, Julien Perolat, Tom Everitt, Corentin Tallec, Emilio Parisotto, Tom Erez, Yutian Chen, Scott Reed, Marcus Hutter, Nando de Freitas, Shane Legg(参考訳) 最近の言語モデルの成功は機械学習の研究を復活させ、トランスフォーマーのような大規模なシーケンスモデルが様々な領域に応用されている。 しかし、比較的難解な問題クラスの一つは、意図的な適応行動である。 現在、シーケンスモデルが「行動の原因と効果の理解を欠く」ため、自己提案的妄想による誤った推論が引き起こされるという共通の認識がある。 本報告では, このミスマッチの発端を解説し, 因果的介入として対処することで解決可能であることを示す。 最後に,教師付き学習では,事実信号と反事実誤り信号の訓練により,システムの条件付けや介入を指導できることを示す。

The recent phenomenal success of language models has reinvigorated machine learning research, and large sequence models such as transformers are being applied to a variety of domains. One important problem class that has remained relatively elusive however is purposeful adaptive behavior. Currently there is a common perception that sequence models "lack the understanding of the cause and effect of their actions" leading them to draw incorrect inferences due to auto-suggestive delusions. In this report we explain where this mismatch originates, and show that it can be resolved by treating actions as causal interventions. Finally, we show that in supervised learning, one can teach a system to condition or intervene on data by training with factual and counterfactual error signals respectively.
翻訳日:2021-10-22 14:34:41 公開日:2021-10-20
# 入射差分法による高次元重み付けハイパーパラメータのスケーラブル1パス最適化

Scalable One-Pass Optimisation of High-Dimensional Weight-Update Hyperparameters by Implicit Differentiation ( http://arxiv.org/abs/2110.10461v1 )

ライセンス: Link先を確認
Ross M. Clarke, Elre T. Oldewage, Jos\'e Miguel Hern\'andez-Lobato(参考訳) 機械学習のトレーニング手法は、ハイパーパラメーターに依存し、最適化のための自動戦略を動機付ける。 多くの既存のアルゴリズムが計算コストで新しいハイパーパラメータ選択のトレーニングを再開している。 いくつかのハイパーグレードベースのワンパス法が存在するが、これらは任意のオプティマイザーハイパーパラメータ(学習率やモーメントなど)に適用できないか、ベースモデルよりもトレーニングに数倍時間がかかる。 我々は,これらの既存手法を拡張して,拡張可能なモデル重み更新に現れる任意の連続ハイパーパラメータに適用可能な,超勾配ベースのハイパーパラメータオプティマイザーを開発する。 また、真の過次性への収束を動機づける議論を行い、各モデルパラメータに対する独立学習率のトラクタブル勾配に基づく最適化を行う。 提案手法は,複数のUCIデータセットとFashion-MNIST(一層MLP),Penn Treebank(LSTM),CIFAR -10(ResNet-18)のランダムなハイパーパラメータの初期化から,バニラトレーニングの2~3倍の時間で競合的に動作する。

Machine learning training methods depend plentifully and intricately on hyperparameters, motivating automated strategies for their optimisation. Many existing algorithms restart training for each new hyperparameter choice, at considerable computational cost. Some hypergradient-based one-pass methods exist, but these either cannot be applied to arbitrary optimiser hyperparameters (such as learning rates and momenta) or take several times longer to train than their base models. We extend these existing methods to develop an approximate hypergradient-based hyperparameter optimiser which is applicable to any continuous hyperparameter appearing in a differentiable model weight update, yet requires only one training episode, with no restarts. We also provide a motivating argument for convergence to the true hypergradient, and perform tractable gradient-based optimisation of independent learning rates for each model parameter. Our method performs competitively from varied random hyperparameter initialisations on several UCI datasets and Fashion-MNIST (using a one-layer MLP), Penn Treebank (using an LSTM) and CIFAR-10 (using a ResNet-18), in time only 2-3x greater than vanilla training.
翻訳日:2021-10-22 14:32:30 公開日:2021-10-20
# グラフノード上で観測された異種データストリームのオンライン非パラメトリック変化点検出

Online non-parametric change-point detection for heterogeneous data streams observed over graph nodes ( http://arxiv.org/abs/2110.10518v1 )

ライセンス: Link先を確認
Alejandro de la Concha and Argyris Kalogeratos and Nicolas Vayatis(参考訳) グラフのノードによって生成される異種データストリームを考える。 データストリームは本質的に複数のストリームで構成されており、おそらく各ノードに依存する異なる性質を持つ。 ある時点の$\tau$では、変更点がノードのサブセットの$C$に対して発生し、関連するストリームの確率分布の変化を示す。 本稿では,各ノードのデータストリームに関連付けられた後変化分布と前変化分布の確率比の直接推定に基づいて,$\tau$を推定するオンラインノンパラメトリック手法を提案する。 本稿では,グラフの連結ノードが変化点がない場合に類似の確率比推定値を持つことを想定したカーネルベース手法を提案する。 合成実験と実世界の応用において,本手法の質を実証する。

Consider a heterogeneous data stream being generated by the nodes of a graph. The data stream is in essence composed by multiple streams, possibly of different nature that depends on each node. At a given moment $\tau$, a change-point occurs for a subset of nodes $C$, signifying the change in the probability distribution of their associated streams. In this paper we propose an online non-parametric method to infer $\tau$ based on the direct estimation of the likelihood-ratio between the post-change and the pre-change distribution associated with the data stream of each node. We propose a kernel-based method, under the hypothesis that connected nodes of the graph are expected to have similar likelihood-ratio estimates when there is no change-point. We demonstrate the quality of our method on synthetic experiments and real-world applications.
翻訳日:2021-10-22 14:32:04 公開日:2021-10-20
# EBJR:適応推論のためのエネルギーベース共同推論

EBJR: Energy-Based Joint Reasoning for Adaptive Inference ( http://arxiv.org/abs/2110.10343v1 )

ライセンス: Link先を確認
Mohammad Akbari, Amin Banitalebi-Dehkordi, Yong Zhang(参考訳) 最先端のディープラーニングモデルは、さまざまなベンチマークで大きなパフォーマンスレベルを達成した。 しかし、優れた性能には非効率な計算コストが伴う。 一方、軽量アーキテクチャは適度な精度を実現しますが、より望ましいレイテンシを実現しています。 本稿では,大規模高精度モデルと小型高速モデルとを併用する新しい手法を提案する。 そこで本研究では,浅層モデルと深層モデルの間で試料を適応的に分配し,深部モデルに近い精度を達成し,浅部モデルに近いレイテンシを実現するEnergy-Based Joint Reasoning (EBJR) フレームワークを提案する。 本手法は,アーキテクチャ変更や再トレーニングを必要とせず,事前学習モデルに適用できる。 さらに、特にクラウドサービスでは、使いやすく、デプロイも簡単です。 さまざまなダウンストリームタスクに関する総合的な実験を通じて,本手法が最先端のアプローチをかなりマージンで上回っていることを示す。 さらに,対象タスクを部分的にしか実行しないが,さらに精度が向上し,より高速な推論を実現するための,より小さな専用サイドモデルを作成するための,ebjr法の拡張を提案する。 提案手法の強度を理論的および実験的評価の両方で検証する。

State-of-the-art deep learning models have achieved significant performance levels on various benchmarks. However, the excellent performance comes at a cost of inefficient computational cost. Light-weight architectures, on the other hand, achieve moderate accuracies, but at a much more desirable latency. This paper presents a new method of jointly using the large accurate models together with the small fast ones. To this end, we propose an Energy-Based Joint Reasoning (EBJR) framework that adaptively distributes the samples between shallow and deep models to achieve an accuracy close to the deep model, but latency close to the shallow one. Our method is applicable to out-of-the-box pre-trained models as it does not require an architecture change nor re-training. Moreover, it is easy to use and deploy, especially for cloud services. Through a comprehensive set of experiments on different down-stream tasks, we show that our method outperforms strong state-of-the-art approaches with a considerable margin. In addition, we propose specialized EBJR, an extension of our method where we create a smaller specialized side model that performs the target task only partially, but yields an even higher accuracy and faster inference. We verify the strengths of our methods with both theoretical and experimental evaluations.
翻訳日:2021-10-22 13:56:08 公開日:2021-10-20
# Repaint: トレーニング事例の複数事例の生成によるダウンストリーム視覚タスクの一般化の改善

Repaint: Improving the Generalization of Down-Stream Visual Tasks by Generating Multiple Instances of Training Examples ( http://arxiv.org/abs/2110.10366v1 )

ライセンス: Link先を確認
Amin Banitalebi-Dehkordi and Yong Zhang(参考訳) 視覚タスクのための畳み込みニューラルネットワーク(CNN)は、ネットワーク深度を通して、低レベルのテクスチャと高レベルのオブジェクト属性の両方を学ぶと考えられている。 本稿では,CNNにおける「テクスチャバイアス」についても検討する。 この目的のために、私たちは‘repainting’と呼ばれるプロセスを通じて、各オリジナルイメージからトレーニングサンプルの複数のインスタンスを再生成します。 再塗装された例では、シーン内の領域や物体の形や構造は保存されるが、そのテクスチャや色は多様化する。 本手法では,異なる日光,季節,天候条件で同じ画像を再生したり,色づけや脱色効果を付与したり,黒色領域からテクスチャ情報を取り返したりすることができる。 インプレース・リペイントは、cnnの一般化を改善するためにこれらの再ペイントされた例をさらに利用することを可能にします。 画像分類(ImageNet)とオブジェクト検出(COCO)のタスクや,さまざまな能力を持つ最先端ネットワークアーキテクチャ,さまざまなデータアベイラビリティーシステムにおいて,トレーニングにおける再塗装例の有用性を実証する。

Convolutional Neural Networks (CNNs) for visual tasks are believed to learn both the low-level textures and high-level object attributes, throughout the network depth. This paper further investigates the `texture bias' in CNNs. To this end, we regenerate multiple instances of training examples from each original image, through a process we call `repainting'. The repainted examples preserve the shape and structure of the regions and objects within the scenes, but diversify their texture and color. Our method can regenerate a same image at different daylight, season, or weather conditions, can have colorization or de-colorization effects, or even bring back some texture information from blacked-out areas. The in-place repaint allows us to further use these repainted examples for improving the generalization of CNNs. Through an extensive set of experiments, we demonstrate the usefulness of the repainted examples in training, for the tasks of image classification (ImageNet) and object detection (COCO), over several state-of-the-art network architectures at different capacities, and across different data availability regimes.
翻訳日:2021-10-22 13:55:48 公開日:2021-10-20
# モデル構成: ラベルなしデータのみを用いて、複数のニューラルネットワークを単一のネットワークに組み合わせることができるか?

Model Composition: Can Multiple Neural Networks Be Combined into a Single Network Using Only Unlabeled Data? ( http://arxiv.org/abs/2110.10369v1 )

ライセンス: Link先を確認
Amin Banitalebi-Dehkordi, Xinyu Kang, and Yong Zhang(参考訳) ディープラーニングアプリケーション、データセット、ニューラルネットワークアーキテクチャの多様性は、ターゲットアプリケーションと最適なアーキテクチャとデータを慎重に選択する必要がある。 このジレンマを緩和しようとする試みとして、ラベルなしのデータを用いて複数のトレーニングされたニューラルネットワークを結合するアイデアを考察する。 さらに、複数のモデルをひとつに組み合わせることで、推論を高速化し、より強力で有能なモデルを実現し、効率的なデバイスフレンドリーなターゲットネットワークアーキテクチャを選択することができます。 そこで,提案手法ではラベルなしデータから収集した信頼できる疑似ラベルの生成,フィルタリング,集約を行う。 本手法は任意のアーキテクチャとカテゴリを持つ任意の数の入力モデルを使用する。 性能評価の結果,本手法は非常に有効であることがわかった。 例えば、オブジェクト検出や接地ラベルを使わずに、pascal-vocで訓練された効率的なdet-d0とcocoで訓練された効率的なdet-d1をretinanet-resnet50モデルと組み合わせることができる。 半教師付きで微調整すると、1%、5%、10%のラベルで教師付きトレーニングよりも+18.6%、+12.6%、+8.1%のマップ改善が得られる。

The diversity of deep learning applications, datasets, and neural network architectures necessitates a careful selection of the architecture and data that match best to a target application. As an attempt to mitigate this dilemma, this paper investigates the idea of combining multiple trained neural networks using unlabeled data. In addition, combining multiple models into one can speed up the inference, result in stronger, more capable models, and allows us to select efficient device-friendly target network architectures. To this end, the proposed method makes use of generation, filtering, and aggregation of reliable pseudo-labels collected from unlabeled data. Our method supports using an arbitrary number of input models with arbitrary architectures and categories. Extensive performance evaluations demonstrated that our method is very effective. For example, for the task of object detection and without using any ground-truth labels, an EfficientDet-D0 trained on Pascal-VOC and an EfficientDet-D1 trained on COCO, can be combined to a RetinaNet-ResNet50 model, with a similar mAP as the supervised training. If fine-tuned in a semi-supervised setting, the combined model achieves +18.6%, +12.6%, and +8.1% mAP improvements over supervised training with 1%, 5%, and 10% of labels.
翻訳日:2021-10-22 13:55:26 公開日:2021-10-20
# マルチタスク不確実性推定を用いたスパースhdマップにおけるロバスト単眼局在

Robust Monocular Localization in Sparse HD Maps Leveraging Multi-Task Uncertainty Estimation ( http://arxiv.org/abs/2110.10563v1 )

ライセンス: Link先を確認
K\"ursat Petek, Kshitij Sirohi, Daniel B\"uscher, Wolfram Burgard(参考訳) 低コストのセンサー設定と疎度HDマップを用いた都市密集環境におけるロバストなローカライゼーションは、現在の自動運転の進歩に非常に関係があるが、依然として研究の課題である。 本稿では,予測の不確実性を活用して,挑戦的シナリオやフレーム毎の障害に対する精度と堅牢性を高める,スライディングウィンドウ型ポーズグラフに基づく新しい単眼定位手法を提案する。 そこで本研究では,車線境界と信号のみを含むスパースマップ内の車両のローカライズを可能にするために,セマンティクスセグメンテーションとバウンディングボックス検出をカバーする効率的なマルチタスク不確実性認識モジュールを提案する。 さらに,推定不確実性から直接生成する微分可能コストマップも設計する。 これにより、アモルファスマップ要素の再投影損失を、無関係かつ不確実性を認識する方法で最小化することができる。 Lyft 5データセットの大規模な評価によると、地図の幅が広いにもかかわらず、我々のアプローチは挑戦的な都市シナリオにおける堅牢で正確な6Dローカライゼーションを可能にしている。

Robust localization in dense urban scenarios using a low-cost sensor setup and sparse HD maps is highly relevant for the current advances in autonomous driving, but remains a challenging topic in research. We present a novel monocular localization approach based on a sliding-window pose graph that leverages predicted uncertainties for increased precision and robustness against challenging scenarios and per frame failures. To this end, we propose an efficient multi-task uncertainty-aware perception module, which covers semantic segmentation, as well as bounding box detection, to enable the localization of vehicles in sparse maps, containing only lane borders and traffic lights. Further, we design differentiable cost maps that are directly generated from the estimated uncertainties. This opens up the possibility to minimize the reprojection loss of amorphous map elements in an association free and uncertainty-aware manner. Extensive evaluation on the Lyft 5 dataset shows that, despite the sparsity of the map, our approach enables robust and accurate 6D localization in challenging urban scenarios
翻訳日:2021-10-22 13:55:02 公開日:2021-10-20
# 感性分析における分布ロバスト分類器

Distributionally Robust Classifiers in Sentiment Analysis ( http://arxiv.org/abs/2110.10372v1 )

ライセンス: Link先を確認
Shilun Li, Renee Li, Carina Zhang(参考訳) 本稿では,分布シフトを伴うデータセットのモデル性能を向上させるために,dro (distributionally robust classifiers) と統合されたbertに基づく感情分類モデルを提案する。 BERT上に2層Bi-LSTM, プロジェクション層(Lpボール), 線形層を追加し, 分散ロバスト性を実現した。 分散シフトの一形態を検討した(imdbデータセットからrotten tomatoesデータセットへ)。 我々はDROモデルがトレーニングセットから分布シフトを伴ってテストセットの性能を向上させることを実験を通じて確認した。

In this paper, we propose sentiment classification models based on BERT integrated with DRO (Distributionally Robust Classifiers) to improve model performance on datasets with distributional shifts. We added 2-Layer Bi-LSTM, projection layer (onto simplex or Lp ball), and linear layer on top of BERT to achieve distributionally robustness. We considered one form of distributional shift (from IMDb dataset to Rotten Tomatoes dataset). We have confirmed through experiments that our DRO model does improve performance on our test set with distributional shift from the training set.
翻訳日:2021-10-22 13:52:51 公開日:2021-10-20
# テキストの感情を計算、集約、予測するためのRパッケージセロメトリ

The R package sentometrics to compute, aggregate and predict with textual sentiment ( http://arxiv.org/abs/2110.10817v1 )

ライセンス: Link先を確認
David Ardia, Keven Bluteau, Samuel Borms, Kris Boudt(参考訳) Rパッケージのセマンティックスを用いたテキスト感情指標の最適化について手動で紹介する。 テキスト感情分析は、テキストデータの潜在的な情報価値を解き放つためにますます使われている。 sentometricsパッケージは直感的なフレームワークを実装し、多数のテキストの感情スコアを効率的に計算し、スコアを複数の時系列に集約し、これらの時系列を使って他の変数を予測する。 パッケージのワークフローは、CBOEのボラティリティ指数を予測するために、米国の主要2誌のニュース記事が組み込まれている。

We provide a hands-on introduction to optimized textual sentiment indexation using the R package sentometrics. Textual sentiment analysis is increasingly used to unlock the potential information value of textual data. The sentometrics package implements an intuitive framework to efficiently compute sentiment scores of numerous texts, to aggregate the scores into multiple time series, and to use these time series to predict other variables. The workflow of the package is illustrated with a built-in corpus of news articles from two major U.S. journals to forecast the CBOE Volatility Index.
翻訳日:2021-10-22 13:35:11 公開日:2021-10-20
# (参考訳) サポートエージェントの社会的状況認識に向けて [全文訳有]

Towards Social Situation Awareness in Support Agents ( http://arxiv.org/abs/2110.09829v2 )

ライセンス: CC BY-SA 4.0
Ilir Kola, Pradeep K. Murukannaiah, Catholijn M. Jonker, M. Birna van Riemsdijk(参考訳) 日常的な活動(仮想コーチやパーソナルアシスタントなど)で人々を支援するエージェントがますます普及しています。 多くの日常活動は本質的に社会的であるため、サポートエージェントはユーザーの社会的状況を理解し、包括的支援を提供する必要がある。 しかし,社会状況に配慮した支援エージェントの開発には体系的なアプローチは存在しない。 サポートエージェントが社会的状況を認識するための重要な要件を特定し,その要件を実現するためのステップを提案する。 これらのステップは、(1)「一般的な」状況意識のインスタンス化としての社会的状況意識の概念化、(2)そのようなインスタンス化のキー要素として状況分類を用いるという2つの主要な考え方を中心にした概念的アーキテクチャを通して提示される。 これにより、サポートエージェントはユーザの社会的状況を表現し、その意味を理解し、そのユーザの行動への影響を評価することができる。 本稿では,提案手法が効果的であることを示す実証的な結果について考察し,そのアーキテクチャをユースケースを通じてサポートエージェントにどのように使用できるかを説明する。

Artificial agents that support people in their daily activities (e.g., virtual coaches and personal assistants) are increasingly prevalent. Since many daily activities are social in nature, support agents should understand a user's social situation to offer comprehensive support. However, there are no systematic approaches for developing support agents that are social situation aware. We identify key requirements for a support agent to be social situation aware and propose steps to realize those requirements. These steps are presented through a conceptual architecture that centers around two key ideas: (1) conceptualizing social situation awareness as an instantiation of `general' situation awareness, and (2) using situation taxonomies as the key element of such instantiation. This enables support agents to represent a user's social situation, comprehend its meaning, and assess its impact on the user's behavior. We discuss empirical results supporting that the proposed approach can be effective and illustrate how the architecture can be used in support agents through a use case.
翻訳日:2021-10-22 12:22:05 公開日:2021-10-20
# 顔提示検出のための非対称モダリティ変換

Asymmetric Modality Translation For Face Presentation Attack Detection ( http://arxiv.org/abs/2110.09108v2 )

ライセンス: Link先を確認
Zhi Li, Haoliang Li, Xin Luo, Yongjian Hu, Kwok-Yan Lam, Alex C. Kot(参考訳) 顔提示攻撃検出(PAD)は、悪意のあるユーザによって顔認識システムが偽造されることを防ぎ、学術と産業の両方から大きな注目を集めている。 既存手法のほとんどは所望の性能をある程度達成できるが、クロスドメイン設定による顔提示攻撃検出の一般化問題(例えば、未発見のアタックの設定や照明の相違など)は未解決のままである。 本稿では,バイモダリティシナリオにおける顔提示攻撃検出のための非対称モダリティ変換に基づく新しいフレームワークを提案する。 本フレームワークでは,顔の2つのモダリティ画像間の接続を確立する。 具体的には、1つのモダリティの像が非対称なモダリティ変換器を介してもう1つのモダリティに変換され、対応するペア画像と融合する新しいモダリティ融合スキームを示す。 融合結果は、推論のための判別器への入力として供給される。 翻訳者の訓練は非対称なモダリティ翻訳損失によって監督される。 また、局所重力力パターン(PLGF)表現に基づく照明正規化モジュールを用いて、照明変動の影響を低減する。 我々は3つの公開データセットに対して広範な実験を行い、本手法が様々な種類の攻撃を検出するのに有効であることを示す。

Face presentation attack detection (PAD) is an essential measure to protect face recognition systems from being spoofed by malicious users and has attracted great attention from both academia and industry. Although most of the existing methods can achieve desired performance to some extent, the generalization issue of face presentation attack detection under cross-domain settings (e.g., the setting of unseen attacks and varying illumination) remains to be solved. In this paper, we propose a novel framework based on asymmetric modality translation for face presentation attack detection in bi-modality scenarios. Under the framework, we establish connections between two modality images of genuine faces. Specifically, a novel modality fusion scheme is presented that the image of one modality is translated to the other one through an asymmetric modality translator, then fused with its corresponding paired image. The fusion result is fed as the input to a discriminator for inference. The training of the translator is supervised by an asymmetric modality translation loss. Besides, an illumination normalization module based on Pattern of Local Gravitational Force (PLGF) representation is used to reduce the impact of illumination variation. We conduct extensive experiments on three public datasets, which validate that our method is effective in detecting various types of attacks and achieves state-of-the-art performance under different evaluation protocols.
翻訳日:2021-10-22 12:09:31 公開日:2021-10-20
# 内部特徴融合による自己教師付き単眼深度推定

Self-Supervised Monocular Depth Estimation with Internal Feature Fusion ( http://arxiv.org/abs/2110.09482v2 )

ライセンス: Link先を確認
Hang Zhou, David Greenwood, Sarah Taylor(参考訳) 深度推定のための自己教師あり学習は、監視のために画像列の幾何を使い、有望な結果を示す。 多くのコンピュータビジョンタスクと同様に、深度ネットワークの性能は画像から正確な空間的および意味的表現を学習する能力によって決定される。 したがって,深度推定のためにセマンティックセグメンテーションネットワークを利用するのは自然である。 本研究では, セマンティックセグメンテーションネットワークHRNetをベースとして, ダウン・アップサンプリング処理における意味情報の利用が可能な新しい深度推定ネットワークDIFFNetを提案する。 特徴融合と注意機構を適用することで,提案手法はkittiベンチマークにおける最先端の単眼深度推定法を上回っている。 また,本手法は高分解能トレーニングデータに大きな可能性を示す。 本稿では,標準ベンチマークから実証的に導出した難易度テストセットを確立することにより,さらなる拡張評価戦略を提案する。

Self-supervised learning for depth estimation uses geometry in image sequences for supervision and shows promising results. Like many computer vision tasks, depth network performance is determined by the capability to learn accurate spatial and semantic representations from images. Therefore, it is natural to exploit semantic segmentation networks for depth estimation. In this work, based on a well-developed semantic segmentation network HRNet, we propose a novel depth estimation networkDIFFNet, which can make use of semantic information in down and upsampling procedures. By applying feature fusion and an attention mechanism, our proposed method outperforms the state-of-the-art monocular depth estimation methods on the KITTI benchmark. Our method also demonstrates greater potential on higher resolution training data. We propose an additional extended evaluation strategy by establishing a test set of challenging cases, empirically derived from the standard benchmark.
翻訳日:2021-10-22 12:08:40 公開日:2021-10-20
# jaccard indexのさらなる一般化

Further Generalizations of the Jaccard Index ( http://arxiv.org/abs/2110.09619v2 )

ライセンス: Link先を確認
Luciano da F. Costa(参考訳) 2つの集合の類似性を定量化することは、集合論を含むいくつかの理論および応用問題において特に興味深く有用な操作となる。 2つの集合の類似性を定量化するために、jaccardインデックスは最も多様な種類の問題で広く使われ、またそれぞれの一般化の動機にもなっている。 本研究は、この指標のさらなる一般化に取り組み、集合の内部性レベルを計算可能な偶然指数への修正、連続ベクトル空間における集合の拡張、関連する集合要素に関連する重みの考慮、多重集合の追加、密度およびジェネリックスカラー場への一般化、および確率変数間の合同相互依存性の定量化を含む。 また、2つ以上の集合を考慮に入れた興味深い可能性として、3つの集合間の連鎖のレベルを定量化できる指標の記述がある。 記述および提案された一般化のいくつかは、数値ケースの例に関して説明されている。 また、これらの指標は、モデリングアプローチやパターン認識活動におけるデータセットの分析と統合において重要な役割を果たす可能性がある。

Quantifying the similarity between two sets constitutes a particularly interesting and useful operation in several theoretical and applied problems involving set theory. Aimed at quantifying the similarity between two sets, the Jaccard index has been extensively used in the most diverse types of problems, also motivating respective generalizations. The present work addressew further generalizations of this index, including its modification into a coincidence index capable of accounting also for the level of interiority of the sets, an extension for sets in continuous vector spaces, the consideration of weights associated to the involved set elements, the generalization to multiset addition, densities and generic scalar fields, as well as a means to quantify the joint interdependence between random variables. The also interesting possibility to take into account more than two sets was also addressed, including the description of an index capable of quantifying the level of chaining between three sets. Several of the described and suggested generalizations have been illustrated with respect to numeric case examples. It is also posited that these indices can play an important role while analyzing and integrating datasets in modeling approaches and pattern recognition activities.
翻訳日:2021-10-22 12:08:25 公開日:2021-10-20
# Realistic Actor-Criticによる価値過小評価と過大評価のバランス

Balancing Value Underestimation and Overestimation with Realistic Actor-Critic ( http://arxiv.org/abs/2110.09712v2 )

ライセンス: Link先を確認
Sicen Li, Gang Wang, Qinyun Tang, Liquan Wang(参考訳) モデルフリー深部強化学習(RL)は、連続制御領域の挑戦に成功している。 しかし、サンプル効率の低さは、これらの手法が現実世界のドメインで広く使われることを妨げている。 本稿では,新しいモデルフリーアルゴリズムであるRealistic Actor-Critic(RAC)を提案する。 RACはUniversal Value Function Approximator (UVFA)を使用して、同じニューラルネットワークを持つポリシーファミリを同時に学習する。 このような方針を学ぶために,複数の批判者からの不確実性を利用してq関数の様々な信頼度を構築できる不確実性検証q-learningを導入する。 我々はmujocoベンチマークでracを評価し、10倍のサンプル効率と25%の性能改善をsacと比較して達成した。

Model-free deep reinforcement learning (RL) has been successfully applied to challenging continuous control domains. However, poor sample efficiency prevents these methods from being widely used in real-world domains. This paper introduces a novel model-free algorithm, Realistic Actor-Critic(RAC), which can be incorporated with any off-policy RL algorithms to improve sample efficiency. RAC employs Universal Value Function Approximators (UVFA) to simultaneously learn a policy family with the same neural network, each with different trade-offs between underestimation and overestimation. To learn such policies, we introduce uncertainty punished Q-learning, which uses uncertainty from the ensembling of multiple critics to build various confidence-bounds of Q-function. We evaluate RAC on the MuJoCo benchmark, achieving 10x sample efficiency and 25% performance improvement on the most challenging Humanoid environment compared to SAC.
翻訳日:2021-10-22 12:08:05 公開日:2021-10-20
# 3dmmと3dランドマークの正確な3d顔形状のための相乗効果

Synergy between 3DMM and 3D Landmarks for Accurate 3D Facial Geometry ( http://arxiv.org/abs/2110.09772v2 )

ライセンス: Link先を確認
Cho-Ying Wu, Qiangeng Xu, Ulrich Neumann(参考訳) 本研究では,3次元形状モデル(3dmm)と3次元顔ランドマークの相乗過程から学習し,3次元アライメント,顔配向,3次元顔モデリングなど,完全な3次元顔形状を予測する。 我々のシナジープロセスは、3DMMパラメータと3Dランドマークの表現サイクルを利用する。 3DMMパラメータで構築されたフェイスメッシュから3Dランドマークを抽出し、洗練することができる。 次に、表現方向を反転させ、スパース3Dランドマークからの3DMMパラメータの予測が情報フローを改善することを示す。 3Dランドマークと3DMMパラメータの関係を利用して、協調的により良いパフォーマンスに寄与するシナジープロセスを作成する。 顔形状予測の完全なタスクに対する我々の貢献を広く検証し、様々なシナリオにおいてこれらのタスクに対する優れた、堅牢なパフォーマンスを示す。 特に,高速で正確な顔形状予測を実現するために,単純で広く利用されているネットワーク操作のみを採用する。 コードとデータ: https://choyingw.git hub.io/works/synergy net/

This work studies learning from a synergy process of 3D Morphable Models (3DMM) and 3D facial landmarks to predict complete 3D facial geometry, including 3D alignment, face orientation, and 3D face modeling. Our synergy process leverages a representation cycle for 3DMM parameters and 3D landmarks. 3D landmarks can be extracted and refined from face meshes built by 3DMM parameters. We next reverse the representation direction and show that predicting 3DMM parameters from sparse 3D landmarks improves the information flow. Together we create a synergy process that utilizes the relation between 3D landmarks and 3DMM parameters, and they collaboratively contribute to better performance. We extensively validate our contribution on full tasks of facial geometry prediction and show our superior and robust performance on these tasks for various scenarios. Particularly, we adopt only simple and widely-used network operations to attain fast and accurate facial geometry prediction. Codes and data: https://choyingw.git hub.io/works/Synergy Net/
翻訳日:2021-10-22 12:07:49 公開日:2021-10-20
# 深層強化学習のためのダンプアンダーソン混合:加速,収束,安定化

Damped Anderson Mixing for Deep Reinforcement Learning: Acceleration, Convergence, and Stabilization ( http://arxiv.org/abs/2110.08896v2 )

ライセンス: Link先を確認
Ke Sun, Yafei Wang, Yi Liu, Yingnan Zhao, Bo Pan, Shangling Jui, Bei Jiang, Linglong Kong(参考訳) アンダーソン混合は、収束を加速し、深部RLのサンプリング効率を向上させるための強化学習(RL)アルゴリズムにヒューリスティックに応用されている。 収束のヒューリスティックな改善にもかかわらず、アンダーソン混合の RL における利益に対する厳密な数学的正当化はまだ行われていない。 本稿では,アンダーソン混合を基礎として,深部RLアルゴリズムの収束性を改善する一連の加速スキームについて,より深い知見を提供する。 本研究では,アンダーソン混合法と準ニュートン法を結びつけ,アンダーソン混合法が政策反復計画の収束半径を余分な収縮係数で増加させることを示す。 解析の鍵となる焦点は、RLの固定点反復性にある。 さらに,アンダーソン混合における安定正規化項と,より高速収束とより安定な挙動を両立できる可微分非拡張メルローマックス作用素を導入することで安定化戦略を提案する。 大規模な実験により,提案手法はRLアルゴリズムの収束,安定性,性能を向上させることが示された。

Anderson mixing has been heuristically applied to reinforcement learning (RL) algorithms for accelerating convergence and improving the sampling efficiency of deep RL. Despite its heuristic improvement of convergence, a rigorous mathematical justification for the benefits of Anderson mixing in RL has not yet been put forward. In this paper, we provide deeper insights into a class of acceleration schemes built on Anderson mixing that improve the convergence of deep RL algorithms. Our main results establish a connection between Anderson mixing and quasi-Newton methods and prove that Anderson mixing increases the convergence radius of policy iteration schemes by an extra contraction factor. The key focus of the analysis roots in the fixed-point iteration nature of RL. We further propose a stabilization strategy by introducing a stable regularization term in Anderson mixing and a differentiable, non-expansive MellowMax operator that can allow both faster convergence and more stable behavior. Extensive experiments demonstrate that our proposed method enhances the convergence, stability, and performance of RL algorithms.
翻訳日:2021-10-22 12:07:31 公開日:2021-10-20
# アダプティブ・フォース・インポンダンス・アクション・スペースを用いたロボットマニピュレーションスキルの学習

Learning Robotic Manipulation Skills Using an Adaptive Force-Impedance Action Space ( http://arxiv.org/abs/2110.09904v2 )

ライセンス: Link先を確認
Maximilian Ulmer, Elie Aljalbout, Sascha Schwarz, and Sami Haddadin(参考訳) インテリジェントなエージェントは、精巧な操作タスクを実行するのに速くて遅いことを考えなければなりません。 強化学習(RL)は、様々な意思決定タスクにおいて多くの有望な結果をもたらした。 しかし、現実世界のロボット工学では、多くの高価なインタラクションを必要とし、フィードバックループが遅いため、これらの手法は依然として苦労している。 一方、高速人間ライクな適応制御手法は複雑なロボットインタラクションを最適化するが、非構造化タスクに必要なマルチモーダルフィードバックを統合することができない。 本研究では,階層的学習と適応アーキテクチャにおける学習問題の要因として,両世界のベストを生かすことを提案する。 このフレームワークは、マルチモーダルな観察を与えられたタスク戦略を最適化する遅い強化学習ポリシーと、マニピュレータの動作、安定性、労力を継続的に最適化する高速でリアルタイムな適応制御ポリシーの2つのコンポーネントから構成される。 AFORCEと呼ばれるバイオインスパイアされたアクション空間を通じて、これらのコンポーネントを組み合わせる。 実ハードウェア上でのコンタクトリッチな操作タスクに新たなアクション空間を実演し、3つのシミュレーション操作タスクのパフォーマンスを評価する。 実験の結果,AFORCEはエネルギー消費を削減し,安全性を向上させるとともに,試料効率を大幅に向上することがわかった。

Intelligent agents must be able to think fast and slow to perform elaborate manipulation tasks. Reinforcement Learning (RL) has led to many promising results on a range of challenging decision-making tasks. However, in real-world robotics, these methods still struggle, as they require large amounts of expensive interactions and have slow feedback loops. On the other hand, fast human-like adaptive control methods can optimize complex robotic interactions, yet fail to integrate multimodal feedback needed for unstructured tasks. In this work, we propose to factor the learning problem in a hierarchical learning and adaption architecture to get the best of both worlds. The framework consists of two components, a slow reinforcement learning policy optimizing the task strategy given multimodal observations, and a fast, real-time adaptive control policy continuously optimizing the motion, stability, and effort of the manipulator. We combine these components through a bio-inspired action space that we call AFORCE. We demonstrate the new action space on a contact-rich manipulation task on real hardware and evaluate its performance on three simulated manipulation tasks. Our experiments show that AFORCE drastically improves sample efficiency while reducing energy consumption and improving safety.
翻訳日:2021-10-22 12:07:15 公開日:2021-10-20
# ディープニューラルネットワークの最小マルチ層修正

Minimal Multi-Layer Modifications of Deep Neural Networks ( http://arxiv.org/abs/2110.09929v2 )

ライセンス: Link先を確認
Idan Refaeli and Guy Katz(参考訳) 近年、ディープニューラルネットワーク(DNN)はますます人気が高まっている。 しかし、多くの成功にもかかわらず、DNNは、自律運転、診断、空中衝突回避システムなどの安全上重要な設定において、不正で致命的なアウトプットを発生させる可能性がある。 テストや検証などを通じて、DNNのこのような誤動作を検出する作業が数多く行われているが、検出後にこれらのエラーを取り除くことにはあまり注意が払われていない。 ここでは、与えられたDNNを修復するための3M-DNNと呼ばれる新しいツールを紹介します。 3M-DNNで実装された新しい修復手順は、ネットワークの重みを修正してその振る舞いを補正し、バックエンドのブラックボックスDNN検証エンジンへの一連の呼び出しを通じて、この変更を最小化しようとするものである。 私たちの知る限りでは、複数のレイヤを同時に修正することでネットワークを修復できる最初の方法です。 これはネットワークをサブネットワークに分割し、各コンポーネントに単層補修技術を適用することで実現される。 3M-DNNツールをベンチマークで評価し,有望な結果を得た。

Deep neural networks (DNNs) have become increasingly popular in recent years. However, despite their many successes, DNNs may also err and produce incorrect and potentially fatal outputs in safety-critical settings, such as autonomous driving, medical diagnosis, and airborne collision avoidance systems. Much work has been put into detecting such erroneous behavior in DNNs, e.g., via testing or verification, but removing these errors after their detection has received lesser attention. We present here a new tool, called 3M-DNN, for repairing a given DNN, which is known to err on some set of inputs. The novel repair procedure implemented in 3M-DNN computes a modification to the network's weights that corrects its behavior, and attempts to minimize this change via a sequence of calls to a backend, black-box DNN verification engine. To the best of our knowledge, our method is the first one that allows repairing the network by simultaneously modifying multiple layers. This is achieved by splitting the network into sub-networks, and applying a single-layer repairing technique to each component. We evaluated 3M-DNN tool on an extensive set of benchmarks, obtaining promising results.
翻訳日:2021-10-22 12:06:16 公開日:2021-10-20
# CycleFlow: サイクル損失による情報要因の浄化

CycleFlow: Purify Information Factors by Cycle Loss ( http://arxiv.org/abs/2110.09928v2 )

ライセンス: Link先を確認
Haoran Sun and Chen Chen and Lantian Li and Dong Wang(参考訳) SpeechFlowは情報ボトルネック(IB)に基づく強力な分解モデルであり,その有効性はいくつかの研究によって報告されている。 しかし、SpeechFlowの潜在的な問題は、IBチャネルが十分に設計されていない場合、結果の因子が適切に絡み合えないことである。 本研究では,この問題を解決するためにランダム因子置換とサイクル損失を組み合わせたCycleFlowモデルを提案する。 音声変換タスクの実験は、この単純な手法が個々の要因間の相互情報を効果的に低減し、IBベースのSpeechFlowよりも明らかに優れた変換を実現できることを示した。 CycleFlowは、音声編集の強力なツールとしても使える。 この使用法を感情知覚実験によって実証する。

SpeechFlow is a powerful factorization model based on information bottleneck (IB), and its effectiveness has been reported by several studies. A potential problem of SpeechFlow, however, is that if the IB channels are not well designed, the resultant factors cannot be well disentangled. In this study, we propose a CycleFlow model that combines random factor substitution and cycle loss to solve this problem. Experiments on voice conversion tasks demonstrate that this simple technique can effectively reduce mutual information among individual factors, and produce clearly better conversion than the IB-based SpeechFlow. CycleFlow can also be used as a powerful tool for speech editing. We demonstrate this usage by an emotion perception experiment.
翻訳日:2021-10-22 12:05:56 公開日:2021-10-20
# 異なるサイズの半規則メッシュのためのメッシュ畳み込みオートエンコーダ

Mesh Convolutional Autoencoder for Semi-Regular Meshes of Different Sizes ( http://arxiv.org/abs/2110.09401v2 )

ライセンス: Link先を確認
Sara Hahner and Jochen Garcke(参考訳) 変形する3次元表面メッシュの解析は、低次元埋め込みを用いて基礎となるダイナミクスを可視化するため、オートエンコーダによって加速される。 しかし、最先端のメッシュ畳み込みオートエンコーダは、オートエンコーダが処理するすべての入力メッシュを固定接続する必要がある。 これはスペクトル畳み込み層を使用するか、メッシュ依存プーリング操作を使用するためである。 したがって、学習可能なデータセットの種類は限られており、学習した知識を同様の振る舞いを示す他のデータセットに転送することはできない。 これを解決するために、曲面の離散化を、局所的に正規接続を持ち、メッシュが階層的な半規則メッシュに変換する。 これにより、同じ空間畳み込みフィルタを局所的に適用し、任意の半規則メッシュに適用可能なプーリング演算子を定義することができる。 我々は、同じメッシュオートエンコーダを異なるデータセットに適用し、再構築エラーは、各メッシュに対して個別にトレーニングする必要がある最先端モデルのエラーよりも50%以上低い。 さらに,メッシュの異なるクラスでトレーニングされたオートエンコーダを用いて,未知のメッシュシーケンスの基盤となるダイナミクスを可視化する。

The analysis of deforming 3D surface meshes is accelerated by autoencoders since the low-dimensional embeddings can be used to visualize underlying dynamics. But, state-of-the-art mesh convolutional autoencoders require a fixed connectivity of all input meshes handled by the autoencoder. This is due to either the use of spectral convolutional layers or mesh dependent pooling operations. Therefore, the types of datasets that one can study are limited and the learned knowledge cannot be transferred to other datasets that exhibit similar behavior. To address this, we transform the discretization of the surfaces to semi-regular meshes that have a locally regular connectivity and whose meshing is hierarchical. This allows us to apply the same spatial convolutional filters to the local neighborhoods and to define a pooling operator that can be applied to every semi-regular mesh. We apply the same mesh autoencoder to different datasets and our reconstruction error is more than 50% lower than the error from state-of-the-art models, which have to be trained for every mesh separately. Additionally, we visualize the underlying dynamics of unseen mesh sequences with an autoencoder trained on different classes of meshes.
翻訳日:2021-10-22 11:41:52 公開日:2021-10-20
# マルチモーダル対話システムにおけるテキスト応答生成のためのモダリティドロップアウトを有する非階層型アテンションネットワーク

A non-hierarchical attention network with modality dropout for textual response generation in multimodal dialogue systems ( http://arxiv.org/abs/2110.09702v2 )

ライセンス: Link先を確認
Rongyi Sun, Borun Chen, Qingyu Zhou, Yinghui Li, YunBo Cao, Hai-Tao Zheng(参考訳) 既存のテキストおよび画像に基づくマルチモーダル対話システムは、従来の階層的並行エンコーダ・デコーダ(HRED)フレームワークを使用しており、発話レベルエンコーダは発話レベルの表現をモデル化し、コンテキストレベルエンコーダはコンテキストレベルの表現をモデル化する。 先駆的な試みは有望なパフォーマンスを示しているが、それでも、(1)テキストの特徴と視覚的特徴の相互作用は、十分にきめ細かいものではない、という課題に苦しめられている。 (2)コンテキスト表現は、コンテキストの完全な表現を提供できない。 上記の問題に対処するため,我々はhredフレームワークを放棄し,アテンションモジュールを用いて各発話をエンコードし,文脈表現をモデル化するモダリティドロップアウトを用いた非階層的アテンションネットワークを提案する。 提案モデルを評価するため,公開マルチモーダル対話データセットの総合的な実験を行った。 自動評価と人的評価は,提案モデルが既存手法より優れ,最先端性能を実現することを示す。

Existing text- and image-based multimodal dialogue systems use the traditional Hierarchical Recurrent Encoder-Decoder (HRED) framework, which has an utterance-level encoder to model utterance representation and a context-level encoder to model context representation. Although pioneer efforts have shown promising performances, they still suffer from the following challenges: (1) the interaction between textual features and visual features is not fine-grained enough. (2) the context representation can not provide a complete representation for the context. To address the issues mentioned above, we propose a non-hierarchical attention network with modality dropout, which abandons the HRED framework and utilizes attention modules to encode each utterance and model the context representation. To evaluate our proposed model, we conduct comprehensive experiments on a public multimodal dialogue dataset. Automatic and human evaluation demonstrate that our proposed model outperforms the existing methods and achieves state-of-the-art performance.
翻訳日:2021-10-22 11:41:09 公開日:2021-10-20
# セルフィー美容フィルタが顔検出と認識に及ぼす影響について

On the Effect of Selfie Beautification Filters on Face Detection and Recognition ( http://arxiv.org/abs/2110.08934v2 )

ライセンス: Link先を確認
Pontus Hedman, Vasilios Skepetzis, Kevin Hernandez-Diaz, Josef Bigun, Fernando Alonso-Fernandez(参考訳) 美化と拡張現実フィルターは、スマートフォンやパーソナルデバイスで撮影された自撮り写真を使用するアプリケーションで非常に人気がある。 しかし、生体的特徴を歪ませたり修正したりすることができ、個人のアイデンティティを認識したり、顔を検出する能力に深刻な影響を及ぼす。 そこで,このようなフィルタが顔の自動検出と認識の精度に与える影響について考察する。 ソーシャルメディアイメージフィルタは、画像のコントラストや照明を変更したり、顔の一部(例えば人工眼鏡や動物の鼻)を遮ったりした。 これらのフィルターの効果は、顔検出と識別の両方に有害であり、特に目や鼻を(より少ない範囲まで)難解にした場合に有効である。 このような対策として,U-NETセグメンテーションネットワークの修正版を用いて適用操作を再構築する手法を開発した。 これは、顔の検出と認識の精度の向上に寄与する。 認識の観点からは、顔を認識するために訓練されたresnet-34ネットワークを用いて抽出された特徴に適用される距離測定と訓練された機械学習アルゴリズムを用いる。 また、機械学習のトレーニングセットにフィルタ画像を統合することが、アイデンティティ認識に有用かどうかを評価する。 その結果,フィルタが重要なランドマーク,特に目(識別精度99%,EER<2%)を阻害しない場合,良好な認識が得られた。 提案手法の併用効果は, 顔の一部を遮蔽するフィルタによる効果を緩和し, 摂動の大部分で92%以上, eer <8%の識別精度を達成する。 改善の余地はあるものの、U-NET再構成やフィルター画像によるトレーニングが適用されない場合、眼球障害を伴うフィルターの精度は<72%(識別)と>12%(EER)である。

Beautification and augmented reality filters are very popular in applications that use selfie images captured with smartphones or personal devices. However, they can distort or modify biometric features, severely affecting the capability of recognizing individuals' identity or even detecting the face. Accordingly, we address the effect of such filters on the accuracy of automated face detection and recognition. The social media image filters studied either modify the image contrast or illumination or occlude parts of the face with for example artificial glasses or animal noses. We observe that the effect of some of these filters is harmful both to face detection and identity recognition, specially if they obfuscate the eye or (to a lesser extent) the nose. To counteract such effect, we develop a method to reconstruct the applied manipulation with a modified version of the U-NET segmentation network. This is observed to contribute to a better face detection and recognition accuracy. From a recognition perspective, we employ distance measures and trained machine learning algorithms applied to features extracted using a ResNet-34 network trained to recognize faces. We also evaluate if incorporating filtered images to the training set of machine learning approaches are beneficial for identity recognition. Our results show good recognition when filters do not occlude important landmarks, specially the eyes (identification accuracy >99%, EER<2%). The combined effect of the proposed approaches also allow to mitigate the effect produced by filters that occlude parts of the face, achieving an identification accuracy of >92% with the majority of perturbations evaluated, and an EER <8%. Although there is room for improvement, when neither U-NET reconstruction nor training with filtered images is applied, the accuracy with filters that severely occlude the eye is <72% (identification) and >12% (EER)
翻訳日:2021-10-22 11:40:27 公開日:2021-10-20