このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211124となっている論文です。

PDF登録状況(公開日: 20211124)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 手書き画像からマイクログラフの徴候を抽出したパーキンソン病のリアルタイム・自動・早期診断のための機械学習 [全文訳有]

Machine Learning for Real-Time, Automatic, and Early Diagnosis of Parkinson's Disease by Extracting Signs of Micrographia from Handwriting Images ( http://arxiv.org/abs/2111.14781v1 )

ライセンス: CC BY 4.0
Riya Tyagi, Tanish Tyagi, Ming Wang, Lujin Zhang(参考訳) パーキンソン病(PD: Parkinson's disease)は、運動障害を主訴とする疾患である。 世界で2番目に一般的な神経変性疾患であり、全世界で1000万人以上の命に影響を及ぼす。 既存の診断方法は、患者と健康な人の行動の違いが早期に区別できないことを考慮すると、医師の訪問費用や自動早期発見の難しさといった制限がある。 しかし、手書き障害(手書き障害)であるマイクログラフィーは、PDの初期段階では、手書き、震動、ジストニア、緩やかな動きを引き起こすことが一般的である。 本研究では,2つのオープンソースデータセットから収集したサンプルからマイクログラフィーの兆候を抽出する機械学習手法を適用し,予測精度94%を達成する。 この研究は、誰でもペン、プリンター、電話にアクセスして早期PD検出に利用できる、公開され、ユーザフレンドリーなWebポータルの基礎も設定している。

Parkinson's disease (PD) is debilitating, progressive, and clinically marked by motor symptoms. As the second most common neurodegenerative disease in the world, it affects over 10 million lives globally. Existing diagnoses methods have limitations, such as the expense of visiting doctors and the challenge of automated early detection, considering that behavioral differences in patients and healthy individuals are often indistinguishable in the early stages. However, micrographia, a handwriting disorder that leads to abnormally small handwriting, tremors, dystonia, and slow movement in the hands and fingers, is commonly observed in the early stages of PD. In this work, we apply machine learning techniques to extract signs of micrographia from drawing samples gathered from two open-source datasets and achieve a predictive accuracy of 94%. This work also sets the foundations for a publicly available and user-friendly web portal that anyone with access to a pen, printer, and phone can use for early PD detection.
翻訳日:2021-12-06 01:43:48 公開日:2021-11-24
# 注意に基づくトランスファー学習によるカスタマサービスチャットボットの改善

Improving Customer Service Chatbots with Attention-based Transfer Learning ( http://arxiv.org/abs/2111.14621v1 )

ライセンス: Link先を確認
Jordan J. Bird(参考訳) 社会的受容が高まり、大量生産によるコスト効率が向上するにつれ、サービスロボットは産業から社会的領域に渡り始めている。 現在、カスタマサービスロボットはデジタル化され、画面上のテキストを通じてソーシャルなインタラクションをエミュレートする傾向があるが、最先端の研究ポイントは、近いうちにカスタマサービスを直接提供する物理的なロボットに向けられている。 この記事では2つの可能性を探る。 まず、転送学習がビジネスドメイン間のカスタマーサービスチャットボットの改善に役立つかどうか。 第二に、人間間インタラクションのための物理ロボットのためのフレームワークの実装。 カスタマーサポートtwitterアカウントとのソーシャルなインタラクションに基づいてモデル化されたtransformerベースのチャットボットモデルは、初期ランダムウェイト分布から1つのドメインを学習する。 共有語彙が与えられた後、各モデルは、前者から知識を移すことで、別のドメインを学習する。 19の異なるビジネスに関する調査の結果、ほとんどのモデルは、少なくとも1つのドメイン、特に他のドメインよりもデータに乏しいドメインから重みを移す際に改善されている。 一般的な言語伝達学習や、類似のドメイン知識の高レベルな転送が、いくつかのケースで発生する。 チャットボットはついにテミとペッパーのロボットに実装され、実現可能性の問題に遭遇し、解決法が提案されている。

With growing societal acceptance and increasing cost efficiency due to mass production, service robots are beginning to cross from the industrial to the social domain. Currently, customer service robots tend to be digital and emulate social interactions through on-screen text, but state-of-the-art research points towards physical robots soon providing customer service in person. This article explores two possibilities. Firstly, whether transfer learning can aid in the improvement of customer service chatbots between business domains. Secondly, the implementation of a framework for physical robots for in-person interaction. Modelled on social interaction with customer support Twitter accounts, transformer-based chatbot models are initially tasked to learn one domain from an initial random weight distribution. Given shared vocabulary, each model is then tasked with learning another domain by transferring knowledge from the prior. Following studies on 19 different businesses, results show that the majority of models are improved when transferring weights from at least one other domain, in particular those that are more data-scarce than others. General language transfer learning occurs, as well as higher-level transfer of similar domain knowledge in several cases. The chatbots are finally implemented on Temi and Pepper robots, with feasibility issues encountered and solutions are proposed to overcome them.
翻訳日:2021-12-06 01:25:04 公開日:2021-11-24
# 連続特徴の計算可能学習について

On computable learning of continuous features ( http://arxiv.org/abs/2111.14630v1 )

ライセンス: Link先を確認
Nathanael Ackerman and Julian Asilis and Jieqi Di and Cameron Freer and Jean-Baptiste Tristan(参考訳) 計算可能距離空間上の二項分類のための計算可能PAC学習の定義を導入する。 経験的リスク最小化(erm)を計算可能とする学習者に対して十分な条件を提供し,より一般的な条件下でのerm学習者の強弱度を拘束する。 また、基礎となるクラスがpac学習可能であるにもかかわらず、計算可能なサンプル関数を持つ適切な計算可能なpac学習者を認めない仮説クラスを提示する。

We introduce definitions of computable PAC learning for binary classification over computable metric spaces. We provide sufficient conditions for learners that are empirical risk minimizers (ERM) to be computable, and bound the strong Weihrauch degree of an ERM learner under more general conditions. We also give a presentation of a hypothesis class that does not admit any proper computable PAC learner with computable sample function, despite the underlying class being PAC learnable.
翻訳日:2021-12-06 01:03:03 公開日:2021-11-24
# コンセンサスが記憶と融合する:都市シーンにおける異常セグメンテーションの簡易的アプローチ

Consensus Synergizes with Memory: A Simple Approach for Anomaly Segmentation in Urban Scenes ( http://arxiv.org/abs/2111.15463v1 )

ライセンス: Link先を確認
Jiazhong Cen, Zenkun Jiang, Lingxi Xie, Qi Tian, Xiaokang Yang, Wei Shen(参考訳) 異常セグメンテーション(英: Anomaly segmentation)は、都市部における自律運転のような安全上重要なアプリケーションにとって重要な課題であり、そこでは訓練中に目に見えないカテゴリの配布外物(OOD)を検出することが目的である。 この課題の中核となる課題は、まだ明確に議論されていないOODサンプルとハードインディストリビューションサンプルを区別する方法である。 本稿では,この課題に対処するための,Consensus Synergizes with Memory (CosMe) という,新規でシンプルなアプローチを提案する。 主な考え方は 1)予め訓練されたセグメンテーションモデルの複数層から抽出した試作品からなる記憶バンクの構築 2)事前学習したモデルの動作を模倣した補助モデルをトレーニングし、その中間レベルの特徴のコンセンサスを、メモリバンクと相乗する補完的手がかりとして測定する。 CosMeは、ハードインディストリビューションの例とOODサンプルの区別が得意である。 いくつかの都市シーンの異常セグメンテーションデータセットにおける実験結果は、cosmeが以前のアプローチを大きなマージンで上回っていることを示している。

Anomaly segmentation is a crucial task for safety-critical applications, such as autonomous driving in urban scenes, where the goal is to detect out-of-distribution (OOD) objects with categories which are unseen during training. The core challenge of this task is how to distinguish hard in-distribution samples from OOD samples, which has not been explicitly discussed yet. In this paper, we propose a novel and simple approach named Consensus Synergizes with Memory (CosMe) to address this challenge, inspired by the psychology finding that groups perform better than individuals on memory tasks. The main idea is 1) building a memory bank which consists of seen prototypes extracted from multiple layers of the pre-trained segmentation model and 2) training an auxiliary model that mimics the behavior of the pre-trained model, and then measuring the consensus of their mid-level features as complementary cues that synergize with the memory bank. CosMe is good at distinguishing between hard in-distribution examples and OOD samples. Experimental results on several urban scene anomaly segmentation datasets show that CosMe outperforms previous approaches by large margins.
翻訳日:2021-12-06 01:02:40 公開日:2021-11-24
# 粗大なインクリメンタルFew-Shot学習

Coarse-To-Fine Incremental Few-Shot Learning ( http://arxiv.org/abs/2111.14806v1 )

ライセンス: Link先を確認
Xiang Xiang, Yuwen Tan, Qian Wan, Jing Ma(参考訳) 事前セットクラスの大規模データセットで事前学習される微調整モデルとは異なり、クラスインクリメンタル学習(cil)は、事前学習されたクラスを忘れずに、新しいクラスを時間とともに認識することを目的としている。 しかし、あるモデルは、細かなクラスを持つテスト画像によって挑戦される。例えば、バーメンジは、犬として認識されることが多い。 このような画像は新たなトレーニングセット(つまりサポートセット)を形成し、次回はインクリメンタルモデルがベースンジ(すなわちクエリ)をベースンジとして認識することを期待する。 本論文は,c2fscil という cil 問題としての粗小数点 (c2fs) 認識のハイブリッド自然問題を提案し,粗小ラベルと対比して埋め込み空間を学習し,分類器の重みを学習し,正規化し,凍結する,単純で効果的で理論的に健全な戦略知識を提案する。 さらに、CILは安定性と塑性のバランスを目指しており、新しい全体的なパフォーマンス指標が提案されている。 その意味では、CIFAR-100、BREEDS、およびタイレッドImageNetにおいて、Knoweは、新しい問題設定に合わせて調整された、最近のCIL/FSCILメソッド全てより優れている。

Different from fine-tuning models pre-trained on a large-scale dataset of preset classes, class-incremental learning (CIL) aims to recognize novel classes over time without forgetting pre-trained classes. However, a given model will be challenged by test images with finer-grained classes, e.g., a basenji is at most recognized as a dog. Such images form a new training set (i.e., support set) so that the incremental model is hoped to recognize a basenji (i.e., query) as a basenji next time. This paper formulates such a hybrid natural problem of coarse-to-fine few-shot (C2FS) recognition as a CIL problem named C2FSCIL, and proposes a simple, effective, and theoretically-sound strategy Knowe: to learn, normalize, and freeze a classifier's weights from fine labels, once learning an embedding space contrastively from coarse labels. Besides, as CIL aims at a stability-plasticity balance, new overall performance metrics are proposed. In that sense, on CIFAR-100, BREEDS, and tieredImageNet, Knowe outperforms all recent relevant CIL/FSCIL methods that are tailored to the new problem setting for the first time.
翻訳日:2021-12-06 00:44:31 公開日:2021-11-24
# (参考訳) 適応フーリエニューラルネットワーク:トランスフォーマーのための効率的なトークンミキサー [全文訳有]

Adaptive Fourier Neural Operators: Efficient Token Mixers for Transformers ( http://arxiv.org/abs/2111.13587v1 )

ライセンス: CC BY 4.0
John Guibas, Morteza Mardani, Zongyi Li, Andrew Tao, Anima Anandkumar, Bryan Catanzaro(参考訳) ビジョントランスフォーマーは表現学習で大きな成功を収めた。 これは主に自己注意による効果的なトークン混合によるものである。 しかし、これは高解像度入力では不可能となるピクセル数と2次的にスケールする。 この課題に対処するために、Fourierドメインの混合を学習する効率的なトークンミキサとして、Adaptive Fourier Neural Operator (AFNO)を提案する。 afnoは、入力解像度に依存することなく、トークン混合を連続的なグローバル畳み込みとしてフレーム化できる演算子学習の原則に基づく。 この原理は、以前はフーリエ領域におけるグローバルな畳み込みを効率的に解決するFNOの設計に用いられており、挑戦するPDEの学習において有望であることを示している。 画像の不連続性や高分解能入力などの視覚表現学習における課題に対処するため、メモリと計算効率をもたらすfnoのアーキテクチャ修正を提案する。 これには、チャネル混合重みにブロック対角構造を付与し、トークン間の重みを適応的に共有し、ソフトスレッショルドと収縮を介して周波数モードをスパースすることが含まれる。 結果として得られるモデルは、準線形複雑性と高い並列性を持ち、シーケンスサイズに線形メモリを持つ。 AFNOは、効率と精度の両面で、数発のセグメンテーションのための自己認識機構より優れている。 segformer-b3バックボーンによる都市景観のセグメンテーションでは、afnoは65kのシーケンスサイズを処理でき、他の効率的なセルフアテンションメカニズムよりも優れている。

Vision transformers have delivered tremendous success in representation learning. This is primarily due to effective token mixing through self attention. However, this scales quadratically with the number of pixels, which becomes infeasible for high-resolution inputs. To cope with this challenge, we propose Adaptive Fourier Neural Operator (AFNO) as an efficient token mixer that learns to mix in the Fourier domain. AFNO is based on a principled foundation of operator learning which allows us to frame token mixing as a continuous global convolution without any dependence on the input resolution. This principle was previously used to design FNO, which solves global convolution efficiently in the Fourier domain and has shown promise in learning challenging PDEs. To handle challenges in visual representation learning such as discontinuities in images and high resolution inputs, we propose principled architectural modifications to FNO which results in memory and computational efficiency. This includes imposing a block-diagonal structure on the channel mixing weights, adaptively sharing weights across tokens, and sparsifying the frequency modes via soft-thresholding and shrinkage. The resulting model is highly parallel with a quasi-linear complexity and has linear memory in the sequence size. AFNO outperforms self-attention mechanisms for few-shot segmentation in terms of both efficiency and accuracy. For Cityscapes segmentation with the Segformer-B3 backbone, AFNO can handle a sequence size of 65k and outperforms other efficient self-attention mechanisms.
翻訳日:2021-12-05 05:42:49 公開日:2021-11-24
# (参考訳) TMM-Fast:多層薄膜最適化のための転送行列計算パッケージ [全文訳有]

TMM-Fast: A Transfer Matrix Computation Package for Multilayer Thin-Film Optimization ( http://arxiv.org/abs/2111.13667v1 )

ライセンス: CC BY-SA 4.0
Alexander Luce, Ali Mahdavi, Florian Marquardt, Heribert Wankerl(参考訳) 多層薄膜構造から幅広い波長及び入射角度にわたって所望の光学応答を達成することは困難である。 高度な薄膜構造は、厚みの異なる複数の材料と多数の層から構成される。 複数の変数を持つ複雑な薄膜構造の設計と最適化は、まだ研究が進められている計算的に重い問題である。 新たな最適化手法で高速かつ簡便な実験を可能にするため,多層薄膜を透過する波長と入射角度の異なる光の反射と透過の並列計算を可能にするPythonパッケージTMM-Fastを提案する。 計算時間を短縮することにより、機械学習のためのデータセットの生成が実現可能となり、進化的最適化が効果的に使用できる。 さらに、サブパッケージのTMM-Torchでは、PyTorch Autograd機能を使用して、局所最適化のための分析勾配を直接計算することができる。 最後に、OpenAi Gym環境を提示し、ユーザは多層薄膜構成を見つける問題に対して強化学習エージェントを訓練することができる。

Achieving the desired optical response from a multilayer thin-film structure over a broad range of wavelengths and angles of incidence can be challenging. An advanced thin-film structure can consist of multiple materials with different thicknesses and numerous layers. Design and optimization of complex thin-film structures with multiple variables is a computationally heavy problem that is still under active research. To enable fast and easy experimentation with new optimization techniques, we propose the Python package TMM-Fast which enables parallelized computation of reflection and transmission of light at different angles of incidence and wavelengths through the multilayer thin-film. By decreasing computational time, generating datasets for machine learning becomes feasible and evolutionary optimization can be used effectively. Additionally, the sub-package TMM-Torch allows to directly compute analytical gradients for local optimization by using PyTorch Autograd functionality. Finally, an OpenAi Gym environment is presented which allows the user to train reinforcement learning agents on the problem of finding multilayer thin-film configurations.
翻訳日:2021-12-05 05:25:26 公開日:2021-11-24
# (参考訳) FCMpy: ファジィ認知マップの構築と解析のためのPythonモジュール [全文訳有]

FCMpy: A Python Module for Constructing and Analyzing Fuzzy Cognitive Maps ( http://arxiv.org/abs/2111.12749v1 )

ライセンス: CC BY 4.0
Samvel Mkhitaryan, Philippe J. Giabbanelli, Maciej K. Wozniak, Gonzalo Napoles, Nanne K. de Vries, Rik Crutzen(参考訳) FCMpyはPythonのオープンソースパッケージで、Fuzzy Cognitive Mapsを構築し解析する。 より具体的に言えば パッケージは 1)定性的データからファジィ因果重の導出 2)システムの挙動をシミュレートする。 3) FCM因果重行列を調整し、分類問題を解くために、機械学習アルゴリズム(例えば、非線形ヘビアン学習、アクティブヘビアン学習、遺伝的アルゴリズム、決定論的学習)を適用する。 4)仮説的介入をシミュレートしたシナリオ分析(つまり、何のシナリオかの分析)を実施する。

FCMpy is an open source package in Python for building and analyzing Fuzzy Cognitive Maps. More specifically, the package allows 1) deriving fuzzy causal weights from qualitative data, 2) simulating the system behavior, 3) applying machine learning algorithms (e.g., Nonlinear Hebbian Learning, Active Hebbian Learning, Genetic Algorithms and Deterministic Learning) to adjust the FCM causal weight matrix and to solve classification problems, and 4) implementing scenario analysis by simulating hypothetical interventions (i.e., analyzing what-if scenarios).
翻訳日:2021-12-05 05:15:47 公開日:2021-11-24
# (参考訳) ACNet:ゼロショット画像検索のためのアプローチと中心化ネットワーク [全文訳有]

ACNet: Approaching-and-Cent ralizing Network for Zero-Shot Sketch-Based Image Retrieval ( http://arxiv.org/abs/2111.12757v1 )

ライセンス: CC BY 4.0
Hao Ren, Ziqiang Zheng, Yang Wu, Hong Lu, Yang Yang, Sai-Kit Yeung(参考訳) スケッチと写真の間の大きなドメインギャップと高度に抽象的なスケッチ表現は、スケッチベースの画像検索(\underline{SBIR})に課題をもたらす。 ゼロショットスケッチに基づく画像検索(\underline{ZS-SBIR})はより汎用的で実用的であるが、見知らぬカテゴリと見つからないカテゴリの間に追加の知識ギャップがあるため、さらに大きな課題となる。 両者のギャップを緩和するために, スケッチから写真への合成と画像検索を共同で最適化する \textbf{a}pproaching-and-\text bf{c}entralizing \textbf{net}work (``\textbf{acnet}'') を提案する。 検索モジュールは、合成モジュールを誘導して、写真領域に徐々に近づく多彩な写真ライクな画像を大量に生成し、ドメイン非依存表現やカテゴリ非依存の共通知識を学習し、未知のカテゴリに一般化する。 これらの多種多様な画像は,高勾配の具体的カテゴリー別トレーニングサンプルの過剰フィッティング問題を効果的に軽減することができる。 また,その集中化効果が共同トレーニングを安定化させ,カテゴリを認識できない一般化能力を促進するため,ゼロショット設定において,プロキシベースのノルムソフトマックス損失の利用が有効であることを発見した。 我々の手法は単純だが有効であり、広く使われている2つのZS-SBIRデータセットの最先端性能を実現し、従来の手法をはるかに上回っている。

The huge domain gap between sketches and photos and the highly abstract sketch representations pose challenges for sketch-based image retrieval (\underline{SBIR}). The zero-shot sketch-based image retrieval (\underline{ZS-SBIR}) is more generic and practical but poses an even greater challenge because of the additional knowledge gap between the seen and unseen categories. To simultaneously mitigate both gaps, we propose an \textbf{A}pproaching-and-\text bf{C}entralizing \textbf{Net}work (termed ``\textbf{ACNet}'') to jointly optimize sketch-to-photo synthesis and the image retrieval. The retrieval module guides the synthesis module to generate large amounts of diverse photo-like images which gradually approach the photo domain, and thus better serve the retrieval module than ever to learn domain-agnostic representations and category-agnostic common knowledge for generalizing to unseen categories. These diverse images generated with retrieval guidance can effectively alleviate the overfitting problem troubling concrete category-specific training samples with high gradients. We also discover the use of proxy-based NormSoftmax loss is effective in the zero-shot setting because its centralizing effect can stabilize our joint training and promote the generalization ability to unseen categories. Our approach is simple yet effective, which achieves state-of-the-art performance on two widely used ZS-SBIR datasets and surpasses previous methods by a large margin.
翻訳日:2021-12-05 04:59:28 公開日:2021-11-24
# (参考訳) カレーの目的:アショカン・プラークリットのためのUDツリーバンク [全文訳有]

For the Purpose of Curry: A UD Treebank for Ashokan Prakrit ( http://arxiv.org/abs/2111.12783v1 )

ライセンス: CC BY-SA 4.0
Adam Farris, Aryaman Arora(参考訳) アショーカ・プラクリット(ashokan prakrit)は、アショーカ・モーリヤ皇帝の紀元前3世紀の岩と柱による古代インド・アーリア方言連続体である。 アノテーションでは,サンスクリットや他のインド・アーリア語に関する最近のUD研究に続いて,多言語共通依存(UD)形式を用いた。 アノテーションに問題をもたらす興味深い言語的特徴として、レギュナルな名前や他の名目的な化合物、"proto-ergative"な参加構造、およびサンディーによって証明された文法化について触れる。 最終的には,インド・アーリアンの異なるダイアクロニックステージのudカバレッジ向上と計算手法によるインド・アーリアンの言語変化の研究という,より大きな目標に向けて,すべてのアショカテキストの完全なアノテーションを計画する。

We present the first linguistically annotated treebank of Ashokan Prakrit, an early Middle Indo-Aryan dialect continuum attested through Emperor Ashoka Maurya's 3rd century BCE rock and pillar edicts. For annotation, we used the multilingual Universal Dependencies (UD) formalism, following recent UD work on Sanskrit and other Indo-Aryan languages. We touch on some interesting linguistic features that posed issues in annotation: regnal names and other nominal compounds, "proto-ergative" participial constructions, and possible grammaticalizations evidenced by sandhi (phonological assimilation across morpheme boundaries). Eventually, we plan for a complete annotation of all attested Ashokan texts, towards the larger goals of improving UD coverage of different diachronic stages of Indo-Aryan and studying language change in Indo-Aryan using computational methods.
翻訳日:2021-12-05 04:42:46 公開日:2021-11-24
# (参考訳) 言語処理課題に対する事前学習モデルに対する時間的効果 [全文訳有]

Temporal Effects on Pre-trained Models for Language Processing Tasks ( http://arxiv.org/abs/2111.12790v1 )

ライセンス: CC BY 4.0
Oshin Agarwal and Ani Nenkova(参考訳) 時が経つにつれて言語技術の性能を最適に保つことは、非常に実践的な関心事である。 ここでは, システム性能に対する時間の影響に関する先行研究を調査し, トピックと適切な実験設計を議論するために, より曖昧な用語を確立し, 観測された現象に関する確固たる結論を支持する。 そこで本研究では,大規模神経前訓練表現を用いたシステムを用いた実験のセットを提示し,時間的モデル劣化がそれほど大きな問題ではないことを示す。 しかし、"em temporal domain adaptation} は有益であり、システムの時間的より最近のデータに基づいて訓練された場合、所定の期間の性能が向上する。 実験の結果, 時間モデル劣化と時間領域適応の区別は, 事前訓練された表現に基づくシステムにとって有益であることが判明した。 最後に,新たなデータに対する人間のアノテーションを使わずに時間領域適応のための2つの手法の有効性について検討した。 特に、名前付きエンティティ認識では、自己ラベルは人間のアノテーションよりも時間適応性が高い。

Keeping the performance of language technologies optimal as time passes is of great practical interest. Here we survey prior work concerned with the effect of time on system performance, establishing more nuanced terminology for discussing the topic and proper experimental design to support solid conclusions about the observed phenomena. We present a set of experiments with systems powered by large neural pretrained representations for English to demonstrate that {\em temporal model deterioration} is not as big a concern, with some models in fact improving when tested on data drawn from a later time period. It is however the case that {\em temporal domain adaptation} is beneficial, with better performance for a given time period possible when the system is trained on temporally more recent data. Our experiments reveal that the distinctions between temporal model deterioration and temporal domain adaptation becomes salient for systems built upon pretrained representations. Finally we examine the efficacy of two approaches for temporal domain adaptation without human annotations on new data, with self-labeling proving to be superior to continual pre-training. Notably, for named entity recognition, self-labeling leads to better temporal adaptation than human annotation.
翻訳日:2021-12-05 04:29:08 公開日:2021-11-24
# (参考訳) 2次元アニメーション補間の知覚品質の向上 [全文訳有]

Improving the Perceptual Quality of 2D Animation Interpolation ( http://arxiv.org/abs/2111.12792v1 )

ライセンス: CC BY 4.0
Shuhong Chen, Matthias Zwicker(参考訳) 伝統的な2Dアニメーションは労働集約的であり、しばしばアニメーターは1秒間に12枚のイラストを描く必要がある。 フレームの自動補間は、この負担を軽減するかもしれないが、2Dアニメーションに固有の芸術効果は、フォトリアリスティック領域に比べて特に難しい。 低いフレームレートは大きな変位と閉塞をもたらし、個々の知覚要素(線や固体色領域)はテクスチャ指向の畳み込みネットワークに困難をもたらし、過大な非線形運動はトレーニングデータ収集を妨げる。 以前の研究はこれらの問題に対処しようとしたが、計算不能なメソッドを使用し、ピクセル完全性能に重点を置いていた。 対照的に、我々はこの芸術領域の知覚的品質を重視したスケーラブルなシステムを構築している。 まず,学習可能なパラメータの少ない知覚的メトリクスの収束性を改善するため,単純かつ効果的なオクルージョン・インペインティング手法を用いた軽量アーキテクチャを提案する。 次に, ユークリッド距離変換を利用した新たな補助モジュールを設計し, キーラインと領域構造の保存性を向上させる。 第3に、動きの非線形性を定量的にフィルタリングすることで、既存の手動合成データセットを2倍にし、モデル一般化を改善する。 最後に,PSNR と SSIM に強く好適な LPIPS と Chamfer 距離をユーザスタディにより確立し,システムによる2次元アニメーション領域の知覚品質の重視を検証した。

Traditional 2D animation is labor-intensive, often requiring animators to manually draw twelve illustrations per second of movement. While automatic frame interpolation may ease this burden, the artistic effects inherent to 2D animation make video synthesis particularly challenging compared to in the photorealistic domain. Lower framerates result in larger displacements and occlusions, discrete perceptual elements (e.g. lines and solid-color regions) pose difficulties for texture-oriented convolutional networks, and exaggerated nonlinear movements hinder training data collection. Previous work tried addressing these issues, but used unscalable methods and focused on pixel-perfect performance. In contrast, we build a scalable system more appropriately centered on perceptual quality for this artistic domain. Firstly, we propose a lightweight architecture with a simple yet effective occlusion-inpainting technique to improve convergence on perceptual metrics with fewer trainable parameters. Secondly, we design a novel auxiliary module that leverages the Euclidean distance transform to improve the preservation of key line and region structures. Thirdly, we automatically double the existing manually-collected dataset for this task by quantitatively filtering out movement nonlinearities, allowing us to improve model generalization. Finally, we establish LPIPS and chamfer distance as strongly preferable to PSNR and SSIM through a user study, validating our system's emphasis on perceptual quality in the 2D animation domain.
翻訳日:2021-12-05 04:12:37 公開日:2021-11-24
# (参考訳) 対象カテゴリー名を用いたカテゴリー外文書の識別 [全文訳有]

Out-of-Category Document Identification Using Target-Category Names as Weak Supervision ( http://arxiv.org/abs/2111.12796v1 )

ライセンス: CC BY 4.0
Dongha Lee, Dongmin Hyun, Jiawei Han, Hwanjo Yu(参考訳) コーパス内の文書の大部分とは異なる内容の外部文書を識別することは、大規模なテキストコレクションを管理する上で重要な役割を担っている。 しかし、不純物(または目標物)の分布に関する明示的な情報がないため、既存の教師なしの外れ値検出器は、コーパス内の外れ値の密度や多様性に応じて信頼できない結果をもたらす可能性がある。 この課題に対処すべく,カテゴリ名の弱化を指標として,カテゴリ名を用いて,イリアー(あるいはターゲット)カテゴリに対する意味的関連性に基づいて文書を識別することを目的とした,カテゴリ外検出と呼ばれる新しいタスクを導入する。 実際には、ターゲットカテゴリ名のみを最小限のガイダンスとして必要としながら、ユーザの関心に応じて対象カテゴリの範囲を柔軟に指定できるという点で、このタスクは広く適用できる。 本稿では,各文書がカテゴリ固有の関連度スコアに基づいて,各文書がどのカテゴリに属するかを効果的に測定する,カテゴリ外検出フレームワークを提案する。 当社のフレームワークは2段階のアプローチを採用しています。 (i)テキスト埋め込み空間に符号化された単語文書類似性を利用して、まず、ラベルなし文書の擬似分類ラベルを生成し、次に、 (ii)疑似ラベルを用いて神経分類器を訓練し、目標カテゴリー予測からの信頼度を算出する。 実世界のデータセットを用いた実験により,本フレームワークは,対象とするカテゴリの異なるシナリオにおいて,すべてのベースライン手法の中で最高の検出性能を達成できることを示した。

Identifying outlier documents, whose content is different from the majority of the documents in a corpus, has played an important role to manage a large text collection. However, due to the absence of explicit information about the inlier (or target) distribution, existing unsupervised outlier detectors are likely to make unreliable results depending on the density or diversity of the outliers in the corpus. To address this challenge, we introduce a new task referred to as out-of-category detection, which aims to distinguish the documents according to their semantic relevance to the inlier (or target) categories by using the category names as weak supervision. In practice, this task can be widely applicable in that it can flexibly designate the scope of target categories according to users' interests while requiring only the target-category names as minimum guidance. In this paper, we present an out-of-category detection framework, which effectively measures how confidently each document belongs to one of the target categories based on its category-specific relevance score. Our framework adopts a two-step approach; (i) it first generates the pseudo-category label of all unlabeled documents by exploiting the word-document similarity encoded in a text embedding space, then (ii) it trains a neural classifier by using the pseudo-labels in order to compute the confidence from its target-category prediction. The experiments on real-world datasets demonstrate that our framework achieves the best detection performance among all baseline methods in various scenarios specifying different target categories.
翻訳日:2021-12-05 03:51:24 公開日:2021-11-24
# (参考訳) 慣性凝縮核融合における科学生成モデルの幾何学的優先順位 [全文訳有]

Geometric Priors for Scientific Generative Models in Inertial Confinement Fusion ( http://arxiv.org/abs/2111.12798v1 )

ライセンス: CC BY 4.0
Ankita Shukla, Rushil Anirudh, Eugene Kur, Jayaraman J. Thiagarajan, Peer-Timo Bremer, Brian K. Spears, Tammy Ma, Pavan Turaga(参考訳) 本稿では,慣性閉じ込め融合の応用において,マルチモーダルデータに先行する超球面を持つwasserstein autoencoder (wae) を開発した。 フォン・ミス・フィッシャーのような分布から計算効率の悪いサンプリングを必要とする典型的な超球面生成モデルとは異なり、通常の分布から、生成器の前に投影層が続く。 最後に, 得られたサンプルの妥当性を判定するために, データセットのモダリティ間の既知の関係を科学的制約として利用し, 提案モデルの異なる特性について検討する。

In this paper, we develop a Wasserstein autoencoder (WAE) with a hyperspherical prior for multimodal data in the application of inertial confinement fusion. Unlike a typical hyperspherical generative model that requires computationally inefficient sampling from distributions like the von Mis Fisher, we sample from a normal distribution followed by a projection layer before the generator. Finally, to determine the validity of the generated samples, we exploit a known relationship between the modalities in the dataset as a scientific constraint, and study different properties of the proposed model.
翻訳日:2021-12-05 03:29:11 公開日:2021-11-24
# (参考訳) SchemaDB:リレーショナルデータセットの構造 [全文訳有]

SchemaDB: Structures in Relational Datasets ( http://arxiv.org/abs/2111.12835v1 )

ライセンス: CC BY 4.0
Cody James Christopher, Kristen Moore, David Liebowitz(参考訳) 本稿では、sqlおよびグラフ形式の関係データベーススキーマの集合であるSchemaDBデータセットを紹介する。 データベースは、プライバシとセキュリティのために一般に公開されていないため、スキーマは研究には利用できない。 その結果、データベース構造に関する理解が不足しており、ほとんどの例は公に共通開発フレームワークに属しているか、教科書やエンジンベンチマーク設計から派生している。 SchemaDBには公開リポジトリにある2500のリレーショナルスキーマのサンプルが含まれています。 我々は,収集・変換手法,要約統計,構造分析を行い,いくつかの分野における下流研究課題について考察する。

In this paper we introduce the SchemaDB data-set; a collection of relational database schemata in both sql and graph formats. Databases are not commonly shared publicly for reasons of privacy and security, so schemata are not available for study. Consequently, an understanding of database structures in the wild is lacking, and most examples found publicly belong to common development frameworks or are derived from textbooks or engine benchmark designs. SchemaDB contains 2,500 samples of relational schemata found in public repositories which we have standardised to MySQL syntax. We provide our gathering and transformation methodology, summary statistics, and structural analysis, and discuss potential downstream research tasks in several domains.
翻訳日:2021-12-05 03:23:14 公開日:2021-11-24
# (参考訳) 機械学習型粒子フロー再構成の解説 [全文訳有]

Explaining machine-learned particle-flow reconstruction ( http://arxiv.org/abs/2111.12840v1 )

ライセンス: CC BY 4.0
Farouk Mokhtar, Raghav Kansal, Daniel Diaz, Javier Duarte, Joosep Pata, Maurizio Pierini, Jean-Roch Vlimant(参考訳) 粒子流(PF)アルゴリズムは汎用粒子検出器において、様々なサブ検出器の情報を組み合わせて衝突の包括的粒子レベルビューを再構築するために用いられる。 機械学習粒子フロー(MLPF)アルゴリズムとして知られるグラフニューラルネットワーク(GNN)モデルが,規則に基づくPFアルゴリズムの代替として開発された。 しかし、特にセットツーセットの予測タスク、動的グラフ構築、メッセージパッシングステップの複雑さを考えると、モデルの意思決定を理解するのは簡単ではない。 本稿では,GNNのレイヤワイド関連伝搬手法を適用し,それをMLPFアルゴリズムに適用し,関連するノードと特徴を推定する。 このプロセスを通じて、モデルの意思決定に関する洞察を得る。

The particle-flow (PF) algorithm is used in general-purpose particle detectors to reconstruct a comprehensive particle-level view of the collision by combining information from different subdetectors. A graph neural network (GNN) model, known as the machine-learned particle-flow (MLPF) algorithm, has been developed to substitute the rule-based PF algorithm. However, understanding the model's decision making is not straightforward, especially given the complexity of the set-to-set prediction task, dynamic graph building, and message-passing steps. In this paper, we adapt the layerwise-relevance propagation technique for GNNs and apply it to the MLPF algorithm to gauge the relevant nodes and features for its predictions. Through this process, we gain insight into the model's decision-making.
翻訳日:2021-12-05 03:17:21 公開日:2021-11-24
# (参考訳) 粒子グラフオートエンコーダと微分可能な学習エネルギー移動器の距離 [全文訳有]

Particle Graph Autoencoders and Differentiable, Learned Energy Mover's Distance ( http://arxiv.org/abs/2111.12849v1 )

ライセンス: CC BY 4.0
Steven Tsan, Raghav Kansal, Anthony Aportela, Daniel Diaz, Javier Duarte, Sukanya Krishna, Farouk Mokhtar, Jean-Roch Vlimant, Maurizio Pierini(参考訳) オートエンコーダは、特にジェットの異常検出(CERN大型ハドロン衝突型加速器のような衝突で発生する粒子の衝突シャワー)において、高エネルギー物理学において有用である。 粒子雲」表現でジェットを動作させるグラフベースのオートエンコーダの利用について検討し, ジェット内の粒子間の相互依存性を活用することができる。 さらに、グラフニューラルネットワークを用いてエネルギー移動子の距離を微分可能な近似法を開発し、オートエンコーダの再構成損失関数として利用することができる。

Autoencoders have useful applications in high energy physics in anomaly detection, particularly for jets - collimated showers of particles produced in collisions such as those at the CERN Large Hadron Collider. We explore the use of graph-based autoencoders, which operate on jets in their "particle cloud" representations and can leverage the interdependencies among the particles within a jet, for such tasks. Additionally, we develop a differentiable approximation to the energy mover's distance via a graph neural network, which may subsequently be used as a reconstruction loss function for autoencoders.
翻訳日:2021-12-05 03:07:01 公開日:2021-11-24
# フレキシビリティの共同調達のためのTSO-DSOの安定コスト配分:協調ゲームアプローチ

TSO-DSOs Stable Cost Allocation for the Joint Procurement of Flexibility: A Cooperative Game Approach ( http://arxiv.org/abs/2111.12830v1 )

ライセンス: Link先を確認
Anibal Sanjab, H\'el\`ene Le Cadre, Yuting Mou(参考訳) 本稿では,システムオペレータ (sos) が共通市場を用いたニーズ(バランスと混雑管理)を満たすために,異なるシステムからの柔軟性を共同で獲得するトランスミッション・ディストリビューション・システム・フレキシビリティ市場について紹介する。 この共通市場は、参加するSO間で共同調達された柔軟性のコストの安定かつ効率的な分割を特定し、協力を動機付けることを目的とした協調ゲームとして定式化される。 このゲームのコアの非空性は数学的に証明され、ゲームが安定であり、SO間の協力に対する自然な動機付けが示唆される。 その後、いくつかのコスト割り当て機構が導入され、その数学的性質が特徴付けられる。 相互接続システム(ieee 14-bus transmission system と matpower 18-bus, 69-bus, 141-bus distributions system からなる)に着目した数値は, 協調によるシステム全体のフレキシビリティ調達コストの削減を示し, 様々なコスト割当手法において異なる sos の負担するコストを識別する。

In this paper, a transmission-distrib ution systems flexibility market is introduced, in which system operators (SOs) jointly procure flexibility from different systems to meet their needs (balancing and congestion management) using a common market. This common market is, then, formulated as a cooperative game aiming at identifying a stable and efficient split of costs of the jointly procured flexibility among the participating SOs to incentivize their cooperation. The non-emptiness of the core of this game is then mathematically proven, implying the stability of the game and the naturally-arising incentive for cooperation among the SOs. Several cost allocation mechanisms are then introduced, while characterizing their mathematical properties. Numerical results focusing on an interconnected system (composed of the IEEE 14-bus transmission system and the Matpower 18-bus, 69-bus, and 141-bus distributions systems) showcase the cooperation-induced reduction in system-wide flexibility procurement costs, and identifies the varying costs borne by different SOs under various cost allocations methods.
翻訳日:2021-11-29 18:18:57 公開日:2021-11-24
# 再構成型cnn加速器のアルゴリズムとハードウェア共同設計

Algorithm and Hardware Co-design for Reconfigurable CNN Accelerator ( http://arxiv.org/abs/2111.12787v1 )

ライセンス: Link先を確認
Hongxiang Fan, Martin Ferianc, Zhiqiang Que, He Li, Shuanglong Liu, Xinyu Niu, Wayne Luk(参考訳) ディープニューラルネットワーク(DNN)のためのアルゴリズムハードウェアの共同設計の最近の進歩は、ニューラルネットワークやハードウェア設計を自動設計する可能性を示している。 それでも、高価なトレーニングコストと時間のかかるハードウェア実装のため、依然として最適化の問題であり、ニューラルネットワークとハードウェア設計の広大な設計領域を探求することは難題である。 本稿では,提案手法がパレートフロンティア上に設計を配置できることを示す。 この機能は、以下の新機能を備えた、新しい三相共設計フレームワークによって実現されている。 (a)ハードウェアアーキテクチャとニューラルアーキテクチャの設計空間探索からDNNトレーニングを分離すること。 b)検索セル構築におけるハードウェア特性を考慮したハードウェアフレンドリーなニューラルネットワーク空間の提供。 (c) ガウス過程を用いて精度, レイテンシ, 消費電力を予測し, 時間を要する合成や場所と経路のプロセスを避ける。 手作業で設計されたResNet101、InceptionV2、MobileNetV2と比較して、ImageNetデータセットで最大3倍のスピードで、最大5%高い精度で達成できます。 他の最先端のコデザインフレームワークと比較すると、ネットワークとハードウェアの構成は2%~6%の精度、2倍~26倍のレイテンシと8.5倍のエネルギー効率を実現できます。

Recent advances in algorithm-hardware co-design for deep neural networks (DNNs) have demonstrated their potential in automatically designing neural architectures and hardware designs. Nevertheless, it is still a challenging optimization problem due to the expensive training cost and the time-consuming hardware implementation, which makes the exploration on the vast design space of neural architecture and hardware design intractable. In this paper, we demonstrate that our proposed approach is capable of locating designs on the Pareto frontier. This capability is enabled by a novel three-phase co-design framework, with the following new features: (a) decoupling DNN training from the design space exploration of hardware architecture and neural architecture, (b) providing a hardware-friendly neural architecture space by considering hardware characteristics in constructing the search cells, (c) adopting Gaussian process to predict accuracy, latency and power consumption to avoid time-consuming synthesis and place-and-route processes. In comparison with the manually-designed ResNet101, InceptionV2 and MobileNetV2, we can achieve up to 5% higher accuracy with up to 3x speed up on the ImageNet dataset. Compared with other state-of-the-art co-design frameworks, our found network and hardware configuration can achieve 2% ~ 6% higher accuracy, 2x ~ 26x smaller latency and 8.5x higher energy efficiency.
翻訳日:2021-11-29 18:18:34 公開日:2021-11-24
# 位相エンコーダニューラルネットワーク(corenet)を用いたリアルタイム光フィールド生成用レンズレスマルチコアファイバーマイクロ内視鏡

Lensless multicore-fiber microendoscope for real-time tailored light field generation with phase encoder neural network (CoreNet) ( http://arxiv.org/abs/2111.12758v1 )

ライセンス: Link先を確認
Jiawei Sun, Jiachen Wu, Nektarios Koukourakis, Robert Kuschmierz, Liangcai Cao and Juergen Czarske(参考訳) バイオメディシンでは、マルチコアファイバ(MCF)レンズレスマイクロエンドスコープによる調整光の生成が広く用いられている。 しかし、このような用途に使用されるコンピュータ生成ホログラム(cghs)は通常、高い計算労力を必要とする反復アルゴリズムによって生成され、生体内光刺激や光ファイバー細胞操作のような高度な応用を制限する。 繊維コアのランダムかつ離散分布は、CGHに対して強い空間エイリアスを誘導するので、MCFの調整されたCGHを迅速に生成できるアプローチが要求される。 そこで本研究では,mcfsの高精度調整cghをニアビデオレートで生成可能な,新しい位相エンコーダディープニューラルネットワーク(corenet)を提案する。 シミュレーションにより、CoreNetは従来のCGH技術と比較して計算時間を2等級スピードアップし、生成光場の忠実度を向上できることが示された。 実時間で生成されたCGHは、実験でMCFマイクロエンドスコープを介して動的光場を生成するための位相のみのSLMにオンザフライでロードされる。 これにより、リアルタイムな細胞回転と、バイオメディシンにおけるリアルタイムな高忠実度光伝送を必要とするいくつかの応用への道が開ける。

The generation of tailored light with multi-core fiber (MCF) lensless microendoscopes is widely used in biomedicine. However, the computer-generated holograms (CGHs) used for such applications are typically generated by iterative algorithms, which demand high computation effort, limiting advanced applications like in vivo optogenetic stimulation and fiber-optic cell manipulation. The random and discrete distribution of the fiber cores induces strong spatial aliasing to the CGHs, hence, an approach that can rapidly generate tailored CGHs for MCFs is highly demanded. We demonstrate a novel phase encoder deep neural network (CoreNet), which can generate accurate tailored CGHs for MCFs at a near video-rate. Simulations show that CoreNet can speed up the computation time by two magnitudes and increase the fidelity of the generated light field compared to the conventional CGH techniques. For the first time, real-time generated tailored CGHs are on-the-fly loaded to the phase-only SLM for dynamic light fields generation through the MCF microendoscope in experiments. This paves the avenue for real-time cell rotation and several further applications that require real-time high-fidelity light delivery in biomedicine.
翻訳日:2021-11-29 17:49:40 公開日:2021-11-24
# ルールベース/BPSOによる低次元意味基底集合の生成

A Rule-based/BPSO Approach to Produce Low-dimensional Semantic Basis Vectors Set ( http://arxiv.org/abs/2111.12802v1 )

ライセンス: Link先を確認
Atefe Pakzad, Morteza Analoui(参考訳) 我々は低次元の明示的な分布意味ベクトルを生成する。 明示的な意味ベクトルでは、各次元は単語に対応するので、単語ベクトルは解釈可能である。 本研究では,低次元の明示的意味ベクトルを得るための新しい手法を提案する。 まず,提案手法では,コーパス中の単語の特徴として,単語の類似度,ゼロ数,単語頻度の3つの基準を考察する。 そして,この3つの特徴に基づいて抽出された決定木を用いて,最初の基本語を得るためのルールを抽出する。 第二に,N_B = 1000文脈語を抽出するバイナリ粒子群最適化アルゴリズムに基づく二分重み付け手法を提案する。 また、N_S = 1000の文脈語を提供する単語選択法を用いる。 第3に、二分重み付け法に基づいて、コーパスの黄金語を抽出する。 そして,抽出した黄金の単語を,単語選択法で選択した文脈語に黄金の文脈語として付加する。 我々は ukWaC コーパスを用いて単語ベクトルを構築する。 単語ベクトルの評価には men, rg-65, simlex-999 テストセットを用いた。 その結果,コーパス内で最も頻繁な単語を文脈語として使用するベースラインと比較した。 ベースラインメソッドは固定ウィンドウを使用して共起数をカウントする。 選択された1000のコンテキストワードとゴールデンコンテキストワードとを用いて単語ベクトルを得る。 ベースライン法と比較して,MEN,RG-65,SimLex-99 9テストセットのスピアマン相関係数は,それぞれ4.66%,14.73%,1.08%増加した。

We intend to generate low-dimensional explicit distributional semantic vectors. In explicit semantic vectors, each dimension corresponds to a word, so word vectors are interpretable. In this research, we propose a new approach to obtain low-dimensional explicit semantic vectors. First, the proposed approach considers the three criteria Word Similarity, Number of Zero, and Word Frequency as features for the words in a corpus. Then, we extract some rules for obtaining the initial basis words using a decision tree that is drawn based on the three features. Second, we propose a binary weighting method based on the Binary Particle Swarm Optimization algorithm that obtains N_B = 1000 context words. We also use a word selection method that provides N_S = 1000 context words. Third, we extract the golden words of the corpus based on the binary weighting method. Then, we add the extracted golden words to the context words that are selected by the word selection method as the golden context words. We use the ukWaC corpus for constructing the word vectors. We use MEN, RG-65, and SimLex-999 test sets to evaluate the word vectors. We report the results compared to a baseline that uses 5k most frequent words in the corpus as context words. The baseline method uses a fixed window to count the co-occurrences. We obtain the word vectors using the 1000 selected context words together with the golden context words. Our approach compared to the Baseline method increases the Spearman correlation coefficient for the MEN, RG-65, and SimLex-999 test sets by 4.66%, 14.73%, and 1.08%, respectively.
翻訳日:2021-11-29 17:22:44 公開日:2021-11-24
# ReAct:rectified Activationによるアウト・オブ・ディストリビューション検出

ReAct: Out-of-distribution Detection With Rectified Activations ( http://arxiv.org/abs/2111.12797v1 )

ライセンス: Link先を確認
Yiyou Sun and Chuan Guo and Yixuan Li(参考訳) 分散(ood)検出が注目されているのは,ニューラルネットワークの安全な展開を促進する上での実用的重要性からである。 主な課題の1つは、モデルがOODデータに対して高い信頼性の予測を生成することであり、これはOOD検出における駆動原理を損なうものである。 本研究では,OODデータに対するモデル過信を低減するための簡易かつ効果的な手法であるReActを提案する。 本手法は,OOD分布の顕著なシグネチャパターンを示すニューラルネットワークの内部アクティベーションの新たな解析によって動機付けられた。 提案手法は,異なるネットワークアーキテクチャと異なるOOD検出スコアに効果的に一般化することができる。 我々は、ReActがベンチマークデータセットの総合的なスイート上で競合検出性能を達成することを実証し、提案手法の有効性を理論的に説明する。 ImageNetベンチマークでは、ReActは以前のベストメソッドと比較して偽陽性率(FPR95)を25.05%削減している。

Out-of-distribution (OOD) detection has received much attention lately due to its practical importance in enhancing the safe deployment of neural networks. One of the primary challenges is that models often produce highly confident predictions on OOD data, which undermines the driving principle in OOD detection that the model should only be confident about in-distribution samples. In this work, we propose ReAct--a simple and effective technique for reducing model overconfidence on OOD data. Our method is motivated by novel analysis on internal activations of neural networks, which displays highly distinctive signature patterns for OOD distributions. Our method can generalize effectively to different network architectures and different OOD detection scores. We empirically demonstrate that ReAct achieves competitive detection performance on a comprehensive suite of benchmark datasets, and give theoretical explication for our method's efficacy. On the ImageNet benchmark, ReAct reduces the false positive rate (FPR95) by 25.05% compared to the previous best method.
翻訳日:2021-11-29 17:22:21 公開日:2021-11-24
# クロスボディ:子どものための認知アセスメントシステム

Cross Your Body: A Cognitive Assessment System for Children ( http://arxiv.org/abs/2111.12824v1 )

ライセンス: Link先を確認
Saif Sayed and Vassilis Athitsos(参考訳) 多くのアクション認識技術は、公開ベンチマークで大きな成功を収めているが、そのようなパフォーマンスは、データが特定のアプリケーション要件から来る現実世界のシナリオで必ずしも複製されない。 本論文で取り上げている具体的な実世界の応用は,認知的身体的タスクを用いた子どもの認知評価である。 我々は、Cross-Your-Bodyと呼ばれるシステムと記録データを作成し、これは、そのタスクが心理学者によってデザインされたという事実、被験者が子供であるという事実、そしてビデオが現実世界の使い方を捉えているという事実など、いくつかの点でユニークである。 その他の特徴として,青年期におけるADHDの発症を識別する重要な要因である経営機能を測定するために,スコアを直接翻訳できる点が挙げられる。 子どもの行動が不正確であり, 微粒な動きパターンが存在するため, 記録データに対する関連手法を体系的に検討し, 評価した。 本システムは,子どもの認知評価研究の進展に役立てることが目的である。

While many action recognition techniques have great success on public benchmarks, such performance is not necessarily replicated in real-world scenarios, where the data comes from specific application requirements. The specific real-world application that we are focusing on in this paper is cognitive assessment in children using cognitively demanding physical tasks. We created a system called Cross-Your-Body and recorded data, which is unique in several aspects, including the fact that the tasks have been designed by psychologists, the subjects are children, and the videos capture real-world usage, as they record children performing tasks during real-world assessment by psychologists. Other distinguishing features of our system is that it's scores can directly be translated to measure executive functioning which is one of the key factor to distinguish onset of ADHD in adolescent kids. Due to imprecise execution of actions performed by children, and the presence of fine-grained motion patterns, we systematically investigate and evaluate relevant methods on the recorded data. It is our goal that this system will be useful in advancing research in cognitive assessment of kids.
翻訳日:2021-11-29 16:51:31 公開日:2021-11-24
# Picasso: モデルなしの機能可視化

Picasso: Model-free Feature Visualization ( http://arxiv.org/abs/2111.12795v1 )

ライセンス: Link先を確認
Binh Vu, Igor Markov(参考訳) 現在、機械学習(ML)アプリケーションは数万のフィーチャにアクセスすることができる。 このような機能セットでは、最も関連する機能のサブセットを効率的にブラウジングし、キュレーションすることが課題です。 本稿では,1枚の画像に最大数千もの特徴を可視化する新しい手法を提案する。 画像は、個々の特徴に関する情報だけでなく、特徴の相対的な位置決めを通じて特徴の相互作用を表現する。

Today, Machine Learning (ML) applications can have access to tens of thousands of features. With such feature sets, efficiently browsing and curating subsets of most relevant features is a challenge. In this paper, we present a novel approach to visualize up to several thousands of features in a single image. The image not only shows information on individual features, but also expresses feature interactions via the relative positioning of features.
翻訳日:2021-11-29 16:15:37 公開日:2021-11-24
# 情報ボトルネックに基づくヘビー学習規則は作業記憶とシナプス更新を自然に関連づける

Information Bottleneck-Based Hebbian Learning Rule Naturally Ties Working Memory and Synaptic Updates ( http://arxiv.org/abs/2111.13187v1 )

ライセンス: Link先を確認
Kyle Daruwalla and Mikko Lipasti(参考訳) ニューラルネットワークは、バックプロパゲーションを通じて非常に深いネットワークをトレーニングすることで、さまざまな問題にうまく取り組みました。 スパイクニューラルネットワークへのバックプロパゲーションの直接的な応用には、重み付け輸送問題や別々の推論と学習フェーズといった生物学的に証明できない要素が含まれる。 様々な方法が個別に異なるコンポーネントを扱うが、完全なソリューションは無形のままである。 ここでは、バックプロパゲーションとその関連する問題を完全に回避する別のアプローチをとる。 近年のディープラーニングの研究は、情報ボトルネック(IB)を介してネットワークの各レイヤを独立的にトレーニングすることを提案した。 その後の研究は、このレイヤーワイドアプローチが層間のエラー伝播を回避し、生物学的に妥当なパラダイムをもたらすことを指摘した。 残念ながら、IBはサンプルのバッチを使用して計算される。 以前の作業では、2つのサンプル(現在のサンプルと以前のサンプル)のみを使用する重み更新でこの問題に対処している。 我々の研究は、重み更新をローカルおよびグローバルなコンポーネントに分解することで、異なるアプローチを取ります。 ローカルコンポーネントはHebbianで、現在のサンプルのみに依存します。 グローバルコンポーネントは、サンプルのバッチに依存する層毎の変調信号を計算します。 この変調信号は、作業メモリ(wm)を有する補助回路によって、リザーバのように学習できることを示す。 したがって、2つ以上のバッチサイズを使うことができるので、バッチサイズはWMに必要なキャパシティを決定する。 私たちの知る限りでは、私たちのルールは、シナプス更新とタスクのwmを直接結合する、生物学的に可能な最初のメカニズムです。 我々は,合成データセットとmnistのような画像分類データセットに関するルールを評価し,wm能力が学習性能に及ぼす影響について検討した。 私たちの仕事は、学習における記憶の機械的役割を理解するための第一歩になることを願っています。

Artificial neural networks have successfully tackled a large variety of problems by training extremely deep networks via back-propagation. A direct application of back-propagation to spiking neural networks contains biologically implausible components, like the weight transport problem or separate inference and learning phases. Various methods address different components individually, but a complete solution remains intangible. Here, we take an alternate approach that avoids back-propagation and its associated issues entirely. Recent work in deep learning proposed independently training each layer of a network via the information bottleneck (IB). Subsequent studies noted that this layer-wise approach circumvents error propagation across layers, leading to a biologically plausible paradigm. Unfortunately, the IB is computed using a batch of samples. The prior work addresses this with a weight update that only uses two samples (the current and previous sample). Our work takes a different approach by decomposing the weight update into a local and global component. The local component is Hebbian and only depends on the current sample. The global component computes a layer-wise modulatory signal that depends on a batch of samples. We show that this modulatory signal can be learned by an auxiliary circuit with working memory (WM) like a reservoir. Thus, we can use batch sizes greater than two, and the batch size determines the required capacity of the WM. To the best of our knowledge, our rule is the first biologically plausible mechanism to directly couple synaptic updates with a WM of the task. We evaluate our rule on synthetic datasets and image classification datasets like MNIST, and we explore the effect of the WM capacity on learning performance. We hope our work is a first-step towards understanding the mechanistic role of memory in learning.
翻訳日:2021-11-29 16:14:46 公開日:2021-11-24
# 成長条件下における個人別非パラメトリック回帰

Differentially Private Nonparametric Regression Under a Growth Condition ( http://arxiv.org/abs/2111.12786v1 )

ライセンス: Link先を確認
Noah Golowich(参考訳) 実数値付き仮説クラス $\mathcal{h}$ が与えられると、与えられた i.i.d.データから$\mathcal{h}$ から最適な仮説を学ぶ微分プライベートアルゴリズムが存在するかを調べる。 関連するバイナリ分類の設定に関する最近の結果(alon et al., 2019; bun et al., 2020)に触発されて、バイナリクラスのオンライン学習能力はプライベート学習能力に必要で十分であることを示したjung et al. (2020)は、回帰設定においてプライベート学習能力には$\mathcal{h}$のオンライン学習能力が必要であることを示した。 ここで、$\mathcal{H}$のオンライン学習性は、すべての$\eta > 0$に対して$\eta$-sequential fat shattering dimension, ${\rm sfat}_\eta(\mathcal{H})$の有限性によって特徴づけられる。 Jung et al. (2020) は、プライベート可学習性に関する十分な条件について、$\lim_{\eta \downarrow 0} {\rm sfat}_\eta(\mathcal{H})$ が有限であれば、$\mathcal{H}$ がプライベート可学習可能であることを示した。 緩和された条件下では、$\lim \inf_{\eta \downarrow 0} \eta \cdot {\rm sfat}_\eta(\mathcal{H}) = 0$, $\mathcal{H}$はプライベートに学習可能であり、${\rm sfat}_\eta(\mathcal{H})$を$\eta \downarrow 0$として発散させることで、クラスに対する最初の非パラメトリックプライベートな学習性を保証する。 非パラメトリック関数クラスに対して安定な仮説を出力するための新しいフィルタリング手法を含む。

Given a real-valued hypothesis class $\mathcal{H}$, we investigate under what conditions there is a differentially private algorithm which learns an optimal hypothesis from $\mathcal{H}$ given i.i.d. data. Inspired by recent results for the related setting of binary classification (Alon et al., 2019; Bun et al., 2020), where it was shown that online learnability of a binary class is necessary and sufficient for its private learnability, Jung et al. (2020) showed that in the setting of regression, online learnability of $\mathcal{H}$ is necessary for private learnability. Here online learnability of $\mathcal{H}$ is characterized by the finiteness of its $\eta$-sequential fat shattering dimension, ${\rm sfat}_\eta(\mathcal{H})$, for all $\eta > 0$. In terms of sufficient conditions for private learnability, Jung et al. (2020) showed that $\mathcal{H}$ is privately learnable if $\lim_{\eta \downarrow 0} {\rm sfat}_\eta(\mathcal{H})$ is finite, which is a fairly restrictive condition. We show that under the relaxed condition $\lim \inf_{\eta \downarrow 0} \eta \cdot {\rm sfat}_\eta(\mathcal{H}) = 0$, $\mathcal{H}$ is privately learnable, establishing the first nonparametric private learnability guarantee for classes $\mathcal{H}$ with ${\rm sfat}_\eta(\mathcal{H})$ diverging as $\eta \downarrow 0$. Our techniques involve a novel filtering procedure to output stable hypotheses for nonparametric function classes.
翻訳日:2021-11-29 16:13:57 公開日:2021-11-24
# JoinABLe:パラメトリックCAD関節のボトムアップアセンブリ学習

JoinABLe: Learning Bottom-up Assembly of Parametric CAD Joints ( http://arxiv.org/abs/2111.12772v1 )

ライセンス: Link先を確認
Karl D.D. Willis, Pradeep Kumar Jayaraman, Hang Chu, Yunsheng Tian, Yifei Li, Daniele Grandi, Aditya Sanghi, Linh Tran, Joseph G. Lambourne, Armando Solar-Lezama, Wojciech Matusik(参考訳) 物理製品は、コンピュータ支援設計(cad)ソフトウェアでモデル化された多数の3d部品を組み合わせた複雑なアセンブリであることが多い。 CADデザイナは、ジョイントと呼ばれる制約を使って、個々のパーツを互いにアライメントすることで、これらのアセンブリを構築する。 本稿では,ジョイントを形成するために部品を組み立てる学習ベース手法JoinABLeを紹介する。 JoinABLeは、オブジェクトクラスラベルや人的ガイダンスの助けなしに、標準的なパラメトリックCADファイルで利用可能な弱い監視を使用する。 その結果, ソリッドモデルのグラフ表現上でネットワーク予測を行うことで, 人間の性能(80%)に近づく精度79.53%の精度で, 複数のベースライン法を上回り得ることがわかった。 最後に、今後の研究をサポートするために、Fusion 360 Galleryアセンブリデータセットをリリースし、関節、接触面、穴、基礎となるアセンブリグラフ構造に関する豊富な情報を含むアセンブリを含む。

Physical products are often complex assemblies combining a multitude of 3D parts modeled in computer-aided design (CAD) software. CAD designers build up these assemblies by aligning individual parts to one another using constraints called joints. In this paper we introduce JoinABLe, a learning-based method that assembles parts together to form joints. JoinABLe uses the weak supervision available in standard parametric CAD files without the help of object class labels or human guidance. Our results show that by making network predictions over a graph representation of solid models we can outperform multiple baseline methods with an accuracy (79.53%) that approaches human performance (80%). Finally, to support future research we release the Fusion 360 Gallery assembly dataset, containing assemblies with rich information on joints, contact surfaces, holes, and the underlying assembly graph structure.
翻訳日:2021-11-29 16:11:25 公開日:2021-11-24
# 野生における物体追跡と形状復元のためのオンライン適応

Online Adaptation for Implicit Object Tracking and Shape Reconstruction in the Wild ( http://arxiv.org/abs/2111.12728v1 )

ライセンス: Link先を確認
Jianglong Ye, Yuntao Chen, Naiyan Wang, Xiaolong Wang(参考訳) 散らかったシーンから3Dオブジェクトを追跡して再構築することは、コンピュータビジョン、ロボティクス、自動運転システムにとって重要な要素だ。 近年の暗黙的機能(例えばdeepsdf)の進歩は高品質な3d形状再構成を奨励する結果を示しているが、乱雑で部分的に観測可能なlidarデータへの一般化は依然として非常に困難である。 本稿では,映像データの連続性を活用することを提案する。 本稿では,DeepSDFモデルを用いて野生の3Dオブジェクトの同時追跡と再構成を行う新しい統一フレームワークを提案する。 ビデオにdeepsdfモデルを適応させ、トラッキングを改善しながら形状再構成を反復的に改善し、その逆も行う。 我々はWaymoとKITTIの両方のデータセットを実験し、追跡と形状復元の両面で最先端の手法を大幅に改善した。

Tracking and reconstructing 3D objects from cluttered scenes are the key components for computer vision, robotics and autonomous driving systems. While recent progress in implicit function (e.g., DeepSDF) has shown encouraging results on high-quality 3D shape reconstruction, it is still very challenging to generalize to cluttered and partially observable LiDAR data. In this paper, we propose to leverage the continuity in video data. We introduce a novel and unified framework which utilizes a DeepSDF model to simultaneously track and reconstruct 3D objects in the wild. We online adapt the DeepSDF model in the video, iteratively improving the shape reconstruction while in return improving the tracking, and vice versa. We experiment with both Waymo and KITTI datasets, and show significant improvements over state-of-the-art methods for both tracking and shape reconstruction.
翻訳日:2021-11-29 16:02:09 公開日:2021-11-24
# 微分レンダリングを用いたヒューマンポーズ操作と新しいビュー合成

Human Pose Manipulation and Novel View Synthesis using Differentiable Rendering ( http://arxiv.org/abs/2111.12731v1 )

ライセンス: Link先を確認
Guillaume Rochette, Chris Russell, Richard Bowden(参考訳) 本稿では,新しいポーズの人々の新しい視点を合成する新しいアプローチを提案する。 新たな微分可能レンダラにより,任意の視点から高精細な画像の合成が可能となる。 我々のレンダラーはメッシュベースの構造を操作するのではなく、人間の骨格構造を直接表現する拡散ガウス的プリミティブを利用する。 これらのプリミティブをレンダリングすると、高次元の潜像が得られ、デコーダネットワークによってRGBイメージに変換される。 この定式化は、エンドツーエンドでトレーニング可能な、完全に微分可能なフレームワークを生み出します。 本研究では,human3.6mとpanoptic studioデータセットにおける画像再構成手法の有効性を示す。 本稿では, 個人間の動きの伝達, 単一のカメラから捉えた個人の新しい視点合成, 仮想的な視点から個人を合成, 新規なポーズで人々を再レンダリングする方法について述べる。 コードとビデオの結果はhttps://github.com/g uillaumerochette/hum anview synthesisで入手できる。

We present a new approach for synthesizing novel views of people in new poses. Our novel differentiable renderer enables the synthesis of highly realistic images from any viewpoint. Rather than operating over mesh-based structures, our renderer makes use of diffuse Gaussian primitives that directly represent the underlying skeletal structure of a human. Rendering these primitives gives results in a high-dimensional latent image, which is then transformed into an RGB image by a decoder network. The formulation gives rise to a fully differentiable framework that can be trained end-to-end. We demonstrate the effectiveness of our approach to image reconstruction on both the Human3.6M and Panoptic Studio datasets. We show how our approach can be used for motion transfer between individuals; novel view synthesis of individuals captured from just a single camera; to synthesize individuals from any virtual viewpoint; and to re-render people in novel poses. Code and video results are available at https://github.com/G uillaumeRochette/Hum anViewSynthesis.
翻訳日:2021-11-29 16:01:55 公開日:2021-11-24
# 層状制御可能なビデオ生成

Layered Controllable Video Generation ( http://arxiv.org/abs/2111.12747v1 )

ライセンス: Link先を確認
Jiahui Huang, Yuhe Jin, Kwang Moo Yi, Leonid Sigal(参考訳) 我々は,映像の初期フレームを前景と背景の層に分解し,ユーザーが単に前景マスクを操作すれば,映像生成過程を制御できる階層化制御可能な映像生成手法を提案する。 主な課題は、教師なしのフォアグラウンドとバックグラウンドの分離であり、不明瞭であり、生のビデオシーケンスのみへのアクセスでユーザー操作を予測できる能力である。 2段階の学習手順を提案することで,これらの課題に対処する。 第1段階では、損失の豊富なセットと前景の動的サイズにより、フレームを前景層と背景層に分割し、これらの層に条件付けし、VQ-VAEジェネレータを用いて次のフレームを生成する方法を学ぶ。 第2段階では、このネットワークを微調整し、将来のフレームからマスクに(パラメータ化)制御を施すことにより、マスクへの編集を予想する。 この学習の有効性と,より粒度の細かい制御機構を示すとともに,2つのベンチマークデータセット上での最先端性能を示す。 ビデオの要約と、https://gabriel-huan g.github.io/layered_ controllable_video_g enerationのビデオ結果を提供します。

We introduce layered controllable video generation, where we, without any supervision, decompose the initial frame of a video into foreground and background layers, with which the user can control the video generation process by simply manipulating the foreground mask. The key challenges are the unsupervised foreground-backgroun d separation, which is ambiguous, and ability to anticipate user manipulations with access to only raw video sequences. We address these challenges by proposing a two-stage learning procedure. In the first stage, with the rich set of losses and dynamic foreground size prior, we learn how to separate the frame into foreground and background layers and, conditioned on these layers, how to generate the next frame using VQ-VAE generator. In the second stage, we fine-tune this network to anticipate edits to the mask, by fitting (parameterized) control to the mask from future frame. We demonstrate the effectiveness of this learning and the more granular control mechanism, while illustrating state-of-the-art performance on two benchmark datasets. We provide a video abstract as well as some video results on https://gabriel-huan g.github.io/layered_ controllable_video_g eneration
翻訳日:2021-11-29 16:01:41 公開日:2021-11-24
# 検証システムにおけるIDカードの効率的なセマンティックセグメンテーション手法

Towards an Efficient Semantic Segmentation Method of ID Cards for Verification Systems ( http://arxiv.org/abs/2111.12764v1 )

ライセンス: Link先を確認
Rodrigo Lara, Andres Valenzuela, Daniel Schulz, Juan Tapia, and Christoph Busch(参考訳) idカード画像の背景の除去は、再デジタル化された画像の多くは、ぼろぼろの背景、照明条件の悪さ、歪み、オクルージョンがあるため、リモート検証システムにとって大きな課題である。 IDカード画像の背景は、分類器とテキスト抽出を混乱させる。 研究用の画像が不足しているため、今日のコンピュータビジョンにおけるオープンな問題となっている。 本稿では,idカードの意味セグメンテーションを用いた背景除去手法を提案する。 最終的に、実際の操作から野生で撮影された画像は、典型的なプレゼンテーション攻撃シナリオを含む3カ国(チリ、アルゼンチン、メキシコ)の5種類のIDカードを含む45,007枚の画像からなる手動ラベル付きデータセットを使用していた。 本手法は,正当性検証や文書改ざん検出システムにおいて,次の段階を改善するのに役立つ。 MobileUNetとDenseNet10をベースとした2つのディープラーニングアプローチが検討された。 最良の結果は650万のパラメータを持つMobileUNetで得られた。 チリのidカードの平均交点(iou)は4,988画像のプライベートテストデータセットで0.9926であった。 チリ、アルゼンチン、メキシコの多国間IDカード画像の融合データセットの最良の結果は、0.9911のIoUに達した。 提案手法は,モバイル端末でのリアルタイム操作に使用できるほど軽量である。

Removing the background in ID Card images is a real challenge for remote verification systems because many of the re-digitalised images present cluttered backgrounds, poor illumination conditions, distortion and occlusions. The background in ID Card images confuses the classifiers and the text extraction. Due to the lack of available images for research, this field represents an open problem in computer vision today. This work proposes a method for removing the background using semantic segmentation of ID Cards. In the end, images captured in the wild from the real operation, using a manually labelled dataset consisting of 45,007 images, with five types of ID Cards from three countries (Chile, Argentina and Mexico), including typical presentation attack scenarios, were used. This method can help to improve the following stages in a regular identity verification or document tampering detection system. Two Deep Learning approaches were explored, based on MobileUNet and DenseNet10. The best results were obtained using MobileUNet, with 6.5 million parameters. A Chilean ID Card's mean Intersection Over Union (IoU) was 0.9926 on a private test dataset of 4,988 images. The best results for the fused multi-country dataset of ID Card images from Chile, Argentina and Mexico reached an IoU of 0.9911. The proposed methods are lightweight enough to be used in real-time operation on mobile devices.
翻訳日:2021-11-29 16:01:20 公開日:2021-11-24
# Bhattacharyyaクラス分離性を用いた移動可能性の推定

Transferability Estimation using Bhattacharyya Class Separability ( http://arxiv.org/abs/2111.12780v1 )

ライセンス: Link先を確認
Michal P\'andy and Andrea Agostinelli and Jasper Uijlings and Vittorio Ferrari and Thomas Mensink(参考訳) 転送学習はコンピュータビジョンにおける事前学習モデルを活用するための一般的な方法となっている。 しかし、計算コストの高い微調整を行なわずに、特定の対象タスクに適した事前学習されたソースモデルや、逆に、事前学習されたソースモデルを容易に適用できるタスクを定量化することは困難である。 本稿では,ソースモデルと対象データセット間の転送可能性の新しい定量化法であるgaussian bhattacharyya coefficient (gbc)を提案する。 最初のステップでは、すべてのターゲットイメージをソースモデルで定義された機能空間に埋め込み、クラスごとのガウスで表現します。 次にbhattacharyya係数を用いてペアワイズクラス分離性を推定し、ソースモデルがどの程度ターゲットタスクに転送できるかをシンプルかつ効果的に測定する。 画像分類タスクのGBCをデータセットとアーキテクチャの選択の文脈で評価する。 さらに,より複雑なセグメンテーション伝達可能性推定タスクについても実験を行った。 GBCは、セマンティックセグメンテーション設定において、ほとんどの評価基準において最先端の転送可能性指標より優れており、画像分類におけるデータセット転送可能性のトップメソッドのパフォーマンスと一致し、画像分類におけるアーキテクチャ選択問題において最良であることを示す。

Transfer learning has become a popular method for leveraging pre-trained models in computer vision. However, without performing computationally expensive fine-tuning, it is difficult to quantify which pre-trained source models are suitable for a specific target task, or, conversely, to which tasks a pre-trained source model can be easily adapted to. In this work, we propose Gaussian Bhattacharyya Coefficient (GBC), a novel method for quantifying transferability between a source model and a target dataset. In a first step we embed all target images in the feature space defined by the source model, and represent them with per-class Gaussians. Then, we estimate their pairwise class separability using the Bhattacharyya coefficient, yielding a simple and effective measure of how well the source model transfers to the target task. We evaluate GBC on image classification tasks in the context of dataset and architecture selection. Further, we also perform experiments on the more complex semantic segmentation transferability estimation task. We demonstrate that GBC outperforms state-of-the-art transferability metrics on most evaluation criteria in the semantic segmentation settings, matches the performance of top methods for dataset transferability in image classification, and performs best on architecture selection problems for image classification.
翻訳日:2021-11-29 16:00:57 公開日:2021-11-24
# 深部変分オートエンコーダを用いたデータ駆動正規フィルタリングによる高速メッシュDenoising

Fast mesh denoising with data driven normal filtering using deep variational autoencoders ( http://arxiv.org/abs/2111.12782v1 )

ライセンス: Link先を確認
Stavros Nousias, Gerasimos Arvanitis, Aris S. Lalos, Konstantinos Moustakas(参考訳) 近年の3Dスキャン技術により、デジタルツイン、リモートインスペクション、リバースエンジニアリングなど、様々な産業用途に3Dモデルを展開できるようになった。 進化する性能にもかかわらず、3dスキャナは、取得した密集したモデルにノイズやアーティファクトを導入している。 本研究では,高密度3次元走査型産業モデルに対する高速で頑健な復調法を提案する。 提案手法は条件付き変分オートエンコーダを用いて顔正規化を効果的にフィルタする。 トレーニングと推論は、必要なトレーニングデータのサイズと実行時間を削減するスライディングパッチ設定で実行される。 3DスキャンおよびCADモデルを用いた広範囲な評価研究を行った。 その結果, 他の最先端手法と比較して, 再現精度が良く, 高い結果が得られた。 具体的には、1e4面以上の3Dモデルでは、提示されたパイプラインは等価な再構成誤差を持つメソッドの2倍高速である。

Recent advances in 3D scanning technology have enabled the deployment of 3D models in various industrial applications like digital twins, remote inspection and reverse engineering. Despite their evolving performance, 3D scanners, still introduce noise and artifacts in the acquired dense models. In this work, we propose a fast and robust denoising method for dense 3D scanned industrial models. The proposed approach employs conditional variational autoencoders to effectively filter face normals. Training and inference are performed in a sliding patch setup reducing the size of the required training data and execution times. We conducted extensive evaluation studies using 3D scanned and CAD models. The results verify plausible denoising outcomes, demonstrating similar or higher reconstruction accuracy, compared to other state-of-the-art approaches. Specifically, for 3D models with more than 1e4 faces, the presented pipeline is twice as fast as methods with equivalent reconstruction error.
翻訳日:2021-11-29 15:32:25 公開日:2021-11-24
# Sparseは変圧器のスケーリングで十分

Sparse is Enough in Scaling Transformers ( http://arxiv.org/abs/2111.12763v1 )

ライセンス: Link先を確認
Sebastian Jaszczur, Aakanksha Chowdhery, Afroz Mohiuddin, {\L}ukasz Kaiser, Wojciech Gajewski, Henryk Michalewski, Jonni Kanerva(参考訳) 大規模なTransformerモデルは、多くのタスクにおいて印象的な結果をもたらすが、トレーニングや微調整は高価であり、デコードが遅いため、使用と研究が手に入らない。 我々はこの問題をスパーシティを利用して解決する。 本研究では,Transformerの全レイヤのスパース変種について検討し,モデルサイズをスケールアップする過程で,スパース・レイヤを効率よく拡張し,非バッチデコードを実行する次世代トランスフォーマモデルであるScaling Transformerを提案する。 驚くべきことに、スパース層は標準のTransformerと同じ数のパラメータを持つ複雑さを得るのに十分である。 また、注意すべき空間的アプローチと統合し、限られたメモリでも長いシーケンスで高速な推論を可能にする。 この結果、長いテキスト要約の最先端技術に匹敵するパフォーマンスが得られます。

Large Transformer models yield impressive results on many tasks, but are expensive to train, or even fine-tune, and so slow at decoding that their use and study becomes out of reach. We address this problem by leveraging sparsity. We study sparse variants for all layers in the Transformer and propose Scaling Transformers, a family of next generation Transformer models that use sparse layers to scale efficiently and perform unbatched decoding much faster than the standard Transformer as we scale up the model size. Surprisingly, the sparse layers are enough to obtain the same perplexity as the standard Transformer with the same number of parameters. We also integrate with prior sparsity approaches to attention and enable fast inference on long sequences even with limited memory. This results in performance competitive to the state-of-the-art on long text summarization.
翻訳日:2021-11-29 15:28:33 公開日:2021-11-24
# IMBENS: Pythonのクラス不均衡学習をアンサンブルする

IMBENS: Ensemble Class-imbalanced Learning in Python ( http://arxiv.org/abs/2111.12776v1 )

ライセンス: Link先を確認
Zhining Liu, Zhepei Wei, Erxin Yu, Qiang Huang, Kai Guo, Boyang Yu, Zhaonian Cai, Hangting Ye, Wei Cao, Jiang Bian, Pengfei Wei, Jing Jiang and Yi Chang(参考訳) im Balanced-ensembleは、クラス不均衡なデータにアンサンブル学習アルゴリズムを素早く実装しデプロイするためのオープンソースのPythonツールボックスである。 クラス不均衡問題を扱うための複数の最先端アンサンブル不均衡学習(EIL)メソッド、ビジュアライザ、ユーティリティ機能へのアクセスを提供する。 これらのアンサンブル手法には、例えばアンダー/オーバーサンプリングのような再サンプリングベースの手法や、コストセンシティブな学習のような再重み付けベースの手法が含まれる。 実装以外にも,マルチクラスサポートやスケジューラの再サンプリングなど,従来型のバイナリeilアルゴリズムを拡張することで,より複雑なタスクの処理を可能にする。 パッケージはシンプルで文書化されたAPI設計の下で開発され、使いやすさを高めるためにScikit-learnに従っている。 imbensはMITオープンソースライセンスでリリースされており、Python Package Index(PyPI)からインストールすることができる。 ソースコード、バイナリ、詳細なドキュメント、使用例はhttps://github.com/Z hiningLiu1998/imbala nced-ensemble.comで公開されている。

imbalanced-ensemble, abbreviated as imbens, is an open-source Python toolbox for quick implementing and deploying ensemble learning algorithms on class-imbalanced data. It provides access to multiple state-of-art ensemble imbalanced learning (EIL) methods, visualizer, and utility functions for dealing with the class imbalance problem. These ensemble methods include resampling-based, e.g., under/over-sampling, and reweighting-based ones, e.g., cost-sensitive learning. Beyond the implementation, we also extend conventional binary EIL algorithms with new functionalities like multi-class support and resampling scheduler, thereby enabling them to handle more complex tasks. The package was developed under a simple, well-documented API design follows that of scikit-learn for increased ease of use. imbens is released under the MIT open-source license and can be installed from Python Package Index (PyPI). Source code, binaries, detailed documentation, and usage examples are available at https://github.com/Z hiningLiu1998/imbala nced-ensemble.
翻訳日:2021-11-29 15:27:08 公開日:2021-11-24
# クラス不均衡学習におけるクラス間不均衡とクラス内不均衡

Towards Inter-class and Intra-class Imbalance in Class-imbalanced Learning ( http://arxiv.org/abs/2111.12791v1 )

ライセンス: Link先を確認
Zhining Liu, Pengfei Wei, Zhepei Wei, Boyang Yu, Jing Jiang, Wei Cao, Jiang Bian and Yi Chang(参考訳) 不均衡学習(IL)は、データマイニングアプリケーションに広く存在する重要な問題である。 典型的なILメソッドは、トレーニングセットを直接バランスをとるために、直感的なクラスワイドリサンプリングまたはリウェイトを利用する。 しかし、特定の領域における最近の研究により、クラス間操作なしにクラス不均衡学習が実現可能であることが示されている。 これにより、2つの異なるil戦略とクラス不均衡の性質の関係について考えることができます。 基本的には、IL に存在する2つの本質的な不均衡に対応する:異なるクラスからの例と1つのクラスにおける簡単な例と難しい例、すなわちクラス間の不均衡とクラス内の不均衡の間の量の違い。 既存の作品は、両方の不均衡を明示的に考慮しないため、最適でないパフォーマンスに苦しむ。 そこで本研究では,多目的アンサンブル学習フレームワークである Duple-Balanced Ensemble について述べる。 一般的な手法とは異なり、DUBEは、重度距離ベースの計算に頼ることなく、クラス間およびクラス内バランスを直接実行し、計算効率を向上しながら競合性能を達成する。 また,dubeに基づく異種間バランス戦略の長所と短所について,詳細な議論と分析を行った。 広範な実験により,提案手法の有効性が検証された。 コードとサンプルはhttps://github.com/i cde2022sub/duplebala nce.comで入手できる。

Imbalanced Learning (IL) is an important problem that widely exists in data mining applications. Typical IL methods utilize intuitive class-wise resampling or reweighting to directly balance the training set. However, some recent research efforts in specific domains show that class-imbalanced learning can be achieved without class-wise manipulation. This prompts us to think about the relationship between the two different IL strategies and the nature of the class imbalance. Fundamentally, they correspond to two essential imbalances that exist in IL: the difference in quantity between examples from different classes as well as between easy and hard examples within a single class, i.e., inter-class and intra-class imbalance. Existing works fail to explicitly take both imbalances into account and thus suffer from suboptimal performance. In light of this, we present Duple-Balanced Ensemble, namely DUBE , a versatile ensemble learning framework. Unlike prevailing methods, DUBE directly performs inter-class and intra-class balancing without relying on heavy distance-based computation, which allows it to achieve competitive performance while being computationally efficient. We also present a detailed discussion and analysis about the pros and cons of different inter/intra-class balancing strategies based on DUBE . Extensive experiments validate the effectiveness of the proposed method. Code and examples are available at https://github.com/I CDE2022Sub/duplebala nce.
翻訳日:2021-11-29 15:26:52 公開日:2021-11-24
# 加速度計測データとリカレントニューラルネットワークによる動物行動分類

Animal Behavior Classification via Accelerometry Data and Recurrent Neural Networks ( http://arxiv.org/abs/2111.12843v1 )

ライセンス: Link先を確認
Liang Wang, Reza Arablouei, Flavio A. P. Alvarenga, Greg J. Bishop-Hurley(参考訳) 各種リカレントニューラルネットワーク(RNN)モデルを用いた加速度計測データを用いた動物行動の分類について検討した。 長短時間メモリ (LSTM) またはゲートリカレントユニット (GRU) アーキテクチャを, 牛の首輪や耳のタグによって得られた4つのデータセットを用いて, 分類性能と複雑性を評価する。 評価には2つの最先端畳み込みニューラルネットワーク(CNN)ベースの時系列分類モデルも含んでいる。 その結果、RNNモデルとCNNモデルとの分類精度は同等か高いが、計算量やメモリの要求は少ないことがわかった。 また、GRUアーキテクチャのモデルは、より複雑でないにもかかわらず分類精度においてLSTMアーキテクチャのモデルよりも優れていることも観察した。 64個の隠蔽ユニットを持つ一層一方向GRUモデルは、エッジ/埋め込みデバイスの実装に適した精度と複雑さのバランスが良いように見える。

We study the classification of animal behavior using accelerometry data through various recurrent neural network (RNN) models. We evaluate the classification performance and complexity of the considered models, which feature long short-time memory (LSTM) or gated recurrent unit (GRU) architectures with varying depths and widths, using four datasets acquired from cattle via collar or ear tags. We also include two state-of-the-art convolutional neural network (CNN)-based time-series classification models in the evaluations. The results show that the RNN-based models can achieve similar or higher classification accuracy compared with the CNN-based models while having less computational and memory requirements. We also observe that the models with GRU architecture generally outperform the ones with LSTM architecture in terms of classification accuracy despite being less complex. A single-layer uni-directional GRU model with 64 hidden units appears to offer a good balance between accuracy and complexity making it suitable for implementation on edge/embedded devices.
翻訳日:2021-11-29 15:26:31 公開日:2021-11-24
# 深層学習の生態学者のためのカメラトラップデータへの適用 -- キャピタリティ画像は、野生に一般化するモデルを訓練できるだろうか?

Application of deep learning to camera trap data for ecologists in planning / engineering -- Can captivity imagery train a model which generalises to the wild? ( http://arxiv.org/abs/2111.12805v1 )

ライセンス: Link先を確認
Ryan Curry and Cameron Trotter and Andrew Stephen McGough(参考訳) 種の豊富さを理解することは、その長期的な持続可能性とその影響を理解するための第一歩である。 生態学者はカメラトラップを使って、特定の動物の存在をリモートで調査する。 これまでの研究で、深層学習モデルは、カメラトラップ画像内の動物を自動的に検出し分類するために、高い信頼度で訓練できることが示されている。 しかし、これらのモデルのトレーニング能力は、十分な高品質のトレーニングデータを持つことに依存している。 希少な動物やデータセットが存在しないときに何が起こるのか? 本研究は,稀少動物のイメージを捕獲性(スコットランドの野生動物に焦点をあてる)でトレーニングデータセットを生成するアプローチを提案する。 我々は、野生で収集されたデータに適用するときに、捕獲データに基づいて訓練されたモデルを一般化することに関連する課題を考察する。 この研究は、計画/工学における生態学者のニーズによって文脈化されている。 本研究は, 物体検出, 画像分割, 画像分類モデルのためのアンサンブルを構築し, モデル一般化を促進するために, 異なる画像操作とクラス構造化技術を用いて実験を行う。 この研究は、スコットランドのワイルドキャットの文脈において、捕獲イメージで訓練されたモデルは、既存の技術を使って野生のカメラトラップイメージに一般化できないと結論づけている。 しかし、2クラスモデルwildcat vs not wildcatによる最終的なモデルパフォーマンスは、全体の精度スコア81.6%、wildcat精度スコア54.8%を達成し、そのテストセットでは画像の1%しかwildcatを含んでいなかった。 これは、さらなる研究により、キャプチャー画像の使用が実現可能であることを示唆する。 これは、captivityデータに基づくトレーニングセットの生成を試みる最初の研究であり、そのようなモデルの開発を計画/エンジニアリングにおける生態学者の文脈で探求した最初の研究である。

Understanding the abundance of a species is the first step towards understanding both its long-term sustainability and the impact that we may be having upon it. Ecologists use camera traps to remotely survey for the presence of specific animal species. Previous studies have shown that deep learning models can be trained to automatically detect and classify animals within camera trap imagery with high levels of confidence. However, the ability to train these models is reliant upon having enough high-quality training data. What happens when the animal is rare or the data sets are non-existent? This research proposes an approach of using images of rare animals in captivity (focusing on the Scottish wildcat) to generate the training dataset. We explore the challenges associated with generalising a model trained on captivity data when applied to data collected in the wild. The research is contextualised by the needs of ecologists in planning/engineering . Following precedents from other research, this project establishes an ensemble for object detection, image segmentation and image classification models which are then tested using different image manipulation and class structuring techniques to encourage model generalisation. The research concludes, in the context of Scottish wildcat, that models trained on captivity imagery cannot be generalised to wild camera trap imagery using existing techniques. However, final model performances based on a two-class model Wildcat vs Not Wildcat achieved an overall accuracy score of 81.6% and Wildcat accuracy score of 54.8% on a test set in which only 1% of images contained a wildcat. This suggests using captivity images is feasible with further research. This is the first research which attempts to generate a training set based on captivity data and the first to explore the development of such models in the context of ecologists in planning/engineering .
翻訳日:2021-11-29 15:22:04 公開日:2021-11-24
# ユニバーサルキャピタ:コンテンツスタイル分離による長距離視覚・言語モデルトレーニング

Universal Captioner: Long-Tail Vision-and-Language Model Training through Content-Style Separation ( http://arxiv.org/abs/2111.12727v1 )

ライセンス: Link先を確認
Marcella Cornia, Lorenzo Baraldi, Giuseppe Fiameni, Rita Cucchiara(参考訳) キャプションモデルは自然画像の記述において説得力のある結果を得たが、実世界の概念のロングテール分布全体をカバーしていない。 本稿では,Webスケールで自動収集されたデータセットをトレーニングすることで,Wild の概念による人間的な記述を生成するタスクに対処する。 そこで本研究では,COCOのような従来の人間アノテーションデータセットの記述スタイルを維持しつつ,ノイズの多い画像キャプチャペアを活用可能なモデルを提案する。 私たちのモデルは、キーワードとスタイルトークンの使用を通じて、コンテンツとスタイルを分離し、プロンプト言語モデリングの1つの目的を採用し、他の最近の提案よりもシンプルである。 実験により,本モデルは,ゼロショット設定においても,キャプション品質とロングテール概念の記述能力において,既存の手法を一貫して上回っている。 CIDEr 測定値によると,外部データを用いた場合,COCO とnocaps の両方で新たな技術状態が得られる。

While captioning models have obtained compelling results in describing natural images, they still do not cover the entire long-tail distribution of real-world concepts. In this paper, we address the task of generating human-like descriptions with in-the-wild concepts by training on web-scale automatically collected datasets. To this end, we propose a model which can exploit noisy image-caption pairs while maintaining the descriptive style of traditional human-annotated datasets like COCO. Our model separates content from style through the usage of keywords and stylistic tokens, employing a single objective of prompt language modeling and being simpler than other recent proposals. Experimentally, our model consistently outperforms existing methods in terms of caption quality and capability of describing long-tail concepts, also in zero-shot settings. According to the CIDEr metric, we obtain a new state of the art on both COCO and nocaps when using external data.
翻訳日:2021-11-29 14:22:51 公開日:2021-11-24
# 機能拡張によるAUCの公正性

Fairness for AUC via Feature Augmentation ( http://arxiv.org/abs/2111.12823v1 )

ライセンス: Link先を確認
Hortense Fong and Vineet Kumar and Anay Mehrotra and Nisheeth K. Vishnoi(参考訳) 本研究では,受信機動作特性の曲線 (AUC) の下の領域で性能が測定される分類の文脈における公平さについて検討する。 AUCは、I型(偽陽性)とII型(偽陰性)の両方のエラーが重要である場合に一般的に使用される。 しかし、同じ分類器は異なる保護群に対して著しく異なるAUCを持つことができ、現実のアプリケーションではそのようなグループ間差を減らすことが望ましい。 我々は、不利なグループに対して、AUCを大幅に改善するための追加機能の選択方法の問題に対処する。 以上の結果から, 特徴の非条件分散は, aucフェアネスを知らせるものではなく, クラス条件分散であることがわかった。 この接続を用いて、識別可能なグループ間のバイアスを軽減するため、特徴増強(追加機能)に基づく新しいアプローチである FairAUC を開発する。 合成および実世界(COMPAS)データセット上でfairAUCを評価し,ベンチマークによるAUC全体の最大化とグループ間のバイアスの最小化に比較して,AUCを著しく改善することを確認した。

We study fairness in the context of classification where the performance is measured by the area under the curve (AUC) of the receiver operating characteristic. AUC is commonly used when both Type I (false positive) and Type II (false negative) errors are important. However, the same classifier can have significantly varying AUCs for different protected groups and, in real-world applications, it is often desirable to reduce such cross-group differences. We address the problem of how to select additional features to most greatly improve AUC for the disadvantaged group. Our results establish that the unconditional variance of features does not inform us about AUC fairness but class-conditional variance does. Using this connection, we develop a novel approach, fairAUC, based on feature augmentation (adding features) to mitigate bias between identifiable groups. We evaluate fairAUC on synthetic and real-world (COMPAS) datasets and find that it significantly improves AUC for the disadvantaged group relative to benchmarks maximizing overall AUC and minimizing bias between groups.
翻訳日:2021-11-29 14:22:07 公開日:2021-11-24
# (参考訳) 強化学習に基づく逐次説明可能なレコメンデーションのための経路探索 [全文訳有]

Reinforcement Learning based Path Exploration for Sequential Explainable Recommendation ( http://arxiv.org/abs/2111.12262v1 )

ライセンス: CC BY 4.0
Yicong Li, Hongxu Chen, Yile Li, Lin Li, Philip S. Yu and Guandong Xu(参考訳) 近年,知識グラフの豊富な情報により,経路ベースで説明可能なレコメンデーションシステムの進歩が注目されている。 既存の説明可能なレコメンデーションのほとんどは静的な知識グラフのみを使用し、動的なユーザ・イテムの進化を無視する。 ユーザのテンポラリシーケンシャルな振る舞いをモデル化することで、レコメンダシステムのパフォーマンスと説明可能性を高めることができることに気付く研究はいくつかあるが、そのほとんどは、パス内または個別に、あるいはレコメンデーションメカニズムとは別に、ユーザのシーケンシャルなインタラクションをモデル化することのみに焦点を当てている。 本稿では,動的知識グラフ上での動的ユーザ・アイテムの進化を逐次モデル化するために,連続項目間の強化アイテム・アイテム・パスモデルを用いた強化学習(tmer-rl)を活用した,新しい時間的メタパス誘導型説明可能レコメンデーションを提案する。 重回帰ニューラルネットワークを用いた時間的情報をモデル化する既存の手法と比較し,ユーザの履歴項目の特徴を捉えた簡易かつ効果的なニューラルネットワークと,次の購入項目を特徴付けるパスベースコンテキストを提案する。 2つの実世界のデータセットに対するTMERの大規模な評価は、最近の強いベースラインと比較して最先端のパフォーマンスを示している。

Recent advances in path-based explainable recommendation systems have attracted increasing attention thanks to the rich information provided by knowledge graphs. Most existing explainable recommendations only utilize static knowledge graphs and ignore the dynamic user-item evolutions, leading to less convincing and inaccurate explanations. Although there are some works that realize that modelling user's temporal sequential behaviour could boost the performance and explainability of the recommender systems, most of them either only focus on modelling user's sequential interactions within a path or independently and separately of the recommendation mechanism. In this paper, we propose a novel Temporal Meta-path Guided Explainable Recommendation leveraging Reinforcement Learning (TMER-RL), which utilizes reinforcement item-item path modelling between consecutive items with attention mechanisms to sequentially model dynamic user-item evolutions on dynamic knowledge graph for explainable recommendation. Compared with existing works that use heavy recurrent neural networks to model temporal information, we propose simple but effective neural networks to capture users' historical item features and path-based context to characterize the next purchased item. Extensive evaluations of TMER on two real-world datasets show state-of-the-art performance compared against recent strong baselines.
翻訳日:2021-11-25 22:40:14 公開日:2021-11-24
# (参考訳) 自己管理のための変換ポリシーの自動化のための分布推定 [全文訳有]

Distribution Estimation to Automate Transformation Policies for Self-Supervision ( http://arxiv.org/abs/2111.12265v1 )

ライセンス: CC BY 4.0
Seunghan Yang, Debasmit Das, Simyung Chang, Sungrack Yun, Fatih Porikli(参考訳) 最近の視覚自己スーパービジョン作品では、変換または拡張された入力画像にラベルを割り当てることで、プリテキストタスクと呼ばれる模倣された分類目標が確立されている。 pretextの目標は、画像にどのような変換を適用するかを予測することだ。 しかし、データセットにすでに存在する画像変換は、そのような自己教師付き表現の学習にあまり効果がない可能性がある。 そこで本研究では,入力データセットに存在しない変換を自動的に発見し,自己教師付き学習に有効とする,生成的逆ネットワークに基づく枠組みを提案する。 この自動ポリシーにより、データセットの変換分布を推定し、プリテキストタスクのためにトレーニングペアをサンプリングする補完的な分布を構築することができる。 我々は、複数のビジュアル認識データセットを用いて、自動変換ポリシーの有効性を示すために、フレームワークを評価した。

In recent visual self-supervision works, an imitated classification objective, called pretext task, is established by assigning labels to transformed or augmented input images. The goal of pretext can be predicting what transformations are applied to the image. However, it is observed that image transformations already present in the dataset might be less effective in learning such self-supervised representations. Building on this observation, we propose a framework based on generative adversarial network to automatically find the transformations which are not present in the input dataset and thus effective for the self-supervised learning. This automated policy allows to estimate the transformation distribution of a dataset and also construct its complementary distribution from which training pairs are sampled for the pretext task. We evaluated our framework using several visual recognition datasets to show the efficacy of our automated transformation policy.
翻訳日:2021-11-25 22:12:24 公開日:2021-11-24
# (参考訳) COVID-19パンデミック時の米国における人体移動の因果解析と予測 [全文訳有]

Causal Analysis and Prediction of Human Mobility in the U.S. during the COVID-19 Pandemic ( http://arxiv.org/abs/2111.12272v1 )

ライセンス: CC0 1.0
Subhrajit Sinha and Meghna Chakraborty(参考訳) 米国の新型コロナウイルス(covid-19)流行が拡大し、2020年9月時点で世界で確認された感染者や死者数が最も多かったため、ほとんどの州で旅行制限が施行され、移動手段が大幅に低下した。 しかし、この危機の旅行と移動に対する全体的な影響と長期的な影響は、いまだに不明である。 そこで本研究では,このパンデミックにおいて米国における人体移動と旅行に最も影響を及ぼす要因を決定・分析する分析枠組みを構築した。 特に、この研究はGranger causalityを用いて、毎日の走行距離に影響を与える重要な予測因子を判定し、リッジやLASSOといった線形正規化アルゴリズムを使って移動をモデル化し予測する。 国家レベルの時系列データは、2020年3月1日から6月13日までの様々なオープンアクセスソースから取得され、データセット全体がトレーニングとテストのために2つの部分に分割された。 Granger causalityによって選択された変数は、通常最小二乗回帰、リッジ回帰、LASSO回帰アルゴリズムによって3つの異なる縮小順序モデルを訓練するために使用された。 最後に, 実験データを用いて, 開発したモデルの予測精度を検討した。 その結果, 新規感染者数, ソーシャル・ディスタンシング指数, 居住人口, 郡外旅行の比率, 異なる目的地への旅行, 社会経済的地位, 在宅勤務者の比率, 州全体の閉鎖などの要因が, 日常生活のvmtに影響を与える最も重要な要因であったことがわかった。 また、すべてのモデリング手法の中でリッジ回帰は最も優れた性能を最小誤差で提供し、ラッソ回帰は通常の最小二乗モデルよりも優れた性能を発揮する。

Since the increasing outspread of COVID-19 in the U.S., with the highest number of confirmed cases and deaths in the world as of September 2020, most states in the country have enforced travel restrictions resulting in sharp reductions in mobility. However, the overall impact and long-term implications of this crisis to travel and mobility remain uncertain. To this end, this study develops an analytical framework that determines and analyzes the most dominant factors impacting human mobility and travel in the U.S. during this pandemic. In particular, the study uses Granger causality to determine the important predictors influencing daily vehicle miles traveled and utilize linear regularization algorithms, including Ridge and LASSO techniques, to model and predict mobility. State-level time-series data were obtained from various open-access sources for the period starting from March 1, 2020 through June 13, 2020 and the entire data set was divided into two parts for training and testing purposes. The variables selected by Granger causality were used to train the three different reduced order models by ordinary least square regression, Ridge regression, and LASSO regression algorithms. Finally, the prediction accuracy of the developed models was examined on the test data. The results indicate that the factors including the number of new COVID cases, social distancing index, population staying at home, percent of out of county trips, trips to different destinations, socioeconomic status, percent of people working from home, and statewide closure, among others, were the most important factors influencing daily VMT. Also, among all the modeling techniques, Ridge regression provides the most superior performance with the least error, while LASSO regression also performed better than the ordinary least square model.
翻訳日:2021-11-25 22:01:12 公開日:2021-11-24
# (参考訳) 深層ニューラルネットワークのためのシャープネスアウェア量子化 [全文訳有]

Sharpness-aware Quantization for Deep Neural Networks ( http://arxiv.org/abs/2111.12273v1 )

ライセンス: CC BY 4.0
Jing Liu, Jianfei Cai, Bohan Zhuang(参考訳) ネットワーク量子化はモデルサイズと計算コストを削減する効果的な圧縮手法である。 高圧縮比にもかかわらず、量子化の離散性と非微分性のため、低精度モデルのトレーニングは困難であり、性能は著しく低下する。 近年,損失値と損失曲率を同時に最小化することによりモデルの一般化性能を向上させるため,シャープネス・アウェア最小化(SAM)を提案する。 本稿では,シャープネス・アウェア量子化法(SAQ)を考案し,量子化モデルのトレーニングを行い,より優れた一般化性能を実現する。 さらに,ネットワークの損失値と損失シャープ性が異なるため,各レイヤのビット幅構成を自動的に決定する構成生成器を学習し,フラット領域の低ビット化とシャープランドスケープを推進し,同時にミニマの平坦化を推進し,より積極的な量子化を実現するための効果的な手法を考案する。 CIFAR-100とImageNetの大規模な実験は,提案手法の優れた性能を示している。 例えば、55.1xビット演算(BOP)による量子化されたResNet-18は、Top-1の精度において、完全な精度よりも0.7%優れています。 コードはhttps://github.com/z huang-group/saqで入手できる。

Network quantization is an effective compression method to reduce the model size and computational cost. Despite the high compression ratio, training a low-precision model is difficult due to the discrete and non-differentiable nature of quantization, resulting in considerable performance degradation. Recently, Sharpness-Aware Minimization (SAM) is proposed to improve the generalization performance of the models by simultaneously minimizing the loss value and the loss curvature. In this paper, we devise a Sharpness-Aware Quantization (SAQ) method to train quantized models, leading to better generalization performance. Moreover, since each layer contributes differently to the loss value and the loss sharpness of a network, we further devise an effective method that learns a configuration generator to automatically determine the bitwidth configurations of each layer, encouraging lower bits for flat regions and vice versa for sharp landscapes, while simultaneously promoting the flatness of minima to enable more aggressive quantization. Extensive experiments on CIFAR-100 and ImageNet show the superior performance of the proposed methods. For example, our quantized ResNet-18 with 55.1x Bit-Operation (BOP) reduction even outperforms the full-precision one by 0.7% in terms of the Top-1 accuracy. Code is available at https://github.com/z huang-group/SAQ.
翻訳日:2021-11-25 21:41:02 公開日:2021-11-24
# (参考訳) 自己監督型自動編集データ生成ツール [全文訳有]

A Self-Supervised Automatic Post-Editing Data Generation Tool ( http://arxiv.org/abs/2111.12284v1 )

ライセンス: CC BY 4.0
Hyeonseok Moon, Chanjun Park, Sugyeong Eo, Jaehyung Seo, SeungJun Lee, Heuiseok Lim(参考訳) 自動後編集(APE)のためのデータ構築には、文章中の誤りを特定し、適切な修正を提供するための精巧なプロセスを含むため、広範囲かつ専門家レベルの人的努力が必要である。 そこで我々は,Webアプリケーションとしてデプロイ可能な自己教師付きデータ生成ツールを開発し,人間の監督を最小限に抑え,並列コーパスからパーソナライズされたAPEデータを構築し,英語を対象言語とする複数の言語ペアを構築する。 データ中心の類人猿の研究は、適切なデータがないため、これまで研究されていない多くの言語ペアを含むこのツールを使って行うことができる。

Data building for automatic post-editing (APE) requires extensive and expert-level human effort, as it contains an elaborate process that involves identifying errors in sentences and providing suitable revisions. Hence, we develop a self-supervised data generation tool, deployable as a web application, that minimizes human supervision and constructs personalized APE data from a parallel corpus for several language pairs with English as the target language. Data-centric APE research can be conducted using this tool, involving many language pairs that have not been studied thus far owing to the lack of suitable data.
翻訳日:2021-11-25 21:24:14 公開日:2021-11-24
# (参考訳) サンダーンナ:白い箱の敵の攻撃 [全文訳有]

Thundernna: a white box adversarial attack ( http://arxiv.org/abs/2111.12305v1 )

ライセンス: CC BY 4.0
Linfeng Ye(参考訳) 既存の研究によると、ニューラルネットワークは直感的な勾配に基づく最適化法で訓練されており、敵の攻撃を受けやすいため、通常の入力に小さな悪意を加えるだけで、ニューラルネットワークを誤ったものにすることができる。 同時に、ニューラルネットワークに対する攻撃はその堅牢性を改善する鍵となる。 敵の例に対するトレーニングによって、ニューラルネットワークはある種の敵の攻撃に抵抗することができる。 同時に、ニューラルネットワークに対する敵対攻撃は、以前の研究で議論されたような複雑な高次元非線形関数であるニューラルネットワークの特徴を明らかにすることもできる。 本稿では,ニューラルネットワークを攻撃するための一階法を提案する。 他の1次攻撃と比較して、我々の手法は成功率が高い。 さらに、二階攻撃や多段一階攻撃よりもはるかに高速である。

The existing work shows that the neural network trained by naive gradient-based optimization method is prone to adversarial attacks, adds small malicious on the ordinary input is enough to make the neural network wrong. At the same time, the attack against a neural network is the key to improving its robustness. The training against adversarial examples can make neural networks resist some kinds of adversarial attacks. At the same time, the adversarial attack against a neural network can also reveal some characteristics of the neural network, a complex high-dimensional non-linear function, as discussed in previous work. In This project, we develop a first-order method to attack the neural network. Compare with other first-order attacks, our method has a much higher success rate. Furthermore, it is much faster than second-order attacks and multi-steps first-order attacks.
翻訳日:2021-11-25 21:17:51 公開日:2021-11-24
# (参考訳) 実現可能性を考慮したコンテクストデューリングバンディットの効率的最適アルゴリズム [全文訳有]

Efficient and Optimal Algorithms for Contextual Dueling Bandits under Realizability ( http://arxiv.org/abs/2111.12306v1 )

ライセンス: CC BY 4.0
Aadirupa Saha and Akshay Krishnamurthy(参考訳) 我々は,学習者が文脈情報を用いて2つの意思決定を行う逐次的意思決定問題であるK$armed contextual dueling bandit問題について検討するが,一方の判断が他方よりも優れていることを示唆する「emph{preference-based feedback"のみを観察する。 そこでは、与えられた関数クラス$\mathcal F$で適切に指定されたペアの選好行列によってフィードバックが生成される。 先行研究で検討されているものよりも厳格な性能尺度である「ベストレスポンス後悔」という新しい概念の最適後悔率を達成する新しいアルゴリズムを提案する。 このアルゴリズムは計算効率も良く、オンラインのオラクルへのアクセスを$\mathcal F$を超える正方損失の回帰として多項式時間で実行する。 これは Dud\'ik et al の開問題を解く。 2015年]oracleのコンテクスト・デュエル・バンディットのための効率的で後悔の最適化アルゴリズムについて。

We study the $K$-armed contextual dueling bandit problem, a sequential decision making setting in which the learner uses contextual information to make two decisions, but only observes \emph{preference-based feedback} suggesting that one decision was better than the other. We focus on the regret minimization problem under realizability, where the feedback is generated by a pairwise preference matrix that is well-specified by a given function class $\mathcal F$. We provide a new algorithm that achieves the optimal regret rate for a new notion of best response regret, which is a strictly stronger performance measure than those considered in prior works. The algorithm is also computationally efficient, running in polynomial time assuming access to an online oracle for square loss regression over $\mathcal F$. This resolves an open problem of Dud\'ik et al. [2015] on oracle efficient, regret-optimal algorithms for contextual dueling bandits.
翻訳日:2021-11-25 21:12:57 公開日:2021-11-24
# (参考訳) AIはどのようにサッカーをするのか? RLと実世界のサッカー戦略の分析 [全文訳有]

How does AI play football? An analysis of RL and real-world football strategies ( http://arxiv.org/abs/2111.12340v1 )

ライセンス: CC BY 4.0
Atom Scott, Keisuke Fujii and Masaki Onishi(参考訳) 近年の強化学習(RL)の進歩により、幅広い応用に優れた高度なエージェントの開発が可能となった。 このようなエージェントを用いたシミュレーションは、現実世界で科学的に実験することが難しいシナリオで貴重な情報を提供することができる。 本稿では,サッカーrlエージェントのプレイスタイル特性を調べ,トレーニング中に戦略がどう発達するかを明らかにする。 学習戦略は、実際のサッカー選手の戦略と比較される。 本研究では,集約統計とソーシャル・ネットワーク・アナリティクス(SNA)を用いて,シミュレーション環境の利用から何が学べるかを考察する。 その結果,(1)エージェントの競争力と各種sna指標の間には強い相関関係があり,(2)エージェントの競争力が高まるにつれて,rlエージェントのプレイスタイルは現実世界のサッカー選手とよく似ていることがわかった。 我々は、サッカーの分析にRLを完全に活用するために必要な理解を改善するために必要なさらなる進歩について論じる。

Recent advances in reinforcement learning (RL) have made it possible to develop sophisticated agents that excel in a wide range of applications. Simulations using such agents can provide valuable information in scenarios that are difficult to scientifically experiment in the real world. In this paper, we examine the play-style characteristics of football RL agents and uncover how strategies may develop during training. The learnt strategies are then compared with those of real football players. We explore what can be learnt from the use of simulated environments by using aggregated statistics and social network analysis (SNA). As a result, we found that (1) there are strong correlations between the competitiveness of an agent and various SNA metrics and (2) aspects of the RL agents play style become similar to real world footballers as the agent becomes more competitive. We discuss further advances that may be necessary to improve our understanding necessary to fully utilise RL for the analysis of football.
翻訳日:2021-11-25 20:40:22 公開日:2021-11-24
# (参考訳) EvDistill:双方向再構成誘導クロスモーダル知識蒸留によるエンドタスク学習の非同期イベント [全文訳有]

EvDistill: Asynchronous Events to End-task Learning via Bidirectional Reconstruction-guide d Cross-modal Knowledge Distillation ( http://arxiv.org/abs/2111.12341v1 )

ライセンス: CC BY 4.0
Lin Wang, Yujeong Chae, Sung-Hoon Yoon, Tae-Kyun Kim and Kuk-Jin Yoon(参考訳) イベントカメラは画素ごとの強度変化を感知し、ダイナミックレンジが高く、動きのぼやけが少ない非同期イベントストリームを生成する。 イベントベースのモデルをトレーニングするハードルは、大きな定性的ラベル付きデータがないことだ。 先行研究 エンドタスクの学習は、主にアクティブピクセルセンサ(aps)フレームから得られるラベル付きまたは擬似ラベル付きデータセットに依存しているが、このようなデータセットの品質は、標準画像に基づくデータセットに匹敵するものではない。 本稿では,大規模なラベル付き画像データ(ソースモダリティ)を学習した教師ネットワークから,知識蒸留(KD)を通して,未ラベルのイベントデータ(ターゲットモダリティ)の学生ネットワークを学習するための,‘textbf{EvDistill}’という新しいアプローチを提案する。 両モダリティを橋渡しする双方向モダリティ再構成 (BMR) モジュールを試作し, 両モダリティを橋渡しし, 両モダリティを同時に利用して知識を抽出し, 推論に余分な計算を行わないことを示す。 BMRは、エンドタスクとKD損失によってエンドツーエンドで改善される。 第2に,両方のモダリティの構造的類似性を活用し,その分布を一致させることで知識を適応させる。 さらに, 従来のKD法は一様であり, この問題には適用できないため, 親和性グラフKD損失を利用して蒸留量を増加させることを提案する。 セマンティックセグメンテーションとオブジェクト認識に関する広範な実験により、EvDistillは以前の作業とイベントとAPSフレームのみを用いたKDよりもはるかに優れた結果が得られることが示された。

Event cameras sense per-pixel intensity changes and produce asynchronous event streams with high dynamic range and less motion blur, showing advantages over conventional cameras. A hurdle of training event-based models is the lack of large qualitative labeled data. Prior works learning end-tasks mostly rely on labeled or pseudo-labeled datasets obtained from the active pixel sensor (APS) frames; however, such datasets' quality is far from rivaling those based on the canonical images. In this paper, we propose a novel approach, called \textbf{EvDistill}, to learn a student network on the unlabeled and unpaired event data (target modality) via knowledge distillation (KD) from a teacher network trained with large-scale, labeled image data (source modality). To enable KD across the unpaired modalities, we first propose a bidirectional modality reconstruction (BMR) module to bridge both modalities and simultaneously exploit them to distill knowledge via the crafted pairs, causing no extra computation in the inference. The BMR is improved by the end-tasks and KD losses in an end-to-end manner. Second, we leverage the structural similarities of both modalities and adapt the knowledge by matching their distributions. Moreover, as most prior feature KD methods are uni-modality and less applicable to our problem, we propose to leverage an affinity graph KD loss to boost the distillation. Our extensive experiments on semantic segmentation and object recognition demonstrate that EvDistill achieves significantly better results than the prior works and KD with only events and APS frames.
翻訳日:2021-11-25 20:23:17 公開日:2021-11-24
# (参考訳) MM-Pyramid:マルチモーダル・ピラミッド・アテンショナル・ネットワークによるイベント・ローカライゼーションとビデオ・パーシング [全文訳有]

MM-Pyramid: Multimodal Pyramid Attentional Network for Audio-Visual Event Localization and Video Parsing ( http://arxiv.org/abs/2111.12374v1 )

ライセンス: CC BY 4.0
Jiashuo Yu, Ying Cheng, Rui-Wei Zhao, Rui Feng, Yuejie Zhang(参考訳) ビデオ内のイベントの認識とローカライズは、ビデオ理解の基本的なタスクである。 イベントは聴覚的・視覚的モダリティで発生するため、シーンの完全な理解には多モードの詳細な認識が不可欠である。 これまでの作品の多くは、総合的な視点でビデオを分析しようとした。 しかし、複数のスケールで意味情報を考慮しないため、さまざまな長さのイベントのローカライズが困難になる。 本稿では,マルチモーダル・ピラミッド・アテンション・ネットワーク (mm-pyramid) を提案する。 具体的には,最初に注意機能ピラミッドモジュールを提案する。 このモジュールは、複数の積み重ねピラミッドユニットを介して時間ピラミッドの特徴を捉え、それぞれが固定サイズの注目ブロックと拡張された畳み込みブロックで構成されている。 また,ユニットレベルのアテンションブロックと選択的融合ブロックを利用してピラミッド機能を対話的に統合する適応型セマンティクス融合モジュールを設計した。 本手法の有効性を検証するために,視聴覚イベントローカライズと弱教師付き視聴覚ビデオ解析タスクの広範な実験を行った。

Recognizing and localizing events in videos is a fundamental task for video understanding. Since events may occur in auditory and visual modalities, multimodal detailed perception is essential for complete scene comprehension. Most previous works attempted to analyze videos from a holistic perspective. However, they do not consider semantic information at multiple scales, which makes the model difficult to localize events in various lengths. In this paper, we present a Multimodal Pyramid Attentional Network (MM-Pyramid) that captures and integrates multi-level temporal features for audio-visual event localization and audio-visual video parsing. Specifically, we first propose the attentive feature pyramid module. This module captures temporal pyramid features via several stacking pyramid units, each of them is composed of a fixed-size attention block and dilated convolution block. We also design an adaptive semantic fusion module, which leverages a unit-level attention block and a selective fusion block to integrate pyramid features interactively. Extensive experiments on audio-visual event localization and weakly-supervised audio-visual video parsing tasks verify the effectiveness of our approach.
翻訳日:2021-11-25 20:04:01 公開日:2021-11-24
# (参考訳) 自己監督型マルチキュータスクを用いた効率的な異常検出 [全文訳有]

Efficient Anomaly Detection Using Self-Supervised Multi-Cue Tasks ( http://arxiv.org/abs/2111.12379v1 )

ライセンス: CC BY 4.0
Loic Jezequel, Ngoc-Son Vu, Jean Beaudet, Aymeric Histace(参考訳) 深部異常検出はいくつかの分野で効率的で堅牢なアプローチであることが証明されている。 自己教師付き学習の導入は、単純な幾何学的変換認識タスクを使用する異常検出を含む多くの手法に大きく貢献している。 しかし、これらの手法は細かな特徴がなく、通常異常型に大きく依存するため、細かな問題ではうまく機能しない。 本稿では,プリテキストタスクを用いた自己教師付き異常検出の各ステップについて検討する。 まず,異なる視覚手がかりに着目した新しい判別タスクと生成タスクを紹介する。 分割ジグソーパズルタスクは構造キューに焦点を当て、各ピースにティント回転認識を用いて色測定を行い、部分的な再色処理を行う。 背景よりも対象物に着目した再色化タスクを実現するために,画像境界のコンテキストカラー情報を含めることを提案する。 次に,新たな分布検出関数を提案し,他の分布検出手法と比較してその安定性を強調する。 それと同時に、異なるスコア融合関数も実験します。 最後に,従来の物体認識による物体異常,微粒な分類によるスタイル異常,顔の反偽造データセットによる局所異常からなる包括的異常検出プロトコルについて検討した。 私たちのモデルは、これらの自己教師付きタスクを使って、より正確に識別的な特徴を学べます。 オブジェクト異常に対して最大36%のエラー改善、対スプーフィング問題では40%のエラー改善で最先端を上回っている。

Deep anomaly detection has proven to be an efficient and robust approach in several fields. The introduction of self-supervised learning has greatly helped many methods including anomaly detection where simple geometric transformation recognition tasks are used. However these methods do not perform well on fine-grained problems since they lack finer features and are usually highly dependent on the anomaly type. In this paper, we explore each step of self-supervised anomaly detection with pretext tasks. First, we introduce novel discriminative and generative tasks which focus on different visual cues. A piece-wise jigsaw puzzle task focuses on structure cues, while a tint rotation recognition is used on each piece for colorimetry and a partial re-colorization task is performed. In order for the re-colorization task to focus more on the object rather than on the background, we propose to include the contextual color information of the image border. Then, we present a new out-of-distribution detection function and highlight its better stability compared to other out-of-distribution detection methods. Along with it, we also experiment different score fusion functions. Finally, we evaluate our method on a comprehensive anomaly detection protocol composed of object anomalies with classical object recognition, style anomalies with fine-grained classification and local anomalies with face anti-spoofing datasets. Our model can more accurately learn highly discriminative features using these self-supervised tasks. It outperforms state-of-the-art with up to 36% relative error improvement on object anomalies and 40% on face anti-spoofing problems.
翻訳日:2021-11-25 19:46:07 公開日:2021-11-24
# (参考訳) 空間分割型RANSAC [全文訳有]

Space-Partitioning RANSAC ( http://arxiv.org/abs/2111.12385v1 )

ライセンス: CC BY 4.0
Daniel Barath, Gabor Valasek(参考訳) RANSACモデルの品質計算を高速化する新しいアルゴリズムを提案する。 この方法は、例えば2D-2D点対応などの関節対応空間を正規格子に分割することに基づいている。 グリッドセルはRANSAC内で推定される最小限のサンプルモデルによってマッピングされ、モデルパラメータと早期に矛盾する対応を拒否する。 提案手法は一般的である。 点が点集合、例えば、基本行列としてエピポーラ線に写像されたとしても、任意の変換で作用する。 この方法は、基本および本質行列、ホモグラフィおよび放射歪ホモグラフィ推定に関する公開データセットから、何千もの画像ペアでテストされる。 平均すると、RANSACの実行時間を41%削減するが、精度は確実に低下しない。 VSACのような最先端のRANSACフレームワークに簡単にプラグインできる。

A new algorithm is proposed to accelerate RANSAC model quality calculations. The method is based on partitioning the joint correspondence space, e.g., 2D-2D point correspondences, into a pair of regular grids. The grid cells are mapped by minimal sample models, estimated within RANSAC, to reject correspondences that are inconsistent with the model parameters early. The proposed technique is general. It works with arbitrary transformations even if a point is mapped to a point set, e.g., as a fundamental matrix maps to epipolar lines. The method is tested on thousands of image pairs from publicly available datasets on fundamental and essential matrix, homography and radially distorted homography estimation. On average, it reduces the RANSAC run-time by 41% with provably no deterioration in the accuracy. It can be straightforwardly plugged into state-of-the-art RANSAC frameworks, e.g. VSAC.
翻訳日:2021-11-25 19:18:08 公開日:2021-11-24
# (参考訳) トラックブーピングと合成データを用いたドローン検出 [全文訳有]

Track Boosting and Synthetic Data Aided Drone Detection ( http://arxiv.org/abs/2111.12389v1 )

ライセンス: CC BY 4.0
Fatih Cagatay Akyon, Ogulcan Eryuksel, Kamil Anil Ozfuttu, Sinan Onur Altinuc(参考訳) コストの低減とドローン技術の改善によってドローンの利用が増加すると、ドローン検出は重要な物体検出タスクとして現れる。 しかし、遠方のドローンを不利な条件、すなわち、弱いコントラスト、長距離、視界の低さで検出するには効果的なアルゴリズムが必要である。 提案手法は, リアルおよび合成データを用いてYOLOv5モデルを微調整し, 検出信頼性を高めることで, ドローン検出問題にアプローチする。 結果から,合成データの最適なサブセットによる実データの拡張は,性能の向上につながる可能性が示唆された。 さらに,オブジェクト追跡手法によって収集された時間的情報により,さらなる性能向上が期待できる。

As the usage of drones increases with lowered costs and improved drone technology, drone detection emerges as a vital object detection task. However, detecting distant drones under unfavorable conditions, namely weak contrast, long-range, low visibility, requires effective algorithms. Our method approaches the drone detection problem by fine-tuning a YOLOv5 model with real and synthetically generated data using a Kalman-based object tracker to boost detection confidence. Our results indicate that augmenting the real data with an optimal subset of synthetic data can increase the performance. Moreover, temporal information gathered by object tracking methods can increase performance further.
翻訳日:2021-11-25 18:58:19 公開日:2021-11-24
# (参考訳) NAM:正規化ベースのアテンションモジュール [全文訳有]

NAM: Normalization-based Attention Module ( http://arxiv.org/abs/2111.12419v1 )

ライセンス: CC BY 4.0
Yichao Liu, Zongru Shao, Yueyang Teng, Nico Hoffmann(参考訳) モデル圧縮の鍵は、より健全な特徴を認識することです。 しかし、革命的注意機構では研究されていない。 本研究では,より少ない塩分重みを抑制する新しい正規化型アテンションモジュール(nam)を提案する。 注意モジュールに重み空間のペナルティを適用するため、同様の性能を維持しながら計算効率が向上する。 Resnet と Mobilenet の他の3つの注意機構との比較により,提案手法の精度が向上したことを示す。 この論文のコードはhttps://github.com/C hristian-lyc/NAM.com で公開されている。

Recognizing less salient features is the key for model compression. However, it has not been investigated in the revolutionary attention mechanisms. In this work, we propose a novel normalization-based attention module (NAM), which suppresses less salient weights. It applies a weight sparsity penalty to the attention modules, thus, making them more computational efficient while retaining similar performance. A comparison with three other attention mechanisms on both Resnet and Mobilenet indicates that our method results in higher accuracy. Code for this paper can be publicly accessed at https://github.com/C hristian-lyc/NAM.
翻訳日:2021-11-25 18:51:05 公開日:2021-11-24
# (参考訳) クローズ質問によるエンティティ認識 [全文訳有]

Few-shot Named Entity Recognition with Cloze Questions ( http://arxiv.org/abs/2111.12421v1 )

ライセンス: CC BY 4.0
Valerio La Gatta, Vincenzo Moscato, Marco Postiglione, Giancarlo Sperl\`i(参考訳) 計算言語学の大規模かつ継続的な進歩にもかかわらず、名前付きエンティティ認識(ner)のための注釈付きデータの欠如は、特に低リソース言語や高品質のアノテーションにドメイン知識が必要な場合において、依然として困難な問題である。 NLPの最近の知見は、学習前段階で獲得した知識を言語モデルで活用する上で、クローゼスタイルの質問の有効性を示している。 本研究は,NERタスクをパターンで言い換えることが重要なアイデアである,クローゼクエスト機構と数ショット学習のための微調整を組み合わせた最近のアプローチである,PET(Pattern-Exploit ing Training)のシンプルで直感的な適応を提案する。 NCBI-disease, BC2GM, private Italian biomedical corpusの3つのベンチマークデータセットに対して,手動の注釈付きデータや遠隔監視に頼ることなく, 通常の微調整や同等あるいは改善された結果よりもはるかに優れた性能を実現する。

Despite the huge and continuous advances in computational linguistics, the lack of annotated data for Named Entity Recognition (NER) is still a challenging issue, especially in low-resource languages and when domain knowledge is required for high-quality annotations. Recent findings in NLP show the effectiveness of cloze-style questions in enabling language models to leverage the knowledge they acquired during the pre-training phase. In our work, we propose a simple and intuitive adaptation of Pattern-Exploiting Training (PET), a recent approach which combines the cloze-questions mechanism and fine-tuning for few-shot learning: the key idea is to rephrase the NER task with patterns. Our approach achieves considerably better performance than standard fine-tuning and comparable or improved results with respect to other few-shot baselines without relying on manually annotated data or distant supervision on three benchmark datasets: NCBI-disease, BC2GM and a private Italian biomedical corpus.
翻訳日:2021-11-25 18:47:05 公開日:2021-11-24
# (参考訳) 身体と顔のミニバッチ特徴スワップによる3次元形状可変オートエンコーダ潜入乱れ [全文訳有]

3D Shape Variational Autoencoder Latent Disentanglement via Mini-Batch Feature Swapping for Bodies and Faces ( http://arxiv.org/abs/2111.12448v1 )

ライセンス: CC BY 4.0
Simone Foti, Bongjin Koo, Danail Stoyanov, Matthew J. Clarkson(参考訳) 顔と体の3次元生成モデルにおける不連続、解釈、構造化された潜在表現の学習は、いまだに未解決の問題である。 アイデンティティ機能をコントロールする必要がある場合、問題は特に深刻である。 本稿では,3次元形状変化型オートエンコーダ(VAE)を訓練する直感的かつ効果的な自己教師型手法を提案する。 任意の特徴を異なる形状に置き換えることでミニバッチ生成を計算することで、潜在表現の既知の相違と類似性を利用した損失関数を定義することができる。 3dメッシュを用いた実験の結果,潜伏性乱れに対する最先端手法では顔と身体の同一性特徴を分離できないことがわかった。 提案手法は,優れた表現能力と復元能力を維持しつつ,これらの特徴を適切に分離する。

Learning a disentangled, interpretable, and structured latent representation in 3D generative models of faces and bodies is still an open problem. The problem is particularly acute when control over identity features is required. In this paper, we propose an intuitive yet effective self-supervised approach to train a 3D shape variational autoencoder (VAE) which encourages a disentangled latent representation of identity features. Curating the mini-batch generation by swapping arbitrary features across different shapes allows to define a loss function leveraging known differences and similarities in the latent representations. Experimental results conducted on 3D meshes show that state-of-the-art methods for latent disentanglement are not able to disentangle identity features of faces and bodies. Our proposed method properly decouples the generation of such features while maintaining good representation and reconstruction capabilities.
翻訳日:2021-11-25 18:39:03 公開日:2021-11-24
# (参考訳) 逐次的および宣言的パターンによるビジネスプロセス逸脱の探索

Exploring Business Process Deviance with Sequential and Declarative Patterns ( http://arxiv.org/abs/2111.12454v1 )

ライセンス: CC BY 4.0
Giacomo Bergami, Chiara Di Francescomarino, Chiara Ghidini, Fabrizio Maria Maggi, Joonas Puura(参考訳) ビジネスプロセスの逸脱(Business Process Deviance)とは、ビジネスプロセスの実行のサブセットが、期待される結果や望ましい結果に関して、否定的あるいは肯定的な方法で逸脱する現象を指す。 ビジネスプロセスのデファイアントな実行には、コンプライアンスルールに違反しているものや、パフォーマンス目標を過小評価または超過した実行が含まれる。 分散マイニングは、ビジネスプロセスの実行をサポートするシステムによって格納されたイベントログを分析して、デファイナント実行の理由を明らかにすることに関心がある。 本稿では、まず、逐次的・宣言的パターンに基づく特徴とそれらの組み合わせを用いて、ビジネスプロセスにおける逸脱を説明する問題を考察する。 さらに、純粋なデータ属性値とデータアウェア宣言ルールに基づいた機能を通じて、イベントログ内のイベントとトレースのデータ属性を活用することで、説明をさらに改善する。 逸脱を特徴付ける説明は、規則誘導の直接的および間接的方法によって抽出される。 複数のドメインからの実生活ログを使用することで、複数の機能タイプと異なる形式の決定ルールが、プロセスの非デビアント実行とデビアント実行とを正確に区別する能力と、ユーザに返される最終結果の理解可能性の観点から評価される。

Business process deviance refers to the phenomenon whereby a subset of the executions of a business process deviate, in a negative or positive way, with respect to {their} expected or desirable outcomes. Deviant executions of a business process include those that violate compliance rules, or executions that undershoot or exceed performance targets. Deviance mining is concerned with uncovering the reasons for deviant executions by analyzing event logs stored by the systems supporting the execution of a business process. In this paper, the problem of explaining deviations in business processes is first investigated by using features based on sequential and declarative patterns, and a combination of them. Then, the explanations are further improved by leveraging the data attributes of events and traces in event logs through features based on pure data attribute values and data-aware declarative rules. The explanations characterizing the deviances are then extracted by direct and indirect methods for rule induction. Using real-life logs from multiple domains, a range of feature types and different forms of decision rules are evaluated in terms of their ability to accurately discriminate between non-deviant and deviant executions of a process as well as in terms of understandability of the final outcome returned to the users.
翻訳日:2021-11-25 18:32:46 公開日:2021-11-24
# (参考訳) 薬物群別薬物反応分類のための疑似注釈データの選択 [全文訳有]

Selection of pseudo-annotated data for adverse drug reaction classification across drug groups ( http://arxiv.org/abs/2111.12477v1 )

ライセンス: CC BY 4.0
Ilseyar Alimova and Elena Tutubalina(参考訳) 有害薬物イベント(ades)または反応(adrs)の自動監視は現在、バイオメディカルコミュニティから注目されている。 近年,ソーシャルメディア上のユーザ生成データが,この課題の貴重な資料となっている。 ADR検出のための自動テキスト分類において、ニューラルネットワークは印象的な性能を達成した。 しかし,対象薬物に関するユーザ生成テキストを用いて,これらの手法の訓練と評価を行う。 本稿では,様々な薬物群にまたがる最先端のニューラルアーキテクチャの堅牢性を評価する。 本研究では,手動のアノテーション付き列車セットに加えて,擬似ラベルデータを使用するためのいくつかの戦略について検討する。 データセット外実験では、教師付きモデルのボトルネックを分解性能の観点から診断する一方で、擬似ラベルデータの追加は、テキスト選択戦略に関わらず全体の結果を改善する。

Automatic monitoring of adverse drug events (ADEs) or reactions (ADRs) is currently receiving significant attention from the biomedical community. In recent years, user-generated data on social media has become a valuable resource for this task. Neural models have achieved impressive performance on automatic text classification for ADR detection. Yet, training and evaluation of these methods are carried out on user-generated texts about a targeted drug. In this paper, we assess the robustness of state-of-the-art neural architectures across different drug groups. We investigate several strategies to use pseudo-labeled data in addition to a manually annotated train set. Out-of-dataset experiments diagnose the bottleneck of supervised models in terms of breakdown performance, while additional pseudo-labeled data improves overall results regardless of the text selection strategy.
翻訳日:2021-11-25 18:31:21 公開日:2021-11-24
# (参考訳) ドメインプライオリティを用いた因果規則化 [全文訳有]

Causal Regularization Using Domain Priors ( http://arxiv.org/abs/2111.12490v1 )

ライセンス: CC BY 4.0
Abbavaram Gowtham Reddy, Sai Srinivas Kancheti, Vineeth N Balasubramanian, Amit Sharma(参考訳) ニューラルネットワークはデータの因果関係と相関関係を利用して、分類精度などの所定の性能基準を最適化するモデルを学ぶ。 この結果、入力と出力の間の真の因果関係を必ずしも反映しない学習モデルが得られる。 トレーニング時に因果関係のドメインプライオリティが利用可能である場合、パフォーマンス基準の最適化を学んでも、ニューラルネットワークモデルがこれらの関係を因果として維持することが不可欠である。 本稿では,このような因果領域の優先順位をネットワークに取り入れ,直接的および全体的因果効果の両方をサポートする因果正規化手法を提案する。 このアプローチは、与えられた入力特徴の因果効果の単調性や公平な目的のために特定の影響を取り除くことを含む、因果優先の様々な種類の仕様に一般化できることを示す。 11個のベンチマークデータセットを用いた実験では,学習したニューラルネットワークモデルを規則化し,望ましい因果効果を維持するのに,この手法の有用性を示す。 ほとんどのデータセットでは、精度を損なうことなく、ドメイン優先の一貫性モデルを得ることができる。

Neural networks leverage both causal and correlation-based relationships in data to learn models that optimize a given performance criterion, such as classification accuracy. This results in learned models that may not necessarily reflect the true causal relationships between input and output. When domain priors of causal relationships are available at the time of training, it is essential that a neural network model maintains these relationships as causal, even as it learns to optimize the performance criterion. We propose a causal regularization method that can incorporate such causal domain priors into the network and which supports both direct and total causal effects. We show that this approach can generalize to various kinds of specifications of causal priors, including monotonicity of causal effect of a given input feature or removing a certain influence for purposes of fairness. Our experiments on eleven benchmark datasets show the usefulness of this approach in regularizing a learned neural network model to maintain desired causal effects. On most datasets, domain-prior consistent models can be obtained without compromising on accuracy.
翻訳日:2021-11-25 18:17:10 公開日:2021-11-24
# (参考訳) 病理組織像における核セグメンテーションに対するメタマスク補正 [全文訳有]

Meta Mask Correction for Nuclei Segmentation in Histopathological Image ( http://arxiv.org/abs/2111.12498v1 )

ライセンス: CC BY 4.0
Jiangbo Shi, Chang Jia, Zeyu Gao, Tieliang Gong, Chunbao Wang, Chen Li(参考訳) 核セグメンテーションはデジタル病理解析の基本的なタスクであり、深層学習に基づく手法で自動化することができる。 しかし、このような自動化手法の開発には、正確に注釈付けされたマスクを入手し難い大量のデータが必要である。 弱いラベル付きデータによるトレーニングは、アノテーションのワークロードを減らすための一般的なソリューションである。 本稿では,雑音マスクを用いたデータを活用するためにラベル補正パラダイムに従うメタラーニングに基づく新しい核セグメンテーション手法を提案する。 具体的には,ごく少量のクリーンなメタデータを用いてノイズマスクを修正可能な,従来のメタモデルの設計を行う。 そして、補正されたマスクを使用して、セグメンテーションモデルのトレーニングを監督することができる。 一方,主セグメンテーションモデルとメタモデルのパラメータをエンドツーエンドに交互に更新するバイレベル最適化手法が採用されている。 2つの核セグメンテーションデータセットの広範な実験結果から,本手法は最先端の結果が得られることが示された。 ノイズの多い設定で教師付きデータに対するモデルトレーニングと同等のパフォーマンスを実現しています。

Nuclei segmentation is a fundamental task in digital pathology analysis and can be automated by deep learning-based methods. However, the development of such an automated method requires a large amount of data with precisely annotated masks which is hard to obtain. Training with weakly labeled data is a popular solution for reducing the workload of annotation. In this paper, we propose a novel meta-learning-based nuclei segmentation method which follows the label correction paradigm to leverage data with noisy masks. Specifically, we design a fully conventional meta-model that can correct noisy masks using a small amount of clean meta-data. Then the corrected masks can be used to supervise the training of the segmentation model. Meanwhile, a bi-level optimization method is adopted to alternately update the parameters of the main segmentation model and the meta-model in an end-to-end way. Extensive experimental results on two nuclear segmentation datasets show that our method achieves the state-of-the-art result. It even achieves comparable performance with the model training on supervised data in some noisy settings.
翻訳日:2021-11-25 17:48:48 公開日:2021-11-24
# (参考訳) 微分可能な光学モデルを用いた望遠鏡のインストゥルメンタル応答のモデル化 [全文訳有]

Rethinking the modeling of the instrumental response of telescopes with a differentiable optical model ( http://arxiv.org/abs/2111.12541v1 )

ライセンス: CC BY 4.0
Tobias Liaudat and Jean-Luc Starck and Martin Kilbinger and Pierre-Antoine Frugier(参考訳) 望遠鏡の機器応答場のデータ駆動モデリングにおけるパラダイムシフトを提案する。 モデリングフレームワークに微分可能な光フォワードモデルを追加することにより、データ駆動モデリング空間をピクセルからウェーブフロントに変更する。 これにより、計器的な応答から前方モデルに大量の複雑さを移すことができ、観測結果に適応し、データ駆動に留まることができます。 私たちのフレームワークは、物理的にモチベーションがあり、解釈可能で、特別なキャリブレーションデータを必要としない強力なモデルを構築する方法を可能にします。 宇宙望遠鏡の簡易な設定では, 従来のデータ駆動方式と比較して, 再構成誤差が観測分解能で5倍, 3倍超分解能で10倍以上減少するのに対し, 実際の性能のブレークスルーを示す。 ノイズの多い広帯域インフォーカス観測のみを用いて,反応の色変化をモデル化した。

We propose a paradigm shift in the data-driven modeling of the instrumental response field of telescopes. By adding a differentiable optical forward model into the modeling framework, we change the data-driven modeling space from the pixels to the wavefront. This allows to transfer a great deal of complexity from the instrumental response into the forward model while being able to adapt to the observations, remaining data-driven. Our framework allows a way forward to building powerful models that are physically motivated, interpretable, and that do not require special calibration data. We show that for a simplified setting of a space telescope, this framework represents a real performance breakthrough compared to existing data-driven approaches with reconstruction errors decreasing 5 fold at observation resolution and more than 10 fold for a 3x super-resolution. We successfully model chromatic variations of the instrument's response only using noisy broad-band in-focus observations.
翻訳日:2021-11-25 17:40:30 公開日:2021-11-24
# (参考訳) lddmm meets gans:diffeomorphic registrationのための生成的逆ネットワーク [全文訳有]

LDDMM meets GANs: Generative Adversarial Networks for diffeomorphic registration ( http://arxiv.org/abs/2111.12544v1 )

ライセンス: CC BY 4.0
Ubaldo Ramon, Monica Hernandez, and Elvira Mayordomo(参考訳) 本研究の目的は、微分型登録のためのディープラーニング手法の現状に貢献することである。 本稿では,ジェネレーティブ・ディバイサル・ネットワークに基づく3次元モノモーダル画像対に対する逆学習 LDDMM 手法を提案する。 本手法は, 逆学習による変形可能な画像登録のための最近の文献に着想を得たものである。 我々は, LDDMMパラダイムにおける技術の現状から, 最高の生成的, 差別的, 敵対的な材料を組み合わせる。 我々は、微分同相の定常パラメータ化とEPDiff制約付き非定常パラメータ化の2つのモデルの実装に成功した。 我々の教師なしとデータハングリーのアプローチは、教師付きとリッチなデータアプローチに対する競争力を示している。 さらに,本手法は1秒未満の計算時間を持つモデルベース手法と類似した結果を示した。

The purpose of this work is to contribute to the state of the art of deep-learning methods for diffeomorphic registration. We propose an adversarial learning LDDMM method for pairs of 3D mono-modal images based on Generative Adversarial Networks. The method is inspired by the recent literature for deformable image registration with adversarial learning. We combine the best performing generative, discriminative, and adversarial ingredients from the state of the art within the LDDMM paradigm. We have successfully implemented two models with the stationary and the EPDiff-constrained non-stationary parameterizations of diffeomorphisms. Our unsupervised and data-hungry approach has shown a competitive performance with respect to a benchmark supervised and rich-data approach. In addition, our method has shown similar results to model-based methods with a computational time under one second.
翻訳日:2021-11-25 17:28:13 公開日:2021-11-24
# (参考訳) ganに基づく局所画像編集のための潜在空間方向の最適化 [全文訳有]

Optimizing Latent Space Directions For GAN-based Local Image Editing ( http://arxiv.org/abs/2111.12583v1 )

ライセンス: CC BY-SA 4.0
Ehsan Pajouheshgar, Tong Zhang, Sabine S\"usstrunk(参考訳) Generative Adversarial Network (GAN) ベースの局所画像編集は、意味的属性間のあいまいさを損なう可能性がある。 そこで本稿では,画像編集の局所性を評価するための新しい目的関数を提案する。 トレーニング済みセグメンテーションネットワークから監視を導入し、目的関数を最適化することにより、我々のフレームワークであるLocally Effective Latent Space Direction (LELSD)は、任意のデータセットやGANアーキテクチャに適用できる。 本手法は計算速度も高く,画像上の編集のシーケンスを対話的に実行可能にするため,高い不連続性を示す。 GAN生成画像と実画像の両方に対する実験により,提案手法の質と利点を質的に実証した。

Generative Adversarial Network (GAN) based localized image editing can suffer ambiguity between semantic attributes. We thus present a novel objective function to evaluate the locality of an image edit. By introducing the supervision from a pre-trained segmentation network and optimizing the objective function, our framework, called Locally Effective Latent Space Direction (LELSD), is applicable to any dataset and GAN architecture. Our method is also computationally fast and exhibits a high extent of disentanglement, which allows users to interactively perform a sequence of edits on an image. Our experiments on both GAN-generated and real images qualitatively demonstrate the high quality and advantages of our method.
翻訳日:2021-11-25 17:17:32 公開日:2021-11-24
# (参考訳) 音楽情報ダイナミクスを用いたクロスカルチャー分析に向けて [全文訳有]

Towards Cross-Cultural Analysis using Music Information Dynamics ( http://arxiv.org/abs/2111.12588v1 )

ライセンス: CC BY 4.0
Shlomo Dubnov, Kevin Huang and Cheng-i Wang(参考訳) 楽曲は、ソニックなイベントからメロディまで、繰り返しやバリエーションの形で階層的に、順次、階層的に解釈される。 異なる文化の音楽は、これら2つの側面に異なるスタイル慣習を持つことによって、異なる美学を確立します。 本稿では,これら2つの側面に着目し,異なる文化の楽曲を定量的に比較する枠組みを提案する。 このフレームワークは、可変マルコフOracle(VMO)である音楽情報ダイナミクスモデルに基づいており、オーディオの変分表現学習によって拡張されている。 変分オートエンコーダ(VAE)は、音声断片を潜在表現にマッピングするために訓練される。 潜在表現はVMOに入力される。 VMOは、量子化された潜在表現シーケンスの情報レートを最大化する閾値を介して潜在表現のクラスタリングを学習する。 この閾値は音響変化に対する予測ステップの感度を効果的に制御し、より長い時間スケールで繰り返しを追跡するフレームワークの能力を決定する。 このアプローチは、音響感受性のレベルごとに音楽信号の全体的情報内容のキャラクタリゼーションを可能にする。 この枠組みの下での知見は,東アジア音楽の伝統において微妙な音響変化に対する感受性は高く,西欧の作品は潜在空間の差のより高い閾値でより長いモチーフ構造を示すことを示している。 このことは,音響的詳細度の関数として分析された情報内容のプロファイルが,文化的特徴として考えられることを示唆している。

A music piece is both comprehended hierarchically, from sonic events to melodies, and sequentially, in the form of repetition and variation. Music from different cultures establish different aesthetics by having different style conventions on these two aspects. We propose a framework that could be used to quantitatively compare music from different cultures by looking at these two aspects. The framework is based on an Music Information Dynamics model, a Variable Markov Oracle (VMO), and is extended with a variational representation learning of audio. A variational autoencoder (VAE) is trained to map audio fragments into a latent representation. The latent representation is fed into a VMO. The VMO then learns a clustering of the latent representation via a threshold that maximizes the information rate of the quantized latent representation sequence. This threshold effectively controls the sensibility of the predictive step to acoustic changes, which determines the framework's ability to track repetitions on longer time scales. This approach allows characterization of the overall information contents of a musical signal at each level of acoustic sensibility. Our findings under this framework show that sensibility to subtle acoustic changes is higher for East-Asian musical traditions, while the Western works exhibit longer motivic structures at higher thresholds of differences in the latent space. This suggests that a profile of information contents, analyzed as a function of the level of acoustic detail can serve as a possible cultural characteristic.
翻訳日:2021-11-25 17:09:28 公開日:2021-11-24
# (参考訳) Cerberus Transformer:ジョイントセマンティック、アフォーマンス、属性解析 [全文訳有]

Cerberus Transformer: Joint Semantic, Affordance and Attribute Parsing ( http://arxiv.org/abs/2111.12608v1 )

ライセンス: CC BY 4.0
Xiaoxue Chen, Tianyu Liu, Hao Zhao, Guyue Zhou, Ya-Qin Zhang(参考訳) 異なるタスクの親和性がパフォーマンスの向上につながる可能性があるため、マルチタスクの屋内シーン理解は興味深い定式化と見なされている。 本稿では, 共同意味論, 余裕度, 属性解析の新たな課題に取り組む。 しかし、うまく解決するには、長距離依存関係をキャプチャし、弱いアライメントデータから学び、トレーニング中にサブタスクを適切にバランスさせるモデルが必要となる。 この目的のために,cerberusと呼ばれる注意に基づくアーキテクチャと,トレーニングフレームワークを提案する。 本手法は,上記の課題を効果的に解決し,3つのタスクすべてにおいて最先端のパフォーマンスを実現する。 さらに、深い分析により、人間の認知と一致する概念親和性が示され、弱い教師付き学習の可能性を探ることを促す。 驚くべきことに、Cerberus は 0.1%-1% のアノテーションで強い結果を得る。 可視化により、この成功はタスク間での共通注意マップの功績が証明される。 コードとモデルはhttps://github.com/O PEN-AIR-SUN/Cerberus .comでアクセスできる。

Multi-task indoor scene understanding is widely considered as an intriguing formulation, as the affinity of different tasks may lead to improved performance. In this paper, we tackle the new problem of joint semantic, affordance and attribute parsing. However, successfully resolving it requires a model to capture long-range dependency, learn from weakly aligned data and properly balance sub-tasks during training. To this end, we propose an attention-based architecture named Cerberus and a tailored training framework. Our method effectively addresses the aforementioned challenges and achieves state-of-the-art performance on all three tasks. Moreover, an in-depth analysis shows concept affinity consistent with human cognition, which inspires us to explore the possibility of weakly supervised learning. Surprisingly, Cerberus achieves strong results using only 0.1%-1% annotation. Visualizations further confirm that this success is credited to common attention maps across tasks. Code and models can be accessed at https://github.com/O PEN-AIR-SUN/Cerberus .
翻訳日:2021-11-25 16:57:29 公開日:2021-11-24
# (参考訳) EgoRenderer:Egocentr icカメラ画像から人間のアバターをレンダリング [全文訳有]

EgoRenderer: Rendering Human Avatars from Egocentric Camera Images ( http://arxiv.org/abs/2111.12685v1 )

ライセンス: CC BY 4.0
Tao Hu, Kripasindhu Sarkar, Lingjie Liu, Matthias Zwicker, Christian Theobalt(参考訳) 本稿では、ウェアラブル・魚眼カメラを装着した人の全身神経アバターを、キャップやvrヘッドセットに装着してレンダリングするシステムであるegorendererを提案する。 本システムでは,任意の仮想カメラ位置からのアクターとその動きを,フォトリアリスティックに表現する。 このようなエゴセントリックなイメージから全身アバターをレンダリングすることは、トップダウンビューと大きな歪みのため、ユニークな課題を伴う。 レンダリング処理をテクスチャ合成,ポーズ構築,ニューラルイメージ変換など,いくつかのステップに分解することで,これらの課題に対処する。 テクスチャ合成のために,入力魚眼画像と基礎となるパラメトリックボディモデルとの密接な対応を推論するニューラルネットワークであるEgo-DPNetを提案し,エゴセントリック入力からテクスチャを抽出する。 さらに,動的な外観をエンコードするために,ポーズや視点の詳細な外観変化をキャプチャする暗黙的なテクスチャスタックも学習する。 適切なポーズ生成のために,まず物体の姿勢をパラメータモデルを用いてエゴセントリックな視点から推定する。 次に、パラメトリックモデルをユーザ特定対象視点に投影することにより、外部自由視点ポーズ画像を合成する。 次に、ターゲットポーズ画像とテクスチャを合成特徴画像に組み合わせ、ニューラルイメージ変換ネットワークを用いて出力色画像に変換する。 実験的評価により、エゴレンダーはエゴセントリックカメラを装着した人のリアルな自由視点アバターを生成できることが示されている。 いくつかのベースラインとの比較は、我々のアプローチの利点を示している。

We present EgoRenderer, a system for rendering full-body neural avatars of a person captured by a wearable, egocentric fisheye camera that is mounted on a cap or a VR headset. Our system renders photorealistic novel views of the actor and her motion from arbitrary virtual camera locations. Rendering full-body avatars from such egocentric images come with unique challenges due to the top-down view and large distortions. We tackle these challenges by decomposing the rendering process into several steps, including texture synthesis, pose construction, and neural image translation. For texture synthesis, we propose Ego-DPNet, a neural network that infers dense correspondences between the input fisheye images and an underlying parametric body model, and to extract textures from egocentric inputs. In addition, to encode dynamic appearances, our approach also learns an implicit texture stack that captures detailed appearance variation across poses and viewpoints. For correct pose generation, we first estimate body pose from the egocentric view using a parametric model. We then synthesize an external free-viewpoint pose image by projecting the parametric model to the user-specified target viewpoint. We next combine the target pose image and the textures into a combined feature image, which is transformed into the output color image using a neural image translation network. Experimental evaluations show that EgoRenderer is capable of generating realistic free-viewpoint avatars of a person wearing an egocentric camera. Comparisons to several baselines demonstrate the advantages of our approach.
翻訳日:2021-11-25 16:43:23 公開日:2021-11-24
# (参考訳) リアルタイムビデオスーパーリゾリューションにおけるトレードオフ調査

Investigating Tradeoffs in Real-World Video Super-Resolution ( http://arxiv.org/abs/2111.12704v1 )

ライセンス: CC BY 4.0
Kelvin C.K. Chan, Shangchen Zhou, Xiangyu Xu, Chen Change Loy(参考訳) 実世界のビデオ超解像(VSR)における劣化の多様性と複雑さは、推論とトレーニングにおいて非自明な課題をもたらす。 第一に, 長期伝搬は軽度劣化の場合には性能が向上するが, 重度劣化は伝播によって誇張され, 出力品質を損なう可能性がある。 ディテール合成とアーティファクト抑制のトレードオフのバランスをとるために,伝搬前にノイズやアーティファクトを減らすために,クリーニング前の画像が不可欠であることを見出した。 私たちのRealBasicVSRは、慎重に設計されたクリーニングモジュールを備えており、品質と効率の両方で既存の手法より優れています。 第二に、現実のVSRモデルは一般化性を改善するために様々な劣化で訓練され、安定した勾配を生み出すためにバッチサイズを増やす必要がある。 必然的に計算負荷の増加は、様々な問題を引き起こす。 1)スピードパフォーマンストレードオフと 2) バッチ長トレードオフ。 最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる確率分解方式を提案する。 次に,異なるトレーニング設定を分析し,トレーニング中により大きなバッチではなく長いシーケンスを使用することで,時間的情報のより効果的な利用が可能となり,推論時のパフォーマンスが向上することを示す。 そこで本研究では,多様なテクスチャやパターンを含む多種多様な低品質映像系列を含むビデオLQデータセットを提案する。 私たちのデータセットは、ベンチマークの共通基盤として機能します。 コード、モデル、データセットは公開される予定だ。

The diversity and complexity of degradations in real-world video super-resolution (VSR) pose non-trivial challenges in inference and training. First, while long-term propagation leads to improved performance in cases of mild degradations, severe in-the-wild degradations could be exaggerated through propagation, impairing output quality. To balance the tradeoff between detail synthesis and artifact suppression, we found an image pre-cleaning stage indispensable to reduce noises and artifacts prior to propagation. Equipped with a carefully designed cleaning module, our RealBasicVSR outperforms existing methods in both quality and efficiency. Second, real-world VSR models are often trained with diverse degradations to improve generalizability, requiring increased batch size to produce a stable gradient. Inevitably, the increased computational burden results in various problems, including 1) speed-performance tradeoff and 2) batch-length tradeoff. To alleviate the first tradeoff, we propose a stochastic degradation scheme that reduces up to 40\% of training time without sacrificing performance. We then analyze different training settings and suggest that employing longer sequences rather than larger batches during training allows more effective uses of temporal information, leading to more stable performance during inference. To facilitate fair comparisons, we propose the new VideoLQ dataset, which contains a large variety of real-world low-quality video sequences containing rich textures and patterns. Our dataset can serve as a common ground for benchmarking. Code, models, and the dataset will be made publicly available.
翻訳日:2021-11-25 16:26:58 公開日:2021-11-24
# 宇宙対人訓練

Subspace Adversarial Training ( http://arxiv.org/abs/2111.12229v1 )

ライセンス: Link先を確認
Tao Li, Yingwen Wu, Sizhe Chen, Kun Fang, Xiaolin Huang(参考訳) 単段階対人訓練(AT)は、効率的かつ堅牢であることが証明されたため、広く注目を集めている。 しかし、破壊的な過剰フィッティングの深刻な問題は存在し、即ち、訓練中に投影勾配降下(pgd)攻撃に対するロバストな精度が突然$0\%$に低下する。 本稿では,この問題を最適化の新しい視点から理解し,まず各試料の高速成長勾配とオーバーフィッティングとの密接な関係を明らかにし,マルチステップatにおけるロバストオーバーフィッティング現象の理解にも応用する。 学習中の勾配の増大を制御するために, 注意深く抽出された部分空間内のatを制約する新しいat法であるsubspace adversarial training (sub-at)を提案する。 2種類のオーバーフィッティングをうまく解決し、その結果、ロバスト性を大幅に向上させる。 サブスペースでは、より大きなステップと大きな半径を持つシングルステップATが許容され、ロバスト性性能がさらに向上する。 その結果、我々の純粋なシングルステップATは、CIFAR-10 上で 8/255$ の強い PGD-50 攻撃に対して$\mathbf{51}\%$の堅牢な精度を達成でき、計算上の優位性で標準の PGD-10 AT を越えさえできる。 コードは$\footnote{\url{https://github.com/n blt/sub-at}}$である。

Single-step adversarial training (AT) has received wide attention as it proved to be both efficient and robust. However, a serious problem of catastrophic overfitting exists, i.e., the robust accuracy against projected gradient descent (PGD) attack suddenly drops to $0\%$ during the training. In this paper, we understand this problem from a novel perspective of optimization and firstly reveal the close link between the fast-growing gradient of each sample and overfitting, which can also be applied to understand the robust overfitting phenomenon in multi-step AT. To control the growth of the gradient during the training, we propose a new AT method, subspace adversarial training (Sub-AT), which constrains the AT in a carefully extracted subspace. It successfully resolves both two kinds of overfitting and hence significantly boosts the robustness. In subspace, we also allow single-step AT with larger steps and larger radius, which further improves the robustness performance. As a result, we achieve the state-of-the-art single-step AT performance: our pure single-step AT can reach over $\mathbf{51}\%$ robust accuracy against strong PGD-50 attack with radius $8/255$ on CIFAR-10, even surpassing the standard multi-step PGD-10 AT with huge computational advantages. The code is released$\footnote{\url{https://github.com/n blt/Sub-AT}}$.
翻訳日:2021-11-25 16:18:45 公開日:2021-11-24
# EH-DNAS: ハードウェアを意識した識別可能なニューラルネットワーク探索

EH-DNAS: End-to-End Hardware-aware Differentiable Neural Architecture Search ( http://arxiv.org/abs/2111.12299v1 )

ライセンス: Link先を確認
Qian Jiang, Xiaofan Zhang, Deming Chen, Minh N. Do, Raymond A. Yeh(参考訳) ハードウェア対応の微分可能なニューラルネットワークサーチ(DNAS)では、ハードウェアメトリクスの勾配を計算してアーキテクチャ検索を行うのが困難である。 既存の作業は、カスタマイズされたハードウェアアクセラレータのサポートが限定された線形近似に依存している。 本研究では,エッジGPU,エッジTPU,モバイルCPU,カスタマイズされたアクセラレータなど,さまざまなプラットフォーム上でハードウェア効率のよいディープニューラルネットワークを実現するために,エンドツーエンドハードウェアベンチマークのシームレスな統合と完全自動DNASを提案する。 所望のハードウェアプラットフォームを前提として,DNASのためのニューラルネットワークアーキテクチャのエンドツーエンドハードウェア性能を予測可能なモデルを学習することを提案する。 E2E-Perfは、カスタマイズされたアクセラレーターのためのエンドツーエンドのハードウェアベンチマークツールである。 CIFAR10 と ImageNet の実験では、EH-DNAS がハードウェアの性能を平均1.4\times$、既存のハードウェアプロセッサで1.6\times$で改善し、分類精度を維持している。

In hardware-aware Differentiable Neural Architecture Search (DNAS), it is challenging to compute gradients of hardware metrics to perform architecture search. Existing works rely on linear approximations with limited support to customized hardware accelerators. In this work, we propose End-to-end Hardware-aware DNAS (EH-DNAS), a seamless integration of end-to-end hardware benchmarking, and fully automated DNAS to deliver hardware-efficient deep neural networks on various platforms, including Edge GPUs, Edge TPUs, Mobile CPUs, and customized accelerators. Given a desired hardware platform, we propose to learn a differentiable model predicting the end-to-end hardware performance of neural network architectures for DNAS. We also introduce E2E-Perf, an end-to-end hardware benchmarking tool for customized accelerators. Experiments on CIFAR10 and ImageNet show that EH-DNAS improves the hardware performance by an average of $1.4\times$ on customized accelerators and $1.6\times$ on existing hardware processors while maintaining the classification accuracy.
翻訳日:2021-11-25 16:18:17 公開日:2021-11-24
# 適応デノイジングのための教師付きニューラルネットワーク離散ユニバーサルデノイザー

Supervised Neural Discrete Universal Denoiser for Adaptive Denoising ( http://arxiv.org/abs/2111.12350v1 )

ライセンス: Link先を確認
Sungmin Cha, Seonwoo Min, Sungroh Yoon, and Taesup Moon(参考訳) 我々は,ニューラルネットワークに基づく適応型離散記述器であるNeural DUDEを,教師付き学習フレームワークと組み合わせて改良した。 すなわち,ニューラルデューデの教師付き事前学習を,与えられた雑音データに基づいてパラメータの適応的微調整と整合させる。 その結果,ランダム初期化パラメータを用いた適応的微調整ステップのみを実行するバニラニューラルバイドと比較して,大きなデノージング性能向上を達成できた。 さらに,適応的な微調整により,雑音のミスマッチや盲目的に訓練された教師付きモデルでも,マッチングモデルの性能を達成できることを示す。 さらに、我々は、Neural DUDEをよりスケーラブルにし、多次元データやより大きいアルファベットサイズのデータを扱うアルゴリズムの進歩をいくつか行っている。 我々は2つの非常に多様なデータセット、バイナリ画像とDNA配列について、体系的に改善を示す。

We improve the recently developed Neural DUDE, a neural network-based adaptive discrete denoiser, by combining it with the supervised learning framework. Namely, we make the supervised pre-training of Neural DUDE compatible with the adaptive fine-tuning of the parameters based on the given noisy data subject to denoising. As a result, we achieve a significant denoising performance boost compared to the vanilla Neural DUDE, which only carries out the adaptive fine-tuning step with randomly initialized parameters. Moreover, we show the adaptive fine-tuning makes the algorithm robust such that a noise-mismatched or blindly trained supervised model can still achieve the performance of that of the matched model. Furthermore, we make a few algorithmic advancements to make Neural DUDE more scalable and deal with multi-dimensional data or data with larger alphabet size. We systematically show our improvements on two very diverse datasets, binary images and DNA sequences.
翻訳日:2021-11-25 16:17:56 公開日:2021-11-24
# 強化学習におけるRetracingによる状態表現の学習

Learning State Representations via Retracing in Reinforcement Learning ( http://arxiv.org/abs/2111.12600v1 )

ライセンス: Link先を確認
Changmin Yu, Dong Li, Jianye Hao, Jun Wang, Neil Burgess(参考訳) 強化学習タスクのための状態表現(および関連するダイナミクスモデル)を学習するための新しい自己教師ありアプローチであるretracingによる学習を提案する。 予測(再構築)による前方方向の監督に加えて,元の状態と再追跡状態のサイクルコンシスタンス制約を強制することにより,表現/モデル学習のための"retraced"遷移を含むことにより,学習のサンプル効率を向上させることを提案する。 さらに,リトラシングによる学習は,過去の状態を推測する上で,将来的な変化に関する情報を後方に伝播させることで,表現学習の促進を図っている。 我々は、既存のモデルに基づく強化学習フレームワークで実装されたretracingによる学習の具体的インスタンス化であるcycle-consistency world model (ccwm)を紹介する。 また,「不可逆的」遷移による負の影響に対処する適応的「乱れ」機構を新たに提案し,リトラクションによる学習が最大限に有効であることを示す。 連続制御ベンチマークに関する広範な実証研究を通じて、CCWMはサンプル効率と漸近性能の点で最先端の性能を達成することを示した。

We propose learning via retracing, a novel self-supervised approach for learning the state representation (and the associated dynamics model) for reinforcement learning tasks. In addition to the predictive (reconstruction) supervision in the forward direction, we propose to include `"retraced" transitions for representation/model learning, by enforcing the cycle-consistency constraint between the original and retraced states, hence improve upon the sample efficiency of learning. Moreover, learning via retracing explicitly propagates information about future transitions backward for inferring previous states, thus facilitates stronger representation learning. We introduce Cycle-Consistency World Model (CCWM), a concrete instantiation of learning via retracing implemented under existing model-based reinforcement learning framework. Additionally we propose a novel adaptive "truncation" mechanism for counteracting the negative impacts brought by the "irreversible" transitions such that learning via retracing can be maximally effective. Through extensive empirical studies on continuous control benchmarks, we demonstrates that CCWM achieves state-of-the-art performance in terms of sample efficiency and asymptotic performance.
翻訳日:2021-11-25 16:17:44 公開日:2021-11-24
# 動的データプルーニングによるディープラーニングの高速化

Accelerating Deep Learning with Dynamic Data Pruning ( http://arxiv.org/abs/2111.12621v1 )

ライセンス: Link先を確認
Ravi S Raju, Kyle Daruwalla, Mikko Lipasti(参考訳) ディープラーニングの成功は、大量のデータに過小評価された大規模モデルのトレーニングに起因している。 この傾向が続くにつれて、モデルトレーニングは違法にコストがかかり、最先端のネットワークをトレーニングするために強力なコンピューティングシステムにアクセスする必要がある。 プルーニングや量子化といった様々なモデル圧縮技術を通じて、トレーニングのイテレーション当たりのコストに対処する研究が数多く行われている。 イテレーションの数をターゲットにした作業は少ない。 忘れスコアやGraNd/EL2Nスコアといったこれまでの作業は、完全なデータセット内で重要なサンプルを特定し、残りのサンプルを刈り取ることでこの問題に対処する。 これらの手法はトレーニング時間を短縮するが、トレーニング前に高価な静的スコアリングアルゴリズムを使用する。 スコアリング機構を考慮に入れると、総実行時間が増加することが多い。 本稿では,この欠点を動的データプルーニングアルゴリズムで解決する。 驚くべきことに、均一なランダムなダイナミックプルーニングは、アグレッシブプルーニングレートで以前の作業より優れている。 これを"時々"サンプルの存在になぞらえます -- 学習した決定境界において重要なポイントは、トレーニング時間の一部に過ぎません。 サンプルの微妙さをよりよく活用するために、強化学習技術に基づく2つのアルゴリズムを提案し、ランダムな動的手法よりも高い精度でサンプルを動的にプーンする。 我々は,全データセットベースラインとCIFAR-10とCIFAR-100の事前作業に対して,すべての手法をテストし,トレーニング時間を最大2倍に短縮する。 以上の結果から,データのプルーニングは,データセットのみに基づく静的なステップではなく,モデルのトレーニング軌道と密接に結びついている動的プロセスとして理解されるべきである。

Deep learning's success has been attributed to the training of large, overparameterized models on massive amounts of data. As this trend continues, model training has become prohibitively costly, requiring access to powerful computing systems to train state-of-the-art networks. A large body of research has been devoted to addressing the cost per iteration of training through various model compression techniques like pruning and quantization. Less effort has been spent targeting the number of iterations. Previous work, such as forget scores and GraNd/EL2N scores, address this problem by identifying important samples within a full dataset and pruning the remaining samples, thereby reducing the iterations per epoch. Though these methods decrease the training time, they use expensive static scoring algorithms prior to training. When accounting for the scoring mechanism, the total run time is often increased. In this work, we address this shortcoming with dynamic data pruning algorithms. Surprisingly, we find that uniform random dynamic pruning can outperform the prior work at aggressive pruning rates. We attribute this to the existence of "sometimes" samples -- points that are important to the learned decision boundary only some of the training time. To better exploit the subtlety of sometimes samples, we propose two algorithms, based on reinforcement learning techniques, to dynamically prune samples and achieve even higher accuracy than the random dynamic method. We test all our methods against a full-dataset baseline and the prior work on CIFAR-10 and CIFAR-100, and we can reduce the training time by up to 2x without significant performance loss. Our results suggest that data pruning should be understood as a dynamic process that is closely tied to a model's training trajectory, instead of a static step based solely on the dataset alone.
翻訳日:2021-11-25 16:16:15 公開日:2021-11-24
# 分布線形確率近似に対する有限時間誤差境界

Finite-Time Error Bounds for Distributed Linear Stochastic Approximation ( http://arxiv.org/abs/2111.12665v1 )

ライセンス: Link先を確認
Yixuan Lin, Vijay Gupta, Ji Liu(参考訳) 本稿では,マルコフ雑音と一般コンセンサス型相互作用によって駆動される新しいマルチエージェント線形確率近似アルゴリズムについて考察する。 エージェント間の相互接続構造を時間変化有向グラフにより記述する。 エージェント間の相互接続を2つの確率行列(少なくとも予想において)で記述する場合、コンセンサスに基づく確率近似アルゴリズムの収束が研究されているが、相互接続行列が単に確率行列である場合についてはあまり知られていない。 関連する相互作用行列が確率的である任意の一様連結グラフ列に対して、この論文は、関連する常微分方程式の特異平衡点からのアルゴリズムの出力の偏差として定義される平均二乗誤差上の有限時間境界を導出する。 相互結合行列が確率的である場合、平衡点は、通信がない場合、すべてのエージェントの局所平衡の任意の非特定凸結合となる。 時間的に異なるステップサイズを持つ場合も考慮される。 In the case when the convex combination is required to be a straight average and interaction between any pair of neighboring agents may be uni-directional, so that doubly stochastic matrices cannot be implemented in a distributed manner, the paper proposes a push-sum-type distributed stochastic approximation algorithm and provides its finite-time bound for the time-varying step-size case by leveraging the analysis for the consensus-type algorithm with stochastic matrices and developing novel properties of the push-sum algorithm.

This paper considers a novel multi-agent linear stochastic approximation algorithm driven by Markovian noise and general consensus-type interaction, in which each agent evolves according to its local stochastic approximation process which depends on the information from its neighbors. The interconnection structure among the agents is described by a time-varying directed graph. While the convergence of consensus-based stochastic approximation algorithms when the interconnection among the agents is described by doubly stochastic matrices (at least in expectation) has been studied, less is known about the case when the interconnection matrix is simply stochastic. For any uniformly strongly connected graph sequences whose associated interaction matrices are stochastic, the paper derives finite-time bounds on the mean-square error, defined as the deviation of the output of the algorithm from the unique equilibrium point of the associated ordinary differential equation. For the case of interconnection matrices being stochastic, the equilibrium point can be any unspecified convex combination of the local equilibria of all the agents in the absence of communication. Both the cases with constant and time-varying step-sizes are considered. In the case when the convex combination is required to be a straight average and interaction between any pair of neighboring agents may be uni-directional, so that doubly stochastic matrices cannot be implemented in a distributed manner, the paper proposes a push-sum-type distributed stochastic approximation algorithm and provides its finite-time bound for the time-varying step-size case by leveraging the analysis for the consensus-type algorithm with stochastic matrices and developing novel properties of the push-sum algorithm.
翻訳日:2021-11-25 16:15:45 公開日:2021-11-24
# 協調フィルタリング強化のためのジャカードと数値手法の併用:現状と今後の課題

Combinations of Jaccard with Numerical Measures for Collaborative Filtering Enhancement: Current Work and Future Proposal ( http://arxiv.org/abs/2111.12202v1 )

ライセンス: Link先を確認
Ali A. Amer and Loc Nguyen(参考訳) 協調フィルタリング(CF)はリコメンデーションシステムにとって重要なアプローチであり、オンラインベースの商業システムにおいて、私たちの生活の多くの側面で広く利用されている。 cfで一般的なアルゴリズムはk-nearest neighbors(knn)アルゴリズムであり、類似度尺度を用いてユーザの最寄りの近傍を判断し、相対的なユーザ/itemペア間の依存性度を定量化する。 したがって、cfアプローチは類似度尺度に敏感であるだけでなく、その尺度の選択に完全に依存している。 ヤカルドはCFタスクによく使われる類似度尺度の一つであり、レーティングの存在を懸念する一方で、コサインやピアソンのような数値的な尺度は評価の規模を懸念している。 特にジャカードは支配的な尺度ではないが、あらゆる尺度を改善する重要な要因であることが証明されている。 そこで本研究では, cf の最も効果的な類似度尺度を求めるための継続的な取り組みとして, jaccard といくつかの数値尺度を組み合わせることにより, 新たな類似度尺度を提案することに焦点を当てた。 この組み合わせは存在と規模の両方の利点を生かすことになる。 また,Movie-lensデータセットを用いた実験結果から,検討した評価指標を総合的に比較した。

Collaborative filtering (CF) is an important approach for recommendation system which is widely used in a great number of aspects of our life, heavily in the online-based commercial systems. One popular algorithms in CF is the K-nearest neighbors (KNN) algorithm, in which the similarity measures are used to determine nearest neighbors of a user, and thus to quantify the dependency degree between the relative user/item pair. Consequently, CF approach is not just sensitive to the similarity measure, yet it is completely contingent on selection of that measure. While Jaccard - as one of those commonly used similarity measures for CF tasks - concerns the existence of ratings, other numerical measures such as cosine and Pearson concern the magnitude of ratings. Particularly speaking, Jaccard is not a dominant measure, but it is long proven to be an important factor to improve any measure. Therefore, in our continuous efforts to find the most effective similarity measures for CF, this research focuses on proposing new similarity measure via combining Jaccard with several numerical measures. The combined measures would take the advantages of both existence and magnitude. Experimental results on, Movie-lens dataset, showed that the combined measures are preeminent outperforming all single measures over the considered evaluation metrics.
翻訳日:2021-11-25 16:15:00 公開日:2021-11-24
# 柔軟なパターン発見と分析

Flexible Pattern Discovery and Analysis ( http://arxiv.org/abs/2111.12218v1 )

ライセンス: Link先を確認
Chien-Ming Chen, Lili Chen, and Wensheng Gan(参考訳) 近年,データマイニング分野における支援取引における効用率の分析により,HUOPM (High utility-occupancy pattern mining) が注目されている。 高ユーティリティパターンマイニング(HUPM)とは異なり、HUOPMは既存のトランザクションの集合を表すパターンを見つけることを目的としている。 しかし、実際的な応用では、すべてのパターンが使われるか価値があるわけではない。 例えば、パターンにはアイテムが多すぎる場合があり、そのパターンが具体的すぎるため、現実のユーザにとっての価値が欠落している場合があります。 フレキシブルな長さで適度なパターンを実現するために,マイニング過程の最小長と最大長を制約し,フレキシブルな高ユーティリティ占有パターンをマイニングするための新しいアルゴリズムを導入する。 我々のアルゴリズムはHUOPM+と呼ばれる。 パターンの柔軟性を確保し、実用能力の上限を締め付けるために、長さ上界(LUB)と呼ばれる戦略を提示し、探索空間を熟成する。 さらに、複数のデータベースのスキャンを避けるために、ユーティリティ占有リスト(UO-nlist)と周波数利用占有テーブル(FUO-table)を用いる。 実験の結果,提案手法は実世界と合成データの両方において,導出パターンの長さを効果的に制御できることが確認された。 さらに、実行時間とメモリ消費を削減できる。

Based on the analysis of the proportion of utility in the supporting transactions used in the field of data mining, high utility-occupancy pattern mining (HUOPM) has recently attracted widespread attention. Unlike high-utility pattern mining (HUPM), which involves the enumeration of high-utility (e.g., profitable) patterns, HUOPM aims to find patterns representing a collection of existing transactions. In practical applications, however, not all patterns are used or valuable. For example, a pattern might contain too many items, that is, the pattern might be too specific and therefore lack value for users in real life. To achieve qualified patterns with a flexible length, we constrain the minimum and maximum lengths during the mining process and introduce a novel algorithm for the mining of flexible high utility-occupancy patterns. Our algorithm is referred to as HUOPM+. To ensure the flexibility of the patterns and tighten the upper bound of the utility-occupancy, a strategy called the length upper-bound (LUB) is presented to prune the search space. In addition, a utility-occupancy nested list (UO-nlist) and a frequency-utility-oc cupancy table (FUO-table) are employed to avoid multiple scans of the database. Evaluation results of the subsequent experiments confirm that the proposed algorithm can effectively control the length of the derived patterns, for both real-world and synthetic datasets. Moreover, it can decrease the execution time and memory consumption.
翻訳日:2021-11-25 16:14:35 公開日:2021-11-24
# マルチラベル離散グラフィカルモデルのための効率的な半定義境界

Efficient semidefinite bounds for multi-label discrete graphical models ( http://arxiv.org/abs/2111.12491v1 )

ライセンス: Link先を確認
Valentin Durante, George Katsirelos, Thomas Schiex(参考訳) 多くの変数の結合関数を小さな関数の組み合わせとして簡潔に表現することで、離散グラフィカルモデル(gms)は相互作用変数の確率的および決定論的システムを分析する強力な枠組みを提供する。 そのようなモデルにおける主要なクエリの1つは、このジョイント関数の極小を特定することである。 これは、決定論的コスト関数ネットワークにおける重み付き制約満足問題(WCSP)や、確率的マルコフランダム場に関する最大ポストエリ(MAP)推論として知られている。 近似WCSP推論のアルゴリズムは通常、局所的な一貫性アルゴリズムや信念の伝播に依存する。 これらの手法は線形プログラミング(LP)緩和と密接に関連しており、しばしば関連するLPの双対解によって定義される再パラメータ化と結合する。 Goemans と Williamson のセミナルな業績から、凸 SDP 緩和は LP に優れた保証を与えるとよく理解されている。 しかし、内部点法の本質的な計算コストは応用を制限している。 この状況は、バイナリ変数(MAXCUT、MaxSAT、MAP/Isingなど)との組合せ問題に対するSDP緩和に適した非凸のBurer-Monteiroスタイルの手法の導入によって改善された。 行ごとの更新に基づくBurer-Monteiroスタイルの手法を拡張し,任意の値と任意のバイナリコスト関数を持つ離散的ペアワイズグラフィカルモデルに対する低階SDP上下位境界を計算する。 従来の双対制約アプローチと,定式化に大きめのペナルティ係数を導入することを避ける専用ブロックコーディネートDescentアプローチを考える。 ますますハードで密度の高いWCSP/CFNインスタンスでは、BCDアプローチが双対化アプローチより優れ、局所的なコンバージェント/収束メッセージパッシングアプローチよりも厳密な境界を提供する。

By concisely representing a joint function of many variables as the combination of small functions, discrete graphical models (GMs) provide a powerful framework to analyze stochastic and deterministic systems of interacting variables. One of the main queries on such models is to identify the extremum of this joint function. This is known as the Weighted Constraint Satisfaction Problem (WCSP) on deterministic Cost Function Networks and as Maximum a Posteriori (MAP) inference on stochastic Markov Random Fields. Algorithms for approximate WCSP inference typically rely on local consistency algorithms or belief propagation. These methods are intimately related to linear programming (LP) relaxations and often coupled with reparametrizations defined by the dual solution of the associated LP. Since the seminal work of Goemans and Williamson, it is well understood that convex SDP relaxations can provide superior guarantees to LP. But the inherent computational cost of interior point methods has limited their application. The situation has improved with the introduction of non-convex Burer-Monteiro style methods which are well suited to handle the SDP relaxation of combinatorial problems with binary variables (such as MAXCUT, MaxSAT or MAP/Ising). We compute low rank SDP upper and lower bounds for discrete pairwise graphical models with arbitrary number of values and arbitrary binary cost functions by extending a Burer-Monteiro style method based on row-by-row updates. We consider a traditional dualized constraint approach and a dedicated Block Coordinate Descent approach which avoids introducing large penalty coefficients to the formulation. On increasingly hard and dense WCSP/CFN instances, we observe that the BCD approach can outperform the dualized approach and provide tighter bounds than local consistencies/conver gent message passing approaches.
翻訳日:2021-11-25 16:14:12 公開日:2021-11-24
# MLに基づく屋内環境のためのリアクティブナビゲーションによる自律型ボット

Autonomous bot with ML-based reactive navigation for indoor environment ( http://arxiv.org/abs/2111.12542v1 )

ライセンス: Link先を確認
Yash Srivastava, Saumya Singh, S.P. Syed Ibrahim(参考訳) 屋内環境で動作する自律移動ロボットには,局所的あるいはリアクティブなナビゲーションが不可欠である。 SLAMやコンピュータビジョンのような技術は、コストを増大させる計算能力を必要とする。 同様に、初歩的な方法を用いることで、ロボットは一貫性のない行動に敏感になる。 本稿では,前,前,右,後ろに戦略的に装着された4つの超音波センサからの距離入力に基づいて,機械学習を用いて最適な障害物回避動作を予測し,コストと精度のバランスをとるロボットを開発することを目的とする。 基盤となるハードウェアはArduino UnoとRaspberry Pi 3Bで構成されている。 機械学習モデルは、まずロボットが収集したデータに基づいて訓練される。 その後、Arduinoはセンサーを連続的にポーリングし、距離値を計算する。 他のシナリオでは、センサーデータはusb接続を使ってraspberry piに送信され、機械学習モデルはナビゲーションのための最良の動きを生成し、それに従ってarduinoにモーターを駆動する。 システムは2-WDロボットのシャーシに装着され、散らかった屋内環境でテストされる。

Local or reactive navigation is essential for autonomous mobile robots which operate in an indoor environment. Techniques such as SLAM, computer vision require significant computational power which increases cost. Similarly, using rudimentary methods makes the robot susceptible to inconsistent behavior. This paper aims to develop a robot that balances cost and accuracy by using machine learning to predict the best obstacle avoidance move based on distance inputs from four ultrasonic sensors that are strategically mounted on the front, front-left, front-right, and back of the robot. The underlying hardware consists of an Arduino Uno and a Raspberry Pi 3B. The machine learning model is first trained on the data collected by the robot. Then the Arduino continuously polls the sensors and calculates the distance values, and in case of critical need for avoidance, a suitable maneuver is made by the Arduino. In other scenarios, sensor data is sent to the Raspberry Pi using a USB connection and the machine learning model generates the best move for navigation, which is sent to the Arduino for driving motors accordingly. The system is mounted on a 2-WD robot chassis and tested in a cluttered indoor setting with most impressive results.
翻訳日:2021-11-25 16:13:43 公開日:2021-11-24
# チャネル表現に基づくカラー画像のsteg解析のためのユニバーサルディープネットワーク

Universal Deep Network for Steganalysis of Color Image based on Channel Representation ( http://arxiv.org/abs/2111.12231v1 )

ライセンス: Link先を確認
Kangkang Wei, Weiqi Luo, Shunquan Tan, Jiwu Huang(参考訳) これまで、既存のステガナリシス法はグレースケールの画像のために設計されており、現在のソーシャルネットワークで広く使われているカラー画像には適していない。 本稿では,空間領域とJPEG領域における普遍的なカラー画像ステガナリシスネットワーク(UCNet)を設計する。 提案手法は前処理,畳み込み,分類モジュールを含む。 各カラーチャネルにおけるステガノグラフィーのアーティファクトを前処理モジュールで保存するために、入力画像を対応する埋め込み空間(例えば、空間ステガノグラフィーのRGBとJPEGステガノグラフィーのYCbCr)に従って3つのチャネルに分離し、次いで62個の固定されたハイパスフィルタで画像残基を抽出し、最終的に、既存のCNNベースのステガノライザーのような通常の畳み込みと組み合わせるのではなく、後の分析のために全てのトランクテッド残基を連結する。 畳み込みモジュールでは,ネットワーク収束を加速し,パラメータ数を効果的に削減するために,異なるショートカット接続とグループ畳み込み構造を持つ3種類の層を慎重に設計し,さらに高いレベルのステガナシス特性を学習する。 分類モジュールでは,グローバル平均プールと完全連結層を用いて分類を行う。 提案手法は,空間領域およびJPEG領域における最新のCNNベースのステガナライザー(SRNetやJ-YeNetなど)と比較して,比較的少ないメモリ要件とトレーニング時間を維持しながら,最先端の結果が得られることを示す。 さらに,ネットワーク設計の合理性を検証するために必要な記述や多くのアブレーション実験も提供する。

Up to now, most existing steganalytic methods are designed for grayscale images, and they are not suitable for color images that are widely used in current social networks. In this paper, we design a universal color image steganalysis network (called UCNet) in spatial and JPEG domains. The proposed method includes preprocessing, convolutional, and classification modules. To preserve the steganographic artifacts in each color channel, in preprocessing module, we firstly separate the input image into three channels according to the corresponding embedding spaces (i.e. RGB for spatial steganography and YCbCr for JPEG steganography), and then extract the image residuals with 62 fixed high-pass filters, finally concatenate all truncated residuals for subsequent analysis rather than adding them together with normal convolution like existing CNN-based steganalyzers. To accelerate the network convergence and effectively reduce the number of parameters, in convolutional module, we carefully design three types of layers with different shortcut connections and group convolution structures to further learn high-level steganalytic features. In classification module, we employ a global average pooling and fully connected layer for classification. We conduct extensive experiments on ALASKA II to demonstrate that the proposed method can achieve state-of-the-art results compared with the modern CNN-based steganalyzers (e.g., SRNet and J-YeNet) in both spatial and JPEG domains, while keeping relatively few memory requirements and training time. Furthermore, we also provide necessary descriptions and many ablation experiments to verify the rationality of the network design.
翻訳日:2021-11-25 16:12:29 公開日:2021-11-24
# レーダー歩行認識のためのアテンションベースデュアルストリーム視覚変換器

Attention-based Dual-stream Vision Transformer for Radar Gait Recognition ( http://arxiv.org/abs/2111.12290v1 )

ライセンス: Link先を確認
Shiliang Chen, Wentao He, Jianfeng Ren, Xudong Jiang(参考訳) レーダー歩行認識は、光の変動に頑丈で、プライバシーに対する侵害も少ない。 以前の研究では、しばしば分光図またはケイデンス速度図を利用する。 前者は時間周波数パターンを示し、後者は繰り返し周波数パターンを符号化する。 本研究では,これら2つの表現から識別情報を完全に集約するために,注意に基づく融合を用いた2ストリームニューラルネットワークを提案する。 両方のストリームはVision Transformerに基づいて設計されており、これらの表現に埋め込まれた歩行特性をうまく捉えている。 提案手法は,レーダ歩行認識のための大規模なベンチマークデータセット上で検証され,最先端のソリューションよりも著しく優れていることを示す。

Radar gait recognition is robust to light variations and less infringement on privacy. Previous studies often utilize either spectrograms or cadence velocity diagrams. While the former shows the time-frequency patterns, the latter encodes the repetitive frequency patterns. In this work, a dual-stream neural network with attention-based fusion is proposed to fully aggregate the discriminant information from these two representations. The both streams are designed based on the Vision Transformer, which well captures the gait characteristics embedded in these representations. The proposed method is validated on a large benchmark dataset for radar gait recognition, which shows that it significantly outperforms state-of-the-art solutions.
翻訳日:2021-11-25 16:11:50 公開日:2021-11-24
# LDP-Net:学習可能な劣化過程に基づく教師なしパンスハーペンネットワーク

LDP-Net: An Unsupervised Pansharpening Network Based on Learnable Degradation Processes ( http://arxiv.org/abs/2111.12483v1 )

ライセンス: Link先を確認
Jiahui Ni, Zhimin Shao, Zhongzhou Zhang, Mingzheng Hou, Jiliu Zhou, Leyuan Fang, Yi Zhang(参考訳) リモートセンシング画像におけるパンシャーペンは、低分解能マルチスペクトル(LRMS)画像をパンクロマチック(PAN)画像と融合させることで、高分解能マルチスペクトル(HRMS)画像を直接取得することを目的としている。 主な関心事は、LRMS画像の豊富なスペクトル情報とPAN画像の豊富な空間情報とを効果的に組み合わせることである。 近年,パンシャーピング作業において,深層学習に基づく多くの手法が提案されている。 しかし、これらの手法は通常2つの主な欠点がある。 1) 指導的学習にHRMSを必要とすること,及び 2) 単にMSとPANイメージの潜伏関係を無視して直接融合するだけだ。 そこで本研究では,学習可能な劣化過程に基づく新しいネットワークであるldp-netを提案する。 ブルーリングブロックとグレーニングブロックは、それぞれ対応する劣化過程を学ぶように設計されている。 また,パンシャープ化画像とパン画像とlrms画像の空間的およびスペクトル的一貫性を異なる解像度で制約するために,新しいハイブリッド損失関数を提案する。 Worldview2 と Worldview3 での実験により,提案した LDP-Net は HRMS サンプルを使わずに PAN と LRMS の画像を効果的に融合し,定性的視覚効果と定量化の両面で有望な性能を達成できることを示した。

Pansharpening in remote sensing image aims at acquiring a high-resolution multispectral (HRMS) image directly by fusing a low-resolution multispectral (LRMS) image with a panchromatic (PAN) image. The main concern is how to effectively combine the rich spectral information of LRMS image with the abundant spatial information of PAN image. Recently, many methods based on deep learning have been proposed for the pansharpening task. However, these methods usually has two main drawbacks: 1) requiring HRMS for supervised learning; and 2) simply ignoring the latent relation between the MS and PAN image and fusing them directly. To solve these problems, we propose a novel unsupervised network based on learnable degradation processes, dubbed as LDP-Net. A reblurring block and a graying block are designed to learn the corresponding degradation processes, respectively. In addition, a novel hybrid loss function is proposed to constrain both spatial and spectral consistency between the pansharpened image and the PAN and LRMS images at different resolutions. Experiments on Worldview2 and Worldview3 images demonstrate that our proposed LDP-Net can fuse PAN and LRMS images effectively without the help of HRMS samples, achieving promising performance in terms of both qualitative visual effects and quantitative metrics.
翻訳日:2021-11-25 16:11:42 公開日:2021-11-24
# 画像から三角形の3次元モデル, 材料, 照明を抽出する

Extracting Triangular 3D Models, Materials, and Lighting From Images ( http://arxiv.org/abs/2111.12503v1 )

ライセンス: Link先を確認
Jacob Munkberg (1), Jon Hasselgren (1), Tianchang Shen (1,2,3), Jun Gao (1,2,3), Wenzheng Chen (1), Alex Evans (1), Thomas M\"uller (1), Sanja Fidler (1,2,3) ((1) NVIDIA, (2) University of Toronto, (3) Vector Institute)(参考訳) 多視点画像観測によるトポロジ,材料,照明の協調最適化手法を提案する。 ニューラルネットワークで符号化されたエンタングル3d表現を通常生成する最近のマルチビュー再構成アプローチとは異なり、空間的に変動する材料と環境照明を備えた三角形メッシュを、従来のグラフィックエンジンで無修正でデプロイできる。 我々は、微分可能なレンダリング、座標ベースのネットワークによる最近の研究を活用し、体積のテクスチャをコンパクトに表現し、微分可能なマーチング四面体と共に表面メッシュ上で勾配に基づく最適化を可能にする。 最後に,環境照明の分割和近似の微分可能な定式化を導入し,全周波数照明を効率的に復元する。 実験では,高度なシーン編集,材質分解,高画質ビュー補間において,トライアングルベースレンダラ(ラスタライザとパストレーサ)のインタラクティブな速度で動作する抽出モデルを示す。

We present an efficient method for joint optimization of topology, materials and lighting from multi-view image observations. Unlike recent multi-view reconstruction approaches, which typically produce entangled 3D representations encoded in neural networks, we output triangle meshes with spatially-varying materials and environment lighting that can be deployed in any traditional graphics engine unmodified. We leverage recent work in differentiable rendering, coordinate-based networks to compactly represent volumetric texturing, alongside differentiable marching tetrahedrons to enable gradient-based optimization directly on the surface mesh. Finally, we introduce a differentiable formulation of the split sum approximation of environment lighting to efficiently recover all-frequency lighting. Experiments show our extracted models used in advanced scene editing, material decomposition, and high quality view interpolation, all running at interactive rates in triangle-based renderers (rasterizers and path tracers).
翻訳日:2021-11-25 16:11:17 公開日:2021-11-24
# ウォーターケア:水面洗浄ボットと水体監視システム

Water Care: Water Surface Cleaning Bot and Water Body Surveillance System ( http://arxiv.org/abs/2111.12579v1 )

ライセンス: Link先を確認
Harsh Sankar Naicker, Yash Srivastava, Akshara Pramod, Niket Paresh Ganatra, Deepakshi Sood, Saumya Singh, Velmathi Guruviah(参考訳) 人が公害について聞くとき、しばしば、その心に浮かぶ最初の考えは、大気汚染である。 最も過小評価されている大気汚染の1つは、生物分解不能な水槽の廃棄物が原因である。 インドの場合、川や湖の表面には多くのプラスチック廃棄物があります。 ガンガ川はプラスチックの90%を占める10の河川の1つであり、この廃棄物によって地元のナラアや湖が汚染されている大きな事例がある。 これにより、水源の大きな枯渇につながる清浄な水源が制限される。 2001年から2012年まで、ハイデラバードでは3245ヘクタールの湖が放散した。 ニューデリー州南部では年間平均で9フィート後退している。 したがって、これらの水域や河川の浄化が最も重要である。 私たちの目標は、海岸に展開する水面洗浄ロボットを開発することです。 ロボットは途中でゴミのパッチを検知し、ゴミを回収し、水体をきれいにする。 このソリューションでは、誰かが水域を汚染しているのを見つけた場合に当局に警告する監視機構を採用している。 太陽エネルギーを電力に利用してより持続可能なシステムを開発した。 コンピュータビジョンアルゴリズムは、水面のゴミを検出するために使用される。 このゴミはボットによって収集され、指定された場所に廃棄される。 水道施設の清掃に加えて、誰かが水道施設を汚染しようとすると当局に警告する仮想フェンシングアルゴリズムの助けを借りて予防措置も実施されている。 ボットの動きと海岸の監視をチェックするために、webアプリケーションとモバイルアプリがデプロイされる。 この完全な解決策には、水管理に必要な予防措置と治療措置の両方が含まれる。

Whenever a person hears about pollution, more often than not, the first thought that comes to their mind is air pollution. One of the most under-mentioned and under-discussed pollution globally is that caused by the non-biodegradable waste in our water bodies. In the case of India, there is a lot of plastic waste on the surface of rivers and lakes. The Ganga river is one of the 10 rivers which account for 90 percent of the plastic that ends up in the sea and there are major cases of local nalaas and lakes being contaminated due to this waste. This limits the source of clean water which leads to major depletion in water sources. From 2001 to 2012, in the city of Hyderabad, 3245 hectares of lakes dissipated. The water recedes by nine feet a year on average in southern New Delhi. Thus, cleaning of these local water bodies and rivers is of utmost importance. Our aim is to develop a water surface cleaning bot that is deployed across the shore. The bot will detect garbage patches on its way and collect the garbage thus making the water bodies clean. This solution employs a surveillance mechanism in order to alert the authorities in case anyone is found polluting the water bodies. A more sustainable system by using solar energy to power the system has been developed. Computer vision algorithms are used for detecting trash on the surface of the water. This trash is collected by the bot and is disposed of at a designated location. In addition to cleaning the water bodies, preventive measures have been also implemented with the help of a virtual fencing algorithm that alerts the authorities if anyone tries to pollute the water premises. A web application and a mobile app is deployed to keep a check on the movement of the bot and shore surveillance respectively. This complete solution involves both preventive and curative measures that are required for water care.
翻訳日:2021-11-25 16:10:59 公開日:2021-11-24
# 状態空間深いガウス過程と応用

State-space deep Gaussian processes with applications ( http://arxiv.org/abs/2111.12604v1 )

ライセンス: Link先を確認
Zheng Zhao(参考訳) この論文は主に、深い(時間的)ガウス過程(dgp)回帰問題を解決するための状態空間的アプローチに関するものである。 具体的には、DGPを階層的に構成された確率微分方程式(SDE)系として表現し、状態空間フィルタリングと平滑化法を用いてDGP回帰問題を解く。 結果のステートスペースDGP(SS-DGP)モデルは、多くの不規則信号/関数をモデル化するのと互換性のある、豊富な事前クラスを生成する。 さらに,そのマルコフ構造により,ベイズフィルタと平滑化法を用いてSS-DGPの回帰問題を効率的に解くことができる。 この論文の第二の貢献は、テイラーモーメント展開(TME)法を用いて連続離散ガウスフィルタと滑らか化問題を解くことである。 これは、確率微分方程式(sdes)解の平均と共分散を予測する際に漸近的に正確であるフィルターとスムーザのクラスを誘導する。 さらに、TME法とTMEフィルタとスムースラーは、SS-DGPのシミュレーションと回帰問題の解法と互換性がある。 最後に、この論文は状態空間(ディープ)GPの多くの応用を特徴としている。 これらの用途には、主に (i)部分観測軌道からのsdesの未知ドリフト関数の推定と解析 (ii)信号のスペクトル・時間的特徴の推定

This thesis is mainly concerned with state-space approaches for solving deep (temporal) Gaussian process (DGP) regression problems. More specifically, we represent DGPs as hierarchically composed systems of stochastic differential equations (SDEs), and we consequently solve the DGP regression problem by using state-space filtering and smoothing methods. The resulting state-space DGP (SS-DGP) models generate a rich class of priors compatible with modelling a number of irregular signals/functions. Moreover, due to their Markovian structure, SS-DGPs regression problems can be solved efficiently by using Bayesian filtering and smoothing methods. The second contribution of this thesis is that we solve continuous-discrete Gaussian filtering and smoothing problems by using the Taylor moment expansion (TME) method. This induces a class of filters and smoothers that can be asymptotically exact in predicting the mean and covariance of stochastic differential equations (SDEs) solutions. Moreover, the TME method and TME filters and smoothers are compatible with simulating SS-DGPs and solving their regression problems. Lastly, this thesis features a number of applications of state-space (deep) GPs. These applications mainly include, (i) estimation of unknown drift functions of SDEs from partially observed trajectories and (ii) estimation of spectro-temporal features of signals.
翻訳日:2021-11-25 16:10:37 公開日:2021-11-24
# マルコフ連鎖による変分オートエンコーダと確率正規化流れへの統一的アプローチ

A Unified Approach to Variational Autoencoders and Stochastic Normalizing Flows via Markov Chains ( http://arxiv.org/abs/2111.12506v1 )

ライセンス: Link先を確認
Johannes Hertrich, Paul Hagemann, Gabriele Steidl(参考訳) 正規化フロー、拡散正規化フロー、変分オートエンコーダは強力な生成モデルである。 本稿では,これらのアプローチをマルコフ連鎖を通じて扱うための統一フレームワークを提案する。 実際、確率正規化フローは、いくつかの特性を満たすマルコフ連鎖のペアであり、データ生成のための多くの最先端モデルがこのフレームワークに適合していることを示す。 マルコフ連鎖の観点からは、決定論的層を可逆ニューラルネットワーク、確率的層をメトロポリス・ハスティング層、ランゲヴィン層、変分オートエンコーダを数学的に健全な方法で結合することができる。 ランジュバン層、拡散層または変分オートエンコーダとしての密度を有する層に加えて、決定論的層またはメトロポリスハスティング層としての密度を持たない層も扱うことができる。 したがって,本フレームワークは,様々な手法を組み合わせる上で有用な数学的ツールである。

Normalizing flows, diffusion normalizing flows and variational autoencoders are powerful generative models. In this paper, we provide a unified framework to handle these approaches via Markov chains. Indeed, we consider stochastic normalizing flows as pair of Markov chains fulfilling some properties and show that many state-of-the-art models for data generation fit into this framework. The Markov chains point of view enables us to couple both deterministic layers as invertible neural networks and stochastic layers as Metropolis-Hasting layers, Langevin layers and variational autoencoders in a mathematically sound way. Besides layers with densities as Langevin layers, diffusion layers or variational autoencoders, also layers having no densities as deterministic layers or Metropolis-Hasting layers can be handled. Hence our framework establishes a useful mathematical tool to combine the various approaches.
翻訳日:2021-11-25 16:09:26 公開日:2021-11-24
# 凸学習問題の修正への学習

Learning to Refit for Convex Learning Problems ( http://arxiv.org/abs/2111.12545v1 )

ライセンス: Link先を確認
Yingyan Zeng, Tianhao Wang, Si Chen, Hoang Anh Just, Ran Jin, Ruoxi Jia(参考訳) 機械学習(ML)モデルは、データバリュエーションや不確実性定量化など、さまざまなアプリケーションシナリオにおけるデータセットの変更に対して、頻繁にトレーニングする必要がある。 モデルパラメータに対するデータ変化の影響を推定するために,影響関数などの線形近似法が提案されている。 しかし、これらの手法は大規模なデータセット変更には不正確になる。 本研究では,凸学習問題に着目し,ニューラルネットワークを用いたトレーニングセットの最適化モデルパラメータを推定するための汎用フレームワークを提案する。 本稿では,予測モデルパラメータを最適条件に従うように強制し,正規化手法による実用性を維持することを提案する。 さらに,畳み込み問題の最適化を近似するために,ニューラルネットワークの表現力を厳格に特徴付ける。 実験結果から,提案手法の高精度かつ効率的なモデルパラメータ推定における有効性を示す。

Machine learning (ML) models need to be frequently retrained on changing datasets in a wide variety of application scenarios, including data valuation and uncertainty quantification. To efficiently retrain the model, linear approximation methods such as influence function have been proposed to estimate the impact of data changes on model parameters. However, these methods become inaccurate for large dataset changes. In this work, we focus on convex learning problems and propose a general framework to learn to estimate optimized model parameters for different training sets using neural networks. We propose to enforce the predicted model parameters to obey optimality conditions and maintain utility through regularization techniques, which significantly improve generalization. Moreover, we rigorously characterize the expressive power of neural networks to approximate the optimizer of convex problems. Empirical results demonstrate the advantage of the proposed method in accurate and efficient model parameter estimation compared to the state-of-the-art.
翻訳日:2021-11-25 16:09:15 公開日:2021-11-24
# 強化学習の安定化に関するコメント

A comment on stabilizing reinforcement learning ( http://arxiv.org/abs/2111.12316v1 )

ライセンス: Link先を確認
Pavel Osinenko, Georgiy Malaniya, Grigory Yaremenko, Ilya Osokin(参考訳) 以下は、Vamvoudakisらによる論文"Asymptotically Stable Adaptive-Optimal Control Algorithm with Saturating Actuators and Relaxed Persistence of Excitation"の短いコメントである。 強化学習(rl)エージェントの安定性に関する疑問はいまだに残っており、その研究は、適応制御(adaptive control)の手法を用いて、適切な安定性特性を持つオンポリシーアプローチを提案している。 しかし、RLの安定化に対するこのアプローチには問題があり、この記事で説明します。 さらに、Vamvoudakisらは、一般的な政策の下でハミルトニアンに誤った仮定をしたようである。 ポジティブな結果を得るには、この誤りを示すだけでなく、行動ポリシーホールドの特定の条件を条件として、確率的かつ連続的な環境下でのニューラルネットワークの重み収束を批判する。

This is a short comment on the paper "Asymptotically Stable Adaptive-Optimal Control Algorithm With Saturating Actuators and Relaxed Persistence of Excitation" by Vamvoudakis et al. The question of stability of reinforcement learning (RL) agents remains hard and the said work suggested an on-policy approach with a suitable stability property using a technique from adaptive control - a robustifying term to be added to the action. However, there is an issue with this approach to stabilizing RL, which we will explain in this note. Furthermore, Vamvoudakis et al. seems to have made a fallacious assumption on the Hamiltonian under a generic policy. To provide a positive result, we will not only indicate this mistake, but show critic neural network weight convergence under a stochastic, continuous-time environment, provided certain conditions on the behavior policy hold.
翻訳日:2021-11-25 16:09:01 公開日:2021-11-24
# グラフ上のリプシッツ学習のための一様収束率

Uniform Convergence Rates for Lipschitz Learning on Graphs ( http://arxiv.org/abs/2111.12370v1 )

ライセンス: Link先を確認
Leon Bungert, Jeff Calder, Tim Roith(参考訳) リプシッツ学習(英: lipschitz learning)は、重み付きグラフ上の無限ラプラス方程式を解いてラベル付きデータからラベルなしデータにラベルを拡張したグラフベースの半教師付き学習手法である。 本研究では、グラフ無限大ラプラス方程式の解に対する一様収束率を、頂点数が無限大に成長するにつれて証明する。 彼らの連続極限は、グラフ頂点がサンプリングされる領域の測地線計量に関して、絶対的にリプシッツ拡大を最小化している。 グラフ重み、ラベル付き頂点の集合、連続体領域に関する非常に一般的な仮定の下で作業する。 私たちの主な貢献は、半教師付き学習のようなアプリケーションでよく見られるように、非常に疎結合なグラフでも定量的収束率を得ることです。 特に、我々のフレームワークは、接続半径までグラフ帯域幅を可能にする。 これを証明するために、まず、連続体の測地距離関数に対するグラフ距離関数の定量的収束文を示す。 距離関数との比較」の原理を用いて、これらの収束ステートメントを無限大調和函数に渡し、リプシッツ拡大を絶対最小化することができる。

Lipschitz learning is a graph-based semi-supervised learning method where one extends labels from a labeled to an unlabeled data set by solving the infinity Laplace equation on a weighted graph. In this work we prove uniform convergence rates for solutions of the graph infinity Laplace equation as the number of vertices grows to infinity. Their continuum limits are absolutely minimizing Lipschitz extensions with respect to the geodesic metric of the domain where the graph vertices are sampled from. We work under very general assumptions on the graph weights, the set of labeled vertices, and the continuum domain. Our main contribution is that we obtain quantitative convergence rates even for very sparsely connected graphs, as they typically appear in applications like semi-supervised learning. In particular, our framework allows for graph bandwidths down to the connectivity radius. For proving this we first show a quantitative convergence statement for graph distance functions to geodesic distance functions in the continuum. Using the "comparison with distance functions" principle, we can pass these convergence statements to infinity harmonic functions and absolutely minimizing Lipschitz extensions.
翻訳日:2021-11-25 16:08:45 公開日:2021-11-24
# lightsaft: ソース分離のための軽量な潜在ソース認識周波数変換

LightSAFT: Lightweight Latent Source Aware Frequency Transform for Source Separation ( http://arxiv.org/abs/2111.12516v1 )

ライセンス: Link先を確認
Yeong-Seok Jeong, Jinsung Kim, Woosung Choi, Jaehwa Chung, Soonyoung Jung(参考訳) 条件付きソース分離は、柔軟性、適用性、拡張性のために大きな注目を集めている。 その性能は通常、単一ソース分離モデルのような既存のアプローチよりも劣っていた。 しかし、最近提案されたLaSAFT-Net法は、条件付きモデルが既存の単一ソース分離モデルと同等の性能を示すことを示した。 本稿では,LaSAFT-Netの軽量版であるLightSAFT-Netを提案する。 ベースラインとして、ISMIR 2021のミュージック・デミキシング・チャレンジで比較に十分なSDR性能を提供した。 また、エンコーダのLightSAFTブロックをTFC-TDFブロックに置き換えることで、既存のLightSAFT-Netを強化する。 拡張されたLightSAFT-Netは、パラメータが少ない前のものよりも優れています。

Conditioned source separations have attracted significant attention because of their flexibility, applicability and extensionality. Their performance was usually inferior to the existing approaches, such as the single source separation model. However, a recently proposed method called LaSAFT-Net has shown that conditioned models can show comparable performance against existing single-source separation models. This paper presents LightSAFT-Net, a lightweight version of LaSAFT-Net. As a baseline, it provided a sufficient SDR performance for comparison during the Music Demixing Challenge at ISMIR 2021. This paper also enhances the existing LightSAFT-Net by replacing the LightSAFT blocks in the encoder with TFC-TDF blocks. Our enhanced LightSAFT-Net outperforms the previous one with fewer parameters.
翻訳日:2021-11-25 16:06:31 公開日:2021-11-24
# 離散的潜在表現からの非インタラクティブバイノーラル音声明瞭度予測

Non-Intrusive Binaural Speech Intelligibility Prediction from Discrete Latent Representations ( http://arxiv.org/abs/2111.12531v1 )

ライセンス: Link先を確認
Alex F. McKinney, Benjamin Cauchi(参考訳) バイノーラル信号からの非侵入的音声明瞭度(SI)予測は多くの用途で有用である。 しかし、既存の信号基準のほとんどは単一チャネル信号に適用するように設計されている。 信号のバイノーラル特性を考慮に入れるために特別に設計された手段は、しばしば侵入的であり、クリーンな音声信号へのアクセスを必要とすることで特徴付けられる。 本稿では,ベクトル量子化(VQ)法とコントラッシブ予測符号化(CPC)法を組み合わせてバイノーラル入力信号から特徴量を計算する非侵入型SI尺度を提案する。 VQ-CPC特徴抽出は聴覚系のいかなるモデルにも依存せず、代わりに入力信号と出力特徴との間の相互情報を最大化するよう訓練される。 計算されたVQ-CPC機能は、ニューラルネットワークによってパラメータ化された予測関数に入力される。 本稿では2つの予測関数について考察する。 等方性雑音を伴う模擬バイノーラル信号に対して特徴抽出関数と予測関数の両方を訓練する。 それらは等方性および実際のノイズを伴うシミュレーション信号でテストされる。 すべての信号に対して、根底的な真理スコアは(侵入的な)決定論的バイノーラルSTOIである。 結果は相関やMSEの観点で示され、VQ-CPCの機能は、SIのモデリングに関連する情報をキャプチャし、異なるノイズフィールドタイプからなるデータを評価する場合であっても、考慮されたベンチマークをすべて上回っていることを示す。

Non-intrusive speech intelligibility (SI) prediction from binaural signals is useful in many applications. However, most existing signal-based measures are designed to be applied to single-channel signals. Measures specifically designed to take into account the binaural properties of the signal are often intrusive - characterised by requiring access to a clean speech signal - and typically rely on combining both channels into a single-channel signal before making predictions. This paper proposes a non-intrusive SI measure that computes features from a binaural input signal using a combination of vector quantization (VQ) and contrastive predictive coding (CPC) methods. VQ-CPC feature extraction does not rely on any model of the auditory system and is instead trained to maximise the mutual information between the input signal and output features. The computed VQ-CPC features are input to a predicting function parameterized by a neural network. Two predicting functions are considered in this paper. Both feature extractor and predicting functions are trained on simulated binaural signals with isotropic noise. They are tested on simulated signals with isotropic and real noise. For all signals, the ground truth scores are the (intrusive) deterministic binaural STOI. Results are presented in terms of correlations and MSE and demonstrate that VQ-CPC features are able to capture information relevant to modelling SI and outperform all the considered benchmarks - even when evaluating on data comprising of different noise field types.
翻訳日:2021-11-25 16:06:20 公開日:2021-11-24
# 6Gのためのエッジ人工知能:ビジョン、エナリング技術、応用

Edge Artificial Intelligence for 6G: Vision, Enabling Technologies, and Applications ( http://arxiv.org/abs/2111.12444v1 )

ライセンス: Link先を確認
Khaled B. Letaief, Yuanming Shi, Jianmin Lu, Jianhua Lu(参考訳) 人工知能(AI)応用の繁栄は、無線ネットワークのさらなる進化を促している。 6Gは「接続されたもの」から「接続されたインテリジェンス」への無線の進化に革命をもたらすと期待されている。 しかし、最先端のディープラーニングとビッグデータ分析ベースのAIシステムは、膨大な計算と通信リソースを必要とし、トレーニングと推論プロセスの両方において、大きなレイテンシ、エネルギー消費、ネットワークの混雑、プライバシリークを引き起こす。 モデルトレーニングと推論機能をネットワークエッジに組み込むことで、エッジaiは6gネットワークの効率性、有効性、プライバシ、セキュリティを改善するために、センシング、通信、計算、インテリジェンスをシームレスに統合する破壊的技術として際立っている。 本稿では,無線通信戦略と分散機械学習モデルの統合設計による,スケーラブルで信頼性の高いエッジAIシステムに対するビジョンを提供する。 無線ネットワークの新しい設計原則、サービス駆動のリソース割り当て最適化手法、エッジAIをサポートする包括的なエンドツーエンドシステムアーキテクチャについて説明する。 標準化、ソフトウェアとハードウェアプラットフォーム、アプリケーションシナリオも議論され、エッジaiシステムの工業化と商用化が促進される。

The thriving of artificial intelligence (AI) applications is driving the further evolution of wireless networks. It has been envisioned that 6G will be transformative and will revolutionize the evolution of wireless from "connected things" to "connected intelligence". However, state-of-the-art deep learning and big data analytics based AI systems require tremendous computation and communication resources, causing significant latency, energy consumption, network congestion, and privacy leakage in both of the training and inference processes. By embedding model training and inference capabilities into the network edge, edge AI stands out as a disruptive technology for 6G to seamlessly integrate sensing, communication, computation, and intelligence, thereby improving the efficiency, effectiveness, privacy, and security of 6G networks. In this paper, we shall provide our vision for scalable and trustworthy edge AI systems with integrated design of wireless communication strategies and decentralized machine learning models. New design principles of wireless networks, service-driven resource allocation optimization methods, as well as a holistic end-to-end system architecture to support edge AI will be described. Standardization, software and hardware platforms, and application scenarios are also discussed to facilitate the industrialization and commercialization of edge AI systems.
翻訳日:2021-11-25 16:05:59 公開日:2021-11-24
# (参考訳) ヴィオレット : マスキングビジュアルトケンモデルを用いたエンドツーエンドビデオ言語トランスフォーマー [全文訳有]

VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling ( http://arxiv.org/abs/2111.12681v1 )

ライセンス: CC BY 4.0
Tsu-Jui Fu and Linjie Li and Zhe Gan and Kevin Lin and William Yang Wang and Lijuan Wang and Zicheng Liu(参考訳) ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。 近年の研究では、エンドツーエンドのトレーニングを通じてこの切断を緩和しようとしている。 計算可能にするために、先行の作業はビデオ入力を「想像」する傾向があり、つまり、わずかなサンプルフレームが2D CNNに供給され、その後にビデオ全体の表現を得るための単純な平均プーリングまたは連結が続く。 有望な結果を達成する一方で、このような単純なアプローチは、下流のVidLタスクの実行に不可欠な時間的情報を失う可能性がある。 本稿では,ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスフォーマーを採用する,完全エンドツーエンドのビデオ言語トランスフォーマーであるvioletを提案する。 さらに,ビデオ入力の事前学習タスク(例えばマスキングフレームモデリング)があまり効果的でないという従来の研究とは異なり,新たな事前学習タスクであるマスキングビジュアルトケンモデリング(mvm)を設計し,より優れた映像モデリングを行う。 具体的には、元のビデオフレームパッチを個別のビジュアルトークンに「集計」し、マスクされたパッチに基づいて元のビジュアルトークンを復元する。 包括的解析はビデオ変換器とMVMによる時間的明示的モデリングの有効性を示す。 その結果、violetは5つのビデオ質問応答タスクと4つのテキスト対ビデオ検索タスクで最新のパフォーマンスを達成している。

A great challenge in video-language (VidL) modeling lies in the disconnection between fixed video representations extracted from image/video understanding models and downstream VidL data. Recent studies try to mitigate this disconnection via end-to-end training. To make it computationally feasible, prior works tend to "imagify" video inputs, i.e., a handful of sparsely sampled frames are fed into a 2D CNN, followed by a simple mean-pooling or concatenation to obtain the overall video representations. Although achieving promising results, such simple approaches may lose temporal information that is essential for performing downstream VidL tasks. In this work, we present VIOLET, a fully end-to-end VIdeO-LanguagE Transformer, which adopts a video transformer to explicitly model the temporal dynamics of video inputs. Further, unlike previous studies that found pre-training tasks on video inputs (e.g., masked frame modeling) not very effective, we design a new pre-training task, Masked Visual-token Modeling (MVM), for better video modeling. Specifically, the original video frame patches are "tokenized" into discrete visual tokens, and the goal is to recover the original visual tokens based on the masked patches. Comprehensive analysis demonstrates the effectiveness of both explicit temporal modeling via video transformer and MVM. As a result, VIOLET achieves new state-of-the-art performance on 5 video question answering tasks and 4 text-to-video retrieval tasks.
翻訳日:2021-11-25 16:04:46 公開日:2021-11-24
# リアルタイムスマート車両監視システム

Real-time smart vehicle surveillance system ( http://arxiv.org/abs/2111.12289v1 )

ライセンス: Link先を確認
Shantha Kumar S, Vykunth P, Jayanthi D(参考訳) 過去10年間で、世界中の犯罪活動が急増している。 インド警察によると、自動車盗難は最も解決されていない犯罪の1つであり、記録された事件のほぼ19%は自動車盗難に関連している。 これらの敵を克服するために,CCTVビデオフィードを用いて被疑車両を検出し追跡するリアルタイム車両監視システムを提案する。 提案システムは,Make, Model, Color, License plate number,type of the license plateなどの車両の各種属性を抽出する。 提案手法の目的を満たすために,様々な画像処理と深層学習アルゴリズムが用いられている。 抽出された特徴は、法律違反を報告するための証拠として使用できる。 システムはより多くのパラメータを使用するが、レイテンシと精度の損失を最小限に抑えてリアルタイムの予測を行うことができる。

Over the last decade, there has been a spike in criminal activity all around the globe. According to the Indian police department, vehicle theft is one of the least solved offenses, and almost 19% of all recorded cases are related to motor vehicle theft. To overcome these adversaries, we propose a real-time vehicle surveillance system, which detects and tracks the suspect vehicle using the CCTV video feed. The proposed system extracts various attributes of the vehicle such as Make, Model, Color, License plate number, and type of the license plate. Various image processing and deep learning algorithms are employed to meet the objectives of the proposed system. The extracted features can be used as evidence to report violations of law. Although the system uses more parameters, it is still able to make real time predictions with minimal latency and accuracy loss.
翻訳日:2021-11-25 15:38:12 公開日:2021-11-24
# PTQ4ViT:ビジョントランスのためのポストトレーニング量子化フレームワーク

PTQ4ViT: Post-Training Quantization Framework for Vision Transformers ( http://arxiv.org/abs/2111.12293v1 )

ライセンス: Link先を確認
Zhihang Yuan, Chenhao Xue, Yiqi Chen, Qiang Wu, Guangyu Sun(参考訳) 量子化はニューラルネットワークを圧縮する最も効果的な方法の1つであり、畳み込みニューラルネットワーク(cnns)で大きな成功を収めている。 近年、視覚変換器はコンピュータビジョンに大きな可能性を示している。 しかし、以前のトレーニング後の量子化法は視覚トランスフォーマーではうまく動作せず、8ビット量子化においても1%以上精度が低下した。 そこで,視覚トランスフォーマの量子化問題を分析する。 ソフトマックス関数とゲル関数による活性化値の分布はガウス分布とは大きく異なる。 また,mseやコサイン距離などの共通量子化指標が最適スケーリング係数を決定するために不正確であることも観察した。 本稿では,これらのアクティベーション値の量子化誤差を低減するために,ツイン均一量子化法を提案する。 また,Hessian Guided Metricsを用いて異なるスケーリング要因の評価を行い,低コストでキャリブレーションの精度を向上させることを提案する。 視覚変換器の高速量子化を実現するため,効率的なフレームワークPTQ4ViTを開発した。 実験では、ImageNet分類タスクにおいて、量子化された視覚変換器は、ほぼロスレスな予測精度(8ビットの量子化で0.5%以下)を達成する。

Quantization is one of the most effective methods to compress neural networks, which has achieved great success on convolutional neural networks (CNNs). Recently, vision transformers have demonstrated great potential in computer vision. However, previous post-training quantization methods performed not well on vision transformer, resulting in more than 1% accuracy drop even in 8-bit quantization. Therefore, we analyze the problems of quantization on vision transformers. We observe the distributions of activation values after softmax and GELU functions are quite different from the Gaussian distribution. We also observe that common quantization metrics, such as MSE and cosine distance, are inaccurate to determine the optimal scaling factor. In this paper, we propose the twin uniform quantization method to reduce the quantization error on these activation values. And we propose to use a Hessian guided metric to evaluate different scaling factors, which improves the accuracy of calibration with a small cost. To enable the fast quantization of vision transformers, we develop an efficient framework, PTQ4ViT. Experiments show the quantized vision transformers achieve near-lossless prediction accuracy (less than 0.5% drop at 8-bit quantization) on the ImageNet classification task.
翻訳日:2021-11-25 15:37:59 公開日:2021-11-24
# イメージパッチは波です:位相認識ビジョンmlp

An Image Patch is a Wave: Phase-Aware Vision MLP ( http://arxiv.org/abs/2111.12294v1 )

ライセンス: Link先を確認
Yehui Tang, Kai Han, Jianyuan Guo, Chang Xu, Yanxi Li, Chao Xu, Yunhe Wang(参考訳) 従来の畳み込みニューラルネットワーク(CNN)や視覚変換器とは異なり、多層パーセプトロン(MLP)は、完全に接続された層でのみ積み重ねられる非常に単純なアーキテクチャを持つ新しいタイプの視覚モデルである。 視覚MLPの入力画像は、通常複数のトークン(パッチ)に分割されるが、既存のMLPモデルはそれらを固定重量で直接集約し、異なる画像からのトークンの様々な意味情報を無視する。 トークンを動的に集約するために,各トークンを振幅と位相の2つの部分からなる波動関数として表現する。 振幅は元の特徴であり、位相項は入力画像の意味的内容に応じて変化する複素値である。 位相項の導入は、MLPにおけるトークンと固定重みの関係を動的に変調することができる。 wave-likeトークン表現に基づいて、視覚タスクのための新しいwave-mlpアーキテクチャを確立する。 画像分類やオブジェクト検出,セマンティックセグメンテーションといった様々なビジョンタスクにおいて,提案するWave-MLPは最先端のMLPアーキテクチャよりも優れていることを示す。

Different from traditional convolutional neural network (CNN) and vision transformer, the multilayer perceptron (MLP) is a new kind of vision model with extremely simple architecture that only stacked by fully-connected layers. An input image of vision MLP is usually split into multiple tokens (patches), while the existing MLP models directly aggregate them with fixed weights, neglecting the varying semantic information of tokens from different images. To dynamically aggregate tokens, we propose to represent each token as a wave function with two parts, amplitude and phase. Amplitude is the original feature and the phase term is a complex value changing according to the semantic contents of input images. Introducing the phase term can dynamically modulate the relationship between tokens and fixed weights in MLP. Based on the wave-like token representation, we establish a novel Wave-MLP architecture for vision tasks. Extensive experiments demonstrate that the proposed Wave-MLP is superior to the state-of-the-art MLP architectures on various vision tasks such as image classification, object detection and semantic segmentation.
翻訳日:2021-11-25 15:37:42 公開日:2021-11-24
# 多クラス画像分類のための空間文脈対応深層ニューラルネットワーク

Spatial-context-awar e deep neural network for multi-class image classification ( http://arxiv.org/abs/2111.12296v1 )

ライセンス: Link先を確認
Jialu Zhang, Qian Zhang, Jianfeng Ren, Yitian Zhao, Jiang Liu(参考訳) マルチラベル画像分類はコンピュータビジョンにおける基本だが挑戦的な課題である。 過去数十年間、セマンティックラベル間の関係を探究するソリューションは大きな進歩を遂げてきた。 しかし,ラベルの空間的・文脈的情報は未公開である。 この問題に対処するために,意味的情報と空間的情報の両方を考慮したラベル予測のために,空間文脈認識型深層ニューラルネットワークを提案する。 このフレームワークはMicrosoft COCOとPASCAL VOCで評価され、画像のマルチラベリングに広く使われているベンチマークデータセットである。 その結果,提案手法はマルチラベル画像分類問題に対する最先端ソリューションよりも優れていることがわかった。

Multi-label image classification is a fundamental but challenging task in computer vision. Over the past few decades, solutions exploring relationships between semantic labels have made great progress. However, the underlying spatial-contextual information of labels is under-exploited. To tackle this problem, a spatial-context-awar e deep neural network is proposed to predict labels taking into account both semantic and spatial information. This proposed framework is evaluated on Microsoft COCO and PASCAL VOC, two widely used benchmark datasets for image multi-labelling. The results show that the proposed approach is superior to the state-of-the-art solutions on dealing with the multi-label image classification problem.
翻訳日:2021-11-25 15:37:25 公開日:2021-11-24
# RPM上のワンショットビジュアル推論とビデオフレーム予測への応用

One-shot Visual Reasoning on RPMs with an Application to Video Frame Prediction ( http://arxiv.org/abs/2111.12301v1 )

ライセンス: Link先を確認
Wentao He, Jianfeng Ren, Ruibin Bai(参考訳) Raven's Progressive Matrices (RPM) は人間の視覚的推論能力を評価するために頻繁に用いられる。 研究者は、視覚認識と論理的推論タスクの両方のために、しばしばブラックボックスのエンドツーエンド畳み込みニューラルネットワーク(cnn)を介して、rpm問題を自動で解決するシステムの開発に多大な努力を払った。 高度に説明可能な解法を開発するために,知覚モジュールと推論モジュールを含む2段階のフレームワークである1発の人間理解可能な推論器(os-hurs)を提案し,実世界の視覚認識とそれに続く論理推論タスクの課題に取り組む。 推論モジュールのために、人間により理解され、モデルの複雑さを大幅に低減できる「2+1」定式化を提案する。 その結果、1つのRPMサンプルのみから正確な推論規則を導出することができ、既存の解法では不可能である。 提案する推論モジュールは、rpm問題を解決する際に人間の知識を正確にモデル化する一連の推論ルールも得ることができる。 提案手法を実世界のアプリケーションに適用するために,合成画像の代わりに実世界のビデオフレームを用いて構築したRPM上で視覚的推論を行うROFデータセットを構築した。 種々のRPM様データセットの実験結果から,提案したOs-HURSは,最先端モデルと比較して有意かつ一貫した性能向上を達成した。

Raven's Progressive Matrices (RPMs) are frequently used in evaluating human's visual reasoning ability. Researchers have made considerable effort in developing a system which could automatically solve the RPM problem, often through a black-box end-to-end Convolutional Neural Network (CNN) for both visual recognition and logical reasoning tasks. Towards the objective of developing a highly explainable solution, we propose a One-shot Human-Understandable ReaSoner (Os-HURS), which is a two-step framework including a perception module and a reasoning module, to tackle the challenges of real-world visual recognition and subsequent logical reasoning tasks, respectively. For the reasoning module, we propose a "2+1" formulation that can be better understood by humans and significantly reduces the model complexity. As a result, a precise reasoning rule can be deduced from one RPM sample only, which is not feasible for existing solution methods. The proposed reasoning module is also capable of yielding a set of reasoning rules, precisely modeling the human knowledge in solving the RPM problem. To validate the proposed method on real-world applications, an RPM-like One-shot Frame-prediction (ROF) dataset is constructed, where visual reasoning is conducted on RPMs constructed using real-world video frames instead of synthetic images. Experimental results on various RPM-like datasets demonstrate that the proposed Os-HURS achieves a significant and consistent performance gain compared with the state-of-the-art models.
翻訳日:2021-11-25 15:37:16 公開日:2021-11-24
# RegionCL: 単純領域スワッピングはコントラスト学習に寄与できるか?

RegionCL: Can Simple Region Swapping Contribute to Contrastive Learning? ( http://arxiv.org/abs/2111.12309v1 )

ライセンス: Link先を確認
Yufei Xu, Qiming Zhang, Jing Zhang, Dacheng Tao(参考訳) 自己監視型手法(ssl)は、2つの拡張ビュー間の相互情報を最大化することで大きな成功を収めている。 収穫された領域は正の対を作るのに広く用いられ、収穫後の左の領域は既存の方法ではほとんど探索されていないが、どちらも同じ画像のインスタンスを構成し、カテゴリの記述に寄与している。 本稿では,完全視点から収穫における両領域の重要性を実証する最初の試みとして,地域コントラスト学習(RegionCL)という,単純かつ効果的な前提課題を提案する。 具体的には、2つの異なる画像が与えられた場合、同じ大きさの画像からランダムに領域(ペーストビュー)を抽出し、左の領域(キャンバスビュー)とともに2つの新しい画像を構成するように置き換える。 そして、コントラストペアは、(1)同一の原画像からのビューが正、(2)他の画像からのビューが負、という単純な基準に従って効率的に構築することができる。 一般的なSSLメソッドに小さな変更を加えることで、RereaCLはこれらの豊富なペアを利用して、モデルをキャンバスとペーストの両方のビューと区別するのに役立つ。 ImageNet、MS COCO、Cityscapesの実験では、RereaCLはMoCo v2、DenseCL、SimSiamを大きなマージンで改善し、分類、検出、セグメンテーションタスクにおける最先端のパフォーマンスを達成する。 コードはhttps://github.com/A nnbless/RegionCL.git で入手できる。

Self-supervised methods (SSL) have achieved significant success via maximizing the mutual information between two augmented views, where cropping is a popular augmentation technique. Cropped regions are widely used to construct positive pairs, while the left regions after cropping have rarely been explored in existing methods, although they together constitute the same image instance and both contribute to the description of the category. In this paper, we make the first attempt to demonstrate the importance of both regions in cropping from a complete perspective and propose a simple yet effective pretext task called Region Contrastive Learning (RegionCL). Specifically, given two different images, we randomly crop a region (called the paste view) from each image with the same size and swap them to compose two new images together with the left regions (called the canvas view), respectively. Then, contrastive pairs can be efficiently constructed according to the following simple criteria, i.e., each view is (1) positive with views augmented from the same original image and (2) negative with views augmented from other images. With minor modifications to popular SSL methods, RegionCL exploits those abundant pairs and helps the model distinguish the regions features from both canvas and paste views, therefore learning better visual representations. Experiments on ImageNet, MS COCO, and Cityscapes demonstrate that RegionCL improves MoCo v2, DenseCL, and SimSiam by large margins and achieves state-of-the-art performance on classification, detection, and segmentation tasks. The code will be available at https://github.com/A nnbless/RegionCL.git .
翻訳日:2021-11-25 15:36:52 公開日:2021-11-24
# PDVハッシュを用いた動的テクスチャ認識と多スケールボリューム局所バイナリパターンを用いた辞書学習

Dynamic Texture Recognition using PDV Hashing and Dictionary Learning on Multi-scale Volume Local Binary Pattern ( http://arxiv.org/abs/2111.12315v1 )

ライセンス: Link先を確認
Ruxin Ding, Jianfeng Ren, Heng Yu, Jiawei Li(参考訳) 動的テクスチャ認識には時空間局所パターン(STLBP)が広く用いられている。 STLBPは、その次元が指数関数的に増加するにつれて、しばしば高次元問題に遭遇する。 この問題に対処するために,多スケールボリュームローカルバイナリパターン(PHD-MVLBP)を用いたPDVハッシュと辞書学習を用いた動的テクスチャ認識手法を提案する。 非常に高次元のLPPヒストグラムの特徴を形成する代わりに、まずハッシュ関数を使用してピクセル差分ベクトル(PDV)を二進ベクトルにマッピングし、それから導出した二進ベクトルを用いて辞書を作成し、導出した辞書を使ってそれらを符号化する。 このように、pdvは、非常に高次元のlppヒストグラムではなく、辞書の大きさのベクトルを特徴付けるようにマッピングされる。 このような符号化方式は、より広い範囲の動画から識別情報を効果的に抽出することができる。 広く使われている2つの動的テクスチャデータセットであるDynTex++とUCLAの実験結果から,提案手法が最先端手法よりも優れていることを示す。

Spatial-temporal local binary pattern (STLBP) has been widely used in dynamic texture recognition. STLBP often encounters the high-dimension problem as its dimension increases exponentially, so that STLBP could only utilize a small neighborhood. To tackle this problem, we propose a method for dynamic texture recognition using PDV hashing and dictionary learning on multi-scale volume local binary pattern (PHD-MVLBP). Instead of forming very high-dimensional LBP histogram features, it first uses hash functions to map the pixel difference vectors (PDVs) to binary vectors, then forms a dictionary using the derived binary vector, and encodes them using the derived dictionary. In such a way, the PDVs are mapped to feature vectors of the size of dictionary, instead of LBP histograms of very high dimension. Such an encoding scheme could extract the discriminant information from videos in a much larger neighborhood effectively. The experimental results on two widely-used dynamic textures datasets, DynTex++ and UCLA, show the superiority performance of the proposed approach over the state-of-the-art methods.
翻訳日:2021-11-25 15:36:22 公開日:2021-11-24
# Deep Face Anti-Spoofingのための一貫性規則化

Consistency Regularization for Deep Face Anti-Spoofing ( http://arxiv.org/abs/2111.12320v1 )

ライセンス: Link先を確認
Zezheng Wang, Zitong Yu, Xun Wang, Yunxiao Qin, Jiahong Li, Chenxu Zhao, Zhen Lei, Xin Liu, Size Li, Zhongyuan Wang(参考訳) face anti-spoofing (fas) は顔認識システムのセキュリティにおいて重要な役割を担っている。 経験上、画像が与えられた場合、この画像の異なるビューでより一貫した出力を持つモデルは、図1に示すように、通常よりよく機能する。 このエキサイティングな観察によって、異なる視点の特徴整合性を促進することがFASモデルを促進するための有望な方法かもしれないと推測する。 本稿では,fasにおける埋め込みレベルと予測レベル一貫性規則化(epcr)の両立により,この手法を徹底的に検討する。 具体的には、埋め込みレベルでは、2つの中間特徴マップのすべての位置間の類似性を自己教師ありの方法で最大化するために、密な類似度損失を設計するが、予測レベルでは、2つのビューの予測間の平均平方誤差を最適化する。 特に,EPCRにはアノテーションがなく,半教師付き学習方式に直接組み込むことができる。 異なるアプリケーションシナリオを考慮して、半教師付きFAS技術を測定するための5つの多様な半教師付きプロトコルを更に設計する。 我々は、ベンチマークデータセット上で、EPCRが教師付きおよび半教師付きタスクの性能を大幅に改善できることを示す広範な実験を行った。 コードとプロトコルは間もなくリリースされる。

Face anti-spoofing (FAS) plays a crucial role in securing face recognition systems. Empirically, given an image, a model with more consistent output on different views of this image usually performs better, as shown in Fig.1. Motivated by this exciting observation, we conjecture that encouraging feature consistency of different views may be a promising way to boost FAS models. In this paper, we explore this way thoroughly by enhancing both Embedding-level and Prediction-level Consistency Regularization (EPCR) in FAS. Specifically, at the embedding-level, we design a dense similarity loss to maximize the similarities between all positions of two intermediate feature maps in a self-supervised fashion; while at the prediction-level, we optimize the mean square error between the predictions of two views. Notably, our EPCR is free of annotations and can directly integrate into semi-supervised learning schemes. Considering different application scenarios, we further design five diverse semi-supervised protocols to measure semi-supervised FAS techniques. We conduct extensive experiments to show that EPCR can significantly improve the performance of several supervised and semi-supervised tasks on benchmark datasets. The codes and protocols will be released soon.
翻訳日:2021-11-25 15:36:01 公開日:2021-11-24
# MonoPLFlowNet:モノクロ画像を用いた実物大3次元シーンフロー推定のためのPermutohedral Lattice FlowNet

MonoPLFlowNet: Permutohedral Lattice FlowNet for Real-Scale 3D Scene FlowEstimation with Monocular Images ( http://arxiv.org/abs/2111.12325v1 )

ライセンス: Link先を確認
Runfa Li, Truong Nguyen(参考訳) 3次元コンピュータビジョンにおいて,実物的シーンフロー推定がますます重要になっている。 実際の3次元シーンフローをLiDARで推定する作業もある。 しかし、これらのユビキタスで高価なセンサーは、実際の用途に広く装備される可能性は低い。 他の研究では、シーンフローを単眼画像で推定するが、シーンフローの推定はスケールのあいまいさによって正規化され、そこでは、実際のスケールを回復するために追加の深度や点雲の真実が要求される。 2dでうまく機能するが、これらの作品は正確で信頼性の高い3d見積もりを提供していない。 直交格子(MonoPLFlowNet)の深層学習アーキテクチャについて述べる。 これまでと異なり、MonoPLFlowNetは2つの連続した単分子画像のみを入力とし、奥行きと3次元のシーンフローをリアルタイムで推定する最初の作品です。 実物大のシーンフロー推定は,実物大のモノクルイメージをベースとした実物大の作業よりも優れており,LiDARのアプローチに匹敵する。 副産物として、我々の実際の深さ推定は他の最先端の作品よりも優れている。

Real-scale scene flow estimation has become increasingly important for 3D computer vision. Some works successfully estimate real-scale 3D scene flow with LiDAR. However, these ubiquitous and expensive sensors are still unlikely to be equipped widely for real application. Other works use monocular images to estimate scene flow, but their scene flow estimations are normalized with scale ambiguity, where additional depth or point cloud ground truth are required to recover the real scale. Even though they perform well in 2D, these works do not provide accurate and reliable 3D estimates. We present a deep learning architecture on permutohedral lattice - MonoPLFlowNet. Different from all previous works, our MonoPLFlowNet is the first work where only two consecutive monocular images are used as input, while both depth and 3D scene flow are estimated in real scale. Our real-scale scene flow estimation outperforms all state-of-the-art monocular-image based works recovered to real scale by ground truth, and is comparable to LiDAR approaches. As a by-product, our real-scale depth estimation also outperforms other state-of-the-art works.
翻訳日:2021-11-25 15:35:43 公開日:2021-11-24
# 隠れフォールドネットワーク:スパーススーパーマスクを用いたランダムリカレント残差

Hidden-Fold Networks: Random Recurrent Residuals Using Sparse Supermasks ( http://arxiv.org/abs/2111.12330v1 )

ライセンス: Link先を確認
\'Angel L\'opez Garc\'ia-Arias, Masanori Hashimoto, Masato Motomura, Jaehoon Yu(参考訳) ディープニューラルネットワーク(DNN)は過度にパラメータ化されているため、最近の研究で、ランダムに初期化された状態において高い精度でサブネットワークをすでに含んでいることがわかった。 これらのサブネットワークを見つけることは、重みづけ学習に有効な代替訓練方法である。 並行して、別の研究は、深層残留ネットワーク(resnets)が浅層リカレントニューラルネットワーク(rnn)の振る舞いを近似しようとしていると仮定し、それらをリカレントモデルに圧縮する方法を提案している。 本稿では,これらの研究を高度に圧縮されながら正確なモデルであるHedden-Fold Networks (HFNs) にブレンドすることを提案する。 リカレント構造に再ネットをフォールディングし、ランダム初期化モデル内に隠された正確なサブネットワークを探索することで、重みを更新せずに、高性能で小さなhfnを得る。 その結果、HFNはCIFAR100上のResNet50と同等の性能を達成し、メモリは38.5倍、ImageNet上のResNet34は26.8倍小さい。 HFNは、高度に量子化されランダムに重み付けされたDNN推論アクセラレーター上で動作する場合、正確性を維持しながらデータ転送を最小限にすることでさらに魅力的になる。 https://github.com/L opez-Angel/hidden-fo ld-networksで公開されているコード

Deep neural networks (DNNs) are so over-parametrized that recent research has found them to already contain a subnetwork with high accuracy at their randomly initialized state. Finding these subnetworks is a viable alternative training method to weight learning. In parallel, another line of work has hypothesized that deep residual networks (ResNets) are trying to approximate the behaviour of shallow recurrent neural networks (RNNs) and has proposed a way for compressing them into recurrent models. This paper proposes blending these lines of research into a highly compressed yet accurate model: Hidden-Fold Networks (HFNs). By first folding ResNet into a recurrent structure and then searching for an accurate subnetwork hidden within the randomly initialized model, a high-performing yet tiny HFN is obtained without ever updating the weights. As a result, HFN achieves equivalent performance to ResNet50 on CIFAR100 while occupying 38.5x less memory, and similar performance to ResNet34 on ImageNet with a memory size 26.8x smaller. The HFN will become even more attractive by minimizing data transfers while staying accurate when it runs on highly-quantized and randomly-weighted DNN inference accelerators. Code available at https://github.com/L opez-Angel/hidden-fo ld-networks
翻訳日:2021-11-25 15:35:08 公開日:2021-11-24
# 任意の仮想試着ネットワーク:身体と衣服の特徴保存とトレードオフ

Arbitrary Virtual Try-On Network: Characteristics Preservation and Trade-off between Body and Clothing ( http://arxiv.org/abs/2111.12346v1 )

ライセンス: Link先を確認
Yu Liu and Mingbo Zhao and Zhao Zhang and Haijun Zhang and Shuicheng Yan(参考訳) ディープラーニングをベースとした仮想試着システムは最近、いくつかの大きな進歩を遂げているが、あらゆるタイプの任意の衣服を試着したり、あるカテゴリーから別のカテゴリーまで服を試着したり、少数のアーティファクトでイメージリアルな結果を生み出すなど、解決すべきいくつかの大きな課題がまだ残っている。 この問題に対処するため,本論文ではまず,あらゆる種類の衣服,上着,下着,衣服全体に関する新しいデータセットを収集し,それぞれにパターン,ロゴ,その他の細部といった衣料特性の豊富な情報を含む複数のカテゴリを分類した。 このデータセットに基づいて、ターゲットの衣服と参照者の特性を保存・交換することでリアルな試着画像を合成できる、オールタイプの衣服に利用されるArbitrary Virtual Try-On Network (AVTON)を提案する。 このアプローチには3つのモジュールがあります。 1)参照者の特性を保存して人体部分を予測するのに使用されるリムズ予測モジュール。 これは特に、肌の色と細部が露出した腕や脚が合理的に予測できるクロスカテゴリトライオンタスク(\eg long sleeves \(\leftrightarrow\) short sleevesまたはlong pants \(\leftrightarrow\) skirts, \etc)を扱うのに便利である。 2)対象者の形状に応じて衣服を反動させるように設計された幾何学的マッチングモジュールの改良。 コンパクトに支持されたラジアル関数 (wendland の \(\psi\)-関数) を用いて, tps に基づくワーピング法を改善する。 3)トレードオフ融合モジュールは、反りのある衣服と参照者の特性をトレードオフするものである。 このモジュールは、ネットワーク構造の微調整対称性に基づいて、生成された試行画像をより自然でリアルに見せる。 大規模なシミュレーションを行い,最先端の仮想試行法と比較して性能が向上する。

Deep learning based virtual try-on system has achieved some encouraging progress recently, but there still remain several big challenges that need to be solved, such as trying on arbitrary clothes of all types, trying on the clothes from one category to another and generating image-realistic results with few artifacts. To handle this issue, we in this paper first collect a new dataset with all types of clothes, \ie tops, bottoms, and whole clothes, each one has multiple categories with rich information of clothing characteristics such as patterns, logos, and other details. Based on this dataset, we then propose the Arbitrary Virtual Try-On Network (AVTON) that is utilized for all-type clothes, which can synthesize realistic try-on images by preserving and trading off characteristics of the target clothes and the reference person. Our approach includes three modules: 1) Limbs Prediction Module, which is utilized for predicting the human body parts by preserving the characteristics of the reference person. This is especially good for handling cross-category try-on task (\eg long sleeves \(\leftrightarrow\) short sleeves or long pants \(\leftrightarrow\) skirts, \etc), where the exposed arms or legs with the skin colors and details can be reasonably predicted; 2) Improved Geometric Matching Module, which is designed to warp clothes according to the geometry of the target person. We improve the TPS based warping method with a compactly supported radial function (Wendland's \(\Psi\)-function); 3) Trade-Off Fusion Module, which is to trade off the characteristics of the warped clothes and the reference person. This module is to make the generated try-on images look more natural and realistic based on a fine-tune symmetry of the network structure. Extensive simulations are conducted and our approach can achieve better performance compared with the state-of-the-art virtual try-on methods.
翻訳日:2021-11-25 15:34:43 公開日:2021-11-24
# ロバストなシーンテキスト認識のための視覚・視覚特徴学習の分離

Decoupling Visual-Semantic Feature Learning for Robust Scene Text Recognition ( http://arxiv.org/abs/2111.12351v1 )

ライセンス: Link先を確認
Changxu Cheng, Bohan Li, Qi Zheng, Yongpan Wang, Wenyu Liu(参考訳) シーンテキスト認識には意味情報が有効であることが証明されている。 既存の手法の多くは、注意に基づくデコーダで視覚情報と意味情報を結合する傾向がある。 結果として、意味的特徴の学習は、訓練セットの限られた語彙に偏りがちであり、これは語彙依存と呼ばれる。 本稿では,この問題に対処する新しいビジュアル・セマンティック・デカップリング・ネットワーク(VSDN)を提案する。 我々のVSDNにはビジュアルデコーダ(VD)とセマンティックデコーダ(SD)があり、それぞれより純粋な視覚的特徴表現と意味的特徴表現を学習する。 さらに、Semantic Encoder (SE) はSDにマッチするように設計されており、単純な単語修正タスクを通じて、より安価な大語彙で事前訓練することができる。 したがって、意味的特徴は、視覚的特徴のアライメントを導き、最終文字表現を豊かにするほど、より曖昧で正確である。 実験により,本手法は標準ベンチマークにおける最先端ないし競争的な結果が得られ,トレーニングセットが語彙の小さい状況下では,一般的なベースラインよりも高い性能を示すことが示された。

Semantic information has been proved effective in scene text recognition. Most existing methods tend to couple both visual and semantic information in an attention-based decoder. As a result, the learning of semantic features is prone to have a bias on the limited vocabulary of the training set, which is called vocabulary reliance. In this paper, we propose a novel Visual-Semantic Decoupling Network (VSDN) to address the problem. Our VSDN contains a Visual Decoder (VD) and a Semantic Decoder (SD) to learn purer visual and semantic feature representation respectively. Besides, a Semantic Encoder (SE) is designed to match SD, which can be pre-trained together by additional inexpensive large vocabulary via a simple word correction task. Thus the semantic feature is more unbiased and precise to guide the visual feature alignment and enrich the final character representation. Experiments show that our method achieves state-of-the-art or competitive results on the standard benchmarks, and outperforms the popular baseline by a large margin under circumstances where the training set has a small size of vocabulary.
翻訳日:2021-11-25 15:34:07 公開日:2021-11-24
# spcl: 意味プロトタイプに基づくコントラスト学習によるドメイン適応意味セグメンテーションのための新しいフレームワーク

SPCL: A New Framework for Domain Adaptive Semantic Segmentation via Semantic Prototype-based Contrastive Learning ( http://arxiv.org/abs/2111.12358v1 )

ライセンス: Link先を確認
Binhui Xie, Kejia Yin, Shuang Li and Xinjing Chen(参考訳) セマンティックセグメンテーションには大きな進歩があるが、ドメインバイアスのため、セマンティックセグメンテーションモデルを目に見えない領域に展開することは依然として困難である。 ドメイン適応は、ラベル付きソースドメインからラベルなしのターゲットドメインに知識を転送することによって、この点において役立つ。 従来はグローバルな特徴への適応を試みてきたが、特徴空間の各ピクセルの局所的なセマンティックアフィリエイトは無視されることが多く、識別性が低下する。 そこで本研究では,クラスアライメントを微粒化するための新しい意味的プロトタイプベースコントラスト学習フレームワークを提案する。 具体的には、意味プロトタイプが画素単位の判別表現学習のための監督信号を提供し、対応する意味プロトタイプの内容を反映して、特徴空間内のソースおよびターゲットドメインの各画素が要求される。 このようにして、我々のフレームワークは、セグメンテーションモデルの堅牢性を向上し、ドメインシフト問題を緩和するために、クラス内ピクセル表現とクラス間ピクセル表現をより明確に分離することができる。 本手法は実装が容易であり,多くの実験で示されるように,最先端手法に比べて優れた結果が得られる。 コードは[このhttps URL](https://github.com/ BinhuiXie/SPCL)で公開されている。

Although there is significant progress in supervised semantic segmentation, it remains challenging to deploy the segmentation models to unseen domains due to domain biases. Domain adaptation can help in this regard by transferring knowledge from a labeled source domain to an unlabeled target domain. Previous methods typically attempt to perform the adaptation on global features, however, the local semantic affiliations accounting for each pixel in the feature space are often ignored, resulting in less discriminability. To solve this issue, we propose a novel semantic prototype-based contrastive learning framework for fine-grained class alignment. Specifically, the semantic prototypes provide supervisory signals for per-pixel discriminative representation learning and each pixel of source and target domains in the feature space is required to reflect the content of the corresponding semantic prototype. In this way, our framework is able to explicitly make intra-class pixel representations closer and inter-class pixel representations further apart to improve the robustness of the segmentation model as well as alleviate the domain shift problem. Our method is easy to implement and attains superior results compared to state-of-the-art approaches, as is demonstrated with a number of experiments. The code is publicly available at [this https URL](https://github.com/ BinhuiXie/SPCL).
翻訳日:2021-11-25 15:33:48 公開日:2021-11-24
# レーダ時線ドップラー信号を用いた3次元直交プロジェクタンスネットによる人間の活動認識

Human Activity Recognition Using 3D Orthogonally-project ed EfficientNet on Radar Time-Range-Doppler Signature ( http://arxiv.org/abs/2111.12375v1 )

ライセンス: Link先を確認
Zeyu Wang, Chenglin Yao, Jianfeng Ren, Xudong Jiang(参考訳) レーダーアクティビティ認識では、スペクトログラム、ケプストラム、ケイデンス速度図などの2次元信号表現が頻繁に用いられるが、範囲情報は無視されることが多い。 本研究では,3次元TRDキューブに埋め込まれた識別情報を正確な分類のために効果的に捉えるために,TRD表現と3次元直交投影型効率ネット(3D-OPEN)の設計を提案する。 提案モデルは、3次元特徴空間から投影される3つの直交平面から識別情報を集約する。 高次元の3次元表現から直接スパースなセマンティック抽象化を利用する際の3次元CNNの難しさを軽減する。 提案手法はミリ波レーダ歩行データセットを用いて評価する。 レーダー活動認識の最先端手法を著しく、一貫して上回る。

In radar activity recognition, 2D signal representations such as spectrogram, cepstrum and cadence velocity diagram are often utilized, while range information is often neglected. In this work, we propose to utilize the 3D time-range-Doppler (TRD) representation, and design a 3D Orthogonally-Project ed EfficientNet (3D-OPEN) to effectively capture the discriminant information embedded in the 3D TRD cubes for accurate classification. The proposed model aggregates the discriminant information from three orthogonal planes projected from the 3D feature space. It alleviates the difficulty of 3D CNNs in exploiting sparse semantic abstractions directly from the high-dimensional 3D representation. The proposed method is evaluated on the Millimeter-Wave Radar Walking Dataset. It significantly and consistently outperforms the state-of-the-art methods for radar activity recognition.
翻訳日:2021-11-25 15:33:23 公開日:2021-11-24
# 全てを転送するフレームワーク - データが少ないビジョンファウンデーションモデルのためのユニバーサルトランスファーフレームワーク

One to Transfer All: A Universal Transfer Framework for Vision Foundation Model with Few Data ( http://arxiv.org/abs/2111.12386v1 )

ライセンス: Link先を確認
Yujie Wang, Junqin Huang, Mengya Gao, Yichao Wu, Zhenfei Yin, Ding Liang, Junjie Yan(参考訳) ファウンデーションモデルは、モデル生産パイプラインの最後の章ではありません。 数千のダウンストリームタスクに一般的な方法でデータの少ない転送は、ファンデーションモデルの応用のトレンドになりつつある。 本稿では、VFM(Vision Foundation Model)をダウンストリームデータが少ないダウンストリームタスクに転送するための、OTA(One to Transfer All)というユニバーサルトランスファーフレームワークを提案する。 まず、画像再構成ファインチューニング(IRF)によりタスク固有モデルにVFMを転送し、ダウンストリーム画像ガイド生成(DIGG)によって生成されたデータを用いてタスク固有モデルからデプロイモデルに知識を蒸留する。 OTAは、転送時に上流データ、VFM、下流タスクに依存しない。 また、VFM研究者は、アップストリーム情報をより良い転送のためにリリースする手段を提供するが、プライバシ要求のためにデータをリークしない。 大規模実験により,提案手法の有効性と優越性を検証できた。 私たちのコードはリリースされます。

The foundation model is not the last chapter of the model production pipeline. Transferring with few data in a general way to thousands of downstream tasks is becoming a trend of the foundation model's application. In this paper, we proposed a universal transfer framework: One to Transfer All (OTA) to transfer any Vision Foundation Model (VFM) to any downstream tasks with few downstream data. We first transfer a VFM to a task-specific model by Image Re-representation Fine-tuning (IRF) then distilling knowledge from a task-specific model to a deployed model with data produced by Downstream Image-Guided Generation (DIGG). OTA has no dependency on upstream data, VFM, and downstream tasks when transferring. It also provides a way for VFM researchers to release their upstream information for better transferring but not leaking data due to privacy requirements. Massive experiments validate the effectiveness and superiority of our methods in few data setting. Our code will be released.
翻訳日:2021-11-25 15:33:10 公開日:2021-11-24
# 機能レベルに基づく顔ソフトバイオメトリックプライバシー強化に対する攻撃

An Attack on Feature Level-based Facial Soft-biometric Privacy Enhancement ( http://arxiv.org/abs/2111.12405v1 )

ライセンス: Link先を確認
Dail\'e Osorio-Roig, Christian Rathgeb, Pawel Drozdowski, Philipp Terh\"orst, Vitomir \v{S}truc, Christoph Busch(参考訳) 近年、異なる研究者がソフトバイオメトリック情報を特徴レベルで隠蔽する新しいプライバシー向上型顔認識システムを提案している。 これらの研究は印象的な結果を報告しているが、通常、プライバシー保護の分析において特定の攻撃を考慮しない。 ほとんどの場合、これらのスキームのプライバシー保護機能は、単純な機械学習ベースの分類器と次元低減ツールの視覚化によってテストされる。 本研究では,特徴レベルに基づく顔ソフトバイオメトリック・プライバシ・エンハンスメント技術に対する攻撃を提案する。 この攻撃は、(1)高い認識精度を達成するためには、そのプライバシー強化バージョンに顔表現の特定の類似性を保持する必要があり、(2)非常に類似した顔表現は、通常、類似のソフトバイオメトリック属性を持つ顔画像に由来する。 これらの観測に基づいて、提案攻撃はプライバシー強化顔表現と、プライバシー強化顔表現と、既知のソフトバイオメトリック属性を比較した。 その後、最も優れた類似度スコアを解析し、攻撃されたプライバシー強調顔表現の未知のソフトバイオメトリック特性を推定する。 つまり、攻撃には、任意の顔画像の比較的小さなデータベースと、ブラックボックスとしてのプライバシー向上の顔認識アルゴリズムが必要だ。 実験では、プライバシ強化された顔表現において、性別を確実に隠蔽する2つの代表的なアプローチに適用した。 提示された攻撃は、プライバシ強化をかなり回避することができ、分析されたプライバシ強化顔認識システムにおいて、最大90%の精度で性別を正しく分類することができる。

In the recent past, different researchers have proposed novel privacy-enhancing face recognition systems designed to conceal soft-biometric information at feature level. These works have reported impressive results, but usually do not consider specific attacks in their analysis of privacy protection. In most cases, the privacy protection capabilities of these schemes are tested through simple machine learning-based classifiers and visualisations of dimensionality reduction tools. In this work, we introduce an attack on feature level-based facial soft-biometric privacy-enhancement techniques. The attack is based on two observations: (1) to achieve high recognition accuracy, certain similarities between facial representations have to be retained in their privacy-enhanced versions; (2) highly similar facial representations usually originate from face images with similar soft-biometric attributes. Based on these observations, the proposed attack compares a privacy-enhanced face representation against a set of privacy-enhanced face representations with known soft-biometric attributes. Subsequently, the best obtained similarity scores are analysed to infer the unknown soft-biometric attributes of the attacked privacy-enhanced face representation. That is, the attack only requires a relatively small database of arbitrary face images and the privacy-enhancing face recognition algorithm as a black-box. In the experiments, the attack is applied to two representative approaches which have previously been reported to reliably conceal the gender in privacy-enhanced face representations. It is shown that the presented attack is able to circumvent the privacy enhancement to a considerable degree and is able to correctly classify gender with an accuracy of up to approximately 90% for both of the analysed privacy-enhancing face recognition systems.
翻訳日:2021-11-25 15:31:30 公開日:2021-11-24
# 時間的行動局所化のための背景クリック制御

Background-Click Supervision for Temporal Action Localization ( http://arxiv.org/abs/2111.12449v1 )

ライセンス: Link先を確認
Le Yang, Junwei Han, Tao Zhao, Tianwei Lin, Dingwen Zhang, Jianxin Chen(参考訳) 時間的行動ローカライゼーションは、ビデオレベルのラベルからインスタンスレベルのアクションパターンを学習することを目的としており、アクションコンテキストの混乱が大きな課題である。 この課題を克服するために、最近のある作業はアクションクリックの監視フレームワークを構築している。 同様のアノテーションのコストを必要とするが、従来の弱い教師付き手法と比較して、着実にローカライズ性能を向上させることができる。 本稿では,既存手法の性能ボトルネックが主にバックグラウンドエラーによるものであることを明らかにすることで,アクションフレームよりも背景ビデオフレームにラベルを付けてより強力なアクションローカライザをトレーニングできることを見出した。 この目的のために、アクションクリックの監督を背景クリックの監督に変換し、backtalと呼ばれる新しい方法を開発する。 具体的には、backtalは背景ビデオフレーム、すなわち位置モデリングと特徴モデリングの2次元モデリングを実装している。 位置モデリングでは、アノテーション付きビデオフレーム上で教師あり学習を行うだけでなく、潜在的なアクションフレームと背景とのスコア差を増大させるスコア分離モジュールを設計する。 特徴モデリングでは,隣接フレーム間のフレーム固有の類似度を測定し,時間的畳み込みを計算する際に動的に隣接フレームに応答する親和性モジュールを提案する。 3つのベンチマーク実験を行い、確立されたBackTALの性能と、提案したバックグラウンドクリック監視の合理性を示す。 コードはhttps://github.com/V ividLe/BackTAL.comで入手できる。

Weakly supervised temporal action localization aims at learning the instance-level action pattern from the video-level labels, where a significant challenge is action-context confusion. To overcome this challenge, one recent work builds an action-click supervision framework. It requires similar annotation costs but can steadily improve the localization performance when compared to the conventional weakly supervised methods. In this paper, by revealing that the performance bottleneck of the existing approaches mainly comes from the background errors, we find that a stronger action localizer can be trained with labels on the background video frames rather than those on the action frames. To this end, we convert the action-click supervision to the background-click supervision and develop a novel method, called BackTAL. Specifically, BackTAL implements two-fold modeling on the background video frames, i.e. the position modeling and the feature modeling. In position modeling, we not only conduct supervised learning on the annotated video frames but also design a score separation module to enlarge the score differences between the potential action frames and backgrounds. In feature modeling, we propose an affinity module to measure frame-specific similarities among neighboring frames and dynamically attend to informative neighbors when calculating temporal convolution. Extensive experiments on three benchmarks are conducted, which demonstrate the high performance of the established BackTAL and the rationality of the proposed background-click supervision. Code is available at https://github.com/V ividLe/BackTAL.
翻訳日:2021-11-25 15:31:07 公開日:2021-11-24
# irisバイオメトリックスにおけるプレゼンテーションアタック検出の紹介と最近の進歩

Introduction to Presentation Attack Detection in Iris Biometrics and Recent Advances ( http://arxiv.org/abs/2111.12465v1 )

ライセンス: Link先を確認
Aythami Morales and Julian Fierrez and Javier Galbally and Marta Gomez-Barrero(参考訳) irisの認識技術は、研究機関から現実のアプリケーションへの移行を目撃した過去数十年間、ますます関心を集めています。 この技術の展開は、これらのシステムに関連する主要な脆弱性とセキュリティ脅威に関する疑問を提起する。 これらの脅威の中で、プレゼンテーション攻撃は最も関連性があり、研究されている。 提示攻撃は、通常の操作を妨害しようとする生体認証システムの捕獲装置に直接人的特徴や人工物の提示として定義することができる。 irisの場合、これらの攻撃には実際のiriseの使用に加えて、写真やビデオのような高度化のレベルが異なるアーティファクトが含まれる。 本章では,プレゼンテーションアタックのリスクを軽減するために開発された iris プレゼンテーションアタック検出 (pad) 手法を紹介する。 まず、対処すべき主な課題を含む、最も人気のあるタイプの攻撃をまとめます。 第2に,この極めて活発な研究分野の簡単な紹介として,プレゼンテーションアタック検出手法の分類について述べる。 最後に,これらの手法のIris認識システムへの統合について,応用の最も重要なシナリオに従って論じる。

Iris recognition technology has attracted an increasing interest in the last decades in which we have witnessed a migration from research laboratories to real world applications. The deployment of this technology raises questions about the main vulnerabilities and security threats related to these systems. Among these threats presentation attacks stand out as some of the most relevant and studied. Presentation attacks can be defined as presentation of human characteristics or artifacts directly to the capture device of a biometric system trying to interfere its normal operation. In the case of the iris, these attacks include the use of real irises as well as artifacts with different level of sophistication such as photographs or videos. This chapter introduces iris Presentation Attack Detection (PAD) methods that have been developed to reduce the risk posed by presentation attacks. First, we summarise the most popular types of attacks including the main challenges to address. Secondly, we present a taxonomy of Presentation Attack Detection methods as a brief introduction to this very active research area. Finally, we discuss the integration of these methods into Iris Recognition Systems according to the most important scenarios of practical application.
翻訳日:2021-11-25 15:30:43 公開日:2021-11-24
# ビデオキャプションのための階層型モジュールネットワーク

Hierarchical Modular Network for Video Captioning ( http://arxiv.org/abs/2111.12476v1 )

ライセンス: Link先を確認
Hanhua Ye, Guorong Li, Yuankai Qi, Shuhui Wang, Qingming Huang, Ming-Hsuan Yang(参考訳) ビデオキャプションは、表現学習が重要な役割を果たすコンテンツに応じて自然言語記述を生成することを目的としている。 既存の手法は主に、言語意味論を十分に活用することなく、生成した字幕と接頭辞の単語による比較を通して教師付き学習フレームワーク内で開発されている。 本研究では,映像表現と言語意味論を3段階から橋渡しし,キャプションを生成する階層型モジュールネットワークを提案する。 特に、階層構造は以下のように構成されている: (i) エンティティレベルは、キャプションで言及される可能性が高いオブジェクトを強調する。 (II) 述語レベル - ハイライトされたオブジェクトに条件付けされたアクションを学習し、述語がキャプションで指示する。 (III) 文レベルは、グローバル意味表現を学習し、キャプション全体によって監督される。 各レベルは1つのモジュールによって実装される。 その結果,提案手法は,MSVD 104.0%とMSR-VTT 51.5%のCIDErスコアの2つのベンチマークにおいて,最先端のモデルに対して良好に動作することがわかった。

Video captioning aims to generate natural language descriptions according to the content, where representation learning plays a crucial role. Existing methods are mainly developed within the supervised learning framework via word-by-word comparison of the generated caption against the ground-truth text without fully exploiting linguistic semantics. In this work, we propose a hierarchical modular network to bridge video representations and linguistic semantics from three levels before generating captions. In particular, the hierarchy is composed of: (I) Entity level, which highlights objects that are most likely to be mentioned in captions. (II) Predicate level, which learns the actions conditioned on highlighted objects and is supervised by the predicate in captions. (III) Sentence level, which learns the global semantic representation and is supervised by the whole caption. Each level is implemented by one module. Extensive experimental results show that the proposed method performs favorably against the state-of-the-art models on the two widely-used benchmarks: MSVD 104.0% and MSR-VTT 51.5% in CIDEr score.
翻訳日:2021-11-25 15:30:30 公開日:2021-11-24
# TriStereoNet: マルチベースライン差分推定のための三眼フレームワーク

TriStereoNet: A Trinocular Framework for Multi-baseline Disparity Estimation ( http://arxiv.org/abs/2111.12502v1 )

ライセンス: Link先を確認
Faranak Shamsafar, Andreas Zell(参考訳) ステレオビジョンは,自律型都市走行と高速道路走行に広く適用可能な深度推定に有効な手法である。 ステレオのための様々なディープラーニングベースのアプローチが開発されているが、固定ベースライン付き双眼装置からの入力データは限られている。 このような問題に対処するため、細いステレオペアと広いステレオペアを組み合わせた三眼装置からデータを処理するためのエンドツーエンドネットワークを提案する。 この設計では、共通の参照画像を持つ2対の双眼鏡データをネットワークの共有重みと中間レベルの融合で処理する。 また、2つのベースラインの4Dデータをマージするためのガイド付き加算法を提案する。 さらに,実データおよび合成データセット上での逐次的自己教師付き学習と教師付き学習を提示し,実データ集合の接地データを必要としない三項システムの訓練を実践する。 実験により、三眼不均質ネットワークは、個々のペアが同様のアーキテクチャに供給されるシナリオを超越していることが示された。 コードとデータセット:https://github.com/ cogsys-tuebingen/tri stereonet

Stereo vision is an effective technique for depth estimation with broad applicability in autonomous urban and highway driving. While various deep learning-based approaches have been developed for stereo, the input data from a binocular setup with a fixed baseline are limited. Addressing such a problem, we present an end-to-end network for processing the data from a trinocular setup, which is a combination of a narrow and a wide stereo pair. In this design, two pairs of binocular data with a common reference image are treated with shared weights of the network and a mid-level fusion. We also propose a Guided Addition method for merging the 4D data of the two baselines. Additionally, an iterative sequential self-supervised and supervised learning on real and synthetic datasets is presented, making the training of the trinocular system practical with no need to ground-truth data of the real dataset. Experimental results demonstrate that the trinocular disparity network surpasses the scenario where individual pairs are fed into a similar architecture. Code and dataset: https://github.com/c ogsys-tuebingen/tris tereonet.
翻訳日:2021-11-25 15:30:10 公開日:2021-11-24
# 医学画像分割のための因果性に触発された単一ソースドメインの一般化

Causality-inspired Single-source Domain Generalization for Medical Image Segmentation ( http://arxiv.org/abs/2111.12525v1 )

ライセンス: Link先を確認
Cheng Ouyang, Chen Chen, Surui Li, Zeju Li, Chen Qin, Wenjia Bai, Daniel Rueckert(参考訳) ディープラーニングモデルは、通常、あるソースドメインでトレーニングされたモデルが他の目に見えないドメインにうまく一般化しない、ドメインシフトの問題に苦しむ。 本研究では, 医用画像アプリケーションで一般的である1つのソースドメインからのみ, トレーニングデータが利用可能であることを条件として, 未取得ドメインに頑健な深層ネットワークをトレーニングする, 単一ソースドメイン一般化問題について検討する。 ドメイン間医療画像セグメンテーションの文脈においてこの問題に対処する。 このシナリオでは、ドメインシフトは主に異なる取得プロセスによって引き起こされる。 ドメインシフトトレーニング例の合成にセグメンテーションモデルを公開するために,単純な因果関係に触発されたデータ拡張手法を提案する。 具体的には 1) 深層モデルを画像強度とテクスチャのばらつきに頑健にするために, ランダムに重み付けされた浅層ネットワーク群を用いた。 多様な外観変換を用いてトレーニングイメージを増強する。 2)さらに,画像内のオブジェクト間のスプリアス相関がドメインロバスト性に有害であることを示す。 これらの相関関係は、ネットワークによって予測を行うためのドメイン固有の手がかりとして捉えられ、未知のドメインを壊す可能性がある。 因果介入によってこれらの急激な相関を除去する。 これは、潜在的な相関オブジェクトの外観を成層化することによって達成される。 提案手法は,CT-MRIの腹部画像分割,bSSFP-LGEの心臓MRI分割,中心前立腺MRI分割という3つの領域横断的課題に対して検証された。 提案手法は,未取得領域でテストした場合の競合手法と比較して,一貫性のある性能向上を実現する。

Deep learning models usually suffer from domain shift issues, where models trained on one source domain do not generalize well to other unseen domains. In this work, we investigate the single-source domain generalization problem: training a deep network that is robust to unseen domains, under the condition that training data is only available from one source domain, which is common in medical imaging applications. We tackle this problem in the context of cross-domain medical image segmentation. Under this scenario, domain shifts are mainly caused by different acquisition processes. We propose a simple causality-inspired data augmentation approach to expose a segmentation model to synthesized domain-shifted training examples. Specifically, 1) to make the deep model robust to discrepancies in image intensities and textures, we employ a family of randomly-weighted shallow networks. They augment training images using diverse appearance transformations. 2) Further we show that spurious correlations among objects in an image are detrimental to domain robustness. These correlations might be taken by the network as domain-specific clues for making predictions, and they may break on unseen domains. We remove these spurious correlations via causal intervention. This is achieved by stratifying the appearances of potentially correlated objects. The proposed approach is validated on three cross-domain segmentation tasks: cross-modality (CT-MRI) abdominal image segmentation, cross-sequence (bSSFP-LGE) cardiac MRI segmentation, and cross-center prostate MRI segmentation. The proposed approach yields consistent performance gains compared with competitive methods when tested on unseen domains.
翻訳日:2021-11-25 15:29:51 公開日:2021-11-24
# MorphMLP:画像とビデオのための自己注意型MLP風バックボーン

MorphMLP: A Self-Attention Free, MLP-Like Backbone for Image and Video ( http://arxiv.org/abs/2111.12527v1 )

ライセンス: Link先を確認
David Junhao Zhang, Kunchang Li, Yunpeng Chen, Yali Wang, Shashwat Chandra, Yu Qiao, Luoqi Liu, Mike Zheng Shou(参考訳) セルフアテンションは、最近のネットワークアーキテクチャ(例えばTransformer)の不可欠なコンポーネントとなり、主要な画像とビデオのベンチマークを支配している。 これは、自己注意が柔軟に長距離情報をモデル化できるためである。 同じ理由から、研究者は最近、Multiple Layer Perceptron(MLP)を復活させ、MLPライクなアーキテクチャをいくつか提案しようとしている。 しかし、現在のMLPライクなアーキテクチャは、局所的な詳細を捉えたり、画像やビデオの中核的な詳細を進歩的に理解することができない。 この問題を克服するため,我々は低レベル層における局所的な詳細を捉えつつ,高レベル層での長期モデリングに徐々に焦点を合わせながら,新しいmorphmlpアーキテクチャを提案する。 具体的には、高さと幅の寸法に沿って徐々に受容磁場を増大させる2つのモルファブルフィルタからなる、morphfcと呼ばれる完全連結型層をデザインする。 さらに,ビデオ領域にmorphfc層を柔軟に適用することを提案する。 私たちの知る限りでは、ビデオ表現を学ぶためのMLPライクなバックボーンを最初に作りました。 最後に,画像分類,意味セグメンテーション,映像分類について広範な実験を行った。 私たちのMorphMLPは、そのような自己意図のないバックボーンであり、自己意図に基づくモデルと同じくらい強力で、さらに優れています。

Self-attention has become an integral component of the recent network architectures, e.g., Transformer, that dominate major image and video benchmarks. This is because self-attention can flexibly model long-range information. For the same reason, researchers make attempts recently to revive Multiple Layer Perceptron (MLP) and propose a few MLP-Like architectures, showing great potential. However, the current MLP-Like architectures are not good at capturing local details and lack progressive understanding of core details in the images and/or videos. To overcome this issue, we propose a novel MorphMLP architecture that focuses on capturing local details at the low-level layers, while gradually changing to focus on long-term modeling at the high-level layers. Specifically, we design a Fully-Connected-Like layer, dubbed as MorphFC, of two morphable filters that gradually grow its receptive field along the height and width dimension. More interestingly, we propose to flexibly adapt our MorphFC layer in the video domain. To our best knowledge, we are the first to create a MLP-Like backbone for learning video representation. Finally, we conduct extensive experiments on image classification, semantic segmentation and video classification. Our MorphMLP, such a self-attention free backbone, can be as powerful as and even outperform self-attention based models.
翻訳日:2021-11-25 15:29:22 公開日:2021-11-24
# UDA-COPE:カテゴリーレベルのオブジェクトポース推定のための教師なしドメイン適応

UDA-COPE: Unsupervised Domain Adaptation for Category-level Object Pose Estimation ( http://arxiv.org/abs/2111.12580v1 )

ライセンス: Link先を確認
Taeyeop Lee, Byeong-Uk Lee, Inkyu Shin, Jaesung Choe, Ukcheol Shin, In So Kweon, Kuk-Jin Yoon(参考訳) オブジェクトのポーズを推定するためには、CADモデルや絶対スケールのオブジェクトのポーズといったグラウンドトゥルース(GT)ラベルが必要となることが多い。 この問題に対処するために、分類レベルオブジェクトのポーズ推定のためのunsupervised domain adaptation (UDA) を提案し、それを \textbf{UDA-COPE} と呼ぶ。 近年のマルチモーダルなUDA手法に触発された提案手法は,教師が指導する自己教師型学習手法を利用して,ターゲットドメインラベルを使わずにポーズ推定ネットワークを訓練する。 また,予測正規化対象座標空間(nocs)マップと観測点クラウドとの双方向フィルタリング手法を導入することにより,教師ネットワークを対象領域に対してより堅牢にするとともに,学生ネットワークトレーニングに信頼性の高い疑似ラベルを提供する。 実験結果から,提案手法の有効性を定量的に,定性的に検証した。 特に、ターゲットドメインのGTラベルを利用せずに、提案手法はGTラベルに依存する既存手法に匹敵する、あるいは時折優れた性能を実現する。

Learning to estimate object pose often requires ground-truth (GT) labels, such as CAD model and absolute-scale object pose, which is expensive and laborious to obtain in the real world. To tackle this problem, we propose an unsupervised domain adaptation (UDA) for category-level object pose estimation, called \textbf{UDA-COPE}. Inspired by the recent multi-modal UDA techniques, the proposed method exploits a teacher-student self-supervised learning scheme to train a pose estimation network without using target domain labels. We also introduce a bidirectional filtering method between predicted normalized object coordinate space (NOCS) map and observed point cloud, to not only make our teacher network more robust to the target domain but also to provide more reliable pseudo labels for the student network training. Extensive experimental results demonstrate the effectiveness of our proposed method both quantitatively and qualitatively. Notably, without leveraging target-domain GT labels, our proposed method achieves comparable or sometimes superior performance to existing methods that depend on the GT labels.
翻訳日:2021-11-25 15:28:58 公開日:2021-11-24
# lepard: 厳格で変形可能なシーンで部分点クラウドマッチングを学ぶ

Lepard: Learning partial point cloud matching in rigid and deformable scenes ( http://arxiv.org/abs/2111.12591v1 )

ライセンス: Link先を確認
Yang Li and Tatsuya Harada(参考訳) 厳密で変形可能なシーンに対する部分点クラウドマッチングのための学習ベースのアプローチであるLepardを提案する。 Lepardの主な特徴は、点雲マッチングのために3次元位置知識を利用する以下のアプローチである。 1) 点雲表現を特徴空間と3次元位置空間に切り離すアーキテクチャ。 2)ベクトルのドット積を通して3次元相対距離情報を明確に示す位置符号化手法。 3) クロスポイント-クラウド相対位置を変更する再配置手法。 アブレーション研究は上記の手法の有効性を示している。 厳密な点のクラウドマッチングのために、Lepardは3DMatch / 3DLoMatchベンチマークに93.6% / 69.0%の登録リコールを新たに設定した。 変形可能な場合、Lepardは、新たに構築した4DMatch / 4DLoMatchベンチマークの以前の技術よりも、+27.1% / +34.8%高い非厳密な特徴マッチングリコールを達成した。

We present Lepard, a Learning based approach for partial point cloud matching for rigid and deformable scenes. The key characteristic of Lepard is the following approaches that exploit 3D positional knowledge for point cloud matching: 1) An architecture that disentangles point cloud representation into feature space and 3D position space. 2) A position encoding method that explicitly reveals 3D relative distance information through the dot product of vectors. 3) A repositioning technique that modifies the cross-point-cloud relative positions. Ablation studies demonstrate the effectiveness of the above techniques. For rigid point cloud matching, Lepard sets a new state-of-the-art on the 3DMatch / 3DLoMatch benchmarks with 93.6% / 69.0% registration recall. In deformable cases, Lepard achieves +27.1% / +34.8% higher non-rigid feature matching recall than the prior art on our newly constructed 4DMatch / 4DLoMatch benchmark.
翻訳日:2021-11-25 15:28:39 公開日:2021-11-24
# GreedyNASv2: GreedyパスフィルタによるGreedier検索

GreedyNASv2: Greedier Search with a Greedy Path Filter ( http://arxiv.org/abs/2111.12609v1 )

ライセンス: Link先を確認
Tao Huang, Shan You, Fei Wang, Chen Qian, Changshui Zhang, Xiaogang Wang, Chang Xu(参考訳) 良いスーパーネットをワンショットNAS法で訓練することは、通常、検索空間がかなり大きいため難しい(例えば、13^{21}$)。 スーパーネットの評価能力を高めるためには、良いパスをサンプリングし、スーパーネットを良いパスに傾けるようにし、その結果評価の負担を和らげることである。 しかし、実際には、良い経路の同定が十分に正確ではなく、サンプルパスが検索空間全体に散らばっているため、探索は依然として非常に非効率である。 本稿では,明示的なパスフィルタを用いて経路特性を捕捉し,その弱い経路を直接フィルタリングすることで,探索をより柔軟かつ効率的にシュリンク空間に実装できることを示す。 具体的には、良いパスは、空間の弱いパスよりもずっと少ないという事実に基づいて、マルチパスサンプリングにおける ``weak paths" のラベルは ``good paths" のラベルよりも信頼性が高く信頼性が高いと主張する。 このようにして、パスフィルタのトレーニングをポジティブかつラベルなし(pu)学習パラダイムにキャストし、学習したフィルタの識別能力を高めるために、より優れたパス/操作表現として \textit{path embedded} を奨励する。 この埋め込みにより、類似した操作を同様の埋め込みで集約することで、検索空間をさらに縮小することができ、より効率的かつ正確な検索が可能となる。 GreedyNASv2法の有効性を検証する実験を行った。 例えば、取得したGreedyNASv2-Lは、ImageNetデータセットで811.1\%$ Top-1の精度を実現しています。

Training a good supernet in one-shot NAS methods is difficult since the search space is usually considerably huge (\eg, $13^{21}$). In order to enhance the supernet's evaluation ability, one greedy strategy is to sample good paths, and let the supernet lean towards the good ones and ease its evaluation burden as a result. However, in practice the search can be still quite inefficient since the identification of good paths is not accurate enough and sampled paths still scatter around the whole search space. In this paper, we leverage an explicit path filter to capture the characteristics of paths and directly filter those weak ones, so that the search can be thus implemented on the shrunk space more greedily and efficiently. Concretely, based on the fact that good paths are much less than the weak ones in the space, we argue that the label of ``weak paths" will be more confident and reliable than that of ``good paths" in multi-path sampling. In this way, we thus cast the training of path filter in the positive and unlabeled (PU) learning paradigm, and also encourage a \textit{path embedding} as better path/operation representation to enhance the identification capacity of the learned filter. By dint of this embedding, we can further shrink the search space by aggregating similar operations with similar embeddings, and the search can be more efficient and accurate. Extensive experiments validate the effectiveness of the proposed method GreedyNASv2. For example, our obtained GreedyNASv2-L achieves $81.1\%$ Top-1 accuracy on ImageNet dataset, significantly outperforming the ResNet-50 strong baselines.
翻訳日:2021-11-25 15:28:11 公開日:2021-11-24
# セルフスリムビジョントランス

Self-slimmed Vision Transformer ( http://arxiv.org/abs/2111.12624v1 )

ライセンス: Link先を確認
Zhuofan Zong, Kunchang Li, Guanglu Song, Yali Wang, Yu Qiao, Biao Leng, Yu Liu(参考訳) 視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Convolutional Neural Network)よりも優れています。 しかし、このような強力なトランスは計算負荷が大きい。 そして、この背後にある重要な障壁は、徹底したトークン対token比較です。 これを軽減するために、我々はViTのモデル特性を深く掘り下げ、ViTsがトークン類似度の高い疎い注意を示すのを観察する。 これは直感的に構造非依存な次元であるトークン番号を導入し、計算コストを削減します。 そこで本研究では,バニラVIT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。 具体的には、動的トークンアグリゲーションによってViTの推論効率を向上させる新しいToken Slimming Module (TSM) を最初に設計する。 トークンのハードドロップと異なり、我々のTSMは冗長トークンを少ない情報にソフトに統合し、画像内の識別トークンの関係を断ち切ることなく視覚的注意を動的にズームすることができる。 さらに,非組織トークン情報を柔軟に自動エンコーダ方式で高密度に転送する,簡潔なDense Knowledge Distillation (DKD) フレームワークを導入する。 教師と生徒の類似構造により,構造知識を効果的に活用し,収束性を高めることができる。 最後に,SiTを評価するための広範囲な実験を行った。 その結果,ViTを1.7倍の精度で高速化し,ViTを3.6倍の速度で高速化し,性能の97%を維持した。 驚いたことに、私たちは単にLV-ViTをSiTに組み込むことで、ImageNet上で新しい最先端のパフォーマンスを実現し、最近の文献ではCNNやViTを全て上回っている。

Vision transformers (ViTs) have become the popular structures and outperformed convolutional neural networks (CNNs) on various vision tasks. However, such powerful transformers bring a huge computation burden. And the essential barrier behind this is the exhausting token-to-token comparison. To alleviate this, we delve deeply into the model properties of ViT and observe that ViTs exhibit sparse attention with high token similarity. This intuitively introduces us a feasible structure-agnostic dimension, token number, to reduce the computational cost. Based on this exploration, we propose a generic self-slimmed learning approach for vanilla ViTs, namely SiT. Specifically, we first design a novel Token Slimming Module (TSM), which can boost the inference efficiency of ViTs by dynamic token aggregation. Different from the token hard dropping, our TSM softly integrates redundant tokens into fewer informative ones, which can dynamically zoom visual attention without cutting off discriminative token relations in the images. Furthermore, we introduce a concise Dense Knowledge Distillation (DKD) framework, which densely transfers unorganized token information in a flexible auto-encoder manner. Due to the similar structure between teacher and student, our framework can effectively leverage structure knowledge for better convergence. Finally, we conduct extensive experiments to evaluate our SiT. It demonstrates that our method can speed up ViTs by 1.7x with negligible accuracy drop, and even speed up ViTs by 3.6x while maintaining 97% of their performance. Surprisingly, by simply arming LV-ViT with our SiT, we achieve new state-of-the-art performance on ImageNet, surpassing all the CNNs and ViTs in the recent literature.
翻訳日:2021-11-25 15:27:41 公開日:2021-11-24
# EAD:ディープニューラルネットワークの隠れた特徴から敵のサンプルを検出するアンサンブルアプローチ

EAD: an ensemble approach to detect adversarial examples from the hidden features of deep neural networks ( http://arxiv.org/abs/2111.12631v1 )

ライセンス: Link先を確認
Francesco Craighero, Fabrizio Angaroni, Fabio Stella, Chiara Damiani, Marco Antoniotti, Alex Graudenzi(参考訳) ディープラーニングにおける重要な課題の1つは、敵の例を検出する効果的な戦略の定義である。 そこで本研究では,標準的なマルチクラス分類シナリオにおいて,敵のサンプルを識別する新しい手法であるEnsemble Adversarial Detector (EAD)を提案する。 EADは、事前訓練されたディープニューラルネットワーク(DNN)の内部表現において入力インスタンスの異なる特性を利用する複数の検出器を組み合わせる。 具体的には、マハラノビス距離と局所固有次元(LID)に基づく最先端検出器と、ワンクラスサポートベクトルマシン(OSVM)に基づく新しい手法を統合する。 すべての構成法は、正しく分類されたトレーニングインスタンスの集合からテストインスタンスの距離が大きいほど、逆の例になる確率が高いと仮定しているが、それらの距離の計算方法が異なる。 データ分布の異なる特性を抽出し、一般化とオーバーフィッティングのトレードオフに効果的に取り組むために、EDAは独立なハイパーパラメータ最適化の後、ロジスティック回帰分類器の特徴として検出器特異的距離スコアを用いる。 本研究では,異なるデータセット (CIFAR-10, CIFAR-100, SVHN) とモデル (ResNet, DenseNet) に対するEDAアプローチと,FGSM, BIM, DeepFool, CW) と競合するアプローチとの比較を行った。 全体として、eadは設定の大部分で最高のaurocとauprを達成し、他の部分で同等のパフォーマンスを実現しています。 最先端よりも改善され、EDDを任意の検出器の集合を含むように容易に拡張できる可能性があり、幅広い敵のサンプル検出分野におけるアンサンブルアプローチの普及への道を開く。

One of the key challenges in Deep Learning is the definition of effective strategies for the detection of adversarial examples. To this end, we propose a novel approach named Ensemble Adversarial Detector (EAD) for the identification of adversarial examples, in a standard multiclass classification scenario. EAD combines multiple detectors that exploit distinct properties of the input instances in the internal representation of a pre-trained Deep Neural Network (DNN). Specifically, EAD integrates the state-of-the-art detectors based on Mahalanobis distance and on Local Intrinsic Dimensionality (LID) with a newly introduced method based on One-class Support Vector Machines (OSVMs). Although all constituting methods assume that the greater the distance of a test instance from the set of correctly classified training instances, the higher its probability to be an adversarial example, they differ in the way such distance is computed. In order to exploit the effectiveness of the different methods in capturing distinct properties of data distributions and, accordingly, efficiently tackle the trade-off between generalization and overfitting, EAD employs detector-specific distance scores as features of a logistic regression classifier, after independent hyperparameters optimization. We evaluated the EAD approach on distinct datasets (CIFAR-10, CIFAR-100 and SVHN) and models (ResNet and DenseNet) and with regard to four adversarial attacks (FGSM, BIM, DeepFool and CW), also by comparing with competing approaches. Overall, we show that EAD achieves the best AUROC and AUPR in the large majority of the settings and comparable performance in the others. The improvement over the state-of-the-art, and the possibility to easily extend EAD to include any arbitrary set of detectors, pave the way to a widespread adoption of ensemble approaches in the broad field of adversarial example detection.
翻訳日:2021-11-25 15:27:14 公開日:2021-11-24
# SM3D:同時単分子マッピングと3D検出

SM3D: Simultaneous Monocular Mapping and 3D Detection ( http://arxiv.org/abs/2111.12643v1 )

ライセンス: Link先を確認
Runfa Li, Truong Nguyen(参考訳) マッピングと3D検出は、ビジョンベースのロボティクスと自動運転の2つの大きな問題である。 従来の作業では,各タスクに個別にフォーカスするしかなかったが,頑健な深度推定と"擬似LiDAR"ポイントクラウドでギャップを埋めることで,同時マッピングと3次元検出のための,革新的で効率的なマルチタスク深度学習フレームワーク(SM3D)を初めて提示する。 マッピングモジュールは、深度とポーズ推定を生成するために連続する単眼フレームを取る。 3d検出モジュールでは、深度推定を3d空間に投影して"pseudo-lidar"ポイントクラウドを生成し、lidarベースの3d検出器をポイントクラウド上で活用して、車両の3d検出とローカライズを行う。 両モジュールのエンドツーエンドのトレーニングにより、提案したマッピング法と3D検出法は、それぞれ10.0%と13.2%の精度で最先端となる。 精度が向上する一方、我々の単眼マルチタスクSM3Dは純粋なステレオ3D検出器の2倍以上の速度で、2つのモジュールを別々に使用するより18.3%速い。

Mapping and 3D detection are two major issues in vision-based robotics, and self-driving. While previous works only focus on each task separately, we present an innovative and efficient multi-task deep learning framework (SM3D) for Simultaneous Mapping and 3D Detection by bridging the gap with robust depth estimation and "Pseudo-LiDAR" point cloud for the first time. The Mapping module takes consecutive monocular frames to generate depth and pose estimation. In 3D Detection module, the depth estimation is projected into 3D space to generate "Pseudo-LiDAR" point cloud, where LiDAR-based 3D detector can be leveraged on point cloud for vehicular 3D detection and localization. By end-to-end training of both modules, the proposed mapping and 3D detection method outperforms the state-of-the-art baseline by 10.0% and 13.2% in accuracy, respectively. While achieving better accuracy, our monocular multi-task SM3D is more than 2 times faster than pure stereo 3D detector, and 18.3% faster than using two modules separately.
翻訳日:2021-11-25 15:26:39 公開日:2021-11-24
# 画像偽造自動検出のための統計的手法の解析

Analysing Statistical methods for Automatic Detection of Image Forgery ( http://arxiv.org/abs/2111.12661v1 )

ライセンス: Link先を確認
Umar Masud, Anupam Agarwal(参考訳) 画像操作と偽造検出は、10年以上前から研究の対象となっている。 新世代のツールと大規模ソーシャルプラットフォームは、メディアを操る余地を与えてきた。 これらのメディアは潜在的に危険でありうるため、偽造検出の堅牢性を証明するために無数の手法が設計され、テストされている。 しかし、最先端のシステムによって報告された結果は、教師付きアプローチがほぼ完璧なパフォーマンスを達成していることを示している。 本研究では,現状画像偽造検出技術の分散性に関する課題を,いくつかの実験を通じて解析する。 本研究は,手作り機能を利用した画像偽造検出モデルに焦点をあてる。 本手法は, クロスデータセット評価や実機操作メディアではうまく動作しないことを示す。 その結果,現在検討中のシステムの性能評価と過大評価について疑問が提起された。 注:この研究は、アヌパム・アガルワル教授の監督の下、ITMRラボIIIT-アラーハバードの夏の研究インターンシップ中に行われた。

Image manipulation and forgery detection have been a topic of research for more than a decade now. New-age tools and large-scale social platforms have given space for manipulated media to thrive. These media can be potentially dangerous and thus innumerable methods have been designed and tested to prove their robustness in detecting forgery. However, the results reported by state-of-the-art systems indicate that supervised approaches achieve almost perfect performance but only with particular datasets. In this work, we analyze the issue of out-of-distribution generalisability of the current state-of-the-art image forgery detection techniques through several experiments. Our study focuses on models that utilise handcrafted features for image forgery detection. We show that the developed methods fail to perform well on cross-dataset evaluations and in-the-wild manipulated media. As a consequence, a question is raised about the current evaluation and overestimated performance of the systems under consideration. Note: This work was done during a summer research internship at ITMR Lab, IIIT-Allahabad under the supervision of Prof. Anupam Agarwal.
翻訳日:2021-11-25 15:26:17 公開日:2021-11-24
# ロバストなクロスモーダル擬似ラベルによる開語彙インスタンスセグメンテーション

Open-Vocabulary Instance Segmentation via Robust Cross-Modal Pseudo-Labeling ( http://arxiv.org/abs/2111.12698v1 )

ライセンス: Link先を確認
Dat Huynh, Jason Kuen, Zhe Lin, Jiuxiang Gu, Ehsan Elhamifar(参考訳) open-vocabularyインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。 これは、人的監督を減らすための重要なステップである。 既存のほとんどの作品は、最初に、多くの新しいクラスをカバーするキャプション付き画像のモデルを事前訓練し、その後、マスクアノテーションで限定されたベースクラスに微調整する。 しかし,字幕事前学習だけで学習した高レベルテキスト情報は,画素分割に必要な詳細を効果的にエンコードすることはできない。 そこで本研究では,字幕中の単語意味を画像中のオブジェクトマスクの視覚的特徴と整合させることにより,擬似マスクを訓練するクロスモーダル擬似ラベルフレームワークを提案する。 したがって,新しいクラスを単語意味論を通じてキャプションにラベル付けし,学習モデルの自己学習を可能にする。 疑似マスクのノイズを考慮し,マスクノイズレベルを推定してマスク知識を選択的に蒸留する頑健な学生モデルを設計し,ノイズのある疑似マスクの悪影響を軽減する。 広範な実験により,ms-cocoでは4.5%,大規模オープンイメージと概念キャプションデータセットでは5.1%と,最先端と比較してマップスコアを有意に改善した。

Open-vocabulary instance segmentation aims at segmenting novel classes without mask annotations. It is an important step toward reducing laborious human supervision. Most existing works first pretrain a model on captioned images covering many novel classes and then finetune it on limited base classes with mask annotations. However, the high-level textual information learned from caption pretraining alone cannot effectively encode the details required for pixel-wise segmentation. To address this, we propose a cross-modal pseudo-labeling framework, which generates training pseudo masks by aligning word semantics in captions with visual features of object masks in images. Thus, our framework is capable of labeling novel classes in captions via their word semantics to self-train a student model. To account for noises in pseudo masks, we design a robust student model that selectively distills mask knowledge by estimating the mask noise levels, hence mitigating the adverse impact of noisy pseudo masks. By extensive experiments, we show the effectiveness of our framework, where we significantly improve mAP score by 4.5% on MS-COCO and 5.1% on the large-scale Open Images & Conceptual Captions datasets compared to the state-of-the-art.
翻訳日:2021-11-25 15:26:02 公開日:2021-11-24
# 点雲完了のための総合指標としての密度認識型チャンファー距離

Density-aware Chamfer Distance as a Comprehensive Metric for Point Cloud Completion ( http://arxiv.org/abs/2111.12702v1 )

ライセンス: Link先を確認
Tong Wu, Liang Pan, Junzhe Zhang, Tai Wang, Ziwei Liu, Dahua Lin(参考訳) チャンファー距離 (CD) とアースモーバー距離 (EMD) は、2つの点集合間の類似度を測定するために広く採用されている2つの指標である。 しかし、cdは通常、不一致した局所密度に敏感であり、emdは通常、詳細な構造の忠実性を見落としながら、グローバル分布によって支配される。 さらに、その非有界値範囲は、外れ値から大きな影響をもたらす。 これらの欠陥は、一貫した評価の提供を妨げる。 これらの問題に対処するため、我々はDCD(dendentity-aware Chamfer Distance)と呼ばれる新しい類似度尺度を提案する。 CDから派生し、いくつかの望ましい性質から利益を得ている。 1) 密度分布の相違を検出でき、CDと比べ、より集中的な類似度測定である。 2)細部構造が厳格であり,EMDよりも計算効率が著しく高い。 3) 境界値範囲はテストセット全体に対してより安定で合理的な評価を奨励する。 我々は点雲完了タスクを評価するためにDCDを採用したが、実験の結果、DCDは全体構造と局所幾何学的詳細の両方に注意を払っており、CDとEMDが矛盾してもより信頼性の高い評価を提供する。 トレーニング損失としてDCDを使用することも可能で、3つの指標すべてでCD損失をトレーニングしたモデルよりも優れています。 さらに,他のダウンサンプリングステップの優先度を推定する新たな点判別器モジュールを提案し,CDとEMDの競合結果とともにDCD下での顕著な改善を実現する。 私たちは、より包括的で実践的なクラウド類似性評価の道を開いたいと考えています。 私たちのコードは、https://github.com/w utong16/Density_awar e_Chamfer_Distance で利用可能になります。

Chamfer Distance (CD) and Earth Mover's Distance (EMD) are two broadly adopted metrics for measuring the similarity between two point sets. However, CD is usually insensitive to mismatched local density, and EMD is usually dominated by global distribution while overlooks the fidelity of detailed structures. Besides, their unbounded value range induces a heavy influence from the outliers. These defects prevent them from providing a consistent evaluation. To tackle these problems, we propose a new similarity measure named Density-aware Chamfer Distance (DCD). It is derived from CD and benefits from several desirable properties: 1) it can detect disparity of density distributions and is thus a more intensive measure of similarity compared to CD; 2) it is stricter with detailed structures and significantly more computationally efficient than EMD; 3) the bounded value range encourages a more stable and reasonable evaluation over the whole test set. We adopt DCD to evaluate the point cloud completion task, where experimental results show that DCD pays attention to both the overall structure and local geometric details and provides a more reliable evaluation even when CD and EMD contradict each other. We can also use DCD as the training loss, which outperforms the same model trained with CD loss on all three metrics. In addition, we propose a novel point discriminator module that estimates the priority for another guided down-sampling step, and it achieves noticeable improvements under DCD together with competitive results for both CD and EMD. We hope our work could pave the way for a more comprehensive and practical point cloud similarity evaluation. Our code will be available at: https://github.com/w utong16/Density_awar e_Chamfer_Distance .
翻訳日:2021-11-25 15:25:40 公開日:2021-11-24
# (参考訳) deep metric learningは遺伝子組み換えプラスミドの原産地予測を改善する [全文訳有]

Deep metric learning improves lab of origin prediction of genetically engineered plasmids ( http://arxiv.org/abs/2111.12606v1 )

ライセンス: CC BY 4.0
Igor M. Soares, Fernando H. F. Camargo, Adriano Marques, Oliver M. Crook(参考訳) ゲノム工学は前例のない発展を遂げており、現在広く利用されている。 バイオテクノロジーの革新を確実にし、工学化されたDNA配列の誤用を減らすためには、工学化されたプラスミドの研究室を識別するツールを開発することが不可欠である。 遺伝子工学の属性(GEA)は、この過程における法医学の専門家を支援する。 本稿では,プラスミド配列と実験室の埋め込みを同時に生成しながら,最も可能性の高い実験室をランク付けする計量学習に基づく手法を提案する。 これらの埋め込みは、DNAシークエンスやラボのクラスタリングなど、さまざまな下流タスクの実行や、マシンラーニングモデルの機能として使用するために使用することができる。 当社のアプローチでは、円形シフト拡張アプローチを採用して、上位10の予測において、90%の時間を正確にランク付けすることが可能です。 また, 数点学習を行い, シーケンスの10-% のみを用いて, 7,6-%$ top-10 の精度が得られることを示した。 つまり、データの10分の1だけを使用して、以前のCNNアプローチよりも優れています。 また,特定の研究室でプラスミド配列内のキーシグネチャを抽出できることを実証し,モデルの出力を解釈可能であることを示した。

Genome engineering is undergoing unprecedented development and is now becoming widely available. To ensure responsible biotechnology innovation and to reduce misuse of engineered DNA sequences, it is vital to develop tools to identify the lab-of-origin of engineered plasmids. Genetic engineering attribution (GEA), the ability to make sequence-lab associations, would support forensic experts in this process. Here, we propose a method, based on metric learning, that ranks the most likely labs-of-origin whilst simultaneously generating embeddings for plasmid sequences and labs. These embeddings can be used to perform various downstream tasks, such as clustering DNA sequences and labs, as well as using them as features in machine learning models. Our approach employs a circular shift augmentation approach and is able to correctly rank the lab-of-origin $90\%$ of the time within its top 10 predictions - outperforming all current state-of-the-art approaches. We also demonstrate that we can perform few-shot-learning and obtain $76\%$ top-10 accuracy using only $10\%$ of the sequences. This means, we outperform the previous CNN approach using only one-tenth of the data. We also demonstrate that we are able to extract key signatures in plasmid sequences for particular labs, allowing for an interpretable examination of the model's outputs.
翻訳日:2021-11-25 15:24:19 公開日:2021-11-24
# 2次元ポーズによるメッシュ再構成のための軽量グラフトランスフォーマーネットワーク

A Lightweight Graph Transformer Network for Human Mesh Reconstruction from 2D Human Pose ( http://arxiv.org/abs/2111.12696v1 )

ライセンス: Link先を確認
Ce Zheng, Matias Mendieta, Pu Wang, Aidong Lu, Chen Chen(参考訳) 既存のディープラーニングベースのヒューマンメッシュリコンストラクションアプローチは、高い精度を達成するために、より大きなネットワークを構築する傾向がある。 計算複雑性とモデルサイズはしばしば無視されるが、人間のメッシュ再構成モデル(例えば仮想トライオンシステム)の実用化の重要な特徴である。 本稿では,人間のメッシュを2次元のポーズから再構築する軽量なポーズベース手法であるgtrsを提案する。 本稿では,グラフトランスフォーマを使用して構造的および暗黙的なジョイント相関を利用するポーズ分析モジュールと,抽出されたポーズ特徴とメッシュテンプレートを組み合わせたメッシュ回帰モジュールを提案する。 我々は、human3.6mおよび3dpwデータセットの広範囲な評価により、gtrの効率と一般化を実証する。 特に、gtrsはsomaのポーズベース方式のspons2meshよりも精度が良く、しかも3dpwデータセットでは10.2%のパラメータ(パラメータ)と2.5%のフラップしか使用していない。 コードは公開されます。

Existing deep learning-based human mesh reconstruction approaches have a tendency to build larger networks in order to achieve higher accuracy. Computational complexity and model size are often neglected, despite being key characteristics for practical use of human mesh reconstruction models (e.g. virtual try-on systems). In this paper, we present GTRS, a lightweight pose-based method that can reconstruct human mesh from 2D human pose. We propose a pose analysis module that uses graph transformers to exploit structured and implicit joint correlations, and a mesh regression module that combines the extracted pose feature with the mesh template to reconstruct the final human mesh. We demonstrate the efficiency and generalization of GTRS by extensive evaluations on the Human3.6M and 3DPW datasets. In particular, GTRS achieves better accuracy than the SOTA pose-based method Pose2Mesh while only using 10.2% of the parameters (Params) and 2.5% of the FLOPs on the challenging in-the-wild 3DPW dataset. Code will be publicly available.
翻訳日:2021-11-25 15:02:57 公開日:2021-11-24
# keplerからnewtonへ - 科学発見における説明可能なaiの役割

From Kepler to Newton: the Role of Explainable AI in Science Discovery ( http://arxiv.org/abs/2111.12210v1 )

ライセンス: Link先を確認
Zelong Li and Jianchao Ji and Yongfeng Zhang(参考訳) 観察-仮説-予測-実験ループの研究パラダイムは、長年にわたって研究者によって科学的発見に向けて実践されてきた。 しかし、大規模な科学研究とミリスケールの科学研究の両方でデータ爆発が起こると、データを手動で分析し、科学的発見のサイクルを駆動する新たな仮説を提案するのは非常に困難である。 本稿では,科学発見のための説明可能なAI支援パラダイムを提案する。 鍵となるのは、データやモデル解釈、科学発見の導出を支援するために、説明可能なAI(XAI)を使用することである。 実験と理論の方法論とともに、計算とデータ集約の方法論が科学研究にシームレスに統合できることを示す。 AIによる科学発見のプロセスを実証し、人類史上最大の精神の一部に敬意を表して、ケプラーの惑星運動法則とニュートンの普遍重力法則が、16世紀から17世紀の科学革命を導いたチコ・ブラーエの天文観測データに基づく(説明可能な)AIによってどのように再発見できるかを示す。 この研究は、科学発見における説明可能なAI(ブラックボックスAIと比較して)の重要性を強調し、人間が将来起こりうる技術的特異点の予防またはより良い準備を支援する。

The research paradigm of the Observation--Hypothe sis--Prediction--Exp erimentation loop has been practiced by researchers for years towards scientific discovery. However, with the data explosion in both mega-scale and milli-scale scientific research, it has been sometimes very difficult to manually analyze the data and propose new hypothesis to drive the cycle for scientific discovery. In this paper, we introduce an Explainable AI-assisted paradigm for science discovery. The key is to use Explainable AI (XAI) to help derive data or model interpretations and science discoveries. We show how computational and data-intensive methodology -- together with experimental and theoretical methodology -- can be seamlessly integrated for scientific research. To demonstrate the AI-assisted science discovery process, and to pay our respect to some of the greatest minds in human history, we show how Kepler's laws of planetary motion and Newton's law of universal gravitation can be rediscovered by (explainable) AI based on Tycho Brahe's astronomical observation data, whose works were leading the scientific revolution in the 16-17th century. This work also highlights the importance of Explainable AI (as compared to black-box AI) in science discovery to help humans prevent or better prepare for the possible technological singularity which may happen in the future.
翻訳日:2021-11-25 15:02:40 公開日:2021-11-24
# 深層強化学習のための適応的校正評価

Adaptively Calibrated Critic Estimates for Deep Reinforcement Learning ( http://arxiv.org/abs/2111.12673v1 )

ライセンス: Link先を確認
Nicolai Dorka, Joschka Boedecker, Wolfram Burgard(参考訳) 正確な値推定は、オフポリシー強化学習にとって重要である。 時間差学習に基づくアルゴリズムは、時間とともに蓄積される過度または過小評価バイアスを引き起こす。 本稿では,近年の高分散だが非バイアスのオン・ポリシー・ロールアウトを用いて,低分散時間差目標のバイアスを緩和するacc(adaptively calibrated critics)という一般的な手法を提案する。 我々は、環境ごとに調整されたハイパーパラメータによるバイアスの制御を可能にする連続制御アルゴリズムであるTruncated Quantile CriticsにACCを適用した。 得られたアルゴリズムは、ハイパーパラメータ探索のトレーニング中にパラメータを適応的に調整し、各環境にハイパーパラメータをチューニングしない全てのアルゴリズムの中で、OpenAIのジム連続制御ベンチマークに新しい技術状態を設定する。 さらに,さらにtd3に適用することにより,accが極めて汎用的であることを実証し,この設定での性能も向上した。

Accurate value estimates are important for off-policy reinforcement learning. Algorithms based on temporal difference learning typically are prone to an over- or underestimation bias building up over time. In this paper, we propose a general method called Adaptively Calibrated Critics (ACC) that uses the most recent high variance but unbiased on-policy rollouts to alleviate the bias of the low variance temporal difference targets. We apply ACC to Truncated Quantile Critics, which is an algorithm for continuous control that allows regulation of the bias with a hyperparameter tuned per environment. The resulting algorithm adaptively adjusts the parameter during training rendering hyperparameter search unnecessary and sets a new state of the art on the OpenAI gym continuous control benchmark among all algorithms that do not tune hyperparameters for each environment. Additionally, we demonstrate that ACC is quite general by further applying it to TD3 and showing an improved performance also in this setting.
翻訳日:2021-11-25 15:02:18 公開日:2021-11-24
# tsflex: 柔軟な時系列処理と特徴抽出

tsflex: flexible time series processing & feature extraction ( http://arxiv.org/abs/2111.12429v1 )

ライセンス: Link先を確認
Jonas Van Der Donckt, Jeroen Van Der Donckt, Emiel Deprost, Sofie Van Hoecke(参考訳) 従来の機械学習パイプラインでは、時系列処理と特徴抽出が重要かつ時間集約的なステップである。 既存のパッケージは、不規則にサンプリングされた非同期データに対処できないため、実際の適用性に制限がある。 そこで我々は,不規則にサンプリングされたシーケンスを不整合な測定値で処理可能な,処理と特徴抽出のためのドメインに依存しない,フレキシブル,シーケンスファーストのpythonツールキットである$\textt{tsflex}$を提案する。 このツールキットは(1)シーケンスベースの引数をストレートウィンドウの特徴抽出に活用し、(2)シーケンスインデックスはすべてのサポートされた操作を通して維持される。 $\texttt{tsflex}$は、(1)多変量時系列、(2)複数のウィンドウストライド構成、(3)他のパッケージからの処理と機能関数との統合、(4)データのサンプリングレートの規則性と同期について仮定しないため、フレキシブルである。 このパッケージの他の機能としては、マルチプロセッシング、詳細な実行時間ロギング、カテゴリと時間ベースのデータのサポート、チャンキングシーケンス、組み込みシリアライゼーションなどがある。 $\texttt{tsflex}$は、高速でメモリ効率の良い時系列処理と特徴抽出を可能にするために開発された。 その結果、$\texttt{tsflex}$は同様のパッケージよりも柔軟であるが、実行時とメモリ使用量の両方においてこれらのツールキットを上回っている。

Time series processing and feature extraction are crucial and time-intensive steps in conventional machine learning pipelines. Existing packages are limited in their real-world applicability, as they cannot cope with irregularly-sampled and asynchronous data. We therefore present $\texttt{tsflex}$, a domain-independent, flexible, and sequence first Python toolkit for processing & feature extraction, that is capable of handling irregularly-sampled sequences with unaligned measurements. This toolkit is sequence first as (1) sequence based arguments are leveraged for strided-window feature extraction, and (2) the sequence-index is maintained through all supported operations. $\texttt{tsflex}$ is flexible as it natively supports (1) multivariate time series, (2) multiple window-stride configurations, and (3) integrates with processing and feature functions from other packages, while (4) making no assumptions about the data sampling rate regularity and synchronization. Other functionalities from this package are multiprocessing, in-depth execution time logging, support for categorical & time based data, chunking sequences, and embedded serialization. $\texttt{tsflex}$ is developed to enable fast and memory-efficient time series processing & feature extraction. Results indicate that $\texttt{tsflex}$ is more flexible than similar packages while outperforming these toolkits in both runtime and memory usage.
翻訳日:2021-11-25 15:01:25 公開日:2021-11-24
# 大学ランキングにおけるメタインジケータのマイニング:shapに基づく機械学習アプローチ

Mining Meta-indicators of University Ranking: A Machine Learning Approach Based on SHAP ( http://arxiv.org/abs/2111.12526v1 )

ライセンス: Link先を確認
Shudong Yang (1), Miaomiao Liu (1) ((1) Dalian University of Technology)(参考訳) 大学評価とランキングは非常に複雑な活動である。 主要な大学は、世界大学ランキングの複雑な指標システムのために苦闘している。 では、複雑さを単純化してインデックスシステムのメタ指標を見つけられるだろうか? この研究は、解釈可能な機械学習に基づく3つのメタインジケータを発見した。 1つは時間と友人になり、時間の力を信じ、歴史の堆積物を蓄積し、もう1つは空間であり、都市と友人であり、共同開発によって育つ、もう1つは関係であり、同窓会と友人であり、また天井無しでより多くの同窓会の寄付を試みている。

University evaluation and ranking is an extremely complex activity. Major universities are struggling because of increasingly complex indicator systems of world university rankings. So can we find the meta-indicators of the index system by simplifying the complexity? This research discovered three meta-indicators based on interpretable machine learning. The first one is time, to be friends with time, and believe in the power of time, and accumulate historical deposits; the second one is space, to be friends with city, and grow together by co-develop; the third one is relationships, to be friends with alumni, and strive for more alumni donations without ceiling.
翻訳日:2021-11-25 15:00:15 公開日:2021-11-24
# AxialNetとHiResCAMを用いた胸部CTボリュームの多変量分類

Explainable multiple abnormality classification of chest CT volumes with AxialNet and HiResCAM ( http://arxiv.org/abs/2111.12215v1 )

ライセンス: Link先を確認
Rachel Lea Draelos, Lawrence Carin(参考訳) モデル予測を理解することは、医療において重要であり、モデルの正確性の迅速な検証を促進し、共起変数を利用するモデルの使用を防ぐ。 本稿では,各異常の予測に使用する領域をモデルに示さなければならない,容積医療画像における多変量分類の課題を紹介する。 この課題を解決するために,複数のインスタンス学習型畳み込みニューラルネットワークであるAxialNetを提案する。 次に、注目メカニズムであるHiResCAMを導入し、サブスライス領域を同定する。 AxialNetの場合、HiResCAMの説明はモデルが使用している場所を反映することが保証されている。 忠実な説明を生み出すモデルを用いて,hirescamと3d許可領域を活用した新たなマスク損失によるモデル学習の改善を目標とし,それらの異常が出現する臓器のみに基づいて,モデルが異常を予測するように促す。 3D許容領域は, 放射線学報告から抽出した位置情報と形態画像処理により得られた臓器分割マップを結合した新たなアプローチPartITIONによって自動的に取得される。 総説では,3,316スキャンのRAD-ChestCTデータセットにおいて,複数の異常の臓器局在化を33%向上させるため,容積的医用画像における説明可能な多異常予測のための最初のモデルを提案する。 本研究は胸部ctボリュームにおける多変量モデリングの臨床応用性を向上させる。

Understanding model predictions is critical in healthcare, to facilitate rapid verification of model correctness and to guard against use of models that exploit confounding variables. We introduce the challenging new task of explainable multiple abnormality classification in volumetric medical images, in which a model must indicate the regions used to predict each abnormality. To solve this task, we propose a multiple instance learning convolutional neural network, AxialNet, that allows identification of top slices for each abnormality. Next we incorporate HiResCAM, an attention mechanism, to identify sub-slice regions. We prove that for AxialNet, HiResCAM explanations are guaranteed to reflect the locations the model used, unlike Grad-CAM which sometimes highlights irrelevant locations. Armed with a model that produces faithful explanations, we then aim to improve the model's learning through a novel mask loss that leverages HiResCAM and 3D allowed regions to encourage the model to predict abnormalities based only on the organs in which those abnormalities appear. The 3D allowed regions are obtained automatically through a new approach, PARTITION, that combines location information extracted from radiology reports with organ segmentation maps obtained through morphological image processing. Overall, we propose the first model for explainable multi-abnormality prediction in volumetric medical images, and then use the mask loss to achieve a 33% improvement in organ localization of multiple abnormalities in the RAD-ChestCT data set of 36,316 scans, representing the state of the art. This work advances the clinical applicability of multiple abnormality modeling in chest CT volumes.
翻訳日:2021-11-25 14:59:50 公開日:2021-11-24
# Octree Transformer:階層構造に基づく自己回帰3次元形状生成

Octree Transformer: Autoregressive 3D Shape Generation on Hierarchically Structured Sequences ( http://arxiv.org/abs/2111.12480v1 )

ライセンス: Link先を確認
Moritz Ibing, Gregor Kobsik, Leif Kobbelt(参考訳) 自動回帰モデルは、NLPテキスト生成タスクにおいて非常に強力であることが証明され、最近では画像生成にも人気がある。 しかし、これまでは3次元形状の合成に限定的に使用されてきた。 これは主に、3dデータをリニア化するための簡単な方法の欠如と、複雑な形状を記述する際に生じるシーケンスの長さによる問題の拡大が原因である。 この作業では、これら2つの問題に対処する。 交差順序によって逐次化できるコンパクトな階層形状表現として八重項を用いる。 さらに,完全自己回帰サンプリングと並列トレーニングを可能としながら,シーケンス長を大幅に削減し,トランスによる効果的な生成を可能にする適応圧縮方式を提案する。 形状生成における最新技術との比較により, モデルの性能を示す。

Autoregressive models have proven to be very powerful in NLP text generation tasks and lately have gained popularity for image generation as well. However, they have seen limited use for the synthesis of 3D shapes so far. This is mainly due to the lack of a straightforward way to linearize 3D data as well as to scaling problems with the length of the resulting sequences when describing complex shapes. In this work we address both of these problems. We use octrees as a compact hierarchical shape representation that can be sequentialized by traversal ordering. Moreover, we introduce an adaptive compression scheme, that significantly reduces sequence lengths and thus enables their effective generation with a transformer, while still allowing fully autoregressive sampling and parallel training. We demonstrate the performance of our model by comparing against the state-of-the-art in shape generation.
翻訳日:2021-11-25 14:59:24 公開日:2021-11-24
# 潜在空間における直感的形状編集

Intuitive Shape Editing in Latent Space ( http://arxiv.org/abs/2111.12488v1 )

ライセンス: Link先を確認
Tim Elsner, Moritz Ibing, Victor Czech, Julius Nehring-Wirxel, Leif Kobbelt(参考訳) 形状生成と編集のためのオートエンコーダの使用は、出力形状の予測不能な変更につながる可能性のある潜在空間での操作に苦しむ。 本稿では, 潜在部分空間を分離して, 面上の制御点と, 独立に操作可能なスタイル変数を得ることにより, 潜在空間における直感的な形状編集を可能にするオートエンコーダベースの手法を提案する。 鍵となる考え方は、損失関数にリプシッツ型制約を加えることであり、すなわち、出力形状の変化を潜在空間の変化に比例して有界化し、解釈可能な潜在空間表現をもたらす。 表面上の制御ポイントは自由に移動でき、直観的な形状を潜在空間で直接編集できる。 本手法を最先端データ駆動型形状編集手法と比較することにより評価した。 形状操作の他に,制御点を教師なし部分セグメンテーションに活用して表現性を示す。

The use of autoencoders for shape generation and editing suffers from manipulations in latent space that may lead to unpredictable changes in the output shape. We present an autoencoder-based method that enables intuitive shape editing in latent space by disentangling latent sub-spaces to obtain control points on the surface and style variables that can be manipulated independently. The key idea is adding a Lipschitz-type constraint to the loss function, i.e. bounding the change of the output shape proportionally to the change in latent space, leading to interpretable latent space representations. The control points on the surface can then be freely moved around, allowing for intuitive shape editing directly in latent space. We evaluate our method by comparing it to state-of-the-art data-driven shape editing methods. Besides shape manipulation, we demonstrate the expressiveness of our control points by leveraging them for unsupervised part segmentation.
翻訳日:2021-11-25 14:59:11 公開日:2021-11-24
# 木構造テキストの処理:ディレクトリページのパース

Handling tree-structured text: parsing directory pages ( http://arxiv.org/abs/2111.12317v1 )

ライセンス: Link先を確認
Sarang Shrivastava, Afreen Shaikh, Shivani Shrivastava, Chung Ming Ho, Pradeep Reddy, Vijay Saraswat(参考訳) テキストの読み取り順序の決定は、文書の理解に不可欠である。 この問題は、テキストが一連の行に編成され、垂直にアライメントされたページがページの高さ(左右に読み取れる複数の列を生成する)を実行するページで簡単に解決できる。 ディレクトリページ解析の問題として,不規則で視覚的に整理された2次元の形式でページ上に情報を提示する状況を示す。 ディレクトリページは、金融の見通しにおいてかなり一般的で、顧客オンボーディングにおけるビジネスタスクの鍵となる組織、その住所、関係に関する情報を運ぶ。 興味深いことに、ディレクトリページは階層構造を持つことがあるため、読み込みシーケンスを読み込みツリーに一般化する必要がある。 テキストセグメントの分類器と,セグメントのボトムアップ(右から左,ボトムツートップ)トラバーサルを用いて,ディレクトリページの識別と読み木構築の問題に対する解決策を提案する。 ソリューションは、クライアントオンボードドキュメントから組織、住所、関係情報の自動抽出をサポートする生産サービスの重要な部分である。

The determination of the reading sequence of text is fundamental to document understanding. This problem is easily solved in pages where the text is organized into a sequence of lines and vertical alignment runs the height of the page (producing multiple columns which can be read from left to right). We present a situation -- the directory page parsing problem -- where information is presented on the page in an irregular, visually-organized, two-dimensional format. Directory pages are fairly common in financial prospectuses and carry information about organizations, their addresses and relationships that is key to business tasks in client onboarding. Interestingly, directory pages sometimes have hierarchical structure, motivating the need to generalize the reading sequence to a reading tree. We present solutions to the problem of identifying directory pages and constructing the reading tree, using (learnt) classifiers for text segments and a bottom-up (right to left, bottom-to-top) traversal of segments. The solution is a key part of a production service supporting automatic extraction of organization, address and relationship information from client onboarding documents.
翻訳日:2021-11-25 14:58:49 公開日:2021-11-24
# 会話における文脈的毒性検出の再検討

Revisiting Contextual Toxicity Detection in Conversations ( http://arxiv.org/abs/2111.12447v1 )

ライセンス: Link先を確認
Julia Ive, Atijit Anuchitanukul and Lucia Specia(参考訳) ユーザ会話の毒性を理解することは、間違いなく重要な問題である。 以前の研究で論じられたように、毒性の「隠蔽」や暗黙のケースに対処することは特に困難であり、文脈を必要とする。 人間の知覚や自動検出モデルにおける会話の文脈の影響を分析する研究はほとんどない。 私たちはこの2つの方向を深く掘り下げる。 まず、既存の文脈データセットを分析し、人間による毒性のラベル付けは、一般的に文脈の会話構造、極性、話題に影響されているという結論に達した。 次に,これらの知見を計算検出モデルに導入することを提案する。 (a)会話の構造を認識した文脈的毒性検出のための神経アーキテクチャ、及び b) 文脈的毒性の検出をモデル化するためのデータ拡張戦略。 以上の結果から,会話構造を意識したニューラルアーキテクチャの可能性が示唆された。 また,このようなモデルが合成データ,特にソーシャルメディア領域の恩恵を受けることも実証した。

Understanding toxicity in user conversations is undoubtedly an important problem. As it has been argued in previous work, addressing "covert" or implicit cases of toxicity is particularly hard and requires context. Very few previous studies have analysed the influence of conversational context in human perception or in automated detection models. We dive deeper into both these directions. We start by analysing existing contextual datasets and come to the conclusion that toxicity labelling by humans is in general influenced by the conversational structure, polarity and topic of the context. We then propose to bring these findings into computational detection models by introducing (a) neural architectures for contextual toxicity detection that are aware of the conversational structure, and (b) data augmentation strategies that can help model contextual toxicity detection. Our results have shown the encouraging potential of neural architectures that are aware of the conversation structure. We have also demonstrated that such models can benefit from synthetic data, especially in the social media domain.
翻訳日:2021-11-25 14:58:31 公開日:2021-11-24
# 異所性腹部多臓器分節に対するソースフリー非教師なしドメイン適応

Source-free unsupervised domain adaptation for cross-modality abdominal multi-organ segmentation ( http://arxiv.org/abs/2111.12221v1 )

ライセンス: Link先を確認
Jin Hong, Yu-Dong Zhang, Weitian Chen(参考訳) 腹部多臓器セグメンテーションのための対象未ラベルMRデータセットにラベル付きCTデータセットから学習知識を転送するドメイン適応を実現することは有用である。 一方、ターゲットデータセットの高アノテーションコストを避け、ソースデータセットのプライバシを保護することが非常に望ましい。 そこで本研究では, ソースデータセットにアクセスすることなく, 効率的なソースレス非教師なし領域適応手法を提案する。 提案フレームワークのプロセスには2つの段階がある。 第1段階では、トップセグメンテーションネットワークにおけるソースとターゲット特徴の分布の整合に特徴マップ統計損失が使用され、エントロピー最小化損失が高信頼セグメンテーションを促進するために使用される。 トップセグメンテーションネットワークから出力される擬似ラベルは、スタイル補償ネットワークを誘導してソースライクな画像を生成する。 ミドルセグメンテーションネットワークから出力される擬似ラベルは、所望のモデル(ボトムセグメンテーションネットワーク)の学習を監督するために使用される。 第2段階では、所望のモデルの性能をさらに向上させるために、円形学習と画素適応マスク改善を用いる。 このアプローチにより,それぞれ0.884,0.891,0.864,0. 911のdice類似度係数を持つ肝,右腎,左腎,脾の分画を満足できる性能を得ることができた。 さらに,提案手法は,対象とするアノテーションデータが存在する場合に容易に拡張できる。 平均ダイス類似度係数は0.888から0.922に改善され、教師付き学習(0.929)に近い。

It is valuable to achieve domain adaptation to transfer the learned knowledge from the source labeled CT dataset to the target unlabeled MR dataset for abdominal multi-organ segmentation. Meanwhile, it is highly desirable to avoid high annotation cost of target dataset and protect privacy of source dataset. Therefore, we propose an effective source-free unsupervised domain adaptation method for cross-modality abdominal multi-organ segmentation without accessing the source dataset. The process of the proposed framework includes two stages. At the first stage, the feature map statistics loss is used to align the distributions of the source and target features in the top segmentation network, and entropy minimization loss is used to encourage high confidence segmentations. The pseudo-labels outputted from the top segmentation network is used to guide the style compensation network to generate source-like images. The pseudo-labels outputted from the middle segmentation network is used to supervise the learning of the desired model (the bottom segmentation network). At the second stage, the circular learning and the pixel-adaptive mask refinement are used to further improve the performance of the desired model. With this approach, we achieve satisfactory performances on the segmentations of liver, right kidney, left kidney, and spleen with the dice similarity coefficients of 0.884, 0.891, 0.864, and 0.911, respectively. In addition, the proposed approach can be easily extended to the situation when there exists target annotation data. The performance improves from 0.888 to 0.922 in average dice similarity coefficient, close to the supervised learning (0.929), with only one labeled MR volume.
翻訳日:2021-11-25 14:57:29 公開日:2021-11-24
# PMSSC:サブスペースクラスタリングのための並列化可能なマルチサブセットベース自己表現モデル

PMSSC: Parallelizable Multi-Subset based Self-Expressive Model for Subspace Clustering ( http://arxiv.org/abs/2111.12232v1 )

ライセンス: Link先を確認
Katsuya Hotta, Takuya Akashi, Shogo Tokai, Chao Zhang(参考訳) サブスペースクラスタリング法は、データセット内の他のデータポイントの線形結合として各データポイントを表す自己表現モデルを採用しています。 しかし、大規模なデータセットを扱う場合、すべてのデータポイントを辞書として参照することで、各データポイントの表現は高い計算複雑性に苦しむ。 この問題を軽減するために,複数のサブセットを組み合わせて各データポイントを表現する並列化可能なマルチサブセットベース自己表現モデル(PMS)を導入する。 サブスペースクラスタリング(PMSSC)におけるPMSの導入は、各サブセットに分解される最適化問題が小さく、並列に効率的に解決できるため、計算上の優位性をもたらす。 さらに、PSMSSCはサブセットから得られる複数の自己表現係数ベクトルを組み合わせることができ、自己表現性の向上に寄与する。 総合データと実世界のデータセットに関する広範な実験は、競争的手法に対するアプローチの効率性と有効性を示している。

Subspace clustering methods embrace a self-expressive model that represents each data point as a linear combination of other data points in the dataset are powerful unsupervised learning techniques. However, when dealing with large-scale datasets, the representation of each data point by referring to all data points as a dictionary suffers from high computational complexity. To alleviate this issue, we introduce a parallelizable multi-subset based self-expressive model (PMS) which represents each data point by combing multiple subsets, with each consisting of only a small percentage of samples. The adoption of PMS in subspace clustering (PMSSC) leads to computational advantages because each optimization problem decomposed into each subset is small, and can be solved efficiently in parallel. Besides, PMSSC is able to combine multiple self-expressive coefficient vectors obtained from subsets, which contributes to the improvement of self-expressiveness. Extensive experiments on synthetic data and real-world datasets show the efficiency and effectiveness of our approach against competitive methods.
翻訳日:2021-11-25 14:57:03 公開日:2021-11-24
# PU変換器:ポイントクラウドアップサンプリング変換器

PU-Transformer: Point Cloud Upsampling Transformer ( http://arxiv.org/abs/2111.12242v1 )

ライセンス: Link先を確認
Shi Qiu, Saeed Anwar, Nick Barnes(参考訳) 3Dスキャナの急速な開発を考えると、ポイントクラウドはAI駆動マシンで人気を集めている。 しかし、ポイントクラウドのデータは本質的に疎らで不規則であり、マシンの認識に大きな困難をもたらす。 本研究では,入力データのばらつきから高密度な高忠実度ポイントクラウドを生成することを目的とした,ポイントクラウドアップサンプリングタスクに注目する。 具体的には,特徴表現におけるトランスフォーマーの強みを活性化するために,特徴写像のポイントワイドとチャネルワイドの関係性を高めるために,多頭部自己注意構造の新しい変種を開発する。 さらに,位置融合ブロックを利用して点雲データの局所的文脈を包括的に把握し,散在点に関する位置関連情報を提供する。 点群アップサンプリングのために導入された最初のトランスフォーマーモデルとして,各ベンチマークにおける最先端CNN法との比較により,本手法の優れた性能を示す。

Given the rapid development of 3D scanners, point clouds are becoming popular in AI-driven machines. However, point cloud data is inherently sparse and irregular, causing major difficulties for machine perception. In this work, we focus on the point cloud upsampling task that intends to generate dense high-fidelity point clouds from sparse input data. Specifically, to activate the transformer's strong capability in representing features, we develop a new variant of a multi-head self-attention structure to enhance both point-wise and channel-wise relations of the feature map. In addition, we leverage a positional fusion block to comprehensively capture the local context of point cloud data, providing more position-related information about the scattered points. As the first transformer model introduced for point cloud upsampling, we demonstrate the outstanding performance of our approach by comparing with the state-of-the-art CNN-based methods on different benchmarks quantitatively and qualitatively.
翻訳日:2021-11-25 14:56:46 公開日:2021-11-24
# APANet:Few-Shot Semantic Segmentationのための適応プロトタイプアライメントネットワーク

APANet: Adaptive Prototypes Alignment Network for Few-Shot Semantic Segmentation ( http://arxiv.org/abs/2111.12263v1 )

ライセンス: Link先を確認
Jiacheng Chen, Bin-Bin Gao, Zongqing Lu, Jing-Hao Xue, Chengjie Wang and Qingmin Liao(参考訳) 少数ショットのセマンティクスセグメンテーションは、限られたラベル付きサポートイメージで、与えられたクエリイメージ内の新規クラスオブジェクトをセグメンテーションすることを目的としている。 ほとんどの高度なソリューションは、各クエリ機能を学習クラス固有のプロトタイプにマッチさせることでセグメンテーションを実行するメトリクス学習フレームワークを利用している。 しかし、このフレームワークは不完全な特徴比較のために偏りのある分類に苦しむ。 この問題に対処するために、クラス固有およびクラス非依存のプロトタイプを導入し、クエリ機能とセマンティックアライメントを学習するための完全なサンプルペアを構築する。 補足的な特徴学習手法は、特徴比較を効果的に強化し、未偏分割のセグメンテーションモデルを得るのに役立つ。 2分岐のエンドツーエンドネットワーク(クラス固有のブランチとクラスに依存しないブランチ)で実装され、プロトタイプを生成し、クエリ機能を組み合わせて比較を行う。 さらに、提案するクラス非依存分岐は単純だが有効である。 実際には、クエリ画像のための複数のクラスに依存しないプロトタイプを適応的に生成し、自己コントラスト的な特徴アライメントを学習することができる。 PASCAL-5$^i$およびCOCO-20$^i$の大規模な実験により,本手法の優位性を実証した。 推論効率を犠牲にすることなく,セマンティクスセグメンテーションのための1ショット設定と5ショット設定の両方において,最先端の結果が得られる。

Few-shot semantic segmentation aims to segment novel-class objects in a given query image with only a few labeled support images. Most advanced solutions exploit a metric learning framework that performs segmentation through matching each query feature to a learned class-specific prototype. However, this framework suffers from biased classification due to incomplete feature comparisons. To address this issue, we present an adaptive prototype representation by introducing class-specific and class-agnostic prototypes and thus construct complete sample pairs for learning semantic alignment with query features. The complementary features learning manner effectively enriches feature comparison and helps yield an unbiased segmentation model in the few-shot setting. It is implemented with a two-branch end-to-end network (\ie, a class-specific branch and a class-agnostic branch), which generates prototypes and then combines query features to perform comparisons. In addition, the proposed class-agnostic branch is simple yet effective. In practice, it can adaptively generate multiple class-agnostic prototypes for query images and learn feature alignment in a self-contrastive manner. Extensive experiments on PASCAL-5$^i$ and COCO-20$^i$ demonstrate the superiority of our method. At no expense of inference efficiency, our model achieves state-of-the-art results in both 1-shot and 5-shot settings for semantic segmentation.
翻訳日:2021-11-25 14:56:30 公開日:2021-11-24
# 複雑な都市運転場面における異常セグメンテーションのための画素方向エネルギーバイアス回避学習

Pixel-wise Energy-biased Abstention Learning for Anomaly Segmentation on Complex Urban Driving Scenes ( http://arxiv.org/abs/2111.12264v1 )

ライセンス: Link先を確認
Yu Tian and Yuyuan Liu and Guansong Pang and Fengbei Liu and Yuanhong Chen and Gustavo Carneiro(参考訳) 複雑な都市運転シーンにおける最新技術(sota)異常セグメンテーションアプローチは、異常露光や外部再構成モデルから学んだ画素単位の分類の不確かさを探索する。 しかし、従来の不確かさと異常を直接関連付けるような不確実性のあるアプローチは、しばしば誤った異常予測を招きかねず、外部再構成モデルはリアルタイムの自律型組込みシステムでは効率が悪い傾向にある。 本稿では,適応的画素レベルの異常クラスを学習するモデルを用いて,画素単位のエネルギーバイアス型禁断学習(PEBAL)と呼ばれる新たな異常セグメンテーション法と,不整合画素分布を学習するエネルギーベースモデル(EBM)を提案する。 より具体的には、EPBALはESMとALの非自明な共同訓練に基づいており、EMMは異常画素の高エネルギー(外周露出から)を出力するよう訓練され、ALはこれらの高エネルギー画素が異常クラスに含まれることで適応的な低ペナルティを受けるように訓練される。 我々はPEBALをSOTAに対して広範囲に評価し、4つのベンチマークで最高の性能を発揮することを示す。 コードはhttps://github.com/t ianyu0207/PEBALで入手できる。

State-of-the-art (SOTA) anomaly segmentation approaches on complex urban driving scenes explore pixel-wise classification uncertainty learned from outlier exposure, or external reconstruction models. However, previous uncertainty approaches that directly associate high uncertainty to anomaly may sometimes lead to incorrect anomaly predictions, and external reconstruction models tend to be too inefficient for real-time self-driving embedded systems. In this paper, we propose a new anomaly segmentation method, named pixel-wise energy-biased abstention learning (PEBAL), that explores pixel-wise abstention learning (AL) with a model that learns an adaptive pixel-level anomaly class, and an energy-based model (EBM) that learns inlier pixel distribution. More specifically, PEBAL is based on a non-trivial joint training of EBM and AL, where EBM is trained to output high-energy for anomaly pixels (from outlier exposure) and AL is trained such that these high-energy pixels receive adaptive low penalty for being included to the anomaly class. We extensively evaluate PEBAL against the SOTA and show that it achieves the best performance across four benchmarks. Code is available at https://github.com/t ianyu0207/PEBAL.
翻訳日:2021-11-25 14:56:08 公開日:2021-11-24
# (参考訳) ターボファンエンジンの残存寿命予測のための階層型深層畳み込みニューラルネットワーク [全文訳有]

A stacked deep convolutional neural network to predict the remaining useful life of a turbofan engine ( http://arxiv.org/abs/2111.12689v1 )

ライセンス: CC BY 4.0
David Solis-Martin, Juan Galan-Paez, Joaquin Borrego-Diaz(参考訳) 本稿では,多種多様な性質の故障に苦しむ航空機用エンジンの残存寿命(RUL)を予測するために,データ駆動方式と手法を提案する。 提示されたソリューションは、2つのレベルに積み重ねられた2つのDeep Convolutional Neural Networks(DCNN)に基づいている。 第1のDCNNは、正規化された生データを入力として低次元の特徴ベクトルを抽出する。 第2のDCNNは、以前のDCNNから取られたベクトルのリストを取得し、RULを推定する。 繰り返しランダムサブサンプリング検証手法を用いたベイズ最適化によりモデル選択を行った。 提案手法は2021年のPHM会議データチャレンジの第3位にランクされた。

This paper presents the data-driven techniques and methodologies used to predict the remaining useful life (RUL) of a fleet of aircraft engines that can suffer failures of diverse nature. The solution presented is based on two Deep Convolutional Neural Networks (DCNN) stacked in two levels. The first DCNN is used to extract a low-dimensional feature vector using the normalized raw data as input. The second DCNN ingests a list of vectors taken from the former DCNN and estimates the RUL. Model selection was carried out by means of Bayesian optimization using a repeated random subsampling validation approach. The proposed methodology was ranked in the third place of the 2021 PHM Conference Data Challenge.
翻訳日:2021-11-25 14:53:54 公開日:2021-11-24
# 知識強化スポーツゲーム要約

Knowledge Enhanced Sports Game Summarization ( http://arxiv.org/abs/2111.12535v1 )

ライセンス: Link先を確認
Jiaan Wang, Zhixu Li, Tingyi Zhang, Duo Zheng, Jianfeng Qu, An Liu, Lei Zhao, Zhigang Chen(参考訳) スポーツゲームの要約は、ライブコメントからスポーツニュースを生成することを目的としている。 しかし、既存のデータセットはすべて自動収集とクリーニングプロセスによって構築され、多くのノイズが発生する。 また、現在の作品は、スポーツゲーム要約のパフォーマンスを制限するスポーツニュースとライブコメンタリーの知識ギャップを無視している。 本稿では,(1)K-SportsSumが大規模ゲームから大量のデータを収集する,という2つの特徴を持つ新しいデータセットであるK-SportsSumを紹介する。 7,854組のコメンタリー・ニューズ・ペアがある。 品質向上のため、k-sportssumは手作業によるクリーニングプロセスを採用しており、(2)既存のデータセットとは異なる知識ギャップを狭めるため、k-sportssumは523のスポーツチームと14,724人のスポーツ選手の情報を含む大規模な知識コーパスを提供する。 また,スポーツニュースを生成するために,ライブ解説と知識の両方を活用する知識強調要約も導入する。 K-SportsSumデータセットとSportsSumデータセットの大規模な実験により、我々のモデルが新しい最先端のパフォーマンスを達成することを示す。 質的分析と人間研究により,本モデルがより有意義なスポーツニュースを生成することをさらに検証した。

Sports game summarization aims at generating sports news from live commentaries. However, existing datasets are all constructed through automated collection and cleaning processes, resulting in a lot of noise. Besides, current works neglect the knowledge gap between live commentaries and sports news, which limits the performance of sports game summarization. In this paper, we introduce K-SportsSum, a new dataset with two characteristics: (1) K-SportsSum collects a large amount of data from massive games. It has 7,854 commentary-news pairs. To improve the quality, K-SportsSum employs a manual cleaning process; (2) Different from existing datasets, to narrow the knowledge gap, K-SportsSum further provides a large-scale knowledge corpus that contains the information of 523 sports teams and 14,724 sports players. Additionally, we also introduce a knowledge-enhanced summarizer that utilizes both live commentaries and the knowledge to generate sports news. Extensive experiments on K-SportsSum and SportsSum datasets show that our model achieves new state-of-the-art performances. Qualitative analysis and human study further verify that our model generates more informative sports news.
翻訳日:2021-11-25 14:44:31 公開日:2021-11-24
# 画像キャプションのための視覚言語事前学習のスケールアップ

Scaling Up Vision-Language Pre-training for Image Captioning ( http://arxiv.org/abs/2111.12233v1 )

ライセンス: Link先を確認
Xiaowei Hu, Zhe Gan, Jianfeng Wang, Zhengyuan Yang, Zicheng Liu, Yumao Lu, Lijuan Wang(参考訳) 近年,視覚言語事前学習(VLP)に基づく画像キャプションタスクの大幅な向上が見られた。 スケールはこの進歩の重要な要因であると考えられている。 しかし、既存の作品のほとんどは、約400万枚の画像に適度な大きさ(例えば12層や24層)の事前学習トランスフォーマーのみに焦点を当てている。 本稿では,LargEスケールのiMageカプティオナーであるLEMONについて紹介し,画像キャプション用VLPのスケーリング挙動に関する実験的検討を行った。 我々は,画像特徴抽出器と変圧器モデルからなる参照モデルとして最先端のVinVLモデルを使用し,モデルサイズは13~675万のパラメータで,上下共にスケールする。 データの観点からは、画像のアルト属性(ALT200M)に基づいて、Webから自動的に収集される最大2億の画像テキストペアを用いて実験を行う。 広範な分析は、モデルサイズと事前学習データサイズの増加として、パフォーマンストレンドを特徴付けるのに役立ちます。 また,特に大規模ノイズデータに対するトレーニングにおいて,異なるトレーニングレシピを比較した。 その結果、LEMONはCOCOキャプション、nocaps、Conceptual Captionsなど、いくつかの主要な画像キャプションベンチマークで芸術の新たな状態を達成した。 また、ゼロショットで使用する場合、LEMONは長い尾の視覚概念を持つキャプションを生成できることを示す。

In recent years, we have witnessed significant performance boost in the image captioning task based on vision-language pre-training (VLP). Scale is believed to be an important factor for this advance. However, most existing work only focuses on pre-training transformers with moderate sizes (e.g., 12 or 24 layers) on roughly 4 million images. In this paper, we present LEMON, a LargE-scale iMage captiONer, and provide the first empirical study on the scaling behavior of VLP for image captioning. We use the state-of-the-art VinVL model as our reference model, which consists of an image feature extractor and a transformer model, and scale the transformer both up and down, with model sizes ranging from 13 to 675 million parameters. In terms of data, we conduct experiments with up to 200 million image-text pairs which are automatically collected from web based on the alt attribute of the image (dubbed as ALT200M). Extensive analysis helps to characterize the performance trend as the model size and the pre-training data size increase. We also compare different training recipes, especially for training on large-scale noisy data. As a result, LEMON achieves new state of the arts on several major image captioning benchmarks, including COCO Caption, nocaps, and Conceptual Captions. We also show LEMON can generate captions with long-tail visual concepts when used in a zero-shot manner.
翻訳日:2021-11-25 14:44:11 公開日:2021-11-24
# N\"UWA":ニューラルビジュアルワールド・クレーションのための視覚合成事前学習

N\"UWA: Visual Synthesis Pre-training for Neural visUal World creAtion ( http://arxiv.org/abs/2111.12417v1 )

ライセンス: Link先を確認
Chenfei Wu, Jian Liang, Lei Ji, Fan Yang, Yuejian Fang, Daxin Jiang, Nan Duan(参考訳) 本稿では,様々な視覚合成タスクにおいて,既存の視覚データ(画像や映像など)を新たに生成あるいは操作可能な,n\"uwa"と呼ばれる統合マルチモーダル事前学習モデルを提案する。 言語、画像、動画を異なるシナリオで同時にカバーするために、3Dトランスフォーマーエンコーダ・デコーダ・フレームワークが設計されており、3Dデータとしてビデオを扱うだけでなく、1Dデータと2Dデータとしてテキストと画像に適応することができる。 また,視覚データの性質を考慮し,計算量を削減する3次元near attention(3dna)機構も提案されている。 我々は8つの下流タスクでN\"UWA"を評価する。 いくつかの強力なベースラインと比較すると、n\"uwaはテキスト対画像生成、テキスト対ビデオ生成、ビデオ予測などの最先端の結果を達成している。 さらに、テキスト誘導画像やビデオ操作タスクにおいて驚くほど優れたゼロショット機能を示す。 プロジェクトリポジトリはhttps://github.com/m icrosoft/NUWA。

This paper presents a unified multimodal pre-trained model called N\"UWA that can generate new or manipulate existing visual data (i.e., images and videos) for various visual synthesis tasks. To cover language, image, and video at the same time for different scenarios, a 3D transformer encoder-decoder framework is designed, which can not only deal with videos as 3D data but also adapt to texts and images as 1D and 2D data, respectively. A 3D Nearby Attention (3DNA) mechanism is also proposed to consider the nature of the visual data and reduce the computational complexity. We evaluate N\"UWA on 8 downstream tasks. Compared to several strong baselines, N\"UWA achieves state-of-the-art results on text-to-image generation, text-to-video generation, video prediction, etc. Furthermore, it also shows surprisingly good zero-shot capabilities on text-guided image and video manipulation tasks. Project repo is https://github.com/m icrosoft/NUWA.
翻訳日:2021-11-25 14:43:48 公開日:2021-11-24
# mixsyn: 多元画像合成のための学習構成とスタイル

MixSyn: Learning Composition and Style for Multi-Source Image Synthesis ( http://arxiv.org/abs/2111.12705v1 )

ライセンス: Link先を確認
Ilke Demir and Umur A. Ciftci(参考訳) 生成モデルによって作成された合成画像は、新しいモデルがより大きなデータセットと新しいアーキテクチャを使用するにつれて、品質と表現力を高める。 このフォトリアリズムは創造的な観点からは肯定的な副作用であるが、そのような生成モデルが同意なしに偽装する際に問題となる。 これらのアプローチのほとんどは、ソースとターゲットのペア間の部分的な転送に基づいて構築されているか、あるいは理想的な分布に基づいて完全に新しいサンプルを生成し、データセットの最も近い実サンプルに似ている。 そこで本研究では,複数の音源から新しいファジィ合成を学習し,合成に対応する画像領域の混合として新たな画像を生成するMixSynを提案する。 MixSynは、複数のソースマスクからの非相関領域をコヒーレントなセマンティック合成に結合するだけでなく、既存の画像のマスク対応の高品質な再構成を生成する。 mixsynと最先端のシングルソースシーケンシャルジェネレーションとコラージュジェネレーションアプローチを比較し,品質,多様性,リアリズム,表現力の面で比較した。

Synthetic images created by generative models increase in quality and expressiveness as newer models utilize larger datasets and novel architectures. Although this photorealism is a positive side-effect from a creative standpoint, it becomes problematic when such generative models are used for impersonation without consent. Most of these approaches are built on the partial transfer between source and target pairs, or they generate completely new samples based on an ideal distribution, still resembling the closest real sample in the dataset. We propose MixSyn (read as " mixin' ") for learning novel fuzzy compositions from multiple sources and creating novel images as a mix of image regions corresponding to the compositions. MixSyn not only combines uncorrelated regions from multiple source masks into a coherent semantic composition, but also generates mask-aware high quality reconstructions of non-existing images. We compare MixSyn to state-of-the-art single-source sequential generation and collage generation approaches in terms of quality, diversity, realism, and expressive power; while also showcasing interactive synthesis, mix & match, and edit propagation tasks, with no mask dependency.
翻訳日:2021-11-25 14:43:29 公開日:2021-11-24
# MIO : 自己教師付きバイナリコントラスト学習を用いた相互情報最適化

MIO : Mutual Information Optimization using Self-Supervised Binary Contrastive Learning ( http://arxiv.org/abs/2111.12664v1 )

ライセンス: Link先を確認
Siladittya Manna, Saumik Bhattacharya and Umapada Pal(参考訳) 自己指導型コントラスト学習は、ここ数年で急速に進歩してきた分野の1つである。 最先端の自己教師型アルゴリズムのほとんどは、多くの負のサンプル、モーメントのアップデート、特定のアーキテクチャの変更、あるいは優れた表現を学ぶための広範なトレーニングを使用している。 このようなアレンジメントによって、全体的なトレーニングプロセスが複雑になり、分析的に実現が難しくなる。 本稿では,二分分類問題にコントラスト学習をモデル化し,ペアが正かどうかを推定する,コントラスト学習のための相互情報最適化に基づく損失関数を提案する。 この定式化は問題を数学的に追跡するだけでなく、既存のアルゴリズムよりも優れている。 正対の相互情報のみを最大化する既存の方法とは異なり、提案された損失関数は正対と負対の両方の相互情報を最適化する。 また,プロジェクターに流入するパラメータ勾配の数学的表現と特徴空間における特徴ベクトルの変位について述べる。 これは、対照的な学習の作用原理に関する数学的洞察を得るのに役立つ。 追加の$L_2$ regularizerは特徴ベクトルのばらつきを防止し、性能を改善するためにも使われる。 提案手法は,STL-10,CIFAR-10,CIF AR-100などのベンチマークデータセットにおいて,最先端のアルゴリズムよりも優れている。 CIFAR-10, STL-10, CIFAR-100データセットでは, それぞれ85.44\%, 60.75\%, 56.81\%の精度が得られた。

Self-supervised contrastive learning is one of the domains which has progressed rapidly over the last few years. Most of the state-of-the-art self-supervised algorithms use a large number of negative samples, momentum updates, specific architectural modifications, or extensive training to learn good representations. Such arrangements make the overall training process complex and challenging to realize analytically. In this paper, we propose a mutual information optimization based loss function for contrastive learning where we model contrastive learning into a binary classification problem to predict if a pair is positive or not. This formulation not only helps us to track the problem mathematically but also helps us to outperform existing algorithms. Unlike the existing methods that only maximize the mutual information in a positive pair, the proposed loss function optimizes the mutual information in both positive and negative pairs. We also present a mathematical expression for the parameter gradients flowing into the projector and the displacement of the feature vectors in the feature space. This helps us to get a mathematical insight into the working principle of contrastive learning. An additive $L_2$ regularizer is also used to prevent diverging of the feature vectors and to improve performance. The proposed method outperforms the state-of-the-art algorithms on benchmark datasets like STL-10, CIFAR-10, CIFAR-100. After only 250 epochs of pre-training, the proposed model achieves the best accuracy of 85.44\%, 60.75\%, 56.81\% on CIFAR-10, STL-10, CIFAR-100 datasets, respectively.
翻訳日:2021-11-25 14:43:09 公開日:2021-11-24
# Softmax Gradient Tampering:改善されたフィッティングのための後方パスの分離

Softmax Gradient Tampering: Decoupling the Backward Pass for Improved Fitting ( http://arxiv.org/abs/2111.12495v1 )

ライセンス: Link先を確認
Bishshoy Das, Milton Mondal, Brejesh Lall, Shiv Dutt Joshi, Sumantra Dutta Roy(参考訳) ニューラルネットワークの後方通過の勾配を補正して精度を高める手法であるSoftmax Gradient Tamperingを導入する。 提案手法は,パワーベース確率変換を用いて予測確率値を変換し,逆方向の勾配を再計算する。 この修正により、より滑らかな勾配プロファイルが得られ、実証的および理論的に示される。 残差ネットワーク上の変換パラメータのグリッド探索を行う。 本稿では,convnetにおけるソフトマックス勾配の修正により,トレーニング精度が向上し,トレーニングデータ間の適合性が向上し,ニューラルネットワークの学習能力を最大限活用できることを示す。 ラベルの平滑化などの正規化技術と組み合わせることで,テストメトリクスが向上し,一般化ギャップが小さくなる。 ソフトマックス勾配テーパは、ImageNetデータセットのベースライン上でResNet-50のテスト精度を0.52\%改善する。 私たちのアプローチは非常に一般的で、さまざまなネットワークアーキテクチャやデータセットで使用することができます。

We introduce Softmax Gradient Tampering, a technique for modifying the gradients in the backward pass of neural networks in order to enhance their accuracy. Our approach transforms the predicted probability values using a power-based probability transformation and then recomputes the gradients in the backward pass. This modification results in a smoother gradient profile, which we demonstrate empirically and theoretically. We do a grid search for the transform parameters on residual networks. We demonstrate that modifying the softmax gradients in ConvNets may result in increased training accuracy, thus increasing the fit across the training data and maximally utilizing the learning capacity of neural networks. We get better test metrics and lower generalization gaps when combined with regularization techniques such as label smoothing. Softmax gradient tampering improves ResNet-50's test accuracy by $0.52\%$ over the baseline on the ImageNet dataset. Our approach is very generic and may be used across a wide range of different network architectures and datasets.
翻訳日:2021-11-25 14:42:44 公開日:2021-11-24
# ディープニューラルネットワークの効率的な分解規則抽出

Efficient Decompositional Rule Extraction for Deep Neural Networks ( http://arxiv.org/abs/2111.12628v1 )

ライセンス: Link先を確認
Mateo Espinosa Zarlenga, Zohreh Shams, Mateja Jamnik(参考訳) 近年,Deep Neural Network(DNN)の解釈可能性とデバッグ可能性の両面で,決定境界を近似したルールベースモデルを抽出することにより,大幅な研究が行われている。 それにもかかわらず、DNNの潜在空間を考慮した現在のDNNルール抽出法は、分解アルゴリズムとして知られるルールを抽出する場合は、単層DNNに制限されるか、DNNのサイズが大きくなるか、あるいはデータが増大するにつれて引き出すことができる。 本稿では,大規模なDNNアーキテクチャと大規模トレーニングデータセットの両方にスケール可能な新しい多項式時間ルール抽出アルゴリズムであるECLAIREを導入することで,これらの制約に対処する。 ECLAIREは乳がんの予後から粒子検出まで幅広いタスクで評価され、計算資源の桁数を大幅に減らしながら、現在の最先端手法よりも正確で理解しやすいルールセットを一貫して抽出していることを示す。 私たちはオープンソースのremixライブラリ(https://github.com/ mateoespinosa/remix) を通じて、ルールセットの可視化インターフェースを含むすべてのメソッドを利用可能にしています。

In recent years, there has been significant work on increasing both interpretability and debuggability of a Deep Neural Network (DNN) by extracting a rule-based model that approximates its decision boundary. Nevertheless, current DNN rule extraction methods that consider a DNN's latent space when extracting rules, known as decompositional algorithms, are either restricted to single-layer DNNs or intractable as the size of the DNN or data grows. In this paper, we address these limitations by introducing ECLAIRE, a novel polynomial-time rule extraction algorithm capable of scaling to both large DNN architectures and large training datasets. We evaluate ECLAIRE on a wide variety of tasks, ranging from breast cancer prognosis to particle detection, and show that it consistently extracts more accurate and comprehensible rule sets than the current state-of-the-art methods while using orders of magnitude less computational resources. We make all of our methods available, including a rule set visualisation interface, through the open-source REMIX library (https://github.com/ mateoespinosa/remix) .
翻訳日:2021-11-25 14:41:28 公開日:2021-11-24
# 一般ltl目標のための強化学習は難解である

Reinforcement Learning for General LTL Objectives Is Intractable ( http://arxiv.org/abs/2111.12679v1 )

ライセンス: Link先を確認
Cambridge Yang, Michael Littman, Michael Carbin(参考訳) 近年、線形時間論理(LTL)の目的とLTLのような目的を最適化するための強化学習アルゴリズムの開発に大きな進歩を遂げている。 これらの進歩にもかかわらず、この問題がどの程度うまく解決できるかには根本的な制限があるが、我々の知識では、深く調べられていない。 本稿では,一般LTL目標を用いた学習の難しさを理論的に論じる。 我々は,マルコフ決定過程 (PAC-MDP) フレームワークにおけるほぼ正しい学習条件の下で問題を定式化し,強化学習におけるサンプルの複雑さを測定するための標準フレームワークである。 この形式化において、任意の LTL 公式の最適ポリシーが PAC-MDP-learnable であることは、式が LTL 階層において最も限られたクラスであり、有限水平決定性のみからなる場合に限る。 本研究の結果は, 有限個の制約のないLTL目標に対して, 有限個の制約のない環境と相互作用した上で, PAC-MDPの保証が得られないことを示唆している。

In recent years, researchers have made significant progress in devising reinforcement-learni ng algorithms for optimizing linear temporal logic (LTL) objectives and LTL-like objectives. Despite these advancements, there are fundamental limitations to how well this problem can be solved that previous studies have alluded to but, to our knowledge, have not examined in depth. In this paper, we address theoretically the hardness of learning with general LTL objectives. We formalize the problem under the probably approximately correct learning in Markov decision processes (PAC-MDP) framework, a standard framework for measuring sample complexity in reinforcement learning. In this formalization, we prove that the optimal policy for any LTL formula is PAC-MDP-learnable only if the formula is in the most limited class in the LTL hierarchy, consisting of only finite-horizon-decid able properties. Practically, our result implies that it is impossible for a reinforcement-learni ng algorithm to obtain a PAC-MDP guarantee on the performance of its learned policy after finitely many interactions with an unconstrained environment for non-finite-horizon-d ecidable LTL objectives.
翻訳日:2021-11-25 14:41:07 公開日:2021-11-24
# 製品共食いのためのXGBoostベースの予測フレームワーク

An XGBoost-Based Forecasting Framework for Product Cannibalization ( http://arxiv.org/abs/2111.12680v1 )

ライセンス: Link先を確認
Gautham Bekal, Mohammad Bari(参考訳) 需要予測における2つの大きな課題は、製品共食いと長期予測である。 商品の共食いは、一部の製品の高い需要が他の製品の販売を減少させる現象である。 長期的な予測は、戦略的なビジネス目的にとって重要な、長期にわたる販売予測を伴う。 また、従来の手法、例えば、リカレントニューラルネットワークは、本研究のように列車データのサイズが小さい場合に有効ではない可能性がある。 本稿では,XGBoostをベースとした製品共食い問題と関連する長期エラー伝搬問題に対処する3段階フレームワークを提案する。 提案した3段階のXGBoostベースのフレームワークの性能は,通常のXGBoostアルゴリズムよりも優れていた。

Two major challenges in demand forecasting are product cannibalization and long term forecasting. Product cannibalization is a phenomenon in which high demand of some products leads to reduction in sales of other products. Long term forecasting involves forecasting the sales over longer time frame that is critical for strategic business purposes. Also, conventional methods, for instance, recurrent neural networks may be ineffective where train data size is small as in the case in this study. This work presents XGBoost-based three-stage framework that addresses product cannibalization and associated long term error propagation problems. The performance of the proposed three-stage XGBoost-based framework is compared to and is found superior than that of regular XGBoost algorithm.
翻訳日:2021-11-25 14:40:47 公開日:2021-11-24
# 辞書に基づく低ランク近似と混合スパース符号化問題

Dictionary-based Low-Rank Approximations and the Mixed Sparse Coding problem ( http://arxiv.org/abs/2111.12399v1 )

ライセンス: Link先を確認
Jeremy E. Cohen(参考訳) 制約付きテンソルおよび行列分解モデルにより、マルチウェイデータから解釈可能なパターンを抽出できる。 したがって、制約付き低ランク近似に対する識別可能性特性と効率的なアルゴリズムは、今日では重要な研究トピックである。 この研究は、辞書ベースの低ランク近似(DLRA)と呼ばれるモデルにおいて、低ランク近似の係数行列の列が、既知かつおそらく過剰なベースでスパースであることを示す。 以前のコントリビューションでは、候補列の辞書内の因子列、すなわち1つのスパース近似の発見に焦点が当てられていたが、この研究は1より広い空間でDLRAに取り組む最初のものである。 そこで本論文では,DLRAの解法を交互に最適化する手法として,MSC(Mixed Sparse-Coding)と呼ばれるスパース符号化方式を提案する。 mscを解くために、スパースコーディングヒューリスティックスに基づくいくつかのアルゴリズム (greedy method, convex relaxs) が提供されている。 これらのヒューリスティックスの性能はシミュレーションデータに基づいて評価する。 次に,このLASSOに基づく効率的なMSC解法を用いて,ハイパースペクトル画像処理とケモメトリの文脈で辞書ベースの行列分解と正準多進分解を計算する方法を示す。 これらの実験から,DLRAは低ランク近似のモデリング能力を拡張し,推定分散を低減し,推定因子の識別可能性や解釈可能性を高めることが示唆された。

Constrained tensor and matrix factorization models allow to extract interpretable patterns from multiway data. Therefore identifiability properties and efficient algorithms for constrained low-rank approximations are nowadays important research topics. This work deals with columns of factor matrices of a low-rank approximation being sparse in a known and possibly overcomplete basis, a model coined as Dictionary-based Low-Rank Approximation (DLRA). While earlier contributions focused on finding factor columns inside a dictionary of candidate columns, i.e. one-sparse approximations, this work is the first to tackle DLRA with sparsity larger than one. I propose to focus on the sparse-coding subproblem coined Mixed Sparse-Coding (MSC) that emerges when solving DLRA with an alternating optimization strategy. Several algorithms based on sparse-coding heuristics (greedy methods, convex relaxations) are provided to solve MSC. The performance of these heuristics is evaluated on simulated data. Then, I show how to adapt an efficient MSC solver based on the LASSO to compute Dictionary-based Matrix Factorization and Canonical Polyadic Decomposition in the context of hyperspectral image processing and chemometrics. These experiments suggest that DLRA extends the modeling capabilities of low-rank approximations, helps reducing estimation variance and enhances the identifiability and interpretability of estimated factors.
翻訳日:2021-11-25 14:39:53 公開日:2021-11-24
# 現実への一歩:不完全なコミュニケーションを伴う協調的帯域

One More Step Towards Reality: Cooperative Bandits with Imperfect Communication ( http://arxiv.org/abs/2111.12482v1 )

ライセンス: Link先を確認
Udari Madhushani, Abhimanyu Dubey, Naomi Ehrich Leonard, Alex Pentland(参考訳) 大規模意思決定への応用により,共同バンディット問題は益々重要視されている。 しかしながら、この問題に関するほとんどの研究は完全なコミュニケーションの設定にのみ焦点を合わせているが、現実の分散環境では、通信はしばしば確率的ネットワーク上にあり、任意の腐敗と遅延がある。 本稿では,3つの現実的コミュニケーションシナリオ,すなわち,協調的バンディット学習について検討する。 (a)確率的時間変動ネットワーク上のメッセージパッシング (b)ランダムな遅延のあるネットワーク上での即時報酬共有 (c)ビザンチン通信を含む相手側の報酬によるメッセージパッシング それぞれの環境に対して,競合性能を実現する分散アルゴリズムを提案するとともに,帰属集団の後悔に対するほぼ最適保証も提案する。 さらに, 完全通信環境では, 様々なネットワークトポロジにおいて既存の最先端技術よりも優れた遅延更新アルゴリズムを提案する。 最後に,ネットワーク依存のミニマックス下限をグループ後悔に対して提示する。 提案アルゴリズムは, 競争力のある経験的性能を実現し, 実現し易い。

The cooperative bandit problem is increasingly becoming relevant due to its applications in large-scale decision-making. However, most research for this problem focuses exclusively on the setting with perfect communication, whereas in most real-world distributed settings, communication is often over stochastic networks, with arbitrary corruptions and delays. In this paper, we study cooperative bandit learning under three typical real-world communication scenarios, namely, (a) message-passing over stochastic time-varying networks, (b) instantaneous reward-sharing over a network with random delays, and (c) message-passing with adversarially corrupted rewards, including byzantine communication. For each of these environments, we propose decentralized algorithms that achieve competitive performance, along with near-optimal guarantees on the incurred group regret as well. Furthermore, in the setting with perfect communication, we present an improved delayed-update algorithm that outperforms the existing state-of-the-art on various network topologies. Finally, we present tight network-dependent minimax lower bounds on the group regret. Our proposed algorithms are straightforward to implement and obtain competitive empirical performance.
翻訳日:2021-11-25 14:38:38 公開日:2021-11-24
# リソース豊富な言語データセットを用いたリソースパウダー言語におけるエンド・ツー・エンドシーンのテキスト認識

Utilizing Resource-Rich Language Datasets for End-to-End Scene Text Recognition in Resource-Poor Languages ( http://arxiv.org/abs/2111.12276v1 )

ライセンス: Link先を確認
Shota Orihashi, Yoshihiro Yamazaki, Naoki Makishima, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Ryo Masumura(参考訳) 本稿では,エンド・ツー・エンドシーンのテキスト認識のための新しいトレーニング手法を提案する。 エンドツーエンドのシーンテキスト認識は、特にTransformerに基づくエンコーダデコーダモデルを使用する場合、高い認識精度を提供する。 高精度なエンドツーエンドモデルのトレーニングには、ターゲット言語用に大規模なイメージとテキストのペアリングデータセットを用意する必要があります。 しかし、特にリソースの貧弱な言語では、このデータを集めることは難しい。 この課題を克服するために,提案手法では,英語などのリソース豊富な言語で十分に準備された大規模データセットを用いて,リソース-poorエンコーダ-デコーダモデルをトレーニングする。 私たちのキーとなるアイデアは、エンコーダが複数の言語の知識を反映するモデルを構築することです。 この目的のために,提案手法は,資源不足言語データセットと資源豊富な言語データセットを組み合わせた多言語データセットを用いて,シーンテキスト認識のための言語不変知識を学習することにより,エンコーダを事前学習する。 提案手法は,デコーダをリソースポーア言語に適合させるために,リソースポーア言語のデータセットを用いてデコーダを事前訓練する。 公開データセットを用いた日本語シーン認識実験により,提案手法の有効性が示された。

This paper presents a novel training method for end-to-end scene text recognition. End-to-end scene text recognition offers high recognition accuracy, especially when using the encoder-decoder model based on Transformer. To train a highly accurate end-to-end model, we need to prepare a large image-to-text paired dataset for the target language. However, it is difficult to collect this data, especially for resource-poor languages. To overcome this difficulty, our proposed method utilizes well-prepared large datasets in resource-rich languages such as English, to train the resource-poor encoder-decoder model. Our key idea is to build a model in which the encoder reflects knowledge of multiple languages while the decoder specializes in knowledge of just the resource-poor language. To this end, the proposed method pre-trains the encoder by using a multilingual dataset that combines the resource-poor language's dataset and the resource-rich language's dataset to learn language-invariant knowledge for scene text recognition. The proposed method also pre-trains the decoder by using the resource-poor language's dataset to make the decoder better suited to the resource-poor language. Experiments on Japanese scene text recognition using a small, publicly available dataset demonstrate the effectiveness of the proposed method.
翻訳日:2021-11-25 14:38:24 公開日:2021-11-24
# 潜時変化雑音モデリングによる自己ロバスト相対ラジオメトリック正規化

Auto robust relative radiometric normalization via latent change noise modelling ( http://arxiv.org/abs/2111.12406v1 )

ライセンス: Link先を確認
Shiqi Liu, Lu Wang, Jie Lian, Ting chen, Cong Liu, Xuchen Zhan, Jintao Lu, Jie Liu, Ting Wang, Dong Geng, Hongwei Duan, Yuze Tian(参考訳) 同じ地形の異なる衛星画像の相対ラジオメトリック正規化(RRN)は、変化検出、対象分類・分類、地図作成のタスクに必要である。 しかし、従来の RRN モデルは頑丈ではなく、オブジェクトの変更によって乱れ、オブジェクトの変更を正確に考慮した RRN モデルは、no-change セットを堅牢に取得できない。 本稿では, 潜時変化雑音モデルを用いた自動ロバスト相対ラジオメトリック正規化法を提案する。 彼らは、変化点が相対的ラジオメトリック正規化の下で小さなノイズを持たないこと、変化点が相対的ラジオメトリック正規化後の大規模ラジオメトリックノイズを持っていることを、確率的予測最大化法と組み合わせて、相対的ラジオメトリック正規化写像関数を学習するためのno-change集合を迅速かつ堅牢に抽出する、という以前の知識を利用する。 これにより、我々のモデルは確率論と数学の推論について理論的に基礎づけられる。 具体的には,HM-RRN-MoGモデルとHM-RRN-MoGを混合した相対ラジオメトリック正規化学習手法としてヒストグラムマッチングを選択すると,HM-RRN-MoGモデルが最も優れた性能が得られる。 私たちのモデルは、クラウド/fogs/changesに対して堅牢に対抗できる能力を持っています。 提案手法は,非変化集合の平均平方誤差である RRN に対するロバストな評価指標を自然に生成する。 後者の植生・水変化検出タスクにhm-rrn-mogモデルを適用し,無変化集合における放射コントラストとndvi/ndwi差を低減し,一貫した比較結果を生成する。 建物変更検出タスクに設定したno-changeを利用して、擬似変化を効率よく低減し、精度を高める。

Relative radiometric normalization(RRN) of different satellite images of the same terrain is necessary for change detection, object classification/segme ntation, and map-making tasks. However, traditional RRN models are not robust, disturbing by object change, and RRN models precisely considering object change can not robustly obtain the no-change set. This paper proposes auto robust relative radiometric normalization methods via latent change noise modeling. They utilize the prior knowledge that no change points possess small-scale noise under relative radiometric normalization and that change points possess large-scale radiometric noise after radiometric normalization, combining the stochastic expectation maximization method to quickly and robustly extract the no-change set to learn the relative radiometric normalization mapping functions. This makes our model theoretically grounded regarding the probabilistic theory and mathematics deduction. Specifically, when we select histogram matching as the relative radiometric normalization learning scheme integrating with the mixture of Gaussian noise(HM-RRN-MoG), the HM-RRN-MoG model achieves the best performance. Our model possesses the ability to robustly against clouds/fogs/changes. Our method naturally generates a robust evaluation indicator for RRN that is the no-change set root mean square error. We apply the HM-RRN-MoG model to the latter vegetation/water change detection task, which reduces the radiometric contrast and NDVI/NDWI differences on the no-change set, generates consistent and comparable results. We utilize the no-change set into the building change detection task, efficiently reducing the pseudo-change and boosting the precision.
翻訳日:2021-11-25 14:38:01 公開日:2021-11-24
# 敵対的画像拡張の課題

Challenges of Adversarial Image Augmentations ( http://arxiv.org/abs/2111.12427v1 )

ライセンス: Link先を確認
Arno Blaas, Xavier Suau, Jason Ramapuram, Nicholas Apostoloff, Luca Zappella(参考訳) 画像分類器の一般化性能には,訓練中に適用した画像拡張が重要である。 そのため、研究機関は与えられたタスクに最適な拡張ポリシーを見つけることに重点を置いている。 しかし、RandAugment [2]は、最近、既存の洗練されたポリシーより優れていることが示されている。 対人訓練の考え方に基づくアプローチであるAdvAA (AdvAA) [11] は、RandAugment よりも優れていることが示されている。 そこで,本論文では,ランダムな増補が,最適な対向的アプローチと単純な曲率とに比較してまだ競争力があることを示すとともに,advaaの成功は,軽度なカリキュラムを導入する政策管理ネットワークの確率性によるものであると推測する。

Image augmentations applied during training are crucial for the generalization performance of image classifiers. Therefore, a large body of research has focused on finding the optimal augmentation policy for a given task. Yet, RandAugment [2], a simple random augmentation policy, has recently been shown to outperform existing sophisticated policies. Only Adversarial AutoAugment (AdvAA) [11], an approach based on the idea of adversarial training, has shown to be better than RandAugment. In this paper, we show that random augmentations are still competitive compared to an optimal adversarial approach, as well as to simple curricula, and conjecture that the success of AdvAA is due to the stochasticity of the policy controller network, which introduces a mild form of curriculum.
翻訳日:2021-11-25 14:37:29 公開日:2021-11-24
# グラフモジュラリティ:ディープニューラルネットワークにおける特徴表現の階層的遷移の理解に向けて

Graph Modularity: Towards Understanding the Cross-Layer Transition of Feature Representations in Deep Neural Networks ( http://arxiv.org/abs/2111.12485v1 )

ライセンス: Link先を確認
Yao Lu, Wen Yang, Yunzhe Zhang, Jinhuan Wang, Shengbo Gong, Zhuangzhi Chen, Zuohui Chen, Qi Xuan, Xiaoniu Yang(参考訳) 特徴表現が最終的に一般から特定のディープニューラルネットワーク(DNN)へ移行すると主張する主張を支持するにはよい議論があるが、この移行はいまだに未検討である。 この作業では、機能表現の遷移を理解するための小さな一歩を踏み出します。 まず,中間層におけるクラス分離を解析し,次に動的グラフにおけるクラス分離の過程をコミュニティ進化としてモデル化する。 次に,グラフ理論における共通指標であるモジュラリティを導入し,コミュニティの進化を定量化する。 モジュール性は、層が深くなるにつれて上昇しがちだが、特定の層で下降するか、高原に達する。 漸近分析により,モジュラリティは特徴表現の遷移を定量的に解析できることを示した。 特徴表現の洞察により、モジュール性はDNNにおける冗長なレイヤの特定と配置にも利用でき、レイヤーのプルーニングに関する理論的ガイダンスを提供する。 この着想的な発見に基づいて,モジュール性に基づく層状刈り込み手法を提案する。 さらなる実験により,本手法は性能への影響を最小限に抑えながら冗長な層をプルーピングできることを示した。 コードはhttps://github.com/y aolu-zjut/dynamic-gr aphs-structionで入手できる。

There are good arguments to support the claim that feature representations eventually transition from general to specific in deep neural networks (DNNs), but this transition remains relatively underexplored. In this work, we move a tiny step towards understanding the transition of feature representations. We first characterize this transition by analyzing the class separation in intermediate layers, and next model the process of class separation as community evolution in dynamic graphs. Then, we introduce modularity, a common metric in graph theory, to quantify the evolution of communities. We find that modularity tends to rise as the layer goes deeper, but descends or reaches a plateau at particular layers. Through an asymptotic analysis, we show that modularity can provide quantitative analysis of the transition of the feature representations. With the insight on feature representations, we demonstrate that modularity can also be used to identify and locate redundant layers in DNNs, which provides theoretical guidance for layer pruning. Based on this inspiring finding, we propose a layer-wise pruning method based on modularity. Further experiments show that our method can prune redundant layers with minimal impact on performance. The codes are available at https://github.com/y aolu-zjut/Dynamic-Gr aphs-Construction.
翻訳日:2021-11-25 14:37:15 公開日:2021-11-24
# unleashing transformers: ベクトル量子化符号からの高速高分解能画像生成のための離散吸収拡散による並列トークン予測

Unleashing Transformers: Parallel Token Prediction with Discrete Absorbing Diffusion for Fast High-Resolution Image Generation from Vector-Quantized Codes ( http://arxiv.org/abs/2111.12701v1 )

ライセンス: Link先を確認
Sam Bond-Taylor, Peter Hessey, Hiroshi Sasaki, Toby P. Breckon, Chris G. Willcocks(参考訳) 拡散確率モデルは高品質の画像コンテンツを生成することができるが、高解像度画像の生成とそれに関連する高い計算要求の両方に関して重要な制限が残っている。 最近のベクトル量子化画像モデルは、画像解像度のこの制限を克服しているが、前者からの要素単位の自己回帰サンプリングを通じてトークンを生成するため、明らかに遅く一方向である。 本稿では,非拘束型トランスフォーマーアーキテクチャをバックボーンとして用いることにより,ベクトル量子化トークンの並列予測を可能にする,新しい離散拡散確率モデルを提案する。 トレーニング中、トークンは順序に依存しないランダムにマスクされ、トランスフォーマーは元のトークンを予測することを学ぶ。 このベクトル量子化トークン予測の並列性は、計算コストのごく一部で、グローバルに一貫した高解像度および多彩な画像の無条件生成を促進する。 この方法では、(生成的敵対的アプローチから離れて)画像毎の推測をプロビジョニングしながら、元のトレーニングセットのサンプルよりも解像度の高い画像を生成することができる。 我々のアプローチは、密度(LSUN Bedroom: 1.51; LSUN Churches: 1.12; FFHQ: 1.20)とカバレッジ(LSUN Bedroom: 0.83; LSUN Churches: 0.73; FFHQ: 0.80)という最先端の成果を達成し、計算とトレーニングセット要件の両面で優位性を提供する一方で、FID(LSUN Bedroom: 3.64; LSUN Churches: 4.07; FFHQ: 6.11)で競合的に実行する。

Whilst diffusion probabilistic models can generate high quality image content, key limitations remain in terms of both generating high-resolution imagery and their associated high computational requirements. Recent Vector-Quantized image models have overcome this limitation of image resolution but are prohibitively slow and unidirectional as they generate tokens via element-wise autoregressive sampling from the prior. By contrast, in this paper we propose a novel discrete diffusion probabilistic model prior which enables parallel prediction of Vector-Quantized tokens by using an unconstrained Transformer architecture as the backbone. During training, tokens are randomly masked in an order-agnostic manner and the Transformer learns to predict the original tokens. This parallelism of Vector-Quantized token prediction in turn facilitates unconditional generation of globally consistent high-resolution and diverse imagery at a fraction of the computational expense. In this manner, we can generate image resolutions exceeding that of the original training set samples whilst additionally provisioning per-image likelihood estimates (in a departure from generative adversarial approaches). Our approach achieves state-of-the-art results in terms of Density (LSUN Bedroom: 1.51; LSUN Churches: 1.12; FFHQ: 1.20) and Coverage (LSUN Bedroom: 0.83; LSUN Churches: 0.73; FFHQ: 0.80), and performs competitively on FID (LSUN Bedroom: 3.64; LSUN Churches: 4.07; FFHQ: 6.11) whilst offering advantages in terms of both computation and reduced training set requirements.
翻訳日:2021-11-25 14:36:55 公開日:2021-11-24
# PeCo:視覚変換器のBERT事前トレーニングのための知覚コードブック

PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers ( http://arxiv.org/abs/2111.12710v1 )

ライセンス: Link先を確認
Xiaoyi Dong and Jianmin Bao and Ting Zhang and Dongdong Chen and Weiming Zhang and Lu Yuan and Dong Chen and Fang Wen and Nenghai Yu(参考訳) 本稿では,視覚トランスフォーマーのbertプリトレーニングのためのより良いコードブックについて検討する。 近年のBEiTは、BERTの事前訓練をNLPからビジョンフィールドに転送することに成功している。 視覚トークン化器として単一の離散VAEを直接採用しているが、結果として生じる視覚トークンの意味レベルは考慮されていない。 対照的に、NLPフィールドの離散トークンは自然に非常に意味がある。 この違いは、知覚的なコードブックを学ぶモチベーションになります。 dVAEトレーニング中に知覚的類似性を強制するという、シンプルで効果的なアイデアもあります。 提案した知覚コードブックによって生成された視覚的トークンは,より優れた意味を持ち,その後,様々な下流タスクにおいて,事前学習が優れた伝達性能を達成することを実証する。 例えば、ViT-Bバックボーンを用いたImageNet-1Kの84.5 Top-1精度を達成し、競合するBEiTを+1.3倍に向上させる。 また、COCO val 上のオブジェクト検出およびセグメンテーションタスクの+1.3 ボックス AP と +1.0 マスク AP、ADE20k 上のセグメンテーション +1.0 mIoU、コードとモデルは \url{https://github.com/m icrosoft/PeCo} で利用できる。

This paper explores a better codebook for BERT pre-training of vision transformers. The recent work BEiT successfully transfers BERT pre-training from NLP to the vision field. It directly adopts one simple discrete VAE as the visual tokenizer, but has not considered the semantic level of the resulting visual tokens. By contrast, the discrete tokens in NLP field are naturally highly semantic. This difference motivates us to learn a perceptual codebook. And we surprisingly find one simple yet effective idea: enforcing perceptual similarity during the dVAE training. We demonstrate that the visual tokens generated by the proposed perceptual codebook do exhibit better semantic meanings, and subsequently help pre-training achieve superior transfer performance in various downstream tasks. For example, we achieve 84.5 Top-1 accuracy on ImageNet-1K with ViT-B backbone, outperforming the competitive method BEiT by +1.3 with the same pre-training epochs. It can also improve the performance of object detection and segmentation tasks on COCO val by +1.3 box AP and +1.0 mask AP, semantic segmentation on ADE20k by +1.0 mIoU, The code and models will be available at \url{https://github.com/m icrosoft/PeCo}.
翻訳日:2021-11-25 14:36:19 公開日:2021-11-24
# (参考訳) 事前学習データを活用した微調整の改善:理論と実践 [全文訳有]

Improved Fine-tuning by Leveraging Pre-training Data: Theory and Practice ( http://arxiv.org/abs/2111.12292v1 )

ライセンス: CC BY 4.0
Ziquan Liu, Yi Xu, Yuanhong Xu, Qi Qian, Hao Li, Antoni Chan, Rong Jin(参考訳) 支配的なパラダイムとして、トレーニング済みモデルをターゲットデータに微調整することは、多くのディープラーニングアプリケーション、特に小さなデータセットで広く使われている。 しかしながら、近年の研究では、スクラッチからのトレーニングは、一部のビジョンタスクでトレーニングイテレーション数が増加すると、この事前トレーニング戦略よりも悪くはない、という実証的な結果が出ている。 本研究では,この現象を,学習理論でよく見られる一般化解析の観点から再考する。 以上の結果から,最終予測精度は,特に大規模なトレーニングイテレーションの場合,事前学習モデルに弱い依存性がある可能性が示唆された。 このデータも微調整に利用できるので、この観察は事前学習データを微調整に活用するきっかけとなる。 事前学習データを用いた一般化結果は、適切な事前学習データが微調整に含まれる場合に、目標タスクにおける最終性能を改善することができることを示している。 理論的発見の洞察を得て,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。 8つのベンチマークデータセットにおける画像分類タスクの広範な実験結果から,提案するデータ選択に基づく微調整パイプラインの有効性が検証された。

As a dominant paradigm, fine-tuning a pre-trained model on the target data is widely used in many deep learning applications, especially for small data sets. However, recent studies have empirically shown that training from scratch has the final performance that is no worse than this pre-training strategy once the number of training iterations is increased in some vision tasks. In this work, we revisit this phenomenon from the perspective of generalization analysis which is popular in learning theory. Our result reveals that the final prediction precision may have a weak dependency on the pre-trained model especially in the case of large training iterations. The observation inspires us to leverage pre-training data for fine-tuning, since this data is also available for fine-tuning. The generalization result of using pre-training data shows that the final performance on a target task can be improved when the appropriate pre-training data is included in fine-tuning. With the insight of the theoretical finding, we propose a novel selection strategy to select a subset from pre-training data to help improve the generalization on the target task. Extensive experimental results for image classification tasks on 8 benchmark data sets verify the effectiveness of the proposed data selection based fine-tuning pipeline.
翻訳日:2021-11-25 14:34:40 公開日:2021-11-24
# 組込みシステムにおける深層学習による動物行動分類

Animal Behavior Classification via Deep Learning on Embedded Systems ( http://arxiv.org/abs/2111.12295v1 )

ライセンス: Link先を確認
Reza Arablouei, Liang Wang, Lachlan Currie, Flavio A. P. Alvarenga, Greg J. Bishop-Hurley(参考訳) 我々は,ウェアラブル・カラー・タグに装着された人工知能(AIoT)デバイスの組込みシステム上での加速度計データを用いて,動物行動の分類を行う,エンドツーエンドのディープ・ニューラル・ネットワークベースのアルゴリズムを開発した。 提案アルゴリズムは, 無限インパルス応答 (IIR) と有限インパルス応答 (FIR) フィルタを多層パーセプトロンとともに併用して特徴抽出と分類を行う。 利用したIIRフィルタとFIRフィルタはそれぞれ、リカレント層と畳み込みニューラルネットワーク層の特定のタイプと見なすことができる。 放牧牛から収集した実世界の2つのデータセットを用いて,提案アルゴリズムの性能を評価する。 その結果,提案アルゴリズムはデータセット内およびデータセット間における分類精度が良好であり,より複雑である2つの畳み込み畳み込みニューラルネットワークに基づく時系列分類アルゴリズムを含む最接近候補を上回った。 動物行動のin-situ分類を行うために,カラータグのAIoTデバイスの組込みシステムに提案アルゴリズムを実装した。 組込みシステムの利用可能な計算,メモリ,エネルギー資源に歪みを生じさせることなく,加速度計データからリアルタイムなその場行動推定を行う。

We develop an end-to-end deep-neural-network- based algorithm for classifying animal behavior using accelerometry data on the embedded system of an artificial intelligence of things (AIoT) device installed in a wearable collar tag. The proposed algorithm jointly performs feature extraction and classification utilizing a set of infinite-impulse-res ponse (IIR) and finite-impulse-respo nse (FIR) filters together with a multilayer perceptron. The utilized IIR and FIR filters can be viewed as specific types of recurrent and convolutional neural network layers, respectively. We evaluate the performance of the proposed algorithm via two real-world datasets collected from grazing cattle. The results show that the proposed algorithm offers good intra- and inter-dataset classification accuracy and outperforms its closest contenders including two state-of-the-art convolutional-neural -network-based time-series classification algorithms, which are significantly more complex. We implement the proposed algorithm on the embedded system of the collar tag's AIoT device to perform in-situ classification of animal behavior. We achieve real-time in-situ behavior inference from accelerometry data without imposing any strain on the available computational, memory, or energy resources of the embedded system.
翻訳日:2021-11-25 14:10:28 公開日:2021-11-24
# 階層型グラフ畳み込み変分自動符号化による人間の動きの生成

Hierarchical Graph-Convolutional Variational AutoEncoding for Generative Modelling of Human Motion ( http://arxiv.org/abs/2111.12602v1 )

ライセンス: Link先を確認
Anthony Bourached, Robert Gray, Ryan-Rhys Griffiths, Ashwani Jha, Parashkev Nachev(参考訳) 人間の動きのモデルは通常、軌跡予測または行動分類に焦点を当てるが、どちらもまれである。 人間の動きの顕著な不均一性と複雑な構成性により、各タスクは実際のシナリオに共通するデータ劣化と分散シフトに弱い。 十分に表現力のあるアクション生成モデルは、理論的には、両方のタスクに適用可能な統一フレームワーク内でデータコンディショニングと分散レジリエンスを可能にする。 本稿では,階層的変動オートエンコーダと深部グラフ畳み込みニューラルネットワークに基づく新しいアーキテクチャを提案する。 この階層型グラフ畳み込み変分オートエンコーダ(HG-VAE)は、コヒーレントな動作を発生し、分布外データを検出し、モデルの後部への勾配上昇による欠落データを出力できることを示す。 HG-VAEは,H3.6Mのトレーニングと評価により,ベースラインモデルよりも下流での識別学習を促進できることを示した。

Models of human motion commonly focus either on trajectory prediction or action classification but rarely both. The marked heterogeneity and intricate compositionality of human motion render each task vulnerable to the data degradation and distributional shift common to real-world scenarios. A sufficiently expressive generative model of action could in theory enable data conditioning and distributional resilience within a unified framework applicable to both tasks. Here we propose a novel architecture based on hierarchical variational autoencoders and deep graph convolutional neural networks for generating a holistic model of action over multiple time-scales. We show this Hierarchical Graph-convolutional Variational Autoencoder (HG-VAE) to be capable of generating coherent actions, detecting out-of-distribution data, and imputing missing data by gradient ascent on the model's posterior. Trained and evaluated on H3.6M and the largest collection of open source human motion data, AMASS, we show HG-VAE can facilitate downstream discriminative learning better than baseline models.
翻訳日:2021-11-25 14:09:54 公開日:2021-11-24
# mhformer: 3次元ポーズ推定のためのマルチハイポテーゼトランス

MHFormer: Multi-Hypothesis Transformer for 3D Human Pose Estimation ( http://arxiv.org/abs/2111.12707v1 )

ライセンス: Link先を確認
Wenhao Li, Hong Liu, Hao Tang, Pichao Wang, Luc Van Gool(参考訳) 単眼ビデオから3d人間のポーズを推定することは、深いあいまいさと自己完結性のために難しい課題である。 現存するほとんどの研究は、空間的および時間的関係を利用して、両方の問題を解決しようとする。 しかし、これらの研究は、複数の可能な解(すなわち仮説)が存在する逆問題であるという事実を無視している。 この制限を緩和するために,多元的ポーズ仮説の時空間表現を学習するマルチハイポテーゼトランス(mhformer)を提案する。 多仮説の依存関係を効果的にモデル化し、仮説の特徴をまたいだ強い関係を構築するために、タスクは3つの段階に分けられる。 i) 複数の初期仮説表現を生成すること (ii)モデル自己仮説通信は、複数の仮説を単一の収束表現にマージし、それをいくつかの分岐仮説に分割する。 3) クロスハイポシーコミュニケーションを学び, 複数ハイポシー特徴を集約して最終3次元ポーズを合成する。 以上のプロセスを通じて最終表現が強化され、合成されたポーズの方がはるかに正確である。 大規模な実験により、MHFormerはHuman3.6MとMPI-INF-3DHPの2つの挑戦的なデータセットで最先端の結果が得られることが示された。 ベルとホイッスルがなければ、その性能はHuman3.6Mで3%の差で前回の最高値を上回った。 コードとモデルはhttps://github.com/v egetebird/mhformerで入手できる。

Estimating 3D human poses from monocular videos is a challenging task due to depth ambiguity and self-occlusion. Most existing works attempt to solve both issues by exploiting spatial and temporal relationships. However, those works ignore the fact that it is an inverse problem where multiple feasible solutions (i.e., hypotheses) exist. To relieve this limitation, we propose a Multi-Hypothesis Transformer (MHFormer) that learns spatio-temporal representations of multiple plausible pose hypotheses. In order to effectively model multi-hypothesis dependencies and build strong relationships across hypothesis features, the task is decomposed into three stages: (i) Generate multiple initial hypothesis representations; (ii) Model self-hypothesis communication, merge multiple hypotheses into a single converged representation and then partition it into several diverged hypotheses; (iii) Learn cross-hypothesis communication and aggregate the multi-hypothesis features to synthesize the final 3D pose. Through the above processes, the final representation is enhanced and the synthesized pose is much more accurate. Extensive experiments show that MHFormer achieves state-of-the-art results on two challenging datasets: Human3.6M and MPI-INF-3DHP. Without bells and whistles, its performance surpasses the previous best result by a large margin of 3% on Human3.6M. Code and models are available at https://github.com/V egetebird/MHFormer.
翻訳日:2021-11-25 14:09:35 公開日:2021-11-24
# ViCE: コンテキストおよび画素外観不変なセマンティック表現としての自己監督型視覚概念埋め込み

ViCE: Self-Supervised Visual Concept Embeddings as Contextual and Pixel Appearance Invariant Semantic Representations ( http://arxiv.org/abs/2111.12460v1 )

ライセンス: Link先を確認
Robin Karlsson, Tomoki Hayashi, Keisuke Fujii, Alexander Carballo, Kento Ohtani, Kazuya Takeda(参考訳) 本研究は,NLPにおける単語埋め込みの学習方法に着想を得た画像に対して,意味的にリッチな視覚的概念埋め込みを学習するための自己指導手法を提案する。 本手法は,より表現力のある埋め込みを生成し,高解像度画像に適用することにより,先行作業を改善する。 自然画像の生成を,一組の潜在視覚概念が観測可能なピクセルの出現をもたらす確率的過程として見ることにより,画素から概念への逆写像を学習する手法を定式化した。 本手法は,画素から少数の視覚的コヒーレント領域への自然な階層化を導入し,高密度埋め込みマップに対する自己教師型学習の有効性を大幅に向上させる。 その他のコントリビューションとしては、視覚的コヒーレントパッチにマッチする非一様形状の地域マスキングや、マスキング言語モデルにインスパイアされた複雑性に基づくビューサンプリングなどがある。 その結果,COCO (+12.94 mIoU, +87.6\%) とCityscapes (+16.52 mIoU, +134.2\%) の最先端の表現品質ベンチマークを大幅に改善した。 その結果,先行研究では示されなかった拡張性や領域一般化特性が得られた。

This work presents a self-supervised method to learn dense semantically rich visual concept embeddings for images inspired by methods for learning word embeddings in NLP. Our method improves on prior work by generating more expressive embeddings and by being applicable for high-resolution images. Viewing the generation of natural images as a stochastic process where a set of latent visual concepts give rise to observable pixel appearances, our method is formulated to learn the inverse mapping from pixels to concepts. Our method greatly improves the effectiveness of self-supervised learning for dense embedding maps by introducing superpixelization as a natural hierarchical step up from pixels to a small set of visually coherent regions. Additional contributions are regional contextual masking with nonuniform shapes matching visually coherent patches and complexity-based view sampling inspired by masked language models. The enhanced expressiveness of our dense embeddings is demonstrated by significantly improving the state-of-the-art representation quality benchmarks on COCO (+12.94 mIoU, +87.6\%) and Cityscapes (+16.52 mIoU, +134.2\%). Results show favorable scaling and domain generalization properties not demonstrated by prior work.
翻訳日:2021-11-25 14:09:14 公開日:2021-11-24
# 高次空間環境を再現する生成型逆ネットワークの容量評価法

A Method for Evaluating the Capacity of Generative Adversarial Networks to Reproduce High-order Spatial Context ( http://arxiv.org/abs/2111.12577v1 )

ライセンス: Link先を確認
Rucha Deshpande, Mark A. Anastasio and Frank J. Brooks(参考訳) 生成的敵ネットワークは、バイオメディカルイメージングに革命をもたらす可能性のある、深い生成モデルの一種である。 これは、GANが入力トレーニング画像を完全に記述した未知の高次元分布の低次元表現から全体像の変数を抽出する学習能力を持っているためである。 臨床応用におけるGANの過大な問題は、GANが生成する画像の診断品質を評価するための適切な手段や自動手段がないことである。 本研究では,2つのGANアーキテクチャによって出力される画像の統計的精度を検証した。 我々は、訓練されたGANにより生成後に復元できる、異なる特徴を持ついくつかの確率オブジェクトモデル(SOM)を設計した。 これらの特徴のいくつかは、共分散行列では容易に表現できない高次、アルゴリズム的な画素配列規則である。 既知の配置規則を検出するために統計的分類器を設計し検証した。 次に異なるganが規則を正しく再現する速度を、さまざまなトレーニングシナリオと機能クラスの類似度の下でテストした。 その結果、生成された画像のアンサンブルは視覚的に正確に見え、既知の空間配置を示さずに低フレシェット開始距離スコア(fid)に対応することがわかった。 さらに、異なる空間秩序のスペクトルで訓練されたGANは、トレーニングデータにおけるこれらの秩序の所定の頻度を尊重しなかった。 主な結論は、低次アンサンブル統計は概ね正しいが、1画像あたりの定量化可能な誤差は、gan生成画像のその後の使用に影響を与える可能性がある。

Generative adversarial networks are a kind of deep generative model with the potential to revolutionize biomedical imaging. This is because GANs have a learned capacity to draw whole-image variates from a lower-dimensional representation of an unknown, high-dimensional distribution that fully describes the input training images. The overarching problem with GANs in clinical applications is that there is not adequate or automatic means of assessing the diagnostic quality of images generated by GANs. In this work, we demonstrate several tests of the statistical accuracy of images output by two popular GAN architectures. We designed several stochastic object models (SOMs) of distinct features that can be recovered after generation by a trained GAN. Several of these features are high-order, algorithmic pixel-arrangement rules which are not readily expressed in covariance matrices. We designed and validated statistical classifiers to detect the known arrangement rules. We then tested the rates at which the different GANs correctly reproduced the rules under a variety of training scenarios and degrees of feature-class similarity. We found that ensembles of generated images can appear accurate visually, and correspond to low Frechet Inception Distance scores (FID), while not exhibiting the known spatial arrangements. Furthermore, GANs trained on a spectrum of distinct spatial orders did not respect the given prevalence of those orders in the training data. The main conclusion is that while low-order ensemble statistics are largely correct, there are numerous quantifiable errors per image that plausibly can affect subsequent use of the GAN-generated images.
翻訳日:2021-11-25 14:08:48 公開日:2021-11-24
# 映像からの条件付きオブジェクト中心学習

Conditional Object-Centric Learning from Video ( http://arxiv.org/abs/2111.12594v1 )

ライセンス: Link先を確認
Thomas Kipf, Gamaleldin F. Elsayed, Aravindh Mahendran, Austin Stone, Sara Sabour, Georg Heigold, Rico Jonschkowski, Alexey Dosovitskiy, Klaus Greff(参考訳) オブジェクト中心の表現は、構成の世界モデルを構築するフレキシブルな抽象化を提供することによって、より体系的な一般化への有望な道である。 単純な2Dおよび3Dデータセットに関する最近の研究は、オブジェクト中心の帰納バイアスを持つモデルが、データ統計構造から意味のあるオブジェクトを分類し、表現することを学ぶことができることを示した。 しかし、オブジェクトのサイズやシーンの3D幾何といった複雑な帰納的バイアスがますます複雑化しているにもかかわらず、そのような完全な教師なしの手法は、様々な現実的なデータにスケールできない。 本稿では,その代わりに弱い教師のアプローチを取り,その方法に焦点をあてる。 1) 映像データの時間的ダイナミクスを光学的流れの形で利用すること 2) 単純なオブジェクトロケーション上でモデルを条件付けすることで、よりリアルな合成データでオブジェクトのセグメンテーションと追跡を可能にすることができる。 本稿では,現実的な合成シーンに対する光学的流れの予測をトレーニングし,第1フレームにおける物体の質量の中心などの小さなヒントのセットに,このモデルの初期状態の条件付けを行うことで,インスタンスのセグメンテーションを大幅に改善できることを示す。 これらの利点は、トレーニング分布を超えて、新しいオブジェクト、新しい背景、長いビデオシーケンスに一般化する。 また、そのような初期状態条件付けは、推論中に、特定のオブジェクトやオブジェクトの一部に対してモデルをクエリするための柔軟なインターフェースとして使用することができ、弱い教師付きアプローチの道を切り開くことができ、訓練されたモデルとのより効果的な相互作用を可能にします。

Object-centric representations are a promising path toward more systematic generalization by providing flexible abstractions upon which compositional world models can be built. Recent work on simple 2D and 3D datasets has shown that models with object-centric inductive biases can learn to segment and represent meaningful objects from the statistical structure of the data alone without the need for any supervision. However, such fully-unsupervised methods still fail to scale to diverse realistic data, despite the use of increasingly complex inductive biases such as priors for the size of objects or the 3D geometry of the scene. In this paper, we instead take a weakly-supervised approach and focus on how 1) using the temporal dynamics of video data in the form of optical flow and 2) conditioning the model on simple object location cues can be used to enable segmenting and tracking objects in significantly more realistic synthetic data. We introduce a sequential extension to Slot Attention which we train to predict optical flow for realistic looking synthetic scenes and show that conditioning the initial state of this model on a small set of hints, such as center of mass of objects in the first frame, is sufficient to significantly improve instance segmentation. These benefits generalize beyond the training distribution to novel objects, novel backgrounds, and to longer video sequences. We also find that such initial-state-condit ioning can be used during inference as a flexible interface to query the model for specific objects or parts of objects, which could pave the way for a range of weakly-supervised approaches and allow more effective interaction with trained models.
翻訳日:2021-11-25 14:08:26 公開日:2021-11-24
# (参考訳) L-Verse: 画像とテキスト間の双方向生成 [全文訳有]

L-Verse: Bidirectional Generation Between Image and Text ( http://arxiv.org/abs/2111.11133v3 )

ライセンス: CC BY-SA 4.0
Taehoon Kim, Gwangmo Song, Sihaeng Lee, Sangyun Kim, Yewon Seo, Soonyoung Lee, Seung Hwan Kim, Honglak Lee, Kyunghoon Bae(参考訳) 自然言語の長距離相互作用を学ぶだけでなく、トランスフォーマーはパワーとスカラビティで多くの視覚タスクのデファクトスタンダードになりつつある。 特に画像とテキスト間のクロスモーダルなタスクでは、ベクトル量子化変分オートエンコーダ(VQ-VAE)が、生のRGB画像を特徴ベクトル列にするために広く使われている。 画像とテキストの相関をよりよく活用するために,機能拡張可変オートエンコーダ(AugVAE)と双方向自動回帰変換器(BiART)を組み合わせた新しいアーキテクチャであるL-Verseを提案する。 AugVAEは、ImageNet1Kバリデーションセットにおける最先端の再構築性能と、未確認画像に対する堅牢性を示している。 他のモデルとは異なり、BiARTは画像(またはテキスト)を条件付き参照と生成ターゲットと区別することができる。 L-Verseは、微調整や余分なオブジェクト検出フレームワークを使わずに、画像からテキスト、テキストから画像生成タスクに直接使用できる。 定量的および定性的な実験において、L-Verseは、MS-COCOキャプションにおける画像・テキスト・画像生成とテキスト・画像生成の両方において、従来の手法に対する印象的な結果を示した。 さらに、L-Verseアーキテクチャのコンセプトキャプションにおけるスケーラビリティを評価し、汎用ドメインにおける双方向視覚言語表現学習の初期結果を示す。 コード:https://github.com/ tgisaturday/L-Verse

Far beyond learning long-range interactions of natural language, transformers are becoming the de-facto standard for many vision tasks with their power and scalabilty. Especially with cross-modal tasks between image and text, vector quantized variational autoencoders (VQ-VAEs) are widely used to make a raw RGB image into a sequence of feature vectors. To better leverage the correlation between image and text, we propose L-Verse, a novel architecture consisting of feature-augmented variational autoencoder (AugVAE) and bidirectional auto-regressive transformer (BiART) for text-to-image and image-to-text generation. Our AugVAE shows the state-of-the-art reconstruction performance on ImageNet1K validation set, along with the robustness to unseen images in the wild. Unlike other models, BiART can distinguish between image (or text) as a conditional reference and a generation target. L-Verse can be directly used for image-to-text or text-to-image generation tasks without any finetuning or extra object detection frameworks. In quantitative and qualitative experiments, L-Verse shows impressive results against previous methods in both image-to-text and text-to-image generation on MS-COCO Captions. We furthermore assess the scalability of L-Verse architecture on Conceptual Captions and present the initial results of bidirectional vision-language representation learning on general domain. Codes available at: https://github.com/t gisaturday/L-Verse
翻訳日:2021-11-25 13:37:26 公開日:2021-11-24
# (参考訳) CytoImageNet: バイオ画像伝達学習のための大規模事前学習データセット [全文訳有]

CytoImageNet: A large-scale pretraining dataset for bioimage transfer learning ( http://arxiv.org/abs/2111.11646v2 )

ライセンス: CC BY 4.0
Stanley Bryan Z. Hua, Alex X. Lu, Alan M. Moses(参考訳) モチベーション: 近年、画像ベースの生物学的アッセイが着実に普及し、何十万もの画像から生物学的に意味のある情報を抽出するための高速自動化手法の必要性が高まっている。 ImageNetの成功からインスピレーションを得て、オープンソースおよび弱ラベルの顕微鏡画像(890Kイメージ、894クラス)の大規模データセットであるCytoImageNetをキュレートする。 CytoImageNetの事前トレーニングは、下流の顕微鏡分類タスクでImageNet機能と競合する機能を提供する。 我々は,CytoImageNetがImageNetで訓練された機能では利用できない情報をキャプチャーする証拠を示す。 データセットはhttps://www.kaggle.c om/stanleyhua/cytoim agenetで利用可能である。

Motivation: In recent years, image-based biological assays have steadily become high-throughput, sparking a need for fast automated methods to extract biologically-meaning ful information from hundreds of thousands of images. Taking inspiration from the success of ImageNet, we curate CytoImageNet, a large-scale dataset of openly-sourced and weakly-labeled microscopy images (890K images, 894 classes). Pretraining on CytoImageNet yields features that are competitive to ImageNet features on downstream microscopy classification tasks. We show evidence that CytoImageNet features capture information not available in ImageNet-trained features. The dataset is made available at https://www.kaggle.c om/stanleyhua/cytoim agenet.
翻訳日:2021-11-25 13:18:54 公開日:2021-11-24
# (参考訳) 人体骨格に基づく監視環境下での歩行同定 [全文訳有]

Gait Identification under Surveillance Environment based on Human Skeleton ( http://arxiv.org/abs/2111.11720v2 )

ライセンス: CC BY 4.0
Xingkai Zheng, Xirui Li, Ke Xu, Xinghao Jiang, Tanfeng Sun(参考訳) 生体認証技術として、視覚ベースの歩行識別はバイオメトリックスにおける重要な研究内容である。 既存のゲイト識別手法のほとんどは、ゲイトビデオから特徴を抽出し、ギャラリー内のクエリによってプローブサンプルを識別する。 しかしビデオデータには冗長な情報が含まれており,袋詰 (bg) や衣服 (cl) の影響を受けやすい。 人体骨格は人間の歩行に関する重要な情報を伝達するので,本プロジェクトでは骨格に基づく歩行識別ネットワークを提案する。 まず、ビデオから骨格配列を抽出し、それらを歩行グラフにマッピングする。 次に、時空間グラフ畳み込みネットワーク(ST-GCN)に基づく特徴抽出ネットワークを構築し、歩行表現を学習する。 最後に、プローブサンプルをギャラリーの最もよく似た部分と一致させて識別する。 提案手法をCASIA-Bデータセットで検証した。 その結果,本手法は適応性が高く,BG,CL条件,平均値の高度な結果が得られることがわかった。

As an emerging biological identification technology, vision-based gait identification is an important research content in biometrics. Most existing gait identification methods extract features from gait videos and identify a probe sample by a query in the gallery. However, video data contains redundant information and can be easily influenced by bagging (BG) and clothing (CL). Since human body skeletons convey essential information about human gaits, a skeleton-based gait identification network is proposed in our project. First, extract skeleton sequences from the video and map them into a gait graph. Then a feature extraction network based on Spatio-Temporal Graph Convolutional Network (ST-GCN) is constructed to learn gait representations. Finally, the probe sample is identified by matching with the most similar piece in the gallery. We tested our method on the CASIA-B dataset. The result shows that our approach is highly adaptive and gets the advanced result in BG, CL conditions, and average.
翻訳日:2021-11-25 13:07:48 公開日:2021-11-24
# (参考訳) 回転平均化問題の解法に関する新しい力学モデル [全文訳有]

A new dynamical model for solving rotation averaging problem ( http://arxiv.org/abs/2111.11723v2 )

ライセンス: CC BY 4.0
Zinaid Kapi\'c, Aladin Crnki\'c, Vladimir Ja\'cimovi\'c and Nevena Mijajlovi\'c(参考訳) 本稿では, 対応する勾配系のポテンシャル関数に対する最小化問題として, 回転平均化問題を解析する。 この力学系は、非可換倉本模型として知られる特殊直交群 so(3) 上の有名な倉本模型の一般化の一つである。 重み付きおよび非重み付き回転平均を求める新しい方法を提案する。 アルゴリズムの正しさを検証するため、実データとランダムデータセットを用いて、シミュレーション結果を幾何学的および投影的平均と比較した。 特に,本手法は幾何平均とほぼ同じ結果を与えることがわかった。

The paper analyzes the rotation averaging problem as a minimization problem for a potential function of the corresponding gradient system. This dynamical system is one generalization of the famous Kuramoto model on special orthogonal group SO(3), which is known as the non-Abelian Kuramoto model. We have proposed a novel method for finding weighted and unweighted rotation average. In order to verify the correctness of our algorithms, we have compared the simulation results with geometric and projected average using real and random data sets. In particular, we have discovered that our method gives approximately the same results as geometric average.
翻訳日:2021-11-25 12:59:35 公開日:2021-11-24
# (参考訳) S-SimCSE: 文埋め込みのコントラスト学習のためのサンプルサブネットワーク [全文訳有]

S-SimCSE: Sampled Sub-networks for Contrastive Learning of Sentence Embedding ( http://arxiv.org/abs/2111.11750v2 )

ライセンス: CC BY 4.0
Junlei Zhang, Zhenzhong lan(参考訳) コントラスト学習は文埋め込みの学習性能を向上させるために研究されている。 現在の最先端の方法はSimCSEであり、データ拡張法としてドロップアウトを取り、トレーニング済みのトランスフォーマーエンコーダを2回同じ入力文で供給する。 対応する出力は、異なるドロップアウトマスクを持つ同じ文から導出される2つの文埋め込みであり、正のペアを構築するために使用できる。 ドロップアウトマスクで適用されるネットワークは、期待スケールがドロップアウトレートによって決定されるitefのサブネットワークと見なすことができる。 本稿では,異なるスケールのサブネットワークをプッシュすることで,同じ文に対する類似の埋め込みを学習する。 SimCSEは、調整されたハイパーパラメータにドロップアウトレートを固定したため、失敗した。 分布イーチフォワードプロセスからドロップアウトレートをサンプリングすることでこれを達成する。 この手法により最適化が困難になる可能性があるため,より多くのサブネットワークをサンプリングするための簡単な文回りマスク戦略も提案する。 提案したS-SimCSEをいくつかの一般的なセマンティックテキスト類似性データセットで評価した。 実験の結果、S-SimCSEはBERT$_{base}$で1\%以上のSimCSEよりも優れていた。

Contrastive learning has been studied for improving the performance of learning sentence embeddings. The current state-of-the-art method is the SimCSE, which takes dropout as the data augmentation method and feeds a pre-trained transformer encoder the same input sentence twice. The corresponding outputs, two sentence embeddings derived from the same sentence with different dropout masks, can be used to build a positive pair. A network being applied with a dropout mask can be regarded as a sub-network of itsef, whose expected scale is determined by the dropout rate. In this paper, we push sub-networks with different expected scales learn similar embedding for the same sentence. SimCSE failed to do so because they fixed the dropout rate to a tuned hyperparameter. We achieve this by sampling dropout rate from a distribution eatch forward process. As this method may make optimization harder, we also propose a simple sentence-wise mask strategy to sample more sub-networks. We evaluated the proposed S-SimCSE on several popular semantic text similarity datasets. Experimental results show that S-SimCSE outperforms the state-of-the-art SimCSE more than $1\%$ on BERT$_{base}$
翻訳日:2021-11-25 12:51:47 公開日:2021-11-24
# (参考訳) 水中画像強調用u字形変圧器 [全文訳有]

U-shape Transformer for Underwater Image Enhancement ( http://arxiv.org/abs/2111.11843v2 )

ライセンス: CC BY 4.0
Lintao Peng, Chunli Zhu, Liheng Bian(参考訳) 水中不純物の光吸収と散乱は、水中イメージングの品質を低下させる。 既存のデータ駆動型水中画像強調(UIE)技術は、様々な水中シーンと高忠実度参照画像を含む大規模なデータセットが欠如している。 また、異なる色チャネルや空間領域における不整合減衰は、強化効果として完全には考慮されていない。 本研究では,5004枚の画像ペアを含む大規模水中画像(LSUI)データセットを構築し,UIEタスクに初めてトランスフォーマーモデルを導入したU字型トランスフォーマーネットワークを報告した。 U字形変換器は、チャネルワイドマルチスケール機能融合変換器(CMSFFT)モジュールと空間ワイドグローバル機能モデリング変換器(SGFMT)モジュールと統合されており、ネットワークの色チャネルや空間領域への注意をより深刻な減衰で強化する。 一方,コントラストと飽和をさらに改善するために,rgb,lab,lch色空間を組み合わせた新しい損失関数が人間の視覚原理に従って設計されている。 利用可能なデータセットに関する広範な実験は、2dB以上の優位性を持つ報告されたテクニックの最先端性能を検証する。

The light absorption and scattering of underwater impurities lead to poor underwater imaging quality. The existing data-driven based underwater image enhancement (UIE) techniques suffer from the lack of a large-scale dataset containing various underwater scenes and high-fidelity reference images. Besides, the inconsistent attenuation in different color channels and space areas is not fully considered for boosted enhancement. In this work, we constructed a large-scale underwater image (LSUI) dataset including 5004 image pairs, and reported an U-shape Transformer network where the transformer model is for the first time introduced to the UIE task. The U-shape Transformer is integrated with a channel-wise multi-scale feature fusion transformer (CMSFFT) module and a spatial-wise global feature modeling transformer (SGFMT) module, which reinforce the network's attention to the color channels and space areas with more serious attenuation. Meanwhile, in order to further improve the contrast and saturation, a novel loss function combining RGB, LAB and LCH color spaces is designed following the human vision principle. The extensive experiments on available datasets validate the state-of-the-art performance of the reported technique with more than 2dB superiority.
翻訳日:2021-11-25 12:46:41 公開日:2021-11-24
# 小型サンプルサイズデータセットのためのマルチタスク多様体学習

Multi-task manifold learning for small sample size datasets ( http://arxiv.org/abs/2111.11655v2 )

ライセンス: Link先を確認
Hideaki Ishibashi, Kazushi Higa, Tetsuo Furukawa(参考訳) 本研究では,マルチタスク多様体学習法を開発した。 本手法は,複数のタスク,特に各タスクが少数のサンプルを持つ場合に,多様体学習の性能を向上させることを目的としている。 さらに,既存のタスクの新しいサンプルに加えて,新しいタスクのための新しいサンプルを生成することを目的とする。 提案手法では,インスタンス転送とモデル転送の2種類の情報転送を利用する。 転送の場合、データセットは類似のタスクにマージされるが、モデル転送の場合、多様体モデルは類似のタスク間で平均化される。 この目的のために提案手法は,ファイバーバンドルの一般モデルに統合されたタスクに対応する生成多様体モデルの集合からなる。 提案手法を人工的データセットと顔画像集合に適用し,少数のサンプルであっても,本手法が多様体を推定できることを示した。

In this study, we develop a method for multi-task manifold learning. The method aims to improve the performance of manifold learning for multiple tasks, particularly when each task has a small number of samples. Furthermore, the method also aims to generate new samples for new tasks, in addition to new samples for existing tasks. In the proposed method, we use two different types of information transfer: instance transfer and model transfer. For instance transfer, datasets are merged among similar tasks, whereas for model transfer, the manifold models are averaged among similar tasks. For this purpose, the proposed method consists of a set of generative manifold models corresponding to the tasks, which are integrated into a general model of a fiber bundle. We applied the proposed method to artificial datasets and face image sets, and the results showed that the method was able to estimate the manifolds, even for a tiny number of samples.
翻訳日:2021-11-25 12:30:15 公開日:2021-11-24
# Mip-NeRF 360:非有界反エイリアス性神経放射場

Mip-NeRF 360: Unbounded Anti-Aliased Neural Radiance Fields ( http://arxiv.org/abs/2111.12077v2 )

ライセンス: Link先を確認
Jonathan T. Barron, Ben Mildenhall, Dor Verbin, Pratul P. Srinivasan, Peter Hedman(参考訳) ニューラルラディアンス場(NeRF)は、物体や空間の小さな境界領域で印象的なビュー合成結果を示しているが、カメラがあらゆる方向を指し、あらゆる距離に存在するかもしれない「境界のない」シーンで苦労している。 この設定では、既存のnerfライクなモデルは、しばしばぼやけた、または低解像度のレンダリング(近くの物体と遠くの物体のバランスのとれない詳細とスケール)を生成し、訓練が遅く、小さな画像から大きなシーンを再構築する作業の本来のあいまいさのためにアーティファクトを表示する。 本稿では,非有界シーンの課題を克服するために,非線形シーンパラメータ化,オンライン蒸留,新しい歪みに基づく正則化器を用いたmip-nerf(サンプリングとエイリアスに対処するnerf変種)の拡張を提案する。 我々のモデルは、カメラが1点あたり360度回転するシーンをターゲットとしており、平均2乗誤差をmip-NeRFに比べて54%低減し、高度に複雑で無界な現実世界のシーンに対して、リアルに合成されたビューと詳細な深度マップを作成することができる。

Though neural radiance fields (NeRF) have demonstrated impressive view synthesis results on objects and small bounded regions of space, they struggle on "unbounded" scenes, where the camera may point in any direction and content may exist at any distance. In this setting, existing NeRF-like models often produce blurry or low-resolution renderings (due to the unbalanced detail and scale of nearby and distant objects), are slow to train, and may exhibit artifacts due to the inherent ambiguity of the task of reconstructing a large scene from a small set of images. We present an extension of mip-NeRF (a NeRF variant that addresses sampling and aliasing) that uses a non-linear scene parameterization, online distillation, and a novel distortion-based regularizer to overcome the challenges presented by unbounded scenes. Our model, which we dub "mip-NeRF 360" as we target scenes in which the camera rotates 360 degrees around a point, reduces mean-squared error by 54% compared to mip-NeRF, and is able to produce realistic synthesized views and detailed depth maps for highly intricate, unbounded real-world scenes.
翻訳日:2021-11-25 12:29:23 公開日:2021-11-24
# 階層CVAEに基づくジェネレーションドローイング/グリンディングトラジェゾイ

Generation Drawing/Grinding Trajectoy Based on Hierarchical CVAE ( http://arxiv.org/abs/2111.10954v2 )

ライセンス: Link先を確認
Masahiro Aita, Keito Sugawara, Sho Sakaino and Toshiaki Tsuji(参考訳) 本研究では,階層的変分オートエンコーダ(vaes)を用いたドローイング/グラインディング軌道の局所的および大域的特徴をモデル化する手法を提案する。 2つの個別に訓練されたVAEモデルを階層構造に組み合わせることで、局所的特徴と大域的特徴の両方に対して高い再現性を持つ軌道を生成することができる。 階層的生成ネットワークは、比較的少ないトレーニングデータで高次軌道を生成することができる。 シミュレーションと実験結果は,提案手法の一般化性能を示す。 さらに,学習モデルの組み合わせを変更することで,過去に学習されたことのない新しい軌道を生成することが可能であることを確認した。

In this study, we propose a method to model the local and global features of the drawing/grinding trajectory with hierarchical Variational Autoencoders (VAEs). By combining two separately trained VAE models in a hierarchical structure, it is possible to generate trajectories with high reproducibility for both local and global features. The hierarchical generation network enables the generation of higher-order trajectories with a relatively small amount of training data. The simulation and experimental results demonstrate the generalization performance of the proposed method. In addition, we confirmed that it is possible to generate new trajectories, which have never been learned in the past, by changing the combination of the learned models.
翻訳日:2021-11-25 12:27:24 公開日:2021-11-24