このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211210となっている論文です。

PDF登録状況(公開日: 20211210)

TitleAuthorsAbstract論文公表日・翻訳日
# 潜在多様体表現学習のための符号化前スライスワッサースタインオートエンコーダ

Encoded Prior Sliced Wasserstein AutoEncoder for learning latent manifold representations ( http://arxiv.org/abs/2010.01037v2 )

ライセンス: Link先を確認
Sanjukta Krishnagopal and Jacob Bedrossian(参考訳) 可変オートエンコーダはいくつかのタスクで成功したが、従来のプリエンプティブの使用は入力データの基本構造をエンコードする能力に制限されている。 符号化された事前スライスされたwasersteinオートエンコーダを導入し、追加の事前エンコーダネットワークがデータの位相的および幾何学的性質を保持するデータ多様体の埋め込みを学習し、潜在空間の構造を改善する。 オートエンコーダとプリエンコーダネットワークはスライクド・ワッサースタイン距離を用いて反復的に訓練される。 学習された多様体符号化の有効性は、データ多様体上のサンプルを生成する測地線に沿った補間を通して潜在空間をトラバースすることによって探索される。 そこで本研究では,データ多様体を探索し,全エネルギーを最小にしつつ,経路に沿ったサンプルの密度を最大化することにより,潜在空間におけるネットワーク測地線に沿って補間するグラフベースアルゴリズムを提案する。 本稿では,従来のオートエンコーダと異なり,先行する3D-spiralデータを用いて,基礎となる形状を符号化し,ネットワークアルゴリズムによる組込みデータ多様体の探索を実証する。 本フレームワークをベンチマーク画像データセットに適用し,異常生成,潜在構造,測地補間におけるデータ表現学習の利点を実証する。

While variational autoencoders have been successful in several tasks, the use of conventional priors are limited in their ability to encode the underlying structure of input data. We introduce an Encoded Prior Sliced Wasserstein AutoEncoder wherein an additional prior-encoder network learns an embedding of the data manifold which preserves topological and geometric properties of the data, thus improving the structure of latent space. The autoencoder and prior-encoder networks are iteratively trained using the Sliced Wasserstein distance. The effectiveness of the learned manifold encoding is explored by traversing latent space through interpolations along geodesics which generate samples that lie on the data manifold and hence are more realistic compared to Euclidean interpolation. To this end, we introduce a graph-based algorithm for exploring the data manifold and interpolating along network-geodesics in latent space by maximizing the density of samples along the path while minimizing total energy. We use the 3D-spiral data to show that the prior encodes the geometry underlying the data unlike conventional autoencoders, and to demonstrate the exploration of the embedded data manifold through the network algorithm. We apply our framework to benchmarked image datasets to demonstrate the advantages of learning data representations in outlier generation, latent structure, and geodesic interpolation.
翻訳日:2022-10-12 00:22:03 公開日:2021-12-10
# attestnet -- コード切り換えヒンズー英語ヘイトスピーチ検出のための注意とサブワードトークン化に基づくアプローチ

AtteSTNet -- An attention and subword tokenization based approach for code-switched Hindi-English hate speech detection ( http://arxiv.org/abs/2112.11479v1 )

ライセンス: Link先を確認
Vedangi Wagh and Geet Shingi(参考訳) 近年の技術進歩はソーシャルメディアの利用を加速させ、最終的にはヘイトや攻撃的なスピーチを含む大量のユーザー生成データを生み出している。 ソーシャルメディアで使われる言語は、しばしば地域の英語と母語の組み合わせである。 インドではヒンディー語が主に使われ、しばしば英語で表記され、ヒンズー語(ヒンズー語+英語)が流行する。 異なる機械学習とディープラーニングに基づく手法を用いて、コード混合hinglishヘイトスピーチを分類する様々なアプローチが過去に行われてきた。 しかし,これらの手法は,計算コストが高く,メモリ要求も高い畳み込み機構の繰り返しを利用する。 過去の技術は複雑なデータ処理も利用しており、既存の技術は非常に複雑で、データの変更が持続できない。 我々は、これらの複雑なネットワークに匹敵するだけでなく、BPEやUnigramのようなサブワードトークン化アルゴリズムと、標準データセットの精度87.41%、F1スコア0.851のマルチヘッドアテンションベース技術を用いることで、より単純なアプローチを提案する。 BPEとUnigramアルゴリズムの効率的な利用は、非伝統的なヒングリッシュ語彙を扱うのに役立つ。

Recent advancements in technology have led to a boost in social media usage which has ultimately led to large amounts of user-generated data which also includes hateful and offensive speech. The language used in social media is often a combination of English and the native language in the region. In India, Hindi is used predominantly and is often code-switched with English, giving rise to the Hinglish (Hindi+English) language. Various approaches have been made in the past to classify the code-mixed Hinglish hate speech using different machine learning and deep learning-based techniques. However, these techniques make use of recurrence on convolution mechanisms which are computationally expensive and have high memory requirements. Past techniques also make use of complex data processing making the existing techniques very complex and non-sustainable to change in data. We propose a much simpler approach which is not only at par with these complex networks but also exceeds performance with the use of subword tokenization algorithms like BPE and Unigram along with multi-head attention-based technique giving an accuracy of 87.41% and F1 score of 0.851 on standard datasets. Efficient use of BPE and Unigram algorithms help handle the non-conventional Hinglish vocabulary making our technique simple, efficient and sustainable to use in the real world.
翻訳日:2021-12-26 13:21:10 公開日:2021-12-10
# ウィキペディア人工データセットにおけるデータ重複に対するLSH法

LSH methods for data deduplication in a Wikipedia artificial dataset ( http://arxiv.org/abs/2112.11478v1 )

ライセンス: Link先を確認
Juan Ciro, Daniel Galvez, Tim Schlippe, David Kanter(参考訳) 本稿では,テキストデータセットにおけるほぼ冗長なデータの同定と削除のためのlshモデルについて述べる。 異なるモデルを評価するために、英語wikipediaの記事を用いてデータ重複のための人工データセットを作成する。 ほとんどのモデルでは、auc (area-under-curve) が0.9%以上観測され、最良モデルは0.96に達した。 重複排除は、繰り返しデータの結果、実際のものと異なる分布をモデルが学習することを防止し、より効果的なモデルトレーニングを可能にする。

This paper illustrates locality sensitive hasing (LSH) models for the identification and removal of nearly redundant data in a text dataset. To evaluate the different models, we create an artificial dataset for data deduplication using English Wikipedia articles. Area-Under-Curve (AUC) over 0.9 were observed for most models, with the best model reaching 0.96. Deduplication enables more effective model training by preventing the model from learning a distribution that differs from the real one as a result of the repeated data.
翻訳日:2021-12-26 13:20:45 公開日:2021-12-10
# ST-MTL:ロボット手術における追跡機器の走査パス予測のための時空間マルチタスク学習モデル

ST-MTL: Spatio-Temporal Multitask Learning Model to Predict Scanpath While Tracking Instruments in Robotic Surgery ( http://arxiv.org/abs/2112.08189v1 )

ライセンス: Link先を確認
Mobarakol Islam, Vibashan VS, Chwee Ming Lim, Hongliang Ren(参考訳) 追跡装置を用いたタスク指向の注意の表現学習は、画像誘導ロボット手術において大きな可能性を秘めている。 カメラ制御を自動化する認知能力を組み込むことで、外科医は手術器具の処理に集中することができる。 目的は手術時間を短縮し,外科医と患者の手術を容易にすることである。 本稿では,実時間手術用機器のセグメント化とタスク指向の塩分検出のための共有エンコーダと時空間デコーダを備えた,エンドツーエンドのトレーニング可能な時空間型マルチタスク学習モデルを提案する。 共有パラメータのMTLモデルでは、多重損失関数を収束点に最適化することは依然としてオープンな課題である。 本稿では,各デコーダの独立勾配を計算することで,新しい非同期時空間最適化(ASTO)手法を提案する。 また,弱い特徴を保ち,強い特徴を励起するスキップ接続を流し,動的空間的・チャネル的特徴補償を行うことで,競争力のある圧縮・励振ユニットを設計する。 長期間の時空間依存をよりよく捉えるため,連続フレームの高レベルエンコーダ特徴を結合することにより,LSTM(Long-Short term memory)モジュールを改良する。 また,計算効率を保ちながらタスク指向の塩分検出を強化するため,シンクホーン正規化損失を導入する。 我々は,MICCAI 2017 ロボット機器セグメンテーション課題のデータセットに基づいて,タスク対応サリエンシマップと機器のスキャンパスを生成する。 最先端のセグメンテーションとサリエンシーメソッドと比較すると,本モデルは評価基準の大部分を上回っており,課題において優れたパフォーマンスを得られる。

Representation learning of the task-oriented attention while tracking instrument holds vast potential in image-guided robotic surgery. Incorporating cognitive ability to automate the camera control enables the surgeon to concentrate more on dealing with surgical instruments. The objective is to reduce the operation time and facilitate the surgery for both surgeons and patients. We propose an end-to-end trainable Spatio-Temporal Multi-Task Learning (ST-MTL) model with a shared encoder and spatio-temporal decoders for the real-time surgical instrument segmentation and task-oriented saliency detection. In the MTL model of shared parameters, optimizing multiple loss functions into a convergence point is still an open challenge. We tackle the problem with a novel asynchronous spatio-temporal optimization (ASTO) technique by calculating independent gradients for each decoder. We also design a competitive squeeze and excitation unit by casting a skip connection that retains weak features, excites strong features, and performs dynamic spatial and channel-wise feature recalibration. To capture better long term spatio-temporal dependencies, we enhance the long-short term memory (LSTM) module by concatenating high-level encoder features of consecutive frames. We also introduce Sinkhorn regularized loss to enhance task-oriented saliency detection by preserving computational efficiency. We generate the task-aware saliency maps and scanpath of the instruments on the dataset of the MICCAI 2017 robotic instrument segmentation challenge. Compared to the state-of-the-art segmentation and saliency methods, our model outperforms most of the evaluation metrics and produces an outstanding performance in the challenge.
翻訳日:2021-12-19 12:59:44 公開日:2021-12-10
# (参考訳) ニューデリーの空気品質指数予測に機械学習を使う

Using Machine Learning to Predict Air Quality Index in New Delhi ( http://arxiv.org/abs/2112.05753v1 )

ライセンス: CC BY 4.0
Samayan Bhattacharya, Sk Shahnawaz(参考訳) 空気質は人間の健康に大きな影響を及ぼす。 空気質の低下は、特に子供において、幅広い健康問題を引き起こす。 大気の質を予測する能力により、政府や関係機関は、最も脆弱な大気に有害な品質で曝されることを防ぐために必要な措置を取ることができる。 このタスクに対する従来のアプローチは、十分な縦断データへのアクセスが不足しているため、成功は極めて限られている。 本稿では,ニューデリーの中央公害管理委員会と米国大使館が公開しているアーカイブ汚染データを用いて,各種汚染物質と大気汚染指数のレベルを予測するために,サポートベクター回帰(svr)モデルを用いた。 試験手法の中では、放射基底関数(RBF)カーネルがSVRの最良の結果を生み出した。 実験結果によると, 利用可能な変数の範囲を全て使用すれば, 主成分分析で選択した特徴よりも優れた結果が得られることがわかった。 このモデルは、二酸化硫黄、一酸化炭素、二酸化窒素、粒子状物質2.5、地上レベルのオゾンなどの様々な汚染物質のレベルと、大気質指数(aqi)を93.4%の精度で予測する。

Air quality has a significant impact on human health. Degradation in air quality leads to a wide range of health issues, especially in children. The ability to predict air quality enables the government and other concerned organizations to take necessary steps to shield the most vulnerable, from being exposed to the air with hazardous quality. Traditional approaches to this task have very limited success because of a lack of access of such methods to sufficient longitudinal data. In this paper, we use a Support Vector Regression (SVR) model to forecast the levels of various pollutants and the air quality index, using archive pollution data made publicly available by Central Pollution Control Board and the US Embassy in New Delhi. Among the tested methods, a Radial Basis Function (RBF) kernel produced the best results with SVR. According to our experiments, using the whole range of available variables produced better results than using features selected by principal component analysis. The model predicts levels of various pollutants, like, sulfur dioxide, carbon monoxide, nitrogen dioxide, particulate matter 2.5, and ground-level ozone, as well as the Air Quality Index (AQI), at an accuracy of 93.4 percent.
翻訳日:2021-12-18 20:50:11 公開日:2021-12-10
# (参考訳) PyTorch Connectomics: EM Connectomicsのためのスケーラブルで柔軟なセグメンテーションフレームワーク

PyTorch Connectomics: A Scalable and Flexible Segmentation Framework for EM Connectomics ( http://arxiv.org/abs/2112.05754v1 )

ライセンス: CC BY 4.0
Zudi Lin, Donglai Wei, Jeff Lichtman and Hanspeter Pfister(参考訳) PyTorch Connectomics (PyTC)は、PyTorch上に構築されたボリューム顕微鏡画像のセマンティックスとインスタンスセグメンテーションのためのオープンソースのディープラーニングフレームワークである。 動物脳における神経伝達,代謝,発達を理解するために,神経細胞,シナプス,ミトコンドリアなどのオルガネラをナノメートル分解能で分割・再構成することを目的としたコネトミクス分野におけるPyTCの有効性を実証する。 PyTCはスケーラブルでフレキシブルなツールボックスで、さまざまなスケールのデータセットに対処し、マルチタスクとセミ教師付き学習をサポートし、高価な専門家アノテーションとトレーニング中の膨大な未ラベルデータを活用する。 これらの機能は、コード化せずに構成オプションを変更し、異なる組織のための他の2Dおよび3Dセグメンテーションタスクや画像モダリティに適応することにより、PyTCで容易に実現できる。 定量的に,本研究の枠組みは,シナプス裂裂の分節化(相対的に6.1$$%$)とミトコンドリアおよび神経細胞の分節における競合性において,cremiチャレンジにおいて最高の性能を達成している。 コードとチュートリアルはhttps://connectomics.readthedocs.ioで公開されている。

We present PyTorch Connectomics (PyTC), an open-source deep-learning framework for the semantic and instance segmentation of volumetric microscopy images, built upon PyTorch. We demonstrate the effectiveness of PyTC in the field of connectomics, which aims to segment and reconstruct neurons, synapses, and other organelles like mitochondria at nanometer resolution for understanding neuronal communication, metabolism, and development in animal brains. PyTC is a scalable and flexible toolbox that tackles datasets at different scales and supports multi-task and semi-supervised learning to better exploit expensive expert annotations and the vast amount of unlabeled data during training. Those functionalities can be easily realized in PyTC by changing the configuration options without coding and adapted to other 2D and 3D segmentation tasks for different tissues and imaging modalities. Quantitatively, our framework achieves the best performance in the CREMI challenge for synaptic cleft segmentation (outperforms existing best result by relatively 6.1$\%$) and competitive performance on mitochondria and neuronal nuclei segmentation. Code and tutorials are publicly available at https://connectomics.readthedocs.io.
翻訳日:2021-12-18 20:38:53 公開日:2021-12-10
# (参考訳) 統合位置符号化による画像超解像におけるマルチスケール暗黙学習の強化

Enhancing Multi-Scale Implicit Learning in Image Super-Resolution with Integrated Positional Encoding ( http://arxiv.org/abs/2112.05756v1 )

ライセンス: CC BY 4.0
Ying-Tian Liu, Yuan-Chen Guo, Song-Hai Zhang(参考訳) 中心位置は完全にピクセルを表すことができるか? 個々の画像表現において中心となるピクセルを表現することは誤りではないが、画像超解像(SR)コンテキストにおいて各ピクセルを局所的な領域からの信号の集合と見なすことは理にかなっている。 任意のスケールの画像 SR の分野における座標ベースの暗黙表現の優れた能力にもかかわらず、この領域のピクセルの性質は十分に考慮されていない。 そこで本研究では,画素領域の周波数情報を集約することで従来の位置符号化を拡張し,ipe(integrated positional encoding)を提案する。 IPE-LIIFを提示する局所暗黙画像関数 (LIIF) を, 最先端の任意のスケール画像超解像法に適用する。 IPE-LIIFの定量的および定性評価による有効性を示し、さらに画像スケールと複数の暗黙的手法に対するIPEの一般化能力を示す。 コードはリリースされる。

Is the center position fully capable of representing a pixel? There is nothing wrong to represent pixels with their centers in a discrete image representation, but it makes more sense to consider each pixel as the aggregation of signals from a local area in an image super-resolution (SR) context. Despite the great capability of coordinate-based implicit representation in the field of arbitrary-scale image SR, this area's nature of pixels is not fully considered. To this end, we propose integrated positional encoding (IPE), extending traditional positional encoding by aggregating frequency information over the pixel area. We apply IPE to the state-of-the-art arbitrary-scale image super-resolution method: local implicit image function (LIIF), presenting IPE-LIIF. We show the effectiveness of IPE-LIIF by quantitative and qualitative evaluations, and further demonstrate the generalization ability of IPE to larger image scales and multiple implicit-based methods. Code will be released.
翻訳日:2021-12-18 20:19:26 公開日:2021-12-10
# (参考訳) 部分空間分解に基づく楕円型マルチスケールPDEのためのDNNアルゴリズム

Subspace Decomposition based DNN algorithm for elliptic-type multi-scale PDEs ( http://arxiv.org/abs/2112.06660v1 )

ライセンス: CC BY 4.0
Xi-An Li, Zhi-Qin John Xu and Lei Zhang(参考訳) ディープラーニングアルゴリズムは科学計算において大きな可能性を示しているが、そのマルチスケール問題への応用は依然として大きな課題である。 これは、ニューラルネットワークがまず低周波成分を学習する傾向がある"周波数原理"によって示される。 この問題をある程度緩和するために、マルチスケールディープニューラルネットワーク(MscaleDNN)のような新しいアーキテクチャが提案された。 本稿では,従来の数値解析手法とMscaleDNNアルゴリズムを組み合わせて,サブスペース分解に基づくDNN(dubed SD$^2$NN)アーキテクチャを構築した。 提案するアーキテクチャは、1つの低周波正規dnnサブモジュールと、1つの(または少数の)高周波mscalednnサブモジュールを含み、それぞれマルチスケールソリューションの滑らかな部分と振動部をキャプチャするように設計されている。 さらに、SD$^2$NNモデルには、新しい三角加速度活性化関数が組み込まれている。 我々はSD$^2$NNアーキテクチャの性能を、正規および不規則な幾何学領域における複数のベンチマークマルチスケール問題を通して示す。 SD$^2$NNモデルはMscaleDNNのような既存のモデルよりも優れていることを示す。

While deep learning algorithms demonstrate a great potential in scientific computing, its application to multi-scale problems remains to be a big challenge. This is manifested by the "frequency principle" that neural networks tend to learn low frequency components first. Novel architectures such as multi-scale deep neural network (MscaleDNN) were proposed to alleviate this problem to some extent. In this paper, we construct a subspace decomposition based DNN (dubbed SD$^2$NN) architecture for a class of multi-scale problems by combining traditional numerical analysis ideas and MscaleDNN algorithms. The proposed architecture includes one low frequency normal DNN submodule, and one (or a few) high frequency MscaleDNN submodule(s), which are designed to capture the smooth part and the oscillatory part of the multi-scale solutions, respectively. In addition, a novel trigonometric activation function is incorporated in the SD$^2$NN model. We demonstrate the performance of the SD$^2$NN architecture through several benchmark multi-scale problems in regular or irregular geometric domains. Numerical results show that the SD$^2$NN model is superior to existing models such as MscaleDNN.
翻訳日:2021-12-18 20:04:44 公開日:2021-12-10
# (参考訳) Contrastive Self-Supervised Learningを用いた病理組織学応用のための学習表現

Learning Representations with Contrastive Self-Supervised Learning for Histopathology Applications ( http://arxiv.org/abs/2112.05760v1 )

ライセンス: CC BY 4.0
Karin Stacke, Jonas Unger, Claes Lundstr\"om, Gabriel Eilertsen(参考訳) 教師なし学習はここ数年、特に対照的な自己教師なし学習によって大きく進歩してきた。 自己教師付き学習のベンチマークのための支配的データセットはImageNetであり、このデータセットは、教師付きトレーニングによって達成されたパフォーマンスに近づきつつある。 imagenetデータセットは、主にオブジェクト中心であり、デジタル病理学のようなオブジェクト中心ではない、広く異なるデータセットとタスクにこれらのメソッドがどのような可能性があるかは、まだ明らかではない。 自己教師型学習がこの分野で研究され始めているが、この設定が自然画像やイメージネットとどのように異なるのかを詳しく調べる理由がある。 本稿では, 病理組織学におけるコントラスト学習の詳細な分析を行い, 病理組織学データの特徴から, コントラスト学習がどう振る舞うかをピンポイントで分析する。 我々は、対照的な目的に対するビュー生成やハイパーパラメータチューニングなど、多くの考察を提起する。 大規模な実験では, 組織分類における下流性能がこれらの考慮によってどのように影響を受けるかを分析する。 その結果、デジタル病理学におけるアノテーションの労力を、コントラスト学習がいかに削減できるかが示されるが、特定のデータセットの特徴を考慮する必要がある。 コントラスト学習目標を最大限に活用するには,ビュー生成とハイパーパラメータのキャリブレーションが異なる必要がある。 本研究は,病理組織学応用のための自己教師あり学習の可能性を実現するための方法である。

Unsupervised learning has made substantial progress over the last few years, especially by means of contrastive self-supervised learning. The dominating dataset for benchmarking self-supervised learning has been ImageNet, for which recent methods are approaching the performance achieved by fully supervised training. The ImageNet dataset is however largely object-centric, and it is not clear yet what potential those methods have on widely different datasets and tasks that are not object-centric, such as in digital pathology. While self-supervised learning has started to be explored within this area with encouraging results, there is reason to look closer at how this setting differs from natural images and ImageNet. In this paper we make an in-depth analysis of contrastive learning for histopathology, pin-pointing how the contrastive objective will behave differently due to the characteristics of histopathology data. We bring forward a number of considerations, such as view generation for the contrastive objective and hyper-parameter tuning. In a large battery of experiments, we analyze how the downstream performance in tissue classification will be affected by these considerations. The results point to how contrastive learning can reduce the annotation effort within digital pathology, but that the specific dataset characteristics need to be considered. To take full advantage of the contrastive learning objective, different calibrations of view generation and hyper-parameters are required. Our results pave the way for realizing the full potential of self-supervised learning for histopathology applications.
翻訳日:2021-12-18 19:44:11 公開日:2021-12-10
# (参考訳) ビジュアルディスクリプタとして深いViT機能

Deep ViT Features as Dense Visual Descriptors ( http://arxiv.org/abs/2112.05814v1 )

ライセンス: CC BY 4.0
Shir Amir, Yossi Gandelsman, Shai Bagon and Tali Dekel(参考訳) 我々は、事前訓練された視覚変換器(ViT)から抽出した深い特徴を濃密な視覚ディスクリプタとして活用する。 自己教師型ViTモデル(DINO-ViT)から抽出された特徴は,いくつかの顕著な特性を示す。 (i)高空間解像度で強力な高レベル情報を符号化する特徴、すなわち、細かな空間的粒度で意味オブジェクトをキャプチャする特徴、 (ii) 符号化された意味情報は関連するが異なる対象カテゴリ(スーパーカテゴリ)間で共有される。 これらの特性により、コセグメンテーション、部分のコセグメンテーション、対応を含む様々なアプリケーションを容易にする強力な高密度なViT記述子を設計することができます。 これらのアプリケーションはクラス間タスクの領域へとさらに進み、関連するカテゴリからのオブジェクトを意味的な部分に分割し、重要なポーズと外観の変化の下で示す。 本手法は, 質的, 定量的に評価し, 最先端のコーセグメンテーション結果を達成し, 近年, コーセグメンテーションと対応のために特別に訓練された教師付き手法との競合結果を得た。

We leverage deep features extracted from a pre-trained Vision Transformer (ViT) as dense visual descriptors. We demonstrate that such features, when extracted from a self-supervised ViT model (DINO-ViT), exhibit several striking properties: (i) the features encode powerful high level information at high spatial resolution -- i.e., capture semantic object parts at fine spatial granularity, and (ii) the encoded semantic information is shared across related, yet different object categories (i.e. super-categories). These properties allow us to design powerful dense ViT descriptors that facilitate a variety of applications, including co-segmentation, part co-segmentation and correspondences -- all achieved by applying lightweight methodologies to deep ViT features (e.g., binning / clustering). We take these applications further to the realm of inter-class tasks -- demonstrating how objects from related categories can be commonly segmented into semantic parts, under significant pose and appearance changes. Our methods, extensively evaluated qualitatively and quantitatively, achieve state-of-the-art part co-segmentation results, and competitive results with recent supervised methods trained specifically for co-segmentation and correspondences.
翻訳日:2021-12-18 19:13:42 公開日:2021-12-10
# (参考訳) 脳における優先順位の符号化:マウス意思決定のための強化学習モデル

Encoding priors in the brain: a reinforcement learning model for mouse decision making ( http://arxiv.org/abs/2112.05816v1 )

ライセンス: CC BY 4.0
Sanjukta Krishnagopal and Peter Latham(参考訳) 2つの代替的な強制選択タスクでは、先行知識は、特に精神物理学的閾値付近で操作する場合、パフォーマンスを向上させることができる。 例えば、被験者が一方の選択が他方よりもずっと可能性が高いと知っていれば、証拠が弱い場合にその選択をすることができる。 この種のタスクの一般的な仮説は、前兆が神経活動に格納されていることである。 ここでは,前者はシナプス強度に格納されるという,異なる仮説を提案する。 我々は、画面の左右に格子が現れる国際脳実験室のタスクについて研究し、マウスは格子を中央に持ってくるために車輪を動かさなければならない。 対照的にグレーティングはしばしば低いため、タスクは比較的難しく、約50回の試行の(無署名の)ブロックにおいて、右にグレーティングが現れる前の確率は80%か20%である。 我々はこれを強化学習タスクとしてモデル化し、フィードフォワードニューラルネットワークを使用して状態をアクションにマッピングし、ネットワークの重みを調整して報酬を最大化し、ポリシー勾配を通じて学習する。 私たちのモデルは、グレーティングと信頼度の推定を格納する内部状態を使用しており、ベイジアン更新に従い、動物の行動を模倣するために、関与状態と離脱状態の切り替えが可能である。 このモデルは、約10回の臨床試験において、ブロックスイッチ後のコントラストシフトに対する心理測定曲線が変化するという、主要な実験的な発見を再現する。 また、実験の結果、我々のモデルでは、右ブロックと左ブロックの神経活動の差は小さく、ノイズが約2%である場合、ブロック構造を単一試行での活動から切り離すことは事実上不可能である。 先行データが重みに格納されているという仮説はテストが難しいが、そうする技術はそれほど遠くない将来に提供されるはずだ。

In two-alternative forced choice tasks, prior knowledge can improve performance, especially when operating near the psychophysical threshold. For instance, if subjects know that one choice is much more likely than the other, they can make that choice when evidence is weak. A common hypothesis for these kinds of tasks is that the prior is stored in neural activity. Here we propose a different hypothesis: the prior is stored in synaptic strengths. We study the International Brain Laboratory task, in which a grating appears on either the right or left side of a screen, and a mouse has to move a wheel to bring the grating to the center. The grating is often low in contrast which makes the task relatively difficult, and the prior probability that the grating appears on the right is either 80% or 20%, in (unsignaled) blocks of about 50 trials. We model this as a reinforcement learning task, using a feedforward neural network to map states to actions, and adjust the weights of the network to maximize reward, learning via policy gradient. Our model uses an internal state that stores an estimate of the grating and confidence, and follows Bayesian updates, and can switch between engaged and disengaged states to mimic animal behavior. This model reproduces the main experimental finding - that the psychometric curve with respect to contrast shifts after a block switch in about 10 trials. Also, as seen in the experiments, in our model the difference in neuronal activity in the right and left blocks is small - it is virtually impossible to decode block structure from activity on single trials if noise is about 2%. The hypothesis that priors are stored in weights is difficult to test, but the technology to do so should be available in the not so distant future.
翻訳日:2021-12-18 18:57:16 公開日:2021-12-10
# (参考訳) 音声認識の専門家の密接な混合による優れた多言語教師の構築

Building a great multi-lingual teacher with sparsely-gated mixture of experts for speech recognition ( http://arxiv.org/abs/2112.05820v1 )

ライセンス: CC BY 4.0
Kenichi Kumatani, Robert Gmyr, Felipe Cruz Salinas, Linquan Liu, Wei Zuo, Devang Patel, Eric Sun and Yu Shi(参考訳) 狭義のMixture of Experts (MoE)は、計算量が少ないネットワーク容量を増大させることができる。 本研究では,asr(multi-lingual automatic speech recognition)ネットワークを単純なルーティングアルゴリズムでスケールアップし,精度を向上させる方法について検討する。 具体的には,Sequence-to-Sequence Transformer (S2S-T) とTransformer Transducer (T-T) の2種類のネットワークに適用する。 本研究では,s2s-t と t-t を用いて,単語誤り率を 16.5 % と 4.7 % に削減できることを,複数の言語データに対する asr 実験により実証した。 さらに,ストリーミングモード,非ストリーミングモード,言語IDの使用,ラベルデコーダなど,様々な条件下でのT-Tアーキテクチャに対するMoEの影響について詳細に検討する。

The sparsely-gated Mixture of Experts (MoE) can magnify a network capacity with a little computational complexity. In this work, we investigate how multi-lingual Automatic Speech Recognition (ASR) networks can be scaled up with a simple routing algorithm in order to achieve better accuracy. More specifically, we apply the sparsely-gated MoE technique to two types of networks: Sequence-to-Sequence Transformer (S2S-T) and Transformer Transducer (T-T). We demonstrate through a set of ASR experiments on multiple language data that the MoE networks can reduce the relative word error rates by 16.5\% and 4.7\% with the S2S-T and T-T, respectively. Moreover, we thoroughly investigate the effect of the MoE on the T-T architecture in various conditions: streaming mode, non-streaming mode, the use of language ID and the label decoder with the MoE.
翻訳日:2021-12-18 18:47:05 公開日:2021-12-10
# (参考訳) 複数の仮説を用いたシーケンスレベルの自己学習

Sequence-level self-learning with multiple hypotheses ( http://arxiv.org/abs/2112.05826v1 )

ライセンス: CC BY 4.0
Kenichi Kumatani, Dimitrios Dimitriadis, Yashesh Gaur, Robert Gmyr, Sefik Emre Eskimez, Jinyu Li and Michael Zeng(参考訳) 本研究では,自動音声認識(asr)のための注意に基づくsequence-to-sequence(seq2seq)モデルを用いた新しい自己学習手法を開発した。 非転写音声データの場合、ASRシステムからの仮説をラベルとして使用する必要がある。 しかし, 教師なし学習では, 複数の教師モデルが利用できない場合には, 教師なし学習による認識性能の向上が困難となる。 従来の教師なし学習手法とは対照的に,我々は,$n$-thest ASR仮説を各タスクのラベルとして使用する,emph{multi-task learning} (MTL) フレームワークを採用している。 seq2seqネットワークはMTLフレームワークを通じて更新され、複数の仮説をカバーする共通の表現を見つける。 これにより、emph{hard-decision}エラーの効果を緩和することができる。 まず,米国と英国英語音声のアクセント適応タスクにおけるasr実験を通して,自己学習手法の有効性を実証する。 実験の結果,本手法は,米国英語データのみをトレーニングしたベースラインモデルと比較して,英語音声データの WER を 14.55 % から 10.36 % に削減できることがわかった。 さらに,フェデレーション学習シナリオにおける提案手法の効果について検討した。

In this work, we develop new self-learning techniques with an attention-based sequence-to-sequence (seq2seq) model for automatic speech recognition (ASR). For untranscribed speech data, the hypothesis from an ASR system must be used as a label. However, the imperfect ASR result makes unsupervised learning difficult to consistently improve recognition performance especially in the case that multiple powerful teacher models are unavailable. In contrast to conventional unsupervised learning approaches, we adopt the \emph{multi-task learning} (MTL) framework where the $n$-th best ASR hypothesis is used as the label of each task. The seq2seq network is updated through the MTL framework so as to find the common representation that can cover multiple hypotheses. By doing so, the effect of the \emph{hard-decision} errors can be alleviated. We first demonstrate the effectiveness of our self-learning methods through ASR experiments in an accent adaptation task between the US and British English speech. Our experiment results show that our method can reduce the WER on the British speech data from 14.55\% to 10.36\% compared to the baseline model trained with the US English data only. Moreover, we investigate the effect of our proposed methods in a federated learning scenario.
翻訳日:2021-12-18 18:35:16 公開日:2021-12-10
# (参考訳) ネットワーク推定のための分散チャネルアクセスポリシーの学習:平均場状態におけるデータ駆動最適化

Learning distributed channel access policies for networked estimation: data-driven optimization in the mean-field regime ( http://arxiv.org/abs/2112.05837v1 )

ライセンス: CC BY 4.0
Marcos M. Vasconcelos(参考訳) 共有ネットワーク上でセンサ計測を通信する問題は、サイバー物理システム、無線センサネットワーク、モノのインターネットなど、現代の大規模分散システムで広く使われている。 帯域幅の制約により、システム設計者は、非常に競争の激しい環境で非常に多くのデバイスに対応可能な分散メディアアクセス送信と推定ポリシーを共同で設計し、全ての観測の収集を最適な忠実さで目的地で再現する必要がある。 超多数のセンサが、送信装置の最大割合に厳格な制約を課して、その観測結果をアクセスポイントまたは基地局に伝達する平均場環境において、遠隔推定問題を定式化する。 平均場法において,この問題は扱いやすい最適化アルゴリズムを可能にする構造を示すことを示す。 さらに,データの確率密度関数に対する最小仮定下での結果推定システムの性能について,有限個のサンプル複合性を保証するデータ駆動学習スキームを得る。

The problem of communicating sensor measurements over shared networks is prevalent in many modern large-scale distributed systems such as cyber-physical systems, wireless sensor networks, and the internet of things. Due to bandwidth constraints, the system designer must jointly design decentralized medium access transmission and estimation policies that accommodate a very large number of devices in extremely contested environments such that the collection of all observations is reproduced at the destination with the best possible fidelity. We formulate a remote estimation problem in the mean-field regime where a very large number of sensors communicate their observations to an access point, or base station, under a strict constraint on the maximum fraction of transmitting devices. We show that in the mean-field regime, this problem exhibits a structure that enables tractable optimization algorithms. More importantly, we obtain a data-driven learning scheme that admits a finite sample-complexity guarantee on the performance of the resulting estimation system under minimal assumptions on the data's probability density function.
翻訳日:2021-12-18 18:23:19 公開日:2021-12-10
# (参考訳) 論理ボルツマン機械

Logical Boltzmann Machines ( http://arxiv.org/abs/2112.05841v1 )

ライセンス: CC BY 4.0
Son N. Tran and Artur d'Avila Garcez(参考訳) コネクショニストシステムにおける象徴的知識を表現するという考え方は、機械学習とスケーラブルな音響推論を組み合わせるという目的から、近年注目を集めている長年にわたる試みである。 初期の研究では、命題論理と対称ニューラルネットワークの対応が示されているが、変数の数やトレーニングレジームが非効率にスケールしなかった。 本稿では,任意の命題論理式を厳密な解法正規形で表現できるニューロシンボリックシステムである論理ボルツマン機械(LBM)を紹介する。 我々は,LBMにおけるエネルギー最小化と論理的満足度との等価性を証明し,LBMが音の推論が可能なことを示す。 我々は, LBM が論理式のクラスで満たされる全ての代入を, 可能な (約10億) 代入の 0.75% 以下で探索できることを実証的に評価した。 我々は,LBMにおける学習を,記号型帰納論理プログラミングシステム,最先端のニューロシンボリックシステム,純粋にニューラルネットワークベースのシステムと比較し,7つのデータセットのうち5つで学習性能を向上させる。

The idea of representing symbolic knowledge in connectionist systems has been a long-standing endeavour which has attracted much attention recently with the objective of combining machine learning and scalable sound reasoning. Early work has shown a correspondence between propositional logic and symmetrical neural networks which nevertheless did not scale well with the number of variables and whose training regime was inefficient. In this paper, we introduce Logical Boltzmann Machines (LBM), a neurosymbolic system that can represent any propositional logic formula in strict disjunctive normal form. We prove equivalence between energy minimization in LBM and logical satisfiability thus showing that LBM is capable of sound reasoning. We evaluate reasoning empirically to show that LBM is capable of finding all satisfying assignments of a class of logical formulae by searching fewer than 0.75% of the possible (approximately 1 billion) assignments. We compare learning in LBM with a symbolic inductive logic programming system, a state-of-the-art neurosymbolic system and a purely neural network-based system, achieving better learning performance in five out of seven data sets.
翻訳日:2021-12-18 18:04:46 公開日:2021-12-10
# (参考訳) 対話型対話システムにおけるASRとNLUの境界の再検討

Revisiting the Boundary between ASR and NLU in the Age of Conversational Dialog Systems ( http://arxiv.org/abs/2112.05842v1 )

ライセンス: CC BY-SA 4.0
Manaal Faruqui and Dilek Hakkani-T\"ur(参考訳) 世界中のユーザーが日常的に対話エージェントと対話するようになるにつれ、音声認識の研究(asr)と自然言語理解(nlu)のダイナミクスに再び注意を向ける、より良い音声理解の必要性が高まっている。 我々は,これらの研究領域を概観し,それらの関係を概説する。 本稿では,(1)nluが上流で使用されているasrモデルの存在を認識すること,(2)nluにあるエラーからasrを学習できること,(3)音声入力に意味的アノテーションを提供するエンドツーエンドデータセットが必要であること,(4)asrとnlu研究コミュニティの間にはより強力なコラボレーションが必要であること,の2点を考察する。

As more users across the world are interacting with dialog agents in their daily life, there is a need for better speech understanding that calls for renewed attention to the dynamics between research in automatic speech recognition (ASR) and natural language understanding (NLU). We briefly review these research areas and lay out the current relationship between them. In light of the observations we make in this paper, we argue that (1) NLU should be cognizant of the presence of ASR models being used upstream in a dialog system's pipeline, (2) ASR should be able to learn from errors found in NLU, (3) there is a need for end-to-end datasets that provide semantic annotations on spoken input, (4) there should be stronger collaboration between ASR and NLU research communities.
翻訳日:2021-12-18 17:48:45 公開日:2021-12-10
# (参考訳) マイクロ表現認識のための短距離・長距離関係に基づく時空間変圧器

Short and Long Range Relation Based Spatio-Temporal Transformer for Micro-Expression Recognition ( http://arxiv.org/abs/2112.05851v1 )

ライセンス: CC BY 4.0
Liangfei Zhang, Xiaopeng Hong, Ognjen Arandjelovic, Guoying Zhao(参考訳) 無意識で自発的なマイクロ表現は、たとえそれを隠そうと試みても、人の真の感情を推測するのに有用である。 短い持続時間と低強度のため、マイクロ表現の認識は感情的な計算では難しいタスクである。 手作りの時空間的特徴に基づく初期の作品は、最近、さまざまなディープラーニングアプローチに取って代わられ、現在、アートパフォーマンスの状態を競っている。 それでも、局所的およびグローバルな時空間パターンをキャプチャする問題は依然として難しい。 この目的のために、我々は、マイクロ圧縮認識のための最初の純粋トランスフォーマーベースアプローチ(すなわち、畳み込みネットワークの使用を無効とする)である、新しい時空間トランスフォーマーアーキテクチャを提案する。 空間パターンを学習する空間エンコーダと、時間次元解析のための時間アグリゲータと、分類ヘッドと、を備える。 smic-hs, casme ii, sammの3つの広く使われている自発的マイクロ表現データセットの包括的評価は、提案手法が常に芸術の状態を上回っており、前述のデータセットの0.9以上の重み付けのないf1-scoreを達成するためのマイクロ表現認識に関する出版文献における最初の枠組みであることを示している。

Being unconscious and spontaneous, micro-expressions are useful in the inference of a person's true emotions even if an attempt is made to conceal them. Due to their short duration and low intensity, the recognition of micro-expressions is a difficult task in affective computing. The early work based on handcrafted spatio-temporal features which showed some promise, has recently been superseded by different deep learning approaches which now compete for the state of the art performance. Nevertheless, the problem of capturing both local and global spatio-temporal patterns remains challenging. To this end, herein we propose a novel spatio-temporal transformer architecture -- to the best of our knowledge, the first purely transformer based approach (i.e. void of any convolutional network use) for micro-expression recognition. The architecture comprises a spatial encoder which learns spatial patterns, a temporal aggregator for temporal dimension analysis, and a classification head. A comprehensive evaluation on three widely used spontaneous micro-expression data sets, namely SMIC-HS, CASME II and SAMM, shows that the proposed approach consistently outperforms the state of the art, and is the first framework in the published literature on micro-expression recognition to achieve the unweighted F1-score greater than 0.9 on any of the aforementioned data sets.
翻訳日:2021-12-18 17:09:05 公開日:2021-12-10
# (参考訳) TempoQR: 知識グラフに関する時間的質問

TempoQR: Temporal Question Reasoning over Knowledge Graphs ( http://arxiv.org/abs/2112.05785v1 )

ライセンス: CC BY 4.0
Costas Mavromatis, Prasanna Lakkur Subramanyam, Vassilis N. Ioannidis, Soji Adeshina, Phillip R. Howard, Tetiana Grinberg, Nagib Hakim, George Karypis(参考訳) 知識グラフ質問回答(KGQA)は、自然言語クエリを使用して知識グラフ(KG)から事実を検索する。 KGは関係によってリンクされた実体からなる事実のキュレートされた集合である。 特定の事実には、テンポラルKG(TKG)を形成する時間情報も含まれる。 多くの自然問題には明示的あるいは暗黙的な時間制約が伴うが、TKGに対する質問応答(QA)は比較的未発見の領域である。 既存のソリューションは主に、単一のTKG事実によって直接答えられる単純な時間的質問のために設計されている。 本稿では,TKGに対する複雑な質問に答える包括的埋め込み型フレームワークを提案する。 時間的質問推論(tempoqr)と呼ばれる手法は,tkg埋め込みを利用して質問を特定のエンティティや時間範囲に基礎づける。 3つの特別なモジュールを採用することで、コンテキスト、エンティティ、タイムアウェア情報による質問の埋め込みを強化する。 1つめは与えられた質問のテキスト表現を計算し、2つめは質問に関連するエンティティのエンティティ埋め込みと組み合わせ、3つめは質問固有の時間埋め込みを生成する。 最後に、トランスベースエンコーダは、生成した時間情報を、応答予測に使用される質問表現と融合するように学習する。 広範な実験により、tempoqrは複雑な時間的問題に対して、最先端のアプローチよりも25~45ポイント精度が向上することが示された。

Knowledge Graph Question Answering (KGQA) involves retrieving facts from a Knowledge Graph (KG) using natural language queries. A KG is a curated set of facts consisting of entities linked by relations. Certain facts include also temporal information forming a Temporal KG (TKG). Although many natural questions involve explicit or implicit time constraints, question answering (QA) over TKGs has been a relatively unexplored area. Existing solutions are mainly designed for simple temporal questions that can be answered directly by a single TKG fact. This paper puts forth a comprehensive embedding-based framework for answering complex questions over TKGs. Our method termed temporal question reasoning (TempoQR) exploits TKG embeddings to ground the question to the specific entities and time scope it refers to. It does so by augmenting the question embeddings with context, entity and time-aware information by employing three specialized modules. The first computes a textual representation of a given question, the second combines it with the entity embeddings for entities involved in the question, and the third generates question-specific time embeddings. Finally, a transformer-based encoder learns to fuse the generated temporal information with the question representation, which is used for answer predictions. Extensive experiments show that TempoQR improves accuracy by 25--45 percentage points on complex temporal questions over state-of-the-art approaches and it generalizes better to unseen question types.
翻訳日:2021-12-18 16:41:22 公開日:2021-12-10
# 事実抽出と検証における注意をそらした偽クレームに対するロバストな情報検索

Robust Information Retrieval for False Claims with Distracting Entities In Fact Extraction and Verification ( http://arxiv.org/abs/2112.07618v1 )

ライセンス: Link先を確認
Mingwen Dong, Christos Christodoulopoulos, Sheng-Min Shih, Xiaofei Ma(参考訳) 自動事実確認には正確な証拠検索が不可欠である。 これまでの研究では、真と偽の主張の違いと、それらが証拠検索にどのように影響するかに焦点が当てられていた。 本稿では,真理クレームに比較して,証拠検索モデルに注意をそらすような無関係な実体をしばしば含んでいることを示す。 BERTベースの検索モデルは、本当の主張の証拠を支持することよりも、虚偽の主張に対する反論の証拠を回収することに間違いを犯した。 無関係なエンティティを含む逆偽のクレーム(合成生成)でテストした場合、検索モデルのリコールは元のクレームよりも大幅に低い。 これらの結果は,バニラBERTに基づく検索モデルは,虚偽クレームにおける無関係なエンティティに対して堅牢ではないことを示唆している。 無関係なエンティティを含む合成虚偽のクレームでトレーニングデータを増強することで、トレーニングされたモデルは、無関係なエンティティを含む虚偽のクレームを含む高いエビデンスリコールを達成した。 さらに、別のモデルを用いて反証や証拠を回収し、それらを集約することで、無関係なエンティティによる虚偽のクレームを含む証拠のリコールも増やすことができる。 これらの結果から,BERTに基づく検索モデルのロバスト性は,データ拡張とモデルアンサンブルにより,無関係なエンティティによる偽のクレームに対して向上することが示唆された。

Accurate evidence retrieval is essential for automated fact checking. Little previous research has focused on the differences between true and false claims and how they affect evidence retrieval. This paper shows that, compared with true claims, false claims more frequently contain irrelevant entities which can distract evidence retrieval model. A BERT-based retrieval model made more mistakes in retrieving refuting evidence for false claims than supporting evidence for true claims. When tested with adversarial false claims (synthetically generated) containing irrelevant entities, the recall of the retrieval model is significantly lower than that for original claims. These results suggest that the vanilla BERT-based retrieval model is not robust to irrelevant entities in the false claims. By augmenting the training data with synthetic false claims containing irrelevant entities, the trained model achieved higher evidence recall, including that of false claims with irrelevant entities. In addition, using separate models to retrieve refuting and supporting evidence and then aggregating them can also increase the evidence recall, including that of false claims with irrelevant entities. These results suggest that we can increase the BERT-based retrieval model's robustness to false claims with irrelevant entities via data augmentation and model ensemble.
翻訳日:2021-12-15 16:51:20 公開日:2021-12-10
# ビデオスーパーリゾリューションのためのリカレントリコンストラクションネットワークの構築

Information Prebuilt Recurrent Reconstruction Network for Video Super-Resolution ( http://arxiv.org/abs/2112.05755v1 )

ライセンス: Link先を確認
Ming Yu, Shuyun Wang, Cuihong Xue, Yingchun Guo, Gang Yan(参考訳) 再帰的畳み込みネットワークに基づくビデオ超解像(VSR)法は,映像系列に対して強い時間的モデリング能力を有する。 しかし、一方向のリカレント畳み込みネットワークにおいて異なるリカレントユニットが受信した入力情報は不均衡である。 初期の再構築フレームは時間的な情報が少なくなり、ファジィや成果物となる。 双方向リカレント畳み込みネットワークはこの問題を軽減することができるが、再構成時間と計算複雑性を大幅に向上させる。 オンライン超解像など、多くのアプリケーションシナリオにも適していない。 そこで本研究では,ipnet (information prebuilt network) とrrnet (recurrent reconstruction network) からなるエンド・ツー・エンドのリカレント・リコンストラクション・ネットワーク (iprrn) を提案する。 映像の前面から十分な情報を統合して、初期再帰ユニットに必要な隠れ状態を構築し、初期フレームの復元を支援することにより、事前構築されたネットワークは、前後の伝播なしに入力情報差をバランスさせる。 さらに,回復の質と時間効率を大幅に向上させるコンパクトなリカレント再構成ネットワークを実証した。 提案手法は,提案ネットワークの有効性を検証し,既存の最先端手法と比較し,定量的・質的評価性能を効果的に達成できる。

The video super-resolution (VSR) method based on the recurrent convolutional network has strong temporal modeling capability for video sequences. However, the input information received by different recurrent units in the unidirectional recurrent convolutional network is unbalanced. Early reconstruction frames receive less temporal information, resulting in fuzzy or artifact results. Although the bidirectional recurrent convolution network can alleviate this problem, it greatly increases reconstruction time and computational complexity. It is also not suitable for many application scenarios, such as online super-resolution. To solve the above problems, we propose an end-to-end information prebuilt recurrent reconstruction network (IPRRN), consisting of an information prebuilt network (IPNet) and a recurrent reconstruction network (RRNet). By integrating sufficient information from the front of the video to build the hidden state needed for the initially recurrent unit to help restore the earlier frames, the information prebuilt network balances the input information difference before and after without backward propagation. In addition, we demonstrate a compact recurrent reconstruction network, which has significant improvements in recovery quality and time efficiency. Many experiments have verified the effectiveness of our proposed network, and compared with the existing state-of-the-art methods, our method can effectively achieve higher quantitative and qualitative evaluation performance.
翻訳日:2021-12-14 18:17:55 公開日:2021-12-10
# 位置空間オブジェクトの自動認識のための事前情報を用いたラベル補正アルゴリズム

A Label Correction Algorithm Using Prior Information for Automatic and Accurate Geospatial Object Recognition ( http://arxiv.org/abs/2112.05794v1 )

ライセンス: Link先を確認
Weiwei Duan, Yao-Yi Chiang, Stefan Leyk, Johannes H. Uhl, Craig A. Knoblock(参考訳) 何千もの歴史的地形図は、地域の水文学が時間とともにどのように変化したかなど、長い期間にわたる貴重な情報を含んでいる。 これらの地図の情報を効率的に解錠するには、大量の注釈付きデータを必要とする地理空間オブジェクト認識システムを訓練する必要がある。 地理的参照された外部ベクトルデータを座標に従って地形地図に重ね合わせると、地図内の所望のオブジェクトの位置を自動的にアノテートすることができる。 しかし、2つのデータセットを直接重ね合わせると、出版年や地形図の座標投影系が外部のベクトルデータと異なるため、誤ったアライメントや誤った注釈が生じる。 本稿では,地図の色情報と外部ベクトルデータの以前の形状情報を利用して,誤一致や偽アノテーションを減らすラベル補正アルゴリズムを提案する。 実験の結果,提案アルゴリズムのアノテーションの精度は最先端アルゴリズムのアノテーションよりも10%高いことがわかった。 その結果,提案アルゴリズムのアノテーションを用いた認識結果は,最先端アルゴリズムのアノテーションよりも9%高い精度が得られることがわかった。

Thousands of scanned historical topographic maps contain valuable information covering long periods of time, such as how the hydrography of a region has changed over time. Efficiently unlocking the information in these maps requires training a geospatial objects recognition system, which needs a large amount of annotated data. Overlapping geo-referenced external vector data with topographic maps according to their coordinates can annotate the desired objects' locations in the maps automatically. However, directly overlapping the two datasets causes misaligned and false annotations because the publication years and coordinate projection systems of topographic maps are different from the external vector data. We propose a label correction algorithm, which leverages the color information of maps and the prior shape information of the external vector data to reduce misaligned and false annotations. The experiments show that the precision of annotations from the proposed algorithm is 10% higher than the annotations from a state-of-the-art algorithm. Consequently, recognition results using the proposed algorithm's annotations achieve 9% higher correctness than using the annotations from the state-of-the-art algorithm.
翻訳日:2021-12-14 18:17:32 公開日:2021-12-10
# 推薦のためのエッジ対応強化学習

Edge-Compatible Reinforcement Learning for Recommendations ( http://arxiv.org/abs/2112.05812v1 )

ライセンス: Link先を確認
James E. Kostas, Philip S. Thomas, Georgios Theocharous(参考訳) エッジコンピューティング用に設計されたほとんどの強化学習(rl)レコメンデーションシステムは、レコメンデーション選択時に同期するか、アルゴリズムの既定のパッチワークコレクションに依存する必要がある。 本研究では,非同期coagentポリシー勾配アルゴリズム \citep{kostas2020asynchronous} を用いて,この問題に対する原理的解法を提案する。 提案するアルゴリズムのクラスは,インターネット上で分散し,非同期かつリアルタイムに実行することができる。 与えられたエッジが十分な速度でデータ要求に応答できない場合、これは問題ではない。このアルゴリズムはエッジ設定で機能し、学習するように設計されており、ネットワーク上の問題はこの設定の一部である。 その結果、この非同期環境で分散して学習するように設計された原理的、理論的に基礎付けられたRLアルゴリズムが得られた。 本稿では,このアルゴリズムと提案したアーキテクチャのクラスを詳細に記述し,ネットワーク品質が低下しても,非同期環境ではうまく動作することを示す。

Most reinforcement learning (RL) recommendation systems designed for edge computing must either synchronize during recommendation selection or depend on an unprincipled patchwork collection of algorithms. In this work, we build on asynchronous coagent policy gradient algorithms \citep{kostas2020asynchronous} to propose a principled solution to this problem. The class of algorithms that we propose can be distributed over the internet and run asynchronously and in real-time. When a given edge fails to respond to a request for data with sufficient speed, this is not a problem; the algorithm is designed to function and learn in the edge setting, and network issues are part of this setting. The result is a principled, theoretically grounded RL algorithm designed to be distributed in and learn in this asynchronous environment. In this work, we describe this algorithm and a proposed class of architectures in detail, and demonstrate that they work well in practice in the asynchronous setting, even as the network quality degrades.
翻訳日:2021-12-14 17:44:46 公開日:2021-12-10
# 半教師付き学習における一貫性正規化の再検討

Revisiting Consistency Regularization for Semi-Supervised Learning ( http://arxiv.org/abs/2112.05825v1 )

ライセンス: Link先を確認
Yue Fan and Anna Kukleva and Bernt Schiele(参考訳) 一貫性の正規化は、半教師あり学習(SSL)において最も広く使われている手法の1つである。 一般に、様々なデータ拡張に不変なモデルを訓練することを目的としている。 本稿では,この概念を再検討し,異なる拡張画像から特徴間の距離を小さくすることで不変性が向上することを示す。 しかし、その代わりに、特徴距離を増やすことにより、性能をさらに向上させる。 そこで本研究では,FeatDistLossという単純な手法を用いて,整合性と同値性をそれぞれ分類器と特徴量に課する改良された整合性正規化フレームワークを提案する。 実験結果から,本モデルでは,さまざまなデータセットや設定の新たな状態を定義し,特に低データ環境において,過去の作業を大幅に上回る結果が得られた。 メソッドを分析するために広範囲な実験が行われ、コードが公開されます。

Consistency regularization is one of the most widely-used techniques for semi-supervised learning (SSL). Generally, the aim is to train a model that is invariant to various data augmentations. In this paper, we revisit this idea and find that enforcing invariance by decreasing distances between features from differently augmented images leads to improved performance. However, encouraging equivariance instead, by increasing the feature distance, further improves performance. To this end, we propose an improved consistency regularization framework by a simple yet effective technique, FeatDistLoss, that imposes consistency and equivariance on the classifier and the feature level, respectively. Experimental results show that our model defines a new state of the art for various datasets and settings and outperforms previous work by a significant margin, particularly in low data regimes. Extensive experiments are conducted to analyze the method, and the code will be published.
翻訳日:2021-12-14 16:47:36 公開日:2021-12-10
# 画像分類のための識別チャネル多様化ネットワーク

A Discriminative Channel Diversification Network for Image Classification ( http://arxiv.org/abs/2112.05861v1 )

ライセンス: Link先を確認
Krushi Patel, Guanghui Wang(参考訳) 畳み込みニューラルネットワークにおけるチャネルアテンション機構は、様々なコンピュータビジョンタスクに有効であることが証明されている。 しかし、パフォーマンス改善にはモデルの複雑さと計算コストが伴う。 本稿では,チャネルの多様化ブロックと呼ばれる軽量で効果的な注目モジュールを提案し,グローバルレベルでのチャネル関係を確立することにより,グローバルなコンテキストを強化する。 他のチャネルアテンション機構とは異なり、提案モジュールは、チャネルアクティベーションを考慮して、空間的に識別可能なチャネルにより多くの注意を向けることにより、最も識別性の高い特徴に焦点を当てる。 モジュールを複数の中間層にプラグインする他の注意モデルとは異なり、提案されたモジュールはバックボーンネットワークの最後に埋め込まれており、実装が容易である。 CIFAR-10、SVHN、Tiny-ImageNetデータセットの大規模な実験により、提案モジュールはベースラインネットワークの性能を平均で3%向上することを示した。

Channel attention mechanisms in convolutional neural networks have been proven to be effective in various computer vision tasks. However, the performance improvement comes with additional model complexity and computation cost. In this paper, we propose a light-weight and effective attention module, called channel diversification block, to enhance the global context by establishing the channel relationship at the global level. Unlike other channel attention mechanisms, the proposed module focuses on the most discriminative features by giving more attention to the spatially distinguishable channels while taking account of the channel activation. Different from other attention models that plugin the module in between several intermediate layers, the proposed module is embedded at the end of the backbone networks, making it easy to implement. Extensive experiments on CIFAR-10, SVHN, and Tiny-ImageNet datasets demonstrate that the proposed module improves the performance of the baseline networks by a margin of 3% on average.
翻訳日:2021-12-14 16:47:23 公開日:2021-12-10
# 長文会話音声の自動音声認識のための指示音声分離

Directed Speech Separation for Automatic Speech Recognition of Long Form Conversational Speech ( http://arxiv.org/abs/2112.05863v1 )

ライセンス: Link先を確認
Rohit Paturi, Sundararajan Srinivasan, Katrin Kirchhoff(参考訳) 最近の音声分離の進歩の多くは、主に高い重なりを持つ短い音声発話の合成混合物を対象としている。 これらのデータセットは実際の会話データと大きく異なるため、これらのデータセットでトレーニングおよび評価されたモデルは実際の会話シナリオに一般化しない。 長い形の音声にこれらのモデルを使用する別の問題は、時間周波数マスクの教師なしクラスタリングまたは置換不変訓練(pit)損失による分離音声セグメントの非決定的順序付けである。 これにより、ASR(Automatic Speech Recognition)のような下流タスクにおいて、均質な話者セグメントを正確に縫合することが困難になる。 本稿では,混合信号から直接抽出した話者埋め込みを訓練した話者条件付きセパレータを提案する。 分離セグメントの順序を規制する指向的損失を用いて,このモデルをトレーニングする。 このモデルでは, 単語誤り率(WER)を, 追加の修正ステップを必要とせずに, 実際の会話データに対して大幅に改善する。

Many of the recent advances in speech separation are primarily aimed at synthetic mixtures of short audio utterances with high degrees of overlap. These datasets significantly differ from the real conversational data and hence, the models trained and evaluated on these datasets do not generalize to real conversational scenarios. Another issue with using most of these models for long form speech is the nondeterministic ordering of separated speech segments due to either unsupervised clustering for time-frequency masks or Permutation Invariant training (PIT) loss. This leads to difficulty in accurately stitching homogenous speaker segments for downstream tasks like Automatic Speech Recognition (ASR). In this paper, we propose a speaker conditioned separator trained on speaker embeddings extracted directly from the mixed signal. We train this model using a directed loss which regulates the order of the separated segments. With this model, we achieve significant improvements on Word error rate (WER) for real conversational data without the need for an additional re-stitching step.
翻訳日:2021-12-14 16:29:03 公開日:2021-12-10
# fmri予測タスクのための事前訓練と微調整トランス

Pre-training and Fine-tuning Transformers for fMRI Prediction Tasks ( http://arxiv.org/abs/2112.05761v1 )

ライセンス: Link先を確認
Itzik Malkiel, Gony Rosenman, Lior Wolf, Talma Hendler(参考訳) 機能的磁気共鳴イメージング(fMRI)データ解析のためのTFFトランスフォーマフレームワークを提案する。 TFFはトランスフォーマーベースのアーキテクチャと2フェーズのトレーニングアプローチを採用している。 まず、FMRIスキャンのコレクションに自己教師付きトレーニングを適用し、3次元ボリュームデータの再構成のためにモデルを訓練する。 第二に、事前訓練されたモデルは、基礎的真理ラベルを利用して、特定のタスクに微調整される。 以上の結果から, 年齢や性別の予測, 統合失調症認知など, さまざまなfMRI課題における最先端の成績が示された。

We present the TFF Transformer framework for the analysis of functional Magnetic Resonance Imaging (fMRI) data. TFF employs a transformer-based architecture and a two-phase training approach. First, self-supervised training is applied to a collection of fMRI scans, where the model is trained for the reconstruction of 3D volume data. Second, the pre-trained model is fine-tuned on specific tasks, utilizing ground truth labels. Our results show state-of-the-art performance on a variety of fMRI tasks, including age and gender prediction, as well as schizophrenia recognition.
翻訳日:2021-12-14 16:28:10 公開日:2021-12-10
# 連続強化学習による量子アーキテクチャ探索

Quantum Architecture Search via Continual Reinforcement Learning ( http://arxiv.org/abs/2112.05779v1 )

ライセンス: Link先を確認
Esther Ye, Samuel Yen-Chi Chen(参考訳) 量子コンピューティングは、古典的なコンピュータ上で難しい計算タスクを解決するための大幅な改善を約束している。 しかし、実用のために量子回路を設計することは自明な目的ではなく、専門家レベルの知識を必要とする。 そこで本稿では,量子回路アーキテクチャ構築のための機械学習に基づく手法を提案する。 従来の研究は、古典的な深部強化学習(DRL)アルゴリズムが、物理知識を符号化せずに量子回路アーキテクチャを構築できることを示した。 しかし、これらのDRLベースの作品は、デバイスノイズを変化させる設定には一般化できないため、RLモデルを最新に保つためにかなりの量のトレーニングリソースが必要になる。 このことを念頭に、我々はアルゴリズムの性能を高めるために連続学習を取り入れた。 本稿では,この回路設計課題に取り組むために,PPR-DQL(Deep Q-learning)フレームワークを用いた確率的ポリシー再利用を提案する。 様々なノイズパターンを数値シミュレーションすることにより,pprを用いたrlエージェントが2量子ビットベル状態をスクラッチから学習したエージェントよりも高速に生成する量子ゲートシーケンスを探索できることを実証した。 提案されたフレームワークは一般的なもので、量子デバイスの自動校正を含む他の量子ゲート合成や制御問題に適用することができる。

Quantum computing has promised significant improvement in solving difficult computational tasks over classical computers. Designing quantum circuits for practical use, however, is not a trivial objective and requires expert-level knowledge. To aid this endeavor, this paper proposes a machine learning-based method to construct quantum circuit architectures. Previous works have demonstrated that classical deep reinforcement learning (DRL) algorithms can successfully construct quantum circuit architectures without encoded physics knowledge. However, these DRL-based works are not generalizable to settings with changing device noises, thus requiring considerable amounts of training resources to keep the RL models up-to-date. With this in mind, we incorporated continual learning to enhance the performance of our algorithm. In this paper, we present the Probabilistic Policy Reuse with deep Q-learning (PPR-DQL) framework to tackle this circuit design challenge. By conducting numerical simulations over various noise patterns, we demonstrate that the RL agent with PPR was able to find the quantum gate sequence to generate the two-qubit Bell state faster than the agent that was trained from scratch. The proposed framework is general and can be applied to other quantum gate synthesis or control problems -- including the automatic calibration of quantum devices.
翻訳日:2021-12-14 16:26:33 公開日:2021-12-10
# 私かあなたか? アイデンティティを保持することができない現状対話モデル

Am I Me or You? State-of-the-Art Dialogue Models Cannot Maintain an Identity ( http://arxiv.org/abs/2112.05843v1 )

ライセンス: Link先を確認
Kurt Shuster, Jack Urbanek, Arthur Szlam, Jason Weston(参考訳) 最先端の対話モデルは、事実の正確性と自己矛盾に関していまだに不安定であることが多い。 逸話的に、それらは言論を通してキャラクターのアイデンティティを維持できないことが観察されており、より具体的には、彼らの対話者の役割を担っている可能性がある。 この研究では、この不足を形式化し、定量化し、人間による評価を通して実際に問題であることを示す。 対照的に、誰が話すかの認識に特化して訓練された差別モデルを示し、さらにこれらを自動メトリクスとして使用することができる。 最後に,モデルアーキテクチャの変更,トレーニングプロトコル,デコード戦略など,さまざまな緩和手法を評価した。 我々の最良のモデルは、人間のアノテータによる誤識別問題を65%近く削減し、同時にエンゲージメントを改善します。 これらの結果にもかかわらず、キャラクタのアイデンティティを維持することは依然として困難な問題である。

State-of-the-art dialogue models still often stumble with regards to factual accuracy and self-contradiction. Anecdotally, they have been observed to fail to maintain character identity throughout discourse; and more specifically, may take on the role of their interlocutor. In this work we formalize and quantify this deficiency, and show experimentally through human evaluations that this is indeed a problem. In contrast, we show that discriminative models trained specifically to recognize who is speaking can perform well; and further, these can be used as automated metrics. Finally, we evaluate a wide variety of mitigation methods, including changes to model architecture, training protocol, and decoding strategy. Our best models reduce mistaken identity issues by nearly 65% according to human annotators, while simultaneously improving engagingness. Despite these results, we find that maintaining character identity still remains a challenging problem.
翻訳日:2021-12-14 16:24:22 公開日:2021-12-10
# トランスファー可能な攻撃を学習する

Learning to Learn Transferable Attack ( http://arxiv.org/abs/2112.06658v1 )

ライセンス: Link先を確認
Shuman Fang, Jie Li, Xianming Lin, Rongrong Ji(参考訳) 転送逆行攻撃は非自明なブラックボックス逆行攻撃であり、サロゲートモデル上で敵の摂動を発生させ、そのような摂動を被害者モデルに適用することを目的としている。 しかし,既存手法からの摂動の伝達性は,逆摂動が単一のサロゲートモデルと特定のデータパターンで容易にオーバーフィットするため,まだ限られている。 本稿では,データとモデル拡張の両面から学習することで,敵対的摂動をより一般化するLLTA(Learning to Learn Transferable Attack)手法を提案する。 データ拡張には、単純なランダムリサイズとパディングを採用する。 モデル拡張のために、モデル予測への影響をなくすため、前方伝搬の代わりにランダムにバック伝搬を変化させる。 特定のデータと修正モデルの両方をタスクとして扱うことで、敵の摂動が一般化に十分なタスクを採用することを期待する。 この目的のために、メタ学習アルゴリズムは摂動生成の繰り返しの間にさらに導入される。 広範に使用されるデータセットにおける実験結果は、最先端の手法と比較して12.85%高い転送攻撃成功率で攻撃手法の有効性を示している。 また,実世界のオンラインシステム,すなわちGoogle Cloud Vision API上での手法の評価を行い,本手法の実用化可能性を示す。

Transfer adversarial attack is a non-trivial black-box adversarial attack that aims to craft adversarial perturbations on the surrogate model and then apply such perturbations to the victim model. However, the transferability of perturbations from existing methods is still limited, since the adversarial perturbations are easily overfitting with a single surrogate model and specific data pattern. In this paper, we propose a Learning to Learn Transferable Attack (LLTA) method, which makes the adversarial perturbations more generalized via learning from both data and model augmentation. For data augmentation, we adopt simple random resizing and padding. For model augmentation, we randomly alter the back propagation instead of the forward propagation to eliminate the effect on the model prediction. By treating the attack of both specific data and a modified model as a task, we expect the adversarial perturbations to adopt enough tasks for generalization. To this end, the meta-learning algorithm is further introduced during the iteration of perturbation generation. Empirical results on the widely-used dataset demonstrate the effectiveness of our attack method with a 12.85% higher success rate of transfer attack compared with the state-of-the-art methods. We also evaluate our method on the real-world online system, i.e., Google Cloud Vision API, to further show the practical potentials of our method.
翻訳日:2021-12-14 15:52:26 公開日:2021-12-10
# 品質を考慮したマルチモーダルバイオメトリック認識

Quality-Aware Multimodal Biometric Recognition ( http://arxiv.org/abs/2112.05827v1 )

ライセンス: Link先を確認
Sobhan Soleymani, Ali Dabouei, Fariborz Taherkhani, Seyed Mehdi Iranmanesh, Jeremy Dawson, Nasser M. Nasrabadi(参考訳) 本稿では,複数の生体特性からの表現を様々な品質とサンプル数に組み合わせて,サンプルの品質に基づく補足的識別情報を抽出することにより,認識精度の向上を実現する,品質認識型マルチモーダル認識フレームワークを提案する。 我々は,弱教師付きで推定される品質スコアを用いて,入力モダリティの表現を重み付けて活用する品質認識フレームワークを開発した。 このフレームワークは2つの融合ブロックを利用し、それぞれが品質認識ネットワークと集約ネットワークのセットで表される。 アーキテクチャの変更に加えて,マルチモーダル分離性損失とマルチモーダルコンパクト性損失の2つのタスク固有損失関数を提案する。 最初の損失は、クラスに対するモダリティの表現がより良い品質の見積もりを提供するのに匹敵する大きさであることを保証する一方、異なるクラスのマルチモーダル表現は埋め込み空間における最大識別を達成するために分散される。 第2の損失はネットワークの重み付けを正則化すると見なされ、フレームワークを正則化することで一般化性能を向上させる。 顔,虹彩,指紋モダリティからなる3つのマルチモーダルデータセットを考慮し,評価を行った。 このフレームワークの有効性は最先端アルゴリズムとの比較により実証された。 特に、我々のフレームワークは、偽の受入率10^{-4}$の真の受入率に対して、biomdataのモダリティのランクとスコアレベルでの融合を30%以上上回っている。

We present a quality-aware multimodal recognition framework that combines representations from multiple biometric traits with varying quality and number of samples to achieve increased recognition accuracy by extracting complimentary identification information based on the quality of the samples. We develop a quality-aware framework for fusing representations of input modalities by weighting their importance using quality scores estimated in a weakly-supervised fashion. This framework utilizes two fusion blocks, each represented by a set of quality-aware and aggregation networks. In addition to architecture modifications, we propose two task-specific loss functions: multimodal separability loss and multimodal compactness loss. The first loss assures that the representations of modalities for a class have comparable magnitudes to provide a better quality estimation, while the multimodal representations of different classes are distributed to achieve maximum discrimination in the embedding space. The second loss, which is considered to regularize the network weights, improves the generalization performance by regularizing the framework. We evaluate the performance by considering three multimodal datasets consisting of face, iris, and fingerprint modalities. The efficacy of the framework is demonstrated through comparison with the state-of-the-art algorithms. In particular, our framework outperforms the rank- and score-level fusion of modalities of BIOMDATA by more than 30% for true acceptance rate at false acceptance rate of $10^{-4}$.
翻訳日:2021-12-14 15:24:55 公開日:2021-12-10
# 多視点情報を用いた並列イメージングによる高速MRI用エッジ強化デュアルディミネータ生成器

Edge-Enhanced Dual Discriminator Generative Adversarial Network for Fast MRI with Parallel Imaging Using Multi-view Information ( http://arxiv.org/abs/2112.05758v1 )

ライセンス: Link先を確認
Jiahao Huang, Weiping Ding, Jun Lv, Jingwen Yang, Hao Dong, Javier Del Ser, Jun Xia, Tiaojuan Ren, Stephen Wong, Guang Yang(参考訳) 臨床医学において、MRIは診断、トリアージ、予後、治療計画において最も重要なツールの1つである。 しかし、MRIはk空間で順次収集されるため、本質的に遅いデータ取得プロセスに悩まされる。 近年,文献で提案されているmri再構成法の多くは,エッジ情報の向上よりも全体像再構成に焦点をあてている。 この作業は、エッジ情報の強化について検討することで、この一般的な傾向を後押しする。 具体的には,多視点情報を取り入れた高速な多チャンネルMRI再構成のための並列画像結合二重判別器生成対向ネットワーク(PIDD-GAN)を提案する。 二重判別器の設計はMRI再建におけるエッジ情報の改善を目的としている。 1つの判別器は全体像再構成に使われ、もう1つはエッジ情報の強化に責任がある。 局所的および大域的残差学習を用いた改良されたU-Netを提案する。 周波数チャネルアテンションブロック(FCAブロック)は、アテンション機構を組み込むジェネレータに埋め込まれる。 コンテントロスを導入して、ジェネレータをより良いリコンストラクション品質に訓練する。 我々はCalgary-Campinas公開脳MRIデータセットの総合的な実験を行い、この手法を最先端MRI再構成法と比較した。 miccai13データセット上で残差学習のアブレーション研究を行い,提案モジュールの検証を行った。 以上の結果から,PIDD-GANは良質なMR画像と良好な保存エッジ情報を提供することがわかった。 単一画像再構成の時間は5ms以下であり、高速な処理の要求を満たす。

In clinical medicine, magnetic resonance imaging (MRI) is one of the most important tools for diagnosis, triage, prognosis, and treatment planning. However, MRI suffers from an inherent slow data acquisition process because data is collected sequentially in k-space. In recent years, most MRI reconstruction methods proposed in the literature focus on holistic image reconstruction rather than enhancing the edge information. This work steps aside this general trend by elaborating on the enhancement of edge information. Specifically, we introduce a novel parallel imaging coupled dual discriminator generative adversarial network (PIDD-GAN) for fast multi-channel MRI reconstruction by incorporating multi-view information. The dual discriminator design aims to improve the edge information in MRI reconstruction. One discriminator is used for holistic image reconstruction, whereas the other one is responsible for enhancing edge information. An improved U-Net with local and global residual learning is proposed for the generator. Frequency channel attention blocks (FCA Blocks) are embedded in the generator for incorporating attention mechanisms. Content loss is introduced to train the generator for better reconstruction quality. We performed comprehensive experiments on Calgary-Campinas public brain MR dataset and compared our method with state-of-the-art MRI reconstruction methods. Ablation studies of residual learning were conducted on the MICCAI13 dataset to validate the proposed modules. Results show that our PIDD-GAN provides high-quality reconstructed MR images, with well-preserved edge information. The time of single-image reconstruction is below 5ms, which meets the demand of faster processing.
翻訳日:2021-12-14 15:15:56 公開日:2021-12-10
# 頭上画像における物体空間配置検出のための弱監視を用いた誘導生成モデル

Guided Generative Models using Weak Supervision for Detecting Object Spatial Arrangement in Overhead Images ( http://arxiv.org/abs/2112.05786v1 )

ライセンス: Link先を確認
Weiwei Duan, Yao-Yi Chiang, Stefan Leyk, Johannes H. Uhl, Craig A. Knoblock(参考訳) 多数のオーバヘッドイメージの可用性とアクセシビリティの増大により,地理空間対象オブジェクトのグループの空間配置を推定し,評価することが可能となり,交通監視や農業監視など,多くの応用が期待できる。 空間配置推定は、頭上画像に所望のオブジェクトを含む領域を識別するプロセスである。 従来の教師付きオブジェクト検出手法は正確な空間配置を推定できるが、大量の境界ボックスアノテーションを必要とする。 最近の半教師付きクラスタリングアプローチは手動ラベリングを減らすことができるが、画像内のすべてのオブジェクトカテゴリに対してアノテーションを必要とする。 本稿では,Gaussian Mixture Models (GMM) を用いて,VAEにおける隠れ変数とデコーダ変数の両方の分布を推定する,変分自動エンコーダ(VAE)フレームワークに基づくターゲット誘導生成モデル(TGGM)を提案する。 GMMによる隠れ変数と復号変数の両方のモデリングは、空間配置推定に必要なマニュアルアノテーションを大幅に削減する。 トレーニングプロセスが最適化イテレーション(例:"minibatch")でのみGMMを更新できる既存のアプローチとは異なり、TGGMは個別のGMMコンポーネントを同じ最適化イテレーションで別々に更新することができる。 GMMコンポーネントを個別に最適化することで、TGGMは空間データのセマンティックな関係を活用でき、生成プロセスを開始するためのラベルはわずかである。 実験の結果、TGGMは最先端の半教師付き手法に匹敵する結果を達成し、F_{1}$スコアに基づいて教師なし手法を10%上回り、ラベル付きデータをはるかに少なくすることがわかった。

The increasing availability and accessibility of numerous overhead images allows us to estimate and assess the spatial arrangement of groups of geospatial target objects, which can benefit many applications, such as traffic monitoring and agricultural monitoring. Spatial arrangement estimation is the process of identifying the areas which contain the desired objects in overhead images. Traditional supervised object detection approaches can estimate accurate spatial arrangement but require large amounts of bounding box annotations. Recent semi-supervised clustering approaches can reduce manual labeling but still require annotations for all object categories in the image. This paper presents the target-guided generative model (TGGM), under the Variational Auto-encoder (VAE) framework, which uses Gaussian Mixture Models (GMM) to estimate the distributions of both hidden and decoder variables in VAE. Modeling both hidden and decoder variables by GMM reduces the required manual annotations significantly for spatial arrangement estimation. Unlike existing approaches that the training process can only update the GMM as a whole in the optimization iterations (e.g., a "minibatch"), TGGM allows the update of individual GMM components separately in the same optimization iteration. Optimizing GMM components separately allows TGGM to exploit the semantic relationships in spatial data and requires only a few labels to initiate and guide the generative process. Our experiments shows that TGGM achieves results comparable to the state-of-the-art semi-supervised methods and outperforms unsupervised methods by 10% based on the $F_{1}$ scores, while requiring significantly fewer labeled data.
翻訳日:2021-12-14 15:11:44 公開日:2021-12-10
# 自然場面における人間の視覚探索計算モデルのベンチマーク:モデル比較と参照データセット

Benchmarking human visual search computational models in natural scenes: models comparison and reference datasets ( http://arxiv.org/abs/2112.05808v1 )

ライセンス: Link先を確認
F. Travi (1), G. Ruarte (1), G. Bujia (1) and J. E. Kamienkowski (1,2) ((1) Laboratorio de Inteligencia Artificial Aplicada, Instituto de Ciencias de la Computaci\'on, Universidad de Buenos Aires - CONICET (2) Maestr\'ia de Explotaci\'on de Datos y Descubrimiento del Conocimiento, Universidad de Buenos Aires, Argentina)(参考訳) 視覚検索は、毎日の人間の目標と環境との対話において不可欠な部分である。 現在、いくつかのアルゴリズムは単純な観察中に視線位置を予測できるが、自然場面の視覚探索中に人間の行動をシミュレートしようとするモデルはほとんどない。 さらに、これらのモデルは設計において大きく異なり、評価されたデータセットとメトリクスの違いを示す。 したがって、各モデルをテストするための参照点と、潜在的な改善が導出できる場所が必要である。 本研究では,自然場面で利用可能な最先端のビジュアル検索モデルを選択し,異なるデータセット上で評価し,同じ指標を用いて被験者との効率と類似度を推定する。 特に、ニューラルネットワークに基づくビジュアルサーチモデルと組み合わせることで、Ideal Bayesian Searcherの改善を提案し、他のデータセットへの一般化を可能にした。 この研究は、現在のモデルの限界と、アプローチを組み合わせることで潜在的な改善が達成される可能性に光を当てている。 さらに、より一般的なビジュアル検索計算モデルの開発を支援するために、データとメトリクスをベンチマークする緊急必要なソリューションの提供も進めている。

Visual search is an essential part of almost any everyday human goal-directed interaction with the environment. Nowadays, several algorithms are able to predict gaze positions during simple observation, but few models attempt to simulate human behavior during visual search in natural scenes. Furthermore, these models vary widely in their design and exhibit differences in the datasets and metrics with which they were evaluated. Thus, there is a need for a reference point, on which each model can be tested and from where potential improvements can be derived. In the present work, we select publicly available state-of-the-art visual search models in natural scenes and evaluate them on different datasets, employing the same metrics to estimate their efficiency and similarity with human subjects. In particular, we propose an improvement to the Ideal Bayesian Searcher through a combination with a neural network-based visual search model, enabling it to generalize to other datasets. The present work sheds light on the limitations of current models and how potential improvements can be accomplished by combining approaches. Moreover, it moves forward on providing a solution for the urgent need for benchmarking data and metrics to support the development of more general human visual search computational models.
翻訳日:2021-12-14 15:11:14 公開日:2021-12-10
# 近位反復を伴うディープqネットワーク

Deep Q-Network with Proximal Iteration ( http://arxiv.org/abs/2112.05848v1 )

ライセンス: Link先を確認
Kavosh Asadi, Rasool Fakoor, Omer Gottesman, Michael L. Littman, Alexander J. Smola(参考訳) 我々は強化学習における価値関数最適化に近近反復を用いる。 Proximal Iterationは,最適化手順をより望ましい解に偏りを与える,計算効率のよい手法である。 深層強化学習における近位反復の具体的応用として、DQNのオンラインネットワークコンポーネントがターゲットネットワークの近傍に留まることを確実にするために、深度Qネットワーク(DQN)エージェントの目的機能に近位項を付与する。 得られたエージェントはDQN with Proximal Iteration(DQNPro)と呼ばれ、AtariベンチマークのオリジナルのDQNよりも大幅に改善されている。 本研究は,深層強化学習における音響最適化手法の活用効果を強調する。

We employ Proximal Iteration for value-function optimization in reinforcement learning. Proximal Iteration is a computationally efficient technique that enables us to bias the optimization procedure towards more desirable solutions. As a concrete application of Proximal Iteration in deep reinforcement learning, we endow the objective function of the Deep Q-Network (DQN) agent with a proximal term to ensure that the online-network component of DQN remains in the vicinity of the target network. The resultant agent, which we call DQN with Proximal Iteration, or DQNPro, exhibits significant improvements over the original DQN on the Atari benchmark. Our results accentuate the power of employing sound optimization techniques for deep reinforcement learning.
翻訳日:2021-12-14 15:08:00 公開日:2021-12-10
# 法的ドメインにおけるテキスト分類のためのブール探索規則の作成

Computer-Assisted Creation of Boolean Search Rules for Text Classification in the Legal Domain ( http://arxiv.org/abs/2112.05807v1 )

ライセンス: Link先を確認
Hannes Westermann, Jaromir Savelka, Vern R. Walker, Kevin D. Ashley, Karim Benyekhlef(参考訳) 本稿では,boolean search rulesの形で,強固で説明可能な分類器を構築する手法を提案する。 そこで我々はCASE (Computer Assisted Semantic Exploration) と呼ばれる対話型環境を開発し, 単語共起を利用して, 関連する検索語の選択を誘導する。 このシステムは、分類規則の反復的評価と改善をシームレスに行う。 このプロセスにより、人間のアノテータは、専門家の直感をこれらのルールの作成に取り入れながら、統計情報の利点を活用できる。 4つのデータセットでケースシステムで作成した分類器を評価し,skopeルール,ランダムフォレスト,サポートベクターマシン,fasttext分類器などの機械学習手法と比較した。 その結果,テキスト分類のための最先端機械学習モデルの性能に対して,より優れたコンパクト性,単純性,直感性のトレードオフが議論されている。

In this paper, we present a method of building strong, explainable classifiers in the form of Boolean search rules. We developed an interactive environment called CASE (Computer Assisted Semantic Exploration) which exploits word co-occurrence to guide human annotators in selection of relevant search terms. The system seamlessly facilitates iterative evaluation and improvement of the classification rules. The process enables the human annotators to leverage the benefits of statistical information while incorporating their expert intuition into the creation of such rules. We evaluate classifiers created with our CASE system on 4 datasets, and compare the results to machine learning methods, including SKOPE rules, Random forest, Support Vector Machine, and fastText classifiers. The results drive the discussion on trade-offs between superior compactness, simplicity, and intuitiveness of the Boolean search rules versus the better performance of state-of-the-art machine learning models for text classification.
翻訳日:2021-12-14 14:40:21 公開日:2021-12-10
# (参考訳) セマンティックな構成文法:NL/ロジックの分岐

Semantic Construction Grammar: Bridging the NL / Logic Divide ( http://arxiv.org/abs/2112.05256v1 )

ライセンス: CC BY 4.0
Dave Schneider, Michael Witbrock(参考訳) 本稿では,近年,自然言語と論理表現の翻訳を容易にするために開発されたセマンティック構築文法(SCG)について論じる。 SCGは、NL構造にかなり近いもの(いわゆる「論理形式」)から、NL構造とはかなり異なるもの(高次かつ高アリティ関係)まで、様々な表現方法をサポートするように設計されている。 意味的制約や表現のチェックは、SCGによるNL理解のプロセスに不可欠なものであり、SCGがCycの知識ベースと推論エンジンを統合しているため、容易に実行できる。

In this paper, we discuss Semantic Construction Grammar (SCG), a system developed over the past several years to facilitate translation between natural language and logical representations. Crucially, SCG is designed to support a variety of different methods of representation, ranging from those that are fairly close to the NL structure (e.g. so-called 'logical forms'), to those that are quite different from the NL structure, with higher-order and high-arity relations. Semantic constraints and checks on representations are integral to the process of NL understanding with SCG, and are easily carried out due to the SCG's integration with Cyc's Knowledge Base and inference engine.
翻訳日:2021-12-14 01:23:50 公開日:2021-12-10
# (参考訳) ステレオビジョンとデジタルマップを用いた都市交差点の3次元シーン理解

3D Scene Understanding at Urban Intersection using Stereo Vision and Digital Map ( http://arxiv.org/abs/2112.05295v1 )

ライセンス: CC BY 4.0
Prarthana Bhattacharyya, Yanlei Gu, Jiali Bao, Xu Liu and Shunsuke Kamijo(参考訳) 都市交差点での運転行動は非常に複雑である。 したがって、交差点をナビゲートし事故を防止するために、自動運転車が都市交通シーンを包括的に理解することが重要である。 本稿では,都市交差点における交通状況の空間的・時間的分析のためのステレオビジョンと3次元ディジタルマップを提案する。 ステレオビジョンは障害物の検出、分類、追跡に使用され、3dデジタルマップはエゴローカライズを改善し、道路情報の観点からコンテキストを提供する。 これらの幾何学的、意味的、動的、文脈的キューを時間的に統合する確率論的アプローチを示す。 提案手法を東京の都市キャニオンで収集した実交通データから定量的に評価し,交通環境の包括的認識におけるシステムの有効性を実証した。

The driving behavior at urban intersections is very complex. It is thus crucial for autonomous vehicles to comprehensively understand challenging urban traffic scenes in order to navigate intersections and prevent accidents. In this paper, we introduce a stereo vision and 3D digital map based approach to spatially and temporally analyze the traffic situation at urban intersections. Stereo vision is used to detect, classify and track obstacles, while a 3D digital map is used to improve ego-localization and provide context in terms of road-layout information. A probabilistic approach that temporally integrates these geometric, semantic, dynamic and contextual cues is presented. We qualitatively and quantitatively evaluate our proposed technique on real traffic data collected at an urban canyon in Tokyo to demonstrate the efficacy of the system in providing comprehensive awareness of the traffic surroundings.
翻訳日:2021-12-14 01:13:28 公開日:2021-12-10
# (参考訳) IFR-Explore:3次元屋内シーンにおける物体間機能関係の学習

IFR-Explore: Learning Inter-object Functional Relationships in 3D Indoor Scenes ( http://arxiv.org/abs/2112.05298v1 )

ライセンス: CC BY 4.0
Qi Li, Kaichun Mo, Yanchao Yang, Hang Zhao, Leonidas Guibas(参考訳) 近年,3次元屋内環境と対話可能な知的エージェントの構築が研究の注目を集めている。 ほとんどの研究は、単一オブジェクトまたはエージェントオブジェクトの視覚機能と余裕に焦点を当てているが、我々の研究は、オブジェクト間の機能的関係(例えば、壁のスイッチが光をオンまたはオフするなど)を知覚しモデル化するためにも重要である新しい種類の視覚的関係を研究することを提案する。 人間は、新しい部屋に入るときでさえ、私たちの強力な事前知識(例えば、ボタンが電気機器を制御すること)や、不確実性(例えば、同じ部屋の複数のスイッチと照明)の場合に探索的な相互作用を少しだけ使うことで、これらの関係を推測するためにほとんど、あるいは全く努力を払わない。 本稿では,大規模シーン上でのトレーニングによる事前知識のモデリングと,トレーニングシーンを効果的に探索し,新規なテストシーンに迅速に適応するためのインタラクティブなポリシーを設計することによる,3次元屋内環境におけるAIシステム学習の相互機能的関係構築に向けた第一歩を踏み出す。 我々はAI2ThorとPartNetのデータセットに基づく新しいベンチマークを作成し、提案手法の有効性を証明する広範な実験を行う。 以上の結果から,複雑な3次元シーンにおける対象間の機能的関係を探索するための先行学習と高速対話型適応手法が得られた。 いくつかのアブレーション研究は、提案された各モジュールの有用性をさらに検証している。

Building embodied intelligent agents that can interact with 3D indoor environments has received increasing research attention in recent years. While most works focus on single-object or agent-object visual functionality and affordances, our work proposes to study a new kind of visual relationship that is also important to perceive and model -- inter-object functional relationships (e.g., a switch on the wall turns on or off the light, a remote control operates the TV). Humans often spend little or no effort to infer these relationships, even when entering a new room, by using our strong prior knowledge (e.g., we know that buttons control electrical devices) or using only a few exploratory interactions in cases of uncertainty (e.g., multiple switches and lights in the same room). In this paper, we take the first step in building AI system learning inter-object functional relationships in 3D indoor environments with key technical contributions of modeling prior knowledge by training over large-scale scenes and designing interactive policies for effectively exploring the training scenes and quickly adapting to novel test scenes. We create a new benchmark based on the AI2Thor and PartNet datasets and perform extensive experiments that prove the effectiveness of our proposed method. Results show that our model successfully learns priors and fast-interactive-adaptation strategies for exploring inter-object functional relationships in complex 3D scenes. Several ablation studies further validate the usefulness of each proposed module.
翻訳日:2021-12-14 01:05:14 公開日:2021-12-10
# (参考訳) ゼロショット不確実性を考慮した実世界ロボットのシミュレーション訓練政策の展開

Zero-Shot Uncertainty-Aware Deployment of Simulation Trained Policies on Real-World Robots ( http://arxiv.org/abs/2112.05299v1 )

ライセンス: CC BY 4.0
Krishan Rana, Vibhavari Dasagi, Jesse Haviland, Ben Talbot, MIchael Milford and Niko S\"underhauf(参考訳) 深層強化学習(RL)エージェントは、ロボット工学の巧妙な動作を達成できる素晴らしい可能性を示しているが、トレーニングと実行環境のミスマッチにより、現実世界にデプロイされた時にエラーを起こす傾向がある。 対照的に、古典的なロボティクスコミュニティは、明示的な導出によって現実世界のほとんどの州で安全に操作できるコントローラーを開発した。 しかし、これらのコントローラは解析的モデリングと近似の制限により複雑なタスクに必要なデキスタリティを欠いている。 本稿では,ディープrlポリシと従来のハンドクラフトコントローラの強みを組み合わせた,新たな不確実性対応型展開戦略であるベイズ制御融合(bcf)を提案する。 このフレームワークでは、不確実性に基づく定式化によって、ロボットは、学習したシステムのデクタリティを得ながら、手作りのコントローラを活用して、分散状態内で確実に動作することができる。 bcfは、スタンドアロンのポリシーとコントローラの両方よりも優れており、どちらも独立して達成できることを上回っています。 本システムを示す補足ビデオはhttps://bit.ly/bcf_deployで公開されている。

While deep reinforcement learning (RL) agents have demonstrated incredible potential in attaining dexterous behaviours for robotics, they tend to make errors when deployed in the real world due to mismatches between the training and execution environments. In contrast, the classical robotics community have developed a range of controllers that can safely operate across most states in the real world given their explicit derivation. These controllers however lack the dexterity required for complex tasks given limitations in analytical modelling and approximations. In this paper, we propose Bayesian Controller Fusion (BCF), a novel uncertainty-aware deployment strategy that combines the strengths of deep RL policies and traditional handcrafted controllers. In this framework, we can perform zero-shot sim-to-real transfer, where our uncertainty based formulation allows the robot to reliably act within out-of-distribution states by leveraging the handcrafted controller while gaining the dexterity of the learned system otherwise. We show promising results on two real-world continuous control tasks, where BCF outperforms both the standalone policy and controller, surpassing what either can achieve independently. A supplementary video demonstrating our system is provided at https://bit.ly/bcf_deploy.
翻訳日:2021-12-14 00:38:32 公開日:2021-12-10
# (参考訳) 時空間予測のための自己相関認識表現の構築

Building Autocorrelation-Aware Representations for Fine-Scale Spatiotemporal Prediction ( http://arxiv.org/abs/2112.05313v1 )

ライセンス: CC BY 4.0
Yijun Lin, Yao-Yi Chiang, Meredith Franklin, Sandrah P. Eckel, Jos\'e Luis Ambite(参考訳) 多くの科学的予測問題は、空間と時間の複雑な変動を扱う時空間データとモデリングに関連する課題を抱えている。 本稿では,これらの課題に対処するために,空間統計学の理論をニューラルネットワークに明示的に組み込んだ新しいディープラーニングアーキテクチャであるDeepLATTEを提案する。 特徴選択モジュールと時空間学習モジュールに加えて、DeepLATTEには、局所的な自己相関パターンと学習時空間における予測のグローバルな自己相関傾向の両方を強制する半教師付き学習戦略が含まれており、スパースと不均一な分散観測の制限を克服している。 トレーニングプロセスでは、監視と半監督の両方の損失が、ネットワーク全体の更新をガイドする。 1)過失を防止すること 2)精巧な特徴選択 3)有用な時空間表現を学び、 4) 全体的な予測を改善する。 我々は,公衆衛生の重要な話題である大気質予測のための公開データを用いて,ロサンゼルスの複雑な物理的環境において,deeplatteのデモンストレーションを行う。 実験により,提案手法は正確な空間的大気質予測を提供し,その結果に影響を及ぼす環境要因を明らかにする。

Many scientific prediction problems have spatiotemporal data- and modeling-related challenges in handling complex variations in space and time using only sparse and unevenly distributed observations. This paper presents a novel deep learning architecture, Deep learning predictions for LocATion-dependent Time-sEries data (DeepLATTE), that explicitly incorporates theories of spatial statistics into neural networks to address these challenges. In addition to a feature selection module and a spatiotemporal learning module, DeepLATTE contains an autocorrelation-guided semi-supervised learning strategy to enforce both local autocorrelation patterns and global autocorrelation trends of the predictions in the learned spatiotemporal embedding space to be consistent with the observed data, overcoming the limitation of sparse and unevenly distributed observations. During the training process, both supervised and semi-supervised losses guide the updates of the entire network to: 1) prevent overfitting, 2) refine feature selection, 3) learn useful spatiotemporal representations, and 4) improve overall prediction. We conduct a demonstration of DeepLATTE using publicly available data for an important public health topic, air quality prediction, in a well-studied, complex physical environment - Los Angeles. The experiment demonstrates that the proposed approach provides accurate fine-spatial-scale air quality predictions and reveals the critical environmental factors affecting the results.
翻訳日:2021-12-14 00:24:00 公開日:2021-12-10
# (参考訳) pmfl:異種課題に対する部分的メタフェデレート学習とその実世界医療記録への応用

PMFL: Partial Meta-Federated Learning for heterogeneous tasks and its applications on real-world medical records ( http://arxiv.org/abs/2112.05321v1 )

ライセンス: CC BY 4.0
Tianyi Zhang, Shirui Zhang, Ziwei Chen, Dianbo Liu(参考訳) フェデレーション機械学習は、特に通信技術が急速に発達し、最近のモバイルデバイスで前例のない量のデータが収集される場合に、さまざまなソースから分散データを活用するための多用途で柔軟なツールである。 フェデレーション学習法は、データだけでなく、ネットワーク内のすべてのデバイスの計算能力を活用し、より効率的なモデルトレーニングを実現する。 しかしながら、従来のフェデレーション学習手法は、同種データやタスクに対してうまく機能するが、異なる異種データやタスク分布にメソッドを適用することは困難である。 この制限は、現実世界のコンテキスト、特に医療環境での連合学習の応用を制限している。 本稿では,メタラーニングの基本的な考え方に触発されて,この課題に取り組むために,フェデレートラーニングとメタラーニングを統合した新しいアルゴリズムを提案する。 さらに,モデル一般化における伝達学習の利点から,部分的パラメータ共有を導入してアルゴリズムをさらに改良する。 本手法をPMFL(Partial Meta-federated Learning)と呼ぶ。 最後に、このアルゴリズムを2つの医療データセットに適用する。 我々は,異種医療データセットを扱う際に,アルゴリズムが最速のトレーニング速度を得ることができ,最高の性能が得られることを示す。

Federated machine learning is a versatile and flexible tool to utilize distributed data from different sources, especially when communication technology develops rapidly and an unprecedented amount of data could be collected on mobile devices nowadays. Federated learning method exploits not only the data but the computational power of all devices in the network to achieve more efficient model training. Nevertheless, while most traditional federated learning methods work well for homogeneous data and tasks, adapting the method to a different heterogeneous data and task distribution is challenging. This limitation has constrained the applications of federated learning in real-world contexts, especially in healthcare settings. Inspired by the fundamental idea of meta-learning, in this study we propose a new algorithm, which is an integration of federated learning and meta-learning, to tackle this issue. In addition, owing to the advantage of transfer learning for model generalization, we further improve our algorithm by introducing partial parameter sharing. We name this method partial meta-federated learning (PMFL). Finally, we apply the algorithms to two medical datasets. We show that our algorithm could obtain the fastest training speed and achieve the best performance when dealing with heterogeneous medical datasets.
翻訳日:2021-12-14 00:07:11 公開日:2021-12-10
# (参考訳) 分布外検出のための超次元特徴融合

Hyperdimensional Feature Fusion for Out-Of-Distribution Detection ( http://arxiv.org/abs/2112.05341v1 )

ライセンス: CC BY 4.0
Samuel Wilson, Niko S\"underhauf and Feras Dayoub(参考訳) 我々は超次元コンピューティングの強力なアイデアを、アウト・オブ・ディストリビューション(OOD)検出の挑戦分野に導入する。 ニューラルネットワークの単一層のみに基づいてOOD検出を行う既存の作業とは対照的に、類似性保存半直交射影行列を用いて複数の層から共通ベクトル空間に特徴写像を投影する。 バンドル操作を $\oplus$ で繰り返し適用することにより、すべての分散クラスに対して表現型クラス固有の記述子ベクトルを生成する。 テスト時、ディスクリプタベクトル間のcosine類似度計算は、現在の状態よりも優れた性能でoodサンプルを一貫して識別する。 本稿では,複数のネットワーク層の超次元融合が最良性能を達成する上で重要であることを示す。

We introduce powerful ideas from Hyperdimensional Computing into the challenging field of Out-of-Distribution (OOD) detection. In contrast to most existing work that performs OOD detection based on only a single layer of a neural network, we use similarity-preserving semi-orthogonal projection matrices to project the feature maps from multiple layers into a common vector space. By repeatedly applying the bundling operation $\oplus$, we create expressive class-specific descriptor vectors for all in-distribution classes. At test time, a simple and efficient cosine similarity calculation between descriptor vectors consistently identifies OOD samples with better performance than the current state-of-the-art. We show that the hyperdimensional fusion of multiple network layers is critical to achieve best general performance.
翻訳日:2021-12-13 23:48:34 公開日:2021-12-10
# (参考訳) 会話の絡み合いの発見

Findings on Conversation Disentanglement ( http://arxiv.org/abs/2112.05346v1 )

ライセンス: CC BY 4.0
Rongxin Zhu, Jey Han Lau, Jianzhong Qi(参考訳) 会話における異なるスレッドを識別するタスクである会話解離は、対話型質問応答や会話要約などの多人数会話型NLPアプリケーションにおいて重要な前処理ステップである。 発話から発話への分類問題(すなわち、興味の発話(UOI)を与えられた場合、どの発話が応答するかを判断する)として、多くのトランスフォーマーベースのモデルを調べ、手作りの特徴と組み合わせてBERTが強力なベースラインであることを発見した。 次に,発話間分類と発話間分類を共同で学習するマルチタスク学習モデルを構築した。 モデルが誤りを犯した際、基底真理ラベル(パスト発話)が上位候補にあることを確認し、二部グラフを後処理のステップとして使用して、UOIの集合を過去の発話にベストマッチする方法を学習する。 ubuntu ircデータセットにおける実験により、このアプローチは、各uoiの最も高い確率候補を個別に選択する従来の欲望アプローチに勝る可能性があり、将来有望な研究の方向性を示している。

Conversation disentanglement, the task to identify separate threads in conversations, is an important pre-processing step in multi-party conversational NLP applications such as conversational question answering and conversation summarization. Framing it as a utterance-to-utterance classification problem -- i.e. given an utterance of interest (UOI), find which past utterance it replies to -- we explore a number of transformer-based models and found that BERT in combination with handcrafted features remains a strong baseline. We then build a multi-task learning model that jointly learns utterance-to-utterance and utterance-to-thread classification. Observing that the ground truth label (past utterance) is in the top candidates when our model makes an error, we experiment with using bipartite graphs as a post-processing step to learn how to best match a set of UOIs to past utterances. Experiments on the Ubuntu IRC dataset show that this approach has the potential to outperform the conventional greedy approach of simply selecting the highest probability candidate for each UOI independently, indicating a promising future research direction.
翻訳日:2021-12-13 23:32:14 公開日:2021-12-10
# (参考訳) LUNAR: グラフニューラルネットワークによる局所外乱検出手法の統合

LUNAR: Unifying Local Outlier Detection Methods via Graph Neural Networks ( http://arxiv.org/abs/2112.05355v1 )

ライセンス: CC BY 4.0
Adam Goodge, Bryan Hooi, See Kiong Ng, Wee Siong Ng(参考訳) 多くの確立された異常検出手法は、サンプルからその近隣のサンプルまでの距離を使用する: lofやdbscanのようないわゆる「局所的異常検出法」である。 単純な原則と、多くの実用的なアプリケーションで一般的な、非構造化、機能ベースのデータでの強力なパフォーマンスで人気がある。 しかし、トレーニング可能なパラメータが不足しているため、特定のデータセットに適応することが学べない。 本稿では、グラフニューラルネットワークで使用されるより一般的なメッセージパッシングフレームワークの特別なケースであることを示すことにより、ローカルな外れ値メソッドを統一することから始める。 これにより、ニューラルネットワークの形式で学習可能性を導入し、柔軟性と表現性を向上する。具体的には、グラフニューラルネットワークに基づく新しい異常検出手法であるLUNARを提案する。 LUNARは、各ノードの最も近い隣人から、トレーニング可能な方法で情報を使用して異常を見つけることを学ぶ。 本手法は,既存の局所的外れ値法や最先端の深層ベースラインよりもかなり優れた性能を示す。 また,提案手法の性能は,地域住民の大きさの異なる設定に対してはるかに頑健であることを示した。

Many well-established anomaly detection methods use the distance of a sample to those in its local neighbourhood: so-called `local outlier methods', such as LOF and DBSCAN. They are popular for their simple principles and strong performance on unstructured, feature-based data that is commonplace in many practical applications. However, they cannot learn to adapt for a particular set of data due to their lack of trainable parameters. In this paper, we begin by unifying local outlier methods by showing that they are particular cases of the more general message passing framework used in graph neural networks. This allows us to introduce learnability into local outlier methods, in the form of a neural network, for greater flexibility and expressivity: specifically, we propose LUNAR, a novel, graph neural network-based anomaly detection method. LUNAR learns to use information from the nearest neighbours of each node in a trainable way to find anomalies. We show that our method performs significantly better than existing local outlier methods, as well as state-of-the-art deep baselines. We also show that the performance of our method is much more robust to different settings of the local neighbourhood size.
翻訳日:2021-12-13 23:16:59 公開日:2021-12-10
# (参考訳) トランスフォーマーの人間解釈と自己意識パターンの爆発 : 抽出的要約を事例として

Human Interpretation and Exploitation of Self-attention Patterns in Transformers: A Case Study in Extractive Summarization ( http://arxiv.org/abs/2112.05364v1 )

ライセンス: CC BY 4.0
Raymond Li, Wen Xiao, Lanjun Wang, Giuseppe Carenini(参考訳) 変圧器のマルチヘッド自己保持機構は近年, 徹底的に研究されている。 一方、研究者はトランスフォーマーの動作の理由と仕組みを理解することに興味を持っている。 一方, 変圧器をより正確, 効率的, 解釈可能なものにするための新しい注意増強手法を提案する。 本稿では,これら2つの研究をループ内パイプラインで統合し,タスク固有の注意パターンを最初に発見する。 そして、これらのパターンは、元のモデルだけでなく、より小さなモデルにも、人間誘導の知識蒸留プロセスとして適用されます。 このパイプラインの利点は,抽出的要約タスクを用いたケーススタディで実証された。 一般的なbertsumモデルで3つの有意義な注意パターンを見つけた後、実験では、そのようなパターンを注入すると、オリジナルモデルと小さなモデルの両方がパフォーマンスと間違いなく解釈性が向上することを示している。

The transformer multi-head self-attention mechanism has been thoroughly investigated recently. On one hand, researchers are interested in understanding why and how transformers work. On the other hand, they propose new attention augmentation methods to make transformers more accurate, efficient and interpretable. In this paper, we synergize these two lines of research in a human-in-the-loop pipeline to first find important task-specific attention patterns. Then those patterns are applied, not only to the original model, but also to smaller models, as a human-guided knowledge distillation process. The benefits of our pipeline are demonstrated in a case study with the extractive summarization task. After finding three meaningful attention patterns in the popular BERTSum model, experiments indicate that when we inject such patterns, both the original and the smaller model show improvements in performance and arguably interpretability.
翻訳日:2021-12-13 23:05:22 公開日:2021-12-10
# (参考訳) リニアコンテクストバンディットに対する効率的な行動中毒攻撃

Efficient Action Poisoning Attacks on Linear Contextual Bandits ( http://arxiv.org/abs/2112.05367v1 )

ライセンス: CC BY 4.0
Guanlin Liu and Lifeng Lai(参考訳) コンテキストバンディットアルゴリズムは様々なシナリオで多くの応募者を持つ。 信頼できるコンテキストバンディットシステムを開発するためには,コンテキストバンディットアルゴリズムに対する様々な敵の攻撃の影響を理解することが不可欠である。 本稿では,エージェントが選択した行動信号を敵が変更できる行動中毒攻撃という,新たな攻撃方法を提案する。 我々は,ホワイトボックスとブラックボックスの両方の設定において,線形文脈バンディットアルゴリズムに対する行動中毒攻撃スキームを設計する。 我々はさらに、非常に人気があり広く使われているバンディットアルゴリズムLinUCBの攻撃戦略のコストを分析する。 ホワイトボックスとブラックボックスの両方の設定において、提案された攻撃方式により、linucbエージェントは対数コストのみを使用してターゲットアームを非常に頻繁に引っ張ることができる。

Contextual bandit algorithms have many applicants in a variety of scenarios. In order to develop trustworthy contextual bandit systems, understanding the impacts of various adversarial attacks on contextual bandit algorithms is essential. In this paper, we propose a new class of attacks: action poisoning attacks, where an adversary can change the action signal selected by the agent. We design action poisoning attack schemes against linear contextual bandit algorithms in both white-box and black-box settings. We further analyze the cost of the proposed attack strategies for a very popular and widely used bandit algorithm: LinUCB. We show that, in both white-box and black-box settings, the proposed attack schemes can force the LinUCB agent to pull a target arm very frequently by spending only logarithm cost.
翻訳日:2021-12-13 22:48:48 公開日:2021-12-10
# (参考訳) 画像からビデオへのクロスモーダル転送可能な広告攻撃

Cross-Modal Transferable Adversarial Attacks from Images to Videos ( http://arxiv.org/abs/2112.05379v1 )

ライセンス: CC BY 4.0
Zhipeng Wei, Jingjing Chen, Zuxuan Wu, Yu-Gang Jiang(参考訳) 近年の研究では、あるホワイトボックスモデルで手作りされた敵の例は、他のブラックボックスモデルを攻撃するために使用できることが示されている。 このようなクロスモデル転送性は、実際のDNNアプリケーションに対するセキュリティ上の懸念を生じさせるブラックボックス攻撃の実行を可能にする。 それにもかかわらず、既存の研究は主に、入力データの同じモダリティを共有する異なる深層モデル間での逆転送可能性の調査に重点を置いている。 逆摂動の交叉モーダル伝達性は研究されていない。 本稿では,ホワイトボックス画像モデル上で発生する逆摂動を利用して,ブラックボックスビデオモデルに対して,異なるモダリティにまたがる逆摂動の伝達可能性について検討する。 具体的には,画像と映像フレーム間の低レベル特徴空間が類似していることに着目し,画像対ビデオ攻撃(image to video (i2v) attack)という,単純かつ効果的なクロスモーダル攻撃手法を提案する。 I2Vは、事前訓練された画像モデルの特徴と良質な例とのコサイン類似性を最小化し、生成した逆フレームを組み合わせて、ビデオ認識モデルに対するブラックボックス攻撃を行う。 広範な実験により、i2vは様々なブラックボックスビデオ認識モデルにおいて高い攻撃成功率を達成できることが示されている。 Kinetics-400とUCF-101では、I2Vはそれぞれ77.88%と65.68%の平均攻撃成功率を達成しており、これは対向攻撃の可能性に光を当てている。

Recent studies have shown that adversarial examples hand-crafted on one white-box model can be used to attack other black-box models. Such cross-model transferability makes it feasible to perform black-box attacks, which has raised security concerns for real-world DNNs applications. Nevertheless, existing works mostly focus on investigating the adversarial transferability across different deep models that share the same modality of input data. The cross-modal transferability of adversarial perturbation has never been explored. This paper investigates the transferability of adversarial perturbation across different modalities, i.e., leveraging adversarial perturbation generated on white-box image models to attack black-box video models. Specifically, motivated by the observation that the low-level feature space between images and video frames are similar, we propose a simple yet effective cross-modal attack method, named as Image To Video (I2V) attack. I2V generates adversarial frames by minimizing the cosine similarity between features of pre-trained image models from adversarial and benign examples, then combines the generated adversarial frames to perform black-box attacks on video recognition models. Extensive experiments demonstrate that I2V can achieve high attack success rates on different black-box video recognition models. On Kinetics-400 and UCF-101, I2V achieves an average attack success rate of 77.88% and 65.68%, respectively, which sheds light on the feasibility of cross-modal adversarial attacks.
翻訳日:2021-12-13 21:58:39 公開日:2021-12-10
# (参考訳) 補助変数ネットワークを用いた残差ネットワークの層並列学習

Layer-Parallel Training of Residual Networks with Auxiliary-Variable Networks ( http://arxiv.org/abs/2112.05387v1 )

ライセンス: CC BY 4.0
Qi Sun, Hexin Dong, Zewei Chen, Jiacheng Sun, Zhenguo Li and Bin Dong(参考訳) 残差ネットワーク(resnet)の分散トレーニングのための勾配ベースの方法は、一般的に入力データの前方パスが必要であり、その後モデルパラメータを更新するためにエラー勾配をバックプロパゲーションする。 アルゴリズム的なロックを壊し、前方モードと後方モードの両方で同期モジュール並列性を利用するため、補助変数法は近年多くの関心を集めているが、通信オーバーヘッドとデータ拡張の欠如に苦しめられている。 本研究では、外部補助変数の格納と再計算をトレードオフすることで、複数の計算装置間で現実的なResNetをトレーニングするための新しい共同学習フレームワークを確立する。 より具体的には、各独立プロセッサの入力データをその低容量補助ネットワーク(auxnet)から生成し、データ拡張の使用を許可し、前方アンロックを実現する。 後戻りパスは並列に実行され、それぞれがペナルティまたは拡張ラグランジアン(AL)メソッドに由来する局所的な損失関数を持つ。 最後に、改良された補助変数をエンドツーエンドのトレーニングプロセスを通じて再現するために、提案するauxnetを用いる。 提案手法は,cifar-10,cifar-100,imagenetデータセットにまたがるresnetとより広いesnetに対して有効であることを示す。

Gradient-based methods for the distributed training of residual networks (ResNets) typically require a forward pass of the input data, followed by back-propagating the error gradient to update model parameters, which becomes time-consuming as the network goes deeper. To break the algorithmic locking and exploit synchronous module parallelism in both the forward and backward modes, auxiliary-variable methods have attracted much interest lately but suffer from significant communication overhead and lack of data augmentation. In this work, a novel joint learning framework for training realistic ResNets across multiple compute devices is established by trading off the storage and recomputation of external auxiliary variables. More specifically, the input data of each independent processor is generated from its low-capacity auxiliary network (AuxNet), which permits the use of data augmentation and realizes forward unlocking. The backward passes are then executed in parallel, each with a local loss function that originates from the penalty or augmented Lagrangian (AL) methods. Finally, the proposed AuxNet is employed to reproduce the updated auxiliary variables through an end-to-end training process. We demonstrate the effectiveness of our methods on ResNets and WideResNets across CIFAR-10, CIFAR-100, and ImageNet datasets, achieving speedup over the traditional layer-serial training method while maintaining comparable testing accuracy.
翻訳日:2021-12-13 21:45:55 公開日:2021-12-10
# (参考訳) 運転スタイルに基づく生成的車追従モデル

A Generative Car-following Model Conditioned On Driving Styles ( http://arxiv.org/abs/2112.05399v1 )

ライセンス: CC BY 4.0
Yifan Zhang, Xinhong Chen, Jianping Wang, Zuduo Zheng, Kui Wu(参考訳) 自動車追跡(CF)モデリングは、人間のCF行動のシミュレーションに不可欠な要素であり、過去数十年で研究の関心が高まりつつある。 本稿では,動的な人間のcf動作を特徴付けるための高精度な生成ハイブリッドcfモデルを提案し,任意の観察された,あるいは観測されていない運転スタイルに対して現実的なcf動作を生成する。 具体的には、インテリジェントドライバモデル(IDM)を時間変化パラメータで設計し、校正することで、人間のCF動作を正確に捉えることができる。 その理由は、そのような時間変化パラメータがドライバー間の異質性、すなわちドライバ間の異質性、ドライバ間の異質性、すなわち同じドライバの駆動スタイルを変えることができるからである。 神経過程(np)モデルを適用することで、任意の観察された駆動スタイルの現実的な人間のcf行動を生成することができる。 キャリブレーションされた時間変化IDMパラメータとNPの中間変数の関係を探索することにより、未観測運転スタイルのCF挙動を推定する能力を支持する。 提案モデルの有効性を示すため, CFモデルパラメータの校正, CF挙動予測, 異なる運転スタイルの軌道シミュレーションなど, 広範囲な実験と比較を行った。

Car-following (CF) modeling, an essential component in simulating human CF behaviors, has attracted increasing research interest in the past decades. This paper pushes the state of the art by proposing a novel generative hybrid CF model, which achieves high accuracy in characterizing dynamic human CF behaviors and is able to generate realistic human CF behaviors for any given observed or even unobserved driving style. Specifically, the ability of accurately capturing human CF behaviors is ensured by designing and calibrating an Intelligent Driver Model (IDM) with time-varying parameters. The reason behind is that such time-varying parameters can express both the inter-driver heterogeneity, i.e., diverse driving styles of different drivers, and the intra-driver heterogeneity, i.e., changing driving styles of the same driver. The ability of generating realistic human CF behaviors of any given observed driving style is achieved by applying a neural process (NP) based model. The ability of inferring CF behaviors of unobserved driving styles is supported by exploring the relationship between the calibrated time-varying IDM parameters and an intermediate variable of NP. To demonstrate the effectiveness of our proposed models, we conduct extensive experiments and comparisons, including CF model parameter calibration, CF behavior prediction, and trajectory simulation for different driving styles.
翻訳日:2021-12-13 21:44:42 公開日:2021-12-10
# (参考訳) Large Labelled Logo Dataset (L3D):多目的・手作り連続成長データセット

The Large Labelled Logo Dataset (L3D): A Multipurpose and Hand-Labelled Continuously Growing Dataset ( http://arxiv.org/abs/2112.05404v1 )

ライセンス: CC BY 4.0
Asier Guti\'errez-Fandi\~no, David P\'erez-Fern\'andez, Jordi Armengol-Estap\'e(参考訳) 本稿では,多目的・手書き・連続的に拡大するデータセットである,l3d(large labelled logo dataset)を提案する。 欧州知的財産庁(euipo)のオープンレジストリから抽出された約770kの256x256 rgb画像で構成されている。 それぞれのラベルは、画像に現れる図形要素とテキスト要素を分類する複数のラベルに関連付けられている。 これらの注釈はウィーン分類 (ウィーン分類) を用いてeuipo評価者によって分類されている。 このデータセットの2つの直接的な応用、すなわちロゴ分類とロゴ生成を提案する。

In this work, we present the Large Labelled Logo Dataset (L3D), a multipurpose, hand-labelled, continuously growing dataset. It is composed of around 770k of color 256x256 RGB images extracted from the European Union Intellectual Property Office (EUIPO) open registry. Each of them is associated to multiple labels that classify the figurative and textual elements that appear in the images. These annotations have been classified by the EUIPO evaluators using the Vienna classification, a hierarchical classification of figurative marks. We suggest two direct applications of this dataset, namely, logo classification and logo generation.
翻訳日:2021-12-13 21:29:31 公開日:2021-12-10
# (参考訳) 異常検出のためのマルチメディアデータセット:調査

Multimedia Datasets for Anomaly Detection: A Survey ( http://arxiv.org/abs/2112.05410v1 )

ライセンス: CC BY 4.0
Pratibha Kumari, Anterpreet Kaur Bedi, Mukesh Saini(参考訳) マルチメディア異常データセットは、自動監視において重要な役割を果たす。 それらは、外部のオブジェクト/状況検出から生命を脅かす事象の検出まで、幅広いアプリケーションを持っている。 この分野は15年以上にわたって大きな研究関心を集めており、その結果、異常なアクションやオブジェクト検出に特化したデータセットがますます多く作成されている。 これらの公開異常データセットをタップすることで、研究者は、同じ入力データと様々な異常検出フレームワークを生成および比較することができる。 本稿では, 様々な映像, 音声, および, 異常検出の応用に基づく音声・視覚データセットに関する包括的調査を行う。 この調査は、異常検出に基づくマルチメディア公開データセットの包括的比較と分析の欠如に対処することを目的としている。 また、ベンチマーキングフレームワークで最高のデータセットを選択する研究者を支援することもできる。 さらに,既存のデータセットにおけるギャップと,マルチモーダル異常検出データセット開発に向けた今後の方向性について考察する。

Multimedia anomaly datasets play a crucial role in automated surveillance. They have a wide range of applications expanding from outlier object/ situation detection to the detection of life-threatening events. This field is receiving a huge level of research interest for more than 1.5 decades, and consequently, more and more datasets dedicated to anomalous actions and object detection have been created. Tapping these public anomaly datasets enable researchers to generate and compare various anomaly detection frameworks with the same input data. This paper presents a comprehensive survey on a variety of video, audio, as well as audio-visual datasets based on the application of anomaly detection. This survey aims to address the lack of a comprehensive comparison and analysis of multimedia public datasets based on anomaly detection. Also, it can assist researchers in selecting the best available dataset for bench-marking frameworks. Additionally, we discuss gaps in the existing dataset and future direction insights towards developing multimodal anomaly detection datasets.
翻訳日:2021-12-13 21:24:18 公開日:2021-12-10
# (参考訳) オンライングラフ探索手法のロバスト化

Robustification of Online Graph Exploration Methods ( http://arxiv.org/abs/2112.05422v1 )

ライセンス: CC BY 4.0
Franziska Eberle, Alexander Lindermayr, Nicole Megow, Lukas N\"olke, Jens Schl\"oter(参考訳) 未知環境の探索は、ロボットナビゲーション、ネットワークセキュリティ、インターネット検索など、多くの領域における基本的なタスクである。 我々は、機械学習による予測へのアクセスを追加することで、古典的かつ悪名高いオンライングラフ探索問題の研究を開始する。 提案アルゴリズムは、予測をよく知られたNearest Neighbor(NN)アルゴリズムに自然に統合し、予測精度が高ければ既知のオンラインアルゴリズムを著しく上回り、予測品質が劣る場合には良好な保証を維持する。 予測誤差で優雅に劣化する理論的最悪ケース境界を提供し,結果を確認する計算実験によって補完する。 さらに、アルゴリズムを堅牢化するための汎用フレームワークまで、概念を拡張します。 与えられたアルゴリズムとnnを慎重に補間することにより、任意の入力に対する堅牢性を確立しつつ、特定の入力に対する個々の優れた性能を活用する新しい性能限界を証明できる。

Exploring unknown environments is a fundamental task in many domains, e.g., robot navigation, network security, and internet search. We initiate the study of a learning-augmented variant of the classical, notoriously hard online graph exploration problem by adding access to machine-learned predictions. We propose an algorithm that naturally integrates predictions into the well-known Nearest Neighbor (NN) algorithm and significantly outperforms any known online algorithm if the prediction is of high accuracy while maintaining good guarantees when the prediction is of poor quality. We provide theoretical worst-case bounds that gracefully degrade with the prediction error, and we complement them by computational experiments that confirm our results. Further, we extend our concept to a general framework to robustify algorithms. By interpolating carefully between a given algorithm and NN, we prove new performance bounds that leverage the individual good performance on particular inputs while establishing robustness to arbitrary inputs.
翻訳日:2021-12-13 21:23:09 公開日:2021-12-10
# (参考訳) 将来の街路計画のための強化学習に基づく適応制御モデル、アルゴリズムおよびケーススタディ

A Reinforcement Learning-based Adaptive Control Model for Future Street Planning, An Algorithm and A Case Study ( http://arxiv.org/abs/2112.05434v1 )

ライセンス: CC BY 4.0
Qiming Ye, Yuxiang Feng, Jing Han, Marc Stettler, Panagiotis Angeloudis(参考訳) インテリジェントトランスポーテーションシステム(ITS)の新興技術により、道路空間の適応運転は数十年以内に実現される可能性が高い。 インテリジェントな通りは、道路利用者のための右道(ROW)における意思決定を学習し、改善し、交通安全と効率を保ちながら、よりアクティブな歩行者スペースを解放することができる。 しかし、これらの適応的な道路インフラには効果的な制御技術がない。 既存の研究におけるこのギャップを埋めるために、マルコフゲームとしてこの制御問題を定式化し、マルチエージェントのDeep Deterministic Policy Gradient(MADDPG)アルゴリズムに基づくソリューションを開発する。 提案モデルでは, 歩道, 自動運転車 (AV) 走行車線, 路上駐車場をリアルタイムで動的に割り当てることができる。 南ケンジントン地区の道路ネットワークを用いて, 歩行者流速, AVs交通流量, 駐車需要の3つの異なる交通条件に対して, SUMO交通シミュレータと統合して評価した。 その結果,路上駐車と車両運転に割り当てられた街路空間では,平均3.87%,6.26%の削減が達成できた。 走行車線数を制限することで得られるスペースと組み合わさって、歩道の幅と道路の幅の平均比率は10.13%増加する。

With the emerging technologies in Intelligent Transportation System (ITS), the adaptive operation of road space is likely to be realised within decades. An intelligent street can learn and improve its decision-making on the right-of-way (ROW) for road users, liberating more active pedestrian space while maintaining traffic safety and efficiency. However, there is a lack of effective controlling techniques for these adaptive street infrastructures. To fill this gap in existing studies, we formulate this control problem as a Markov Game and develop a solution based on the multi-agent Deep Deterministic Policy Gradient (MADDPG) algorithm. The proposed model can dynamically assign ROW for sidewalks, autonomous vehicles (AVs) driving lanes and on-street parking areas in real-time. Integrated with the SUMO traffic simulator, this model was evaluated using the road network of the South Kensington District against three cases of divergent traffic conditions: pedestrian flow rates, AVs traffic flow rates and parking demands. Results reveal that our model can achieve an average reduction of 3.87% and 6.26% in street space assigned for on-street parking and vehicular operations. Combined with space gained by limiting the number of driving lanes, the average proportion of sidewalks to total widths of streets can significantly increase by 10.13%.
翻訳日:2021-12-13 20:58:42 公開日:2021-12-10
# (参考訳) 平行パンケーキを超えて:非球面ガウス混合に対する準多項時間保証

Beyond Parallel Pancakes: Quasi-Polynomial Time Guarantees for Non-Spherical Gaussian Mixtures ( http://arxiv.org/abs/2112.05445v1 )

ライセンス: CC BY 4.0
Rares-Darius Buhai, David Steurer(参考訳) k\geq 2$ Gaussian 成分と未知の手段と未知の共分散(すべての成分について同一視される)の混合を考える、すなわち、異なる成分は、十分大きな定数 $C\ge 1$ に対して、最大$k^{-C}$ で統計的重複を持つ。 従来の統計的クエリの下限 [DKS17] は、そのような混合を(純粋な)ガウスと区別しても指数関数的に難しい($k$)という公式な証拠を与える。 このような硬さは, 混合重量が指数関数的に小さい場合にのみ出現し, 多項式的に低い有界混合重量の場合, 非自明なアルゴリズム保証は準多項式時間で可能であることを示す。 具体的には,最小混合重量の時間準多項式を用いた2乗法に基づくアルゴリズムを開発した。 このアルゴリズムは、$k\ge 2$ well-separated Gaussian componentと(純粋な)ガウス分布の混合を確実に区別することができる。 証明として、アルゴリズムは、2つの混合成分を分離する入力サンプルの2分割、すなわち、2分割の両側は少なくとも1つのコンポーネントのサンプルポイントのほとんどを含む。 共線形平均の特別な場合、このアルゴリズムは、混合の成分とほぼ一致する入力サンプルの$k$クラスタリングを出力する。 本研究の課題は, ガウス混合物の従来の結果と異なり, 正反対の外れ値に本質的に敏感であると考えられる点である。 この理由は、多項式的に低い有界混合重みを持つ混合の場合であっても、指数関数的に小さな混合重みをシミュレートできるからである。 重要な技術的要素は、最小混合重みで慎重に選択された2つの階数対数モーメントに対応する多項式の比で、うまく分離されたガウス成分の方向を分離する特性である。

We consider mixtures of $k\geq 2$ Gaussian components with unknown means and unknown covariance (identical for all components) that are well-separated, i.e., distinct components have statistical overlap at most $k^{-C}$ for a large enough constant $C\ge 1$. Previous statistical-query lower bounds [DKS17] give formal evidence that even distinguishing such mixtures from (pure) Gaussians may be exponentially hard (in $k$). We show that this kind of hardness can only appear if mixing weights are allowed to be exponentially small, and that for polynomially lower bounded mixing weights non-trivial algorithmic guarantees are possible in quasi-polynomial time. Concretely, we develop an algorithm based on the sum-of-squares method with running time quasi-polynomial in the minimum mixing weight. The algorithm can reliably distinguish between a mixture of $k\ge 2$ well-separated Gaussian components and a (pure) Gaussian distribution. As a certificate, the algorithm computes a bipartition of the input sample that separates a pair of mixture components, i.e., both sides of the bipartition contain most of the sample points of at least one component. For the special case of colinear means, our algorithm outputs a $k$ clustering of the input sample that is approximately consistent with the components of the mixture. A significant challenge for our results is that they appear to be inherently sensitive to small fractions of adversarial outliers unlike most previous results for Gaussian mixtures. The reason is that such outliers can simulate exponentially small mixing weights even for mixtures with polynomially lower bounded mixing weights. A key technical ingredient is a characterization of separating directions for well-separated Gaussian components in terms of ratios of polynomials that correspond to moments of two carefully chosen orders logarithmic in the minimum mixing weight.
翻訳日:2021-12-13 20:46:24 公開日:2021-12-10
# (参考訳) 自然言語特徴に基づく回答候補フィルタリングによる質問応答品質の向上

Improving the Question Answering Quality using Answer Candidate Filtering based on Natural-Language Features ( http://arxiv.org/abs/2112.05452v1 )

ライセンス: CC BY 4.0
Aleksandr Gashkov, Aleksandr Perevalov, Maria Eltsova, Andreas Both(参考訳) 自然言語のユーザインタフェースを持つソフトウェアは、ますます重要になっている。 しかし、適切な回答を受けた質問の数に関して、包括的質問応答(qa)機能の品質は依然として不十分である。 本研究では,自然言語入力(つまり,ユーザの質問)と出力(すなわち,システムの回答)を評価することによって,与えられたシステムのqa品質がどのように改善されるかという研究課題に対処する。 私たちの主な貢献は、QAシステムが提供する間違った回答を識別できるアプローチです。 したがって、答え候補のリストから誤った回答をフィルタリングすることは、高い品質のQAにつながる。 特に, 提案手法は, 誤答の大部分を除去しつつもその可能性を示し, システムの非フィルタ出力と比較してQA品質を著しく向上させる。

Software with natural-language user interfaces has an ever-increasing importance. However, the quality of the included Question Answering (QA) functionality is still not sufficient regarding the number of questions that are answered correctly. In our work, we address the research problem of how the QA quality of a given system can be improved just by evaluating the natural-language input (i.e., the user's question) and output (i.e., the system's answer). Our main contribution is an approach capable of identifying wrong answers provided by a QA system. Hence, filtering incorrect answers from a list of answer candidates is leading to a highly improved QA quality. In particular, our approach has shown its potential while removing in many cases the majority of incorrect answers, which increases the QA quality significantly in comparison to the non-filtered output of a system.
翻訳日:2021-12-13 20:44:59 公開日:2021-12-10
# (参考訳) ノイズとぼやきによるカメラ状態のモニタリングと再調整

Camera Condition Monitoring and Readjustment by means of Noise and Blur ( http://arxiv.org/abs/2112.05456v1 )

ライセンス: CC BY-SA 4.0
Maik Wischow and Guillermo Gallego and Ines Ernst and Anko B\"orner(参考訳) 自動運転車とロボットは、現代のタスクの要求を満たすために、ますます堅牢さと信頼性を必要としている。 これらの要件は、特にカメラに当てはまる。それは、環境やサポートアクションに関する情報を取得するための主要なセンサーである。 カメラは適切な機能を維持し、必要に応じて自動的な対策を講じなければならない。 しかし、カメラの一般的な状態監視手法の実用化や、監視された高レベルアプリケーションのコンテキストにおける対策について検討する作業はほとんどない。 本稿では,データおよび物理モデルに基づくカメラの汎用的かつ解釈可能な自己維持フレームワークを提案する。 そこで我々は,従来型と再学習型機械学習によるアプローチを広範囲な実験で比較することにより,カメラの映像効果の信頼性とリアルタイム性を評価する2つの手法(デフォーカスボケ,モーションボケ,ノイズ現象,および最も一般的な組み合わせ)を決定する。 さらに,カメラパラメータ(露出時間やiso利得など)を調整して,オブジェクト検出,モーションボケ,センサノイズを例として,実験的(非線形,非単調)入出力性能曲線に基づく最適システム機能を実現する方法を示す。 我々のフレームワークは、カメラの健康を評価・維持するための実用的な準備可能なソリューションを提供するだけでなく、完全な信頼性と堅牢なマシンを達成するために、追加のデータソース(センサや環境パラメータなど)を経験的に組み合わせた、より高度な問題に対処するための基盤としても機能する。

Autonomous vehicles and robots require increasingly more robustness and reliability to meet the demands of modern tasks. These requirements specially apply to cameras because they are the predominant sensors to acquire information about the environment and support actions. A camera must maintain proper functionality and take automatic countermeasures if necessary. However, there is little work that examines the practical use of a general condition monitoring approach for cameras and designs countermeasures in the context of an envisaged high-level application. We propose a generic and interpretable self-health-maintenance framework for cameras based on data- and physically-grounded models. To this end, we determine two reliable, real-time capable estimators for typical image effects of a camera in poor condition (defocus blur, motion blur, different noise phenomena and most common combinations) by comparing traditional and retrained machine learning-based approaches in extensive experiments. Furthermore, we demonstrate how one can adjust the camera parameters (e.g., exposure time and ISO gain) to achieve optimal whole-system capability based on experimental (non-linear and non-monotonic) input-output performance curves, using object detection, motion blur and sensor noise as examples. Our framework not only provides a practical ready-to-use solution to evaluate and maintain the health of cameras, but can also serve as a basis for extensions to tackle more sophisticated problems that combine additional data sources (e.g., sensor or environment parameters) empirically in order to attain fully reliable and robust machines.
翻訳日:2021-12-13 20:27:33 公開日:2021-12-10
# (参考訳) ブラジルポルトガル語ユーザレビューの感性分析

Sentiment Analysis on Brazilian Portuguese User Reviews ( http://arxiv.org/abs/2112.05459v1 )

ライセンス: CC BY-SA 4.0
Frederico Souza, Jo\~ao Filho(参考訳) 感性分析は、最も古典的で主に研究されている自然言語処理タスクの1つである。 この問題は、より複雑でスケーラブルな機械学習モデルの提案によって顕著な進歩を遂げた。 この進展にもかかわらず、ブラジルポルトガル語は、感情分類に特化したデータセットのような限られた言語資源のみを処分し、特にトレーニング、テスト、検証セットにおける事前定義された分割の存在を考慮して、異なるアルゴリズムの代替品をより公平に比較することができる。 これらの課題に触発され、本研究は、システム結果の極性を仮定して、様々な文書埋め込み戦略の予測性能を分析する。 この分析には、単一のデータセットに統一されたブラジルポルトガル語の5つの感情分析データセットと、トレーニング、テスト、検証セットの参照パーティショニングが含まれている。 異なるコンテキストにおけるデータセット固有のモデルの相互評価を行い、その一般化能力と、すべてのシナリオに固有のモデルを適用する可能性を評価する。

Sentiment Analysis is one of the most classical and primarily studied natural language processing tasks. This problem had a notable advance with the proposition of more complex and scalable machine learning models. Despite this progress, the Brazilian Portuguese language still disposes only of limited linguistic resources, such as datasets dedicated to sentiment classification, especially when considering the existence of predefined partitions in training, testing, and validation sets that would allow a more fair comparison of different algorithm alternatives. Motivated by these issues, this work analyzes the predictive performance of a range of document embedding strategies, assuming the polarity as the system outcome. This analysis includes five sentiment analysis datasets in Brazilian Portuguese, unified in a single dataset, and a reference partitioning in training, testing, and validation sets, both made publicly available through a digital repository. A cross-evaluation of dataset-specific models over different contexts is conducted to evaluate their generalization capabilities and the feasibility of adopting a unique model for addressing all scenarios.
翻訳日:2021-12-13 20:03:43 公開日:2021-12-10
# (参考訳) 代理データ強化物理対応ニューラルネットワーク

Surrogate-data-enriched Physics-Aware Neural Networks ( http://arxiv.org/abs/2112.05489v1 )

ライセンス: CC BY 4.0
Raphael Leiteritz, Patrick Buchfink, Bernard Haasdonk, Dirk Pfl\"uger(参考訳) ニューラルネットワークはPDEモデルのサロゲートとして使用できる。 基礎となる方程式をペナルタイズしたり、訓練中に損失関数の物理的性質を保存したりすることで、物理学的に認識することができる。 現在のアプローチでは、トレーニングプロセスにおける数値シミュレーションや実験のデータも参照できる。 しかし、このデータは得るのにしばしば費用がかかり、複雑なモデルでしか利用できない。 本研究では,低次モデル (roms) など他のサロゲートモデルから得られたデータを用いて,物理認識モデルが計算量的に安価だが不正確であることを示す。 低忠実度なサロゲートソリューションを信頼しすぎるのを避けるため、不正確データのエラーに敏感なアプローチを開発します。 概念実証として, 1次元波動方程式を考察し, ROMからの不正確なデータが組み込まれた場合, トレーニング精度が2桁に向上することを示す。

Neural networks can be used as surrogates for PDE models. They can be made physics-aware by penalizing underlying equations or the conservation of physical properties in the loss function during training. Current approaches allow to additionally respect data from numerical simulations or experiments in the training process. However, this data is frequently expensive to obtain and thus only scarcely available for complex models. In this work, we investigate how physics-aware models can be enriched with computationally cheaper, but inexact, data from other surrogate models like Reduced-Order Models (ROMs). In order to avoid trusting too-low-fidelity surrogate solutions, we develop an approach that is sensitive to the error in inexact data. As a proof of concept, we consider the one-dimensional wave equation and show that the training accuracy is increased by two orders of magnitude when inexact data from ROMs is incorporated.
翻訳日:2021-12-13 19:52:08 公開日:2021-12-10
# (参考訳) あなたのRLポリシーはどの程度プライベートか? 逆rlに基づく解析フレームワーク

How Private Is Your RL Policy? An Inverse RL Based Analysis Framework ( http://arxiv.org/abs/2112.05495v1 )

ライセンス: CC0 1.0
Kritika Prakash, Fiza Husain, Praveen Paruchuri, Sujit P. Gujar(参考訳) 強化学習(RL)により、エージェントはスクラッチから様々なタスクを実行する方法を学ぶことができる。 自動運転やレコメンデーションシステムといったドメインでは、学習した最適なRLポリシーは、ポリシーが個人の報酬の一部を記憶している場合、プライバシー侵害を引き起こす可能性がある。 本稿では、値反復、ディープQネットワーク、Vanilla Proximal Policy Optimizationなどの様々なRLアルゴリズムから導かれる既存の微分プライベートなRLポリシーの集合について検討する。 本稿では,プライバシを意識した新しい逆rl(pril)分析フレームワークを提案する。 そこで本研究では,逆rlアルゴリズムを用いて,プライバシ保護ポリシーから元の報酬を再構成することを目的とした報酬再構成攻撃を提案する。 エージェントが厳密な私的ポリシーを使用する場合、相手は元の報酬関数の再構築をうまく行わなければならない。 このフレームワークを用いて、様々な複雑さを持つFrozenLakeドメインの複数のインスタンス上で、プライベートアルゴリズムによって提供されるプライバシー保証の有効性を実証的に検証する。 実施した分析に基づいて,現在のプライバシ標準と,rlの報酬機能を保護するために必要なプライバシ標準とのギャップを推定する。 我々は,各個人政策が報酬機能を保護する程度を,オリジナルと再構築報酬の距離を計測することにより定量化する。

Reinforcement Learning (RL) enables agents to learn how to perform various tasks from scratch. In domains like autonomous driving, recommendation systems, and more, optimal RL policies learned could cause a privacy breach if the policies memorize any part of the private reward. We study the set of existing differentially-private RL policies derived from various RL algorithms such as Value Iteration, Deep Q Networks, and Vanilla Proximal Policy Optimization. We propose a new Privacy-Aware Inverse RL (PRIL) analysis framework, that performs reward reconstruction as an adversarial attack on private policies that the agents may deploy. For this, we introduce the reward reconstruction attack, wherein we seek to reconstruct the original reward from a privacy-preserving policy using an Inverse RL algorithm. An adversary must do poorly at reconstructing the original reward function if the agent uses a tightly private policy. Using this framework, we empirically test the effectiveness of the privacy guarantee offered by the private algorithms on multiple instances of the FrozenLake domain of varying complexities. Based on the analysis performed, we infer a gap between the current standard of privacy offered and the standard of privacy needed to protect reward functions in RL. We do so by quantifying the extent to which each private policy protects the reward function by measuring distances between the original and reconstructed rewards.
翻訳日:2021-12-13 19:43:08 公開日:2021-12-10
# (参考訳) セマンティクスメッシュ変形最適化によるスパース深さ補完

Sparse Depth Completion with Semantic Mesh Deformation Optimization ( http://arxiv.org/abs/2112.05498v1 )

ライセンス: CC BY 4.0
Bing Zhou, Matias Aiskovich, Sinem Guven(参考訳) スパース深度測定は、拡張現実、視覚慣性計測、低コストの深度センサーを備えたロボットなど、多くのアプリケーションで広く利用することができる。 このようなスパース深度サンプルは、モーショントラッキングのような特定の用途でうまく機能するが、完全な深度マップは3Dオブジェクト認識、3D再構成、自律運転など、より広い用途に好まれる。 より深いニューラルネットワークを持つ単一RGB画像からの深度予測の最近の進歩にもかかわらず、既存のアプローチでは実用上信頼性の高い結果が得られていない。 本研究では,RGB画像とスパース深度サンプルを入力とし,完全な深度マップを推定する,最適化後ニューラルネットワークを提案する。 EDNetと呼ばれる改良されたバックボーンネットワークアーキテクチャ、セマンティックエッジ重み付き損失関数、セマンティックメッシュ変形最適化手法の3つの主要な貢献をしている。 我々の評価結果は、屋内および屋外両方のデータセットにおいて、既存の作業を一貫して上回り、NYU-Depth-V2データセット上の200個のスパースサンプルと同じ設定で平均誤差を最大19.5%削減する。

Sparse depth measurements are widely available in many applications such as augmented reality, visual inertial odometry and robots equipped with low cost depth sensors. Although such sparse depth samples work well for certain applications like motion tracking, a complete depth map is usually preferred for broader applications, such as 3D object recognition, 3D reconstruction and autonomous driving. Despite the recent advancements in depth prediction from single RGB images with deeper neural networks, the existing approaches do not yield reliable results for practical use. In this work, we propose a neural network with post-optimization, which takes an RGB image and sparse depth samples as input and predicts the complete depth map. We make three major contributions to advance the state-of-the-art: an improved backbone network architecture named EDNet, a semantic edge-weighted loss function and a semantic mesh deformation optimization method. Our evaluation results outperform the existing work consistently on both indoor and outdoor datasets, and it significantly reduces the mean average error by up to 19.5% under the same settings of 200 sparse samples on NYU-Depth-V2 dataset.
翻訳日:2021-12-13 19:27:43 公開日:2021-12-10
# (参考訳) CityNeRF: 都市規模でNeRFを構築する

CityNeRF: Building NeRF at City Scale ( http://arxiv.org/abs/2112.05504v1 )

ライセンス: CC BY 4.0
Yuanbo Xiangli, Linning Xu, Xingang Pan, Nanxuan Zhao, Anyi Rao, Christian Theobalt, Bo Dai, Dahua Lin(参考訳) neural radiance field (nerf)は、3dオブジェクトと制御されたシーンのモデリングにおいて、通常1つのスケールで優れた性能を達成している。 本研究では,NeRFを都市規模に展開する最初の試みとして,都市の全体像を捉えた衛星レベルから,建築の複雑な詳細を示す地上レベルの画像まで,さまざまな視点で紹介する。 カメラから現場までの距離が広いと、様々なレベルの細部と空間範囲のマルチスケールデータが得られるため、バニラ NeRF には大きな課題となり、妥協された結果に偏りが生じる。 このような問題に対処するために,我々はNeRFモデルとトレーニングセットを同期的に成長させる進歩的学習パラダイムであるCityNeRFを紹介した。 浅いベースブロックで遠くのビューを合わせることから始め、トレーニングが進むにつれて、より近いビューで新たな詳細に対応するために新しいブロックが追加される。 この戦略は、位置符号化における高周波チャネルを効果的に活性化し、トレーニングが進むにつれてより複雑な詳細を展開する。 我々は,多彩な視点を持つ多彩な都市スケールシーンのモデル化におけるcitynerfの優位性と,その詳細レベルでのビューのレンダリングのサポートを実証する。

Neural Radiance Field (NeRF) has achieved outstanding performance in modeling 3D objects and controlled scenes, usually under a single scale. In this work, we make the first attempt to bring NeRF to city-scale, with views ranging from satellite-level that captures the overview of a city, to ground-level imagery showing complex details of an architecture. The wide span of camera distance to the scene yields multi-scale data with different levels of detail and spatial coverage, which casts great challenges to vanilla NeRF and biases it towards compromised results. To address these issues, we introduce CityNeRF, a progressive learning paradigm that grows the NeRF model and training set synchronously. Starting from fitting distant views with a shallow base block, as training progresses, new blocks are appended to accommodate the emerging details in the increasingly closer views. The strategy effectively activates high-frequency channels in the positional encoding and unfolds more complex details as the training proceeds. We demonstrate the superiority of CityNeRF in modeling diverse city-scale scenes with drastically varying views, and its support for rendering views in different levels of detail.
翻訳日:2021-12-13 19:14:53 公開日:2021-12-10
# (参考訳) 強化学習環境設計のための検証ツール

A Validation Tool for Designing Reinforcement Learning Environments ( http://arxiv.org/abs/2112.05519v1 )

ライセンス: CC BY 4.0
Ruiyang Xu and Zhengxing Chen(参考訳) 強化学習(Reinforcement Learning, RL)は、さまざまなインパクトのあるアプリケーションや製品の提供によって、学術や技術産業の注目を集めている。 多くの分野で研究が活発に行われているが(例えば、オフラインのRL、パフォーマンスなど)、多くのRL実践者は、設計されたマルコフ決定プロセス(MDP)が有効で有意義かどうかを判断する、という課題に直面している。 本研究では,MDPが十分に定式化されているかどうかを検証するためのヒューリスティックな特徴分析手法を提案する。 我々は,RLの適用に適したMDPには,行動に敏感な状態特徴と報奨の予測の両方を含むべきだと考えている。 提案手法を構築環境において検証し, 提案手法が有効でない環境を定式化できることを示す。 我々の知る限り、RL問題定式化の妥当性分析は、新しい方向である。 我々は,実践者が実世界の問題にRLをより容易に適用できるように,我々のツールがモチベーションの例として機能することを期待している。

Reinforcement learning (RL) has gained increasing attraction in the academia and tech industry with launches to a variety of impactful applications and products. Although research is being actively conducted on many fronts (e.g., offline RL, performance, etc.), many RL practitioners face a challenge that has been largely ignored: determine whether a designed Markov Decision Process (MDP) is valid and meaningful. This study proposes a heuristic-based feature analysis method to validate whether an MDP is well formulated. We believe an MDP suitable for applying RL should contain a set of state features that are both sensitive to actions and predictive in rewards. We tested our method in constructed environments showing that our approach can identify certain invalid environment formulations. As far as we know, performing validity analysis for RL problem formulation is a novel direction. We envision that our tool will serve as a motivational example to help practitioners apply RL in real-world problems more easily.
翻訳日:2021-12-13 18:45:25 公開日:2021-12-10
# (参考訳) 計算機関のパラダイム

Paradigms of Computational Agency ( http://arxiv.org/abs/2112.05575v1 )

ライセンス: CC BY 4.0
Srinath Srinivasa and Jayati Deshmukh(参考訳) エージェントベースのモデルは、情報システムの複雑さの増大に対処するための有望なパラダイムとして登場した。 オブジェクト指向モデリングがピークを迎えた1990年代には、エージェントは永続的な状態と独立した実行スレッドを持つ特別な種類の"オブジェクト"として扱われていた。 それ以来、エージェントベースのモデルは大きく多様化し、システムの性質に関する新しい概念的洞察も開かれた。 本稿では,エージェントに対する我々の理解と,エージェントの計算モデルが発展してきた異質な方法について考察する。 ニューラルネットワークを復活させたGPUのようなハードウェアの進歩は、エージェントベースのモデルに新たな生命を吹き込み、人工知能(Artificial General Intelligence, AGI)の研究の進歩の道を開くかもしれない。

Agent-based models have emerged as a promising paradigm for addressing ever increasing complexity of information systems. In its initial days in the 1990s when object-oriented modeling was at its peak, an agent was treated as a special kind of "object" that had a persistent state and its own independent thread of execution. Since then, agent-based models have diversified enormously to even open new conceptual insights about the nature of systems in general. This paper presents a perspective on the disparate ways in which our understanding of agency, as well as computational models of agency have evolved. Advances in hardware like GPUs, that brought neural networks back to life, may also similarly infuse new life into agent-based models, as well as pave the way for advancements in research on Artificial General Intelligence (AGI).
翻訳日:2021-12-13 18:35:40 公開日:2021-12-10
# (参考訳) gpu加速画像アライメントによる産業用物体検出

GPU-accelerated image alignment for object detection in industrial applications ( http://arxiv.org/abs/2112.05576v1 )

ライセンス: CC BY 4.0
Trung-Son Le, Chyi-Yeu Lin(参考訳) 本研究では,産業用途におけるロバストな類似度尺度を用いた画像アライメント手法を用いて,無特徴物体の検出手法を提案する。 この類似度尺度は、閉塞、照明の変化、背景の乱れに対して堅牢である。 提案したGPU(グラフィックス処理ユニット)高速化アルゴリズムの性能は、CPUとGPUの実装の比較実験において成功していると考えられる。

This research proposes a practical method for detecting featureless objects by using image alignment approach with a robust similarity measure in industrial applications. This similarity measure is robust against occlusion, illumination changes and background clutter. The performance of the proposed GPU (Graphics Processing Unit) accelerated algorithm is deemed successful in experiments of comparison between both CPU and GPU implementations
翻訳日:2021-12-13 18:20:59 公開日:2021-12-10
# (参考訳) 屋内ミリ波デバイスを用いた位置計測とデバイスフリーセンシング技術

A Review of Indoor Millimeter Wave Device-based Localization and Device-free Sensing Technologies ( http://arxiv.org/abs/2112.05593v1 )

ライセンス: CC BY 4.0
Anish Shastri, Neharika Valecha, Enver Bashirov, Harsh Tataria, Michael Lentmaier, Fredrik Tufvesson, Michele Rossi, Paolo Casari(参考訳) 低コストミリ波通信およびレーダー装置の商用利用は、消費者市場におけるそのような技術の浸透を改善し始め、第5世代(5G)および第6世代(6G)ネットワークにおける大規模かつ高密度な展開の道を開いた。 同時に、広汎なmmWaveアクセスは、特に6GHz以下の商用機器に関して、前例のない精度でデバイスローカライズとデバイスフリーセンシングを可能にする。 本稿では,mm波通信とレーダデバイスを用いたデバイスベース位置推定とデバイスフリーセンシングの現状について,屋内配置に着目して検討する。 我々はまず,mmWave信号の伝搬とシステム設計に関する重要な概念を概説する。 次に、mWavesによって実現された局所化およびセンシングのためのアプローチとアルゴリズムの詳細な説明を行う。 分析では,各研究の目的,技術,性能,各研究がある程度の実装に到達したか,どのハードウェアプラットフォームがこの目的に使用されたかなど,いくつかの側面を考察した。 結論として,消費者級デバイスのためのより良いアルゴリズム,密集したデプロイメントのためのデータ融合手法,機械学習手法の教育的応用は有望で,適切で,タイムリーな研究の方向性である,と論じた。

The commercial availability of low-cost millimeter wave (mmWave) communication and radar devices is starting to improve the penetration of such technologies in consumer markets, paving the way for large-scale and dense deployments in fifth-generation (5G)-and-beyond as well as 6G networks. At the same time, pervasive mmWave access will enable device localization and device-free sensing with unprecedented accuracy, especially with respect to sub-6 GHz commercial-grade devices. This paper surveys the state of the art in device-based localization and device-free sensing using mmWave communication and radar devices, with a focus on indoor deployments. We first overview key concepts about mmWave signal propagation and system design. Then, we provide a detailed account of approaches and algorithms for localization and sensing enabled by mmWaves. We consider several dimensions in our analysis, including the main objectives, techniques, and performance of each work, whether each research reached some degree of implementation, and which hardware platforms were used for this purpose. We conclude by discussing that better algorithms for consumer-grade devices, data fusion methods for dense deployments, as well as an educated application of machine learning methods are promising, relevant and timely research directions.
翻訳日:2021-12-13 18:13:58 公開日:2021-12-10
# (参考訳) 弱poincar\e不等式によるマルコフ鎖の比較と疑似マージmmcへの応用

Comparison of Markov chains via weak Poincar\'e inequalities with application to pseudo-marginal MCMC ( http://arxiv.org/abs/2112.05605v1 )

ライセンス: CC BY 4.0
Christophe Andrieu, Anthony Lee, Sam Power, Andi Q. Wang(参考訳) マルコフ連鎖の平衡への有界収束に対する弱ポアンカーの不等式として知られるある種の機能的不等式の使用について検討する。 これにより,独立メトロポリス-ハスティンス・サンプラー法や疑似マージ法といった手法のサブジオメトリ収束境界の単純かつ透明な導出が可能となり,後者は多くの実用的場面でサブジオメトリとなっている。 これらの結果はマルコフ連鎖の間の新しい定量的比較定理に依存する。 関連する証明はドリフト/マイノライズ条件に依存しているものよりも簡単であり, 開発したツールにより, 特定の事例として既知の結果を回復し, さらに拡張することができる。 そこで我々は,疑似マージナルアルゴリズムの実用化に関する新たな知見を提供し,近似ベイズ計算(ABC)における平均化の効果と独立平均値の利用について分析し,粒子境界メトロポリス・ハスティングス(PMMH)に関連する対数正規重みの事例について検討する。

We investigate the use of a certain class of functional inequalities known as weak Poincar\'e inequalities to bound convergence of Markov chains to equilibrium. We show that this enables the straightforward and transparent derivation of subgeometric convergence bounds for methods such as the Independent Metropolis--Hastings sampler and pseudo-marginal methods for intractable likelihoods, the latter being subgeometric in many practical settings. These results rely on novel quantitative comparison theorems between Markov chains. Associated proofs are simpler than those relying on drift/minorization conditions and the tools developed allow us to recover and further extend known results as particular cases. We are then able to provide new insights into the practical use of pseudo-marginal algorithms, analyse the effect of averaging in Approximate Bayesian Computation (ABC) and the use of products of independent averages, and also to study the case of lognormal weights relevant to particle marginal Metropolis--Hastings (PMMH).
翻訳日:2021-12-13 18:12:54 公開日:2021-12-10
# (参考訳) 物理インフォームドニューラルネットワークにおけるトライボアル解の回避法

How to Avoid Trivial Solutions in Physics-Informed Neural Networks ( http://arxiv.org/abs/2112.05620v1 )

ライセンス: CC BY-SA 4.0
Raphael Leiteritz, Dirk Pfl\"uger(参考訳) 科学機械学習(SciML)の出現は、物理とデータに基づくモデリングのインターフェースにおけるアプローチを開発することで、シミュレーション科学の分野における多くの約束と挑戦と共に、新しい分野を開いた。 この目的のために、物理インフォームドニューラルネットワーク(PINN)が近年導入され、いわゆるコロケーションポイントにおける問題の物理知識を取り入れることで、トレーニングデータの不足に対処している。 本研究では,物理に基づくペナルティ項の強制に使用されるコロケーション点数に関して,PINNの予測性能について検討する。 PINNは、定義によって物理由来のペナルティ項を満たす自明な解を学習し、失敗する可能性があることを示す。 代替サンプリング手法と新たなペナルティ項を考案し、ベンチマーク問題に対して最大80%のコロケーションポイントを削減しつつ、競合的な結果を伴うデータカーチ設定におけるピンの核となる問題を修正可能とした。

The advent of scientific machine learning (SciML) has opened up a new field with many promises and challenges in the field of simulation science by developing approaches at the interface of physics- and data-based modelling. To this end, physics-informed neural networks (PINNs) have been introduced in recent years, which cope for the scarcity in training data by incorporating physics knowledge of the problem at so-called collocation points. In this work, we investigate the prediction performance of PINNs with respect to the number of collocation points used to enforce the physics-based penalty terms. We show that PINNs can fail, learning a trivial solution that fulfills the physics-derived penalty term by definition. We have developed an alternative sampling approach and a new penalty term enabling us to remedy this core problem of PINNs in data-scarce settings with competitive results while reducing the amount of collocation points needed by up to 80 \% for benchmark problems.
翻訳日:2021-12-13 18:11:46 公開日:2021-12-10
# (参考訳) Seq-Masks: 映像に基づく人物再識別のための外観と歩行モデリングのギャップを埋める

Seq-Masks: Bridging the gap between appearance and gait modeling for video-based person re-identification ( http://arxiv.org/abs/2112.05626v1 )

ライセンス: CC BY 4.0
Zhigang Chang, Zhao Yang, Yongbiao Chen, Qin Zhou, Shibao Zheng(参考訳) イデオをベースとした人物識別(Re-ID)は、不随意監視カメラが捉えた映像の人物像をマッチングすることを目的としている。 従来のビデオベースのRe-ID手法では、外観情報の探索に重点を置いており、照明の変化、シーンノイズ、カメラパラメータ、特に衣服やキャリーのバリエーションに対して脆弱である。 歩行認識は、上記の頭痛を軽減するために暗黙の生体計測ソリューションを提供する。 それでも、カメラの視界が変わると、パフォーマンスが悪化する。 本稿では,これらの問題に対処するために,映像中のシーケンスマスク(SeqMask)を利用して外観情報と歩行モデリングを緊密に統合するフレームワークを提案する。 具体的には,提案手法の有効性を十分に検証するために,MARSに基づくMaskMARSという新しいデータセットを構築した。 提案する大規模ワイルドビデオリidデータセットの包括的実験により,その性能と汎用性が実証された。 歩容認識指標casia-bデータセットの検証により,ハイブリッドモデルの能力がさらに実証された。

ideo-based person re-identification (Re-ID) aims to match person images in video sequences captured by disjoint surveillance cameras. Traditional video-based person Re-ID methods focus on exploring appearance information, thus, vulnerable against illumination changes, scene noises, camera parameters, and especially clothes/carrying variations. Gait recognition provides an implicit biometric solution to alleviate the above headache. Nonetheless, it experiences severe performance degeneration as camera view varies. In an attempt to address these problems, in this paper, we propose a framework that utilizes the sequence masks (SeqMasks) in the video to integrate appearance information and gait modeling in a close fashion. Specifically, to sufficiently validate the effectiveness of our method, we build a novel dataset named MaskMARS based on MARS. Comprehensive experiments on our proposed large wild video Re-ID dataset MaskMARS evidenced our extraordinary performance and generalization capability. Validations on the gait recognition metric CASIA-B dataset further demonstrated the capability of our hybrid model.
翻訳日:2021-12-13 18:03:00 公開日:2021-12-10
# (参考訳) 多変量異常検出のための高速でスケーラブルな神経進化型ディープラーニングアーキテクチャ

Fast and scalable neuroevolution deep learning architecture search for multivariate anomaly detection ( http://arxiv.org/abs/2112.05640v1 )

ライセンス: CC BY 4.0
M.Pietro\'n, D.\.Zurek, K.Faber(参考訳) 神経進化は、トレーニング中に最適なアーキテクチャを学ぶために使用できる方法論の1つである。 進化的アルゴリズムを使用して、人工知能ニューラルネットワーク(ANN)とそのパラメータを生成する。 本稿では,マルチレベル最適化を組み込んだ改良型ニューロ進化法を提案する。 提案手法は,単一異常検出モデルの最適化に遺伝的演算子を使用し,探索プロセスを高速化するトレーニングデータセットを削減し,非勾配微調整を行う,バグング手法に基づくアンサンブルモデルの進化戦略を適応させる。 教師なし学習タスクとしての多変量異常検出は,提案手法をテストしたケーススタディである。 単一モデル最適化は、ミュータント、クロスオーバー演算子に基づいており、新しい既知のモデルの異常検出スコアを高めるために、最適なウィンドウサイズ、層数、層深度、ハイパーパラメータなどを見つけることに焦点を当てている。 提案されたフレームワークとそのプロトコルは、よく知られた多変量異常検出ディープラーニングアーキテクチャを加速する妥当な時間内にアーキテクチャを見つけることができることを示している。 この研究は、異常検出のための多段階神経進化アプローチの改善に焦点を当てている。 主な変更は、グループと単一モデルの進化を混合する方法、非勾配の微調整と投票機構である。 このフレームワークは、autoencoderアーキテクチャが使用できるさまざまな教師なしタスクに対して、効率的な学習ネットワークアーキテクチャ手法として使用できる。 テストはSWATとWADIデータセット上で実行され、他のディープラーニングモデルで最高のスコアを得るために進化したアーキテクチャを提案する。

The neuroevolution is one of the methodologies that can be used for learning optimal architecture during the training. It uses evolutionary algorithms to generate topology of artificial neural networks (ANN) and its parameters. In this work, a modified neuroevolution technique is presented which incorporates multi-level optimization. The presented approach adapts evolution strategies for evolving ensemble model based on bagging technique, using genetic operators for optimizing single anomaly detection models, reducing the training dataset to speedup the search process and performs non gradient fine tuning. The multivariate anomaly detection as an unsupervised learning task is the case study on which presented approach is tested. Single model optimization is based on mutation, crossover operators and focuses on finding optimal window sizes, the number of layers, layer depths, hyperparameters etc. to boost the anomaly detection scores of new and already known models. The proposed framework and its protocol shows that it is possible to find architecture in a reasonable time which can boost all well known multivariate anomaly detection deep learning architectures. The work concentrates on improvements to multi-level neuroevolution approach for anomaly detection. The main modifications are in the methods of mixing groups and single models evolution, non gradient fine tuning and voting mechanism. The presented framework can be used as an efficient learning network architecture method for any different unsupervised task where autoencoder architectures can be used. The tests were run on SWAT and WADI datasets and presented approach evolved architectures that achieve best scores among other deep learning models.
翻訳日:2021-12-13 17:54:21 公開日:2021-12-10
# (参考訳) タスク埋め込みによるNLPモデルの解析と予測

Analysis and Prediction of NLP Models Via Task Embeddings ( http://arxiv.org/abs/2112.05647v1 )

ライセンス: CC BY 4.0
Damien Sileo and Marie-Francine Moens(参考訳) タスク埋め込みは、タスク特性をキャプチャするために訓練された低次元表現である。 本稿では,101ドルのNLPタスクのコレクションであるMetaEvalを提案する。 学習した埋め込みを条件にしながら、単一のトランスフォーマーをすべてのMetaEvalタスクに共同で適合させます。 結果として生じるタスク埋め込みは、タスク空間の新しい分析を可能にする。 次に、アノテートされた例を使わずにタスクアスペクトを新しいタスクのタスク埋め込みにマッピングできることを示します。 予測埋め込みは、ゼロショット推論のためにエンコーダを変調し、GLUEタスクでゼロショットベースラインを上回る。 提供されるマルチタスクセットアップは、将来の転送学習研究のベンチマークとして機能する。

Task embeddings are low-dimensional representations that are trained to capture task properties. In this paper, we propose MetaEval, a collection of $101$ NLP tasks. We fit a single transformer to all MetaEval tasks jointly while conditioning it on learned embeddings. The resulting task embeddings enable a novel analysis of the space of tasks. We then show that task aspects can be mapped to task embeddings for new tasks without using any annotated examples. Predicted embeddings can modulate the encoder for zero-shot inference and outperform a zero-shot baseline on GLUE tasks. The provided multitask setup can function as a benchmark for future transfer learning research.
翻訳日:2021-12-13 17:45:15 公開日:2021-12-10
# (参考訳) 変換学習NMFと関節対角化の関係について

On the Relationships between Transform-Learning NMF and Joint-Diagonalization ( http://arxiv.org/abs/2112.05664v1 )

ライセンス: CC BY 4.0
Sixin Zhang, Emmanuel Soubies, and C\'edric F\'evotte(参考訳) 変換学習を用いた非負行列分解(TL-NMF)はNMFに適したデータ表現の学習を目的とした最近のアイデアである。 本研究では、TL-NMFと古典行列共役対角化問題(JD)を関連付ける。 データ実現の数が十分に大きい場合、TL-NMFは、NMF計算の前にJDによる変換を推定する2段階のアプローチ(JD+NMFと呼ばれる)に置き換えることができる。 対照的に、データ実現数に制限がある場合、JD+NMFはもはやTL-NMFと等価ではないだけでなく、TL-NMFの固有の低ランク制約はNMFの有意義な変換を学ぶ上で重要な要素であることが判明した。

Non-negative matrix factorization with transform learning (TL-NMF) is a recent idea that aims at learning data representations suited to NMF. In this work, we relate TL-NMF to the classical matrix joint-diagonalization (JD) problem. We show that, when the number of data realizations is sufficiently large, TL-NMF can be replaced by a two-step approach -- termed as JD+NMF -- that estimates the transform through JD, prior to NMF computation. In contrast, we found that when the number of data realizations is limited, not only is JD+NMF no longer equivalent to TL-NMF, but the inherent low-rank constraint of TL-NMF turns out to be an essential ingredient to learn meaningful transforms for NMF.
翻訳日:2021-12-13 17:12:16 公開日:2021-12-10
# (参考訳) 最適在庫管理のためのニューラルマルチ量子量予測

Neural Multi-Quantile Forecasting for Optimal Inventory Management ( http://arxiv.org/abs/2112.05673v1 )

ライセンス: CC BY 4.0
Federico Garza Ram\'irez(参考訳) 本研究では,時間スケール(mq-drnn-s)を用いた分位回帰と拡張リカレントニューラルネットワークの利用を提案し,在庫管理タスクに適用する。 このモデルでは、統計ベンチマーク(qar-xの質的自己回帰モデル)よりも最大3.2\%の性能が向上し、時間スケールを6\%向上させることなくmq-drnnよりも優れていた。 上記は、エル・グロボの1万回の連続販売の53週間の地平線上で、毎週7日間の転がり窓を使用していた。

In this work we propose the use of quantile regression and dilated recurrent neural networks with temporal scaling (MQ-DRNN-s) and apply it to the inventory management task. This model showed a better performance of up to 3.2\% over a statistical benchmark (the quantile autoregressive model with exogenous variables, QAR-X), being better than the MQ-DRNN without temporal scaling by 6\%. The above on a set of 10,000 time series of sales of El Globo over a 53-week horizon using rolling windows of 7-day ahead each week.
翻訳日:2021-12-13 16:37:49 公開日:2021-12-10
# (参考訳) テストパフォーマンス向上によるアクティブラーニングの促進

Boosting Active Learning via Improving Test Performance ( http://arxiv.org/abs/2112.05683v1 )

ライセンス: CC BY 4.0
Tianyang Wang, Xingjian Li, Pengkun Yang, Guosheng Hu, Xiangrui Zeng, Siyu Huang, Cheng-Zhong Xu, Min Xu(参考訳) 中心から活動的学習(AL)は、アノテーションのために選択すべきデータである。 既存の作品は、アノテーションのために非常に不確実または情報的なデータを選択しようとする。 それでも、選択されたデータがALで使用されるタスクモデルのテストパフォーマンスにどの程度影響するかは、まだ不明である。 本研究では,高い勾配ノルムのラベル付きデータを選択することにより,テスト損失の上限が低くなり,テスト性能が向上することが理論的に証明された。 しかしラベル情報がないため、ラベルなしデータの勾配ノルムを直接計算することは不可能である。 この課題に対処するため,我々は2つのスキーム,すなわちexpected-gradnormとentropy-gradnormを提案する。 前者は予測された経験的損失を構築して勾配ノルムを計算し、後者はエントロピーを伴う教師なし損失を構成する。 さらに,この2つのスキームを普遍的alフレームワークに統合する。 本手法は,古典的画像分類と意味セグメンテーションタスクについて評価する。 また,ドメイン応用におけるその能力と雑音に対するロバスト性を示すために,セルイメージング解析タスクであるクライオ電子トモグラフィサブトモグラム分類について検証を行った。 その結果,本手法は最先端技術に対して優れた性能が得られることがわかった。 ソースコードはhttps://github.com/xulabs/aitom.com/で入手できる。

Central to active learning (AL) is what data should be selected for annotation. Existing works attempt to select highly uncertain or informative data for annotation. Nevertheless, it remains unclear how selected data impacts the test performance of the task model used in AL. In this work, we explore such an impact by theoretically proving that selecting unlabeled data of higher gradient norm leads to a lower upper bound of test loss, resulting in a better test performance. However, due to the lack of label information, directly computing gradient norm for unlabeled data is infeasible. To address this challenge, we propose two schemes, namely expected-gradnorm and entropy-gradnorm. The former computes the gradient norm by constructing an expected empirical loss while the latter constructs an unsupervised loss with entropy. Furthermore, we integrate the two schemes in a universal AL framework. We evaluate our method on classical image classification and semantic segmentation tasks. To demonstrate its competency in domain applications and its robustness to noise, we also validate our method on a cellular imaging analysis task, namely cryo-Electron Tomography subtomogram classification. Results demonstrate that our method achieves superior performance against the state-of-the-art. Our source code is available at https://github.com/xulabs/aitom
翻訳日:2021-12-13 16:14:37 公開日:2021-12-10
# 機械学習を用いたIoTネットワークにおけるDDoS攻撃のモデル化

Modelling DDoS Attacks in IoT Networks using Machine Learning ( http://arxiv.org/abs/2112.05477v1 )

ライセンス: Link先を確認
Pheeha Machaka, Olasupo Ajayi, Hloniphani Maluleke, Ferdinand Kahenga, Antoine Bagula, Kyandoghere Kyamakya(参考訳) 現在のIoT(Internet-of-Things)デプロイメントでは、TCPプロトコルに依存する従来のIPネットワークとIoT固有のプロトコルを組み合わせて、ソースから宛先へのデータを転送することができる。 したがって、TCP Syn攻撃を用いた分散サービス拒否(DDoS)のようなTCP固有の攻撃は、攻撃者がサイバー物理システム(CPS)で使用できる最も有効なツールの1つである。 これはIoTサブシステムからの攻撃(ここでは"CPS-IoT"と呼ばれ、霧とCPSのクラウドインフラストラクチャの両方にある異なるサーバに潜在的に伝播する可能性がある。 本研究では,CPS-IoTにおけるDDoS攻撃の検出における教師付き,教師なし,半教師付き機械学習アルゴリズムの有効性について比較した。 i) Logistic Regression (LGR)、K-Means、Artificial Neural Networks (ANN)を含む検出アルゴリズム。 また,教師なしK-Meansをラベル付けに用いた半教師付きハイブリッド学習モデルの有効性について検討し,攻撃検出のための教師付き学習モデルに出力を供給した。 私は... ) 予測アルゴリズム - LGR, Kernel Ridge Regression (KRR), Support Vector Regression (SVR) - 差し迫った攻撃の予測に使用された。 実験を行い, 得られた結果から, ハイブリッドモデルでは100%の精度で偽陽性がゼロとなり, 予測モデルは全て94%以上の攻撃予測精度を達成できた。

In current Internet-of-Things (IoT) deployments, a mix of traditional IP networking and IoT specific protocols, both relying on the TCP protocol, can be used to transport data from a source to a destination. Therefore, TCP-specific attacks, such as the Distributed Denial of Service (DDoS) using the TCP SYN attack, are one of the most plausible tools that attackers can use on Cyber-Physical Systems (CPS). This may be done by launching an attack from its IoT subsystem, here referred to as the "CPS-IoT", with potential propagation to the different servers located in both fog and the cloud infrastructures of the CPS. This study compares the effectiveness of supervised, unsupervised, and semi-supervised machine learning algorithms for detecting DDoS attacks in CPS-IoT, particularly during data transmission to and from the physical space to the cyber space via the Internet. The algorithms considered are broadly grouped into two: i) Detection algorithms, which include Logistic Regression (LGR), K-Means, and Artificial Neural Networks (ANN). We also looked into the effectiveness of semi-supervised hybrid learning models, which use unsupervised K-Means to label data, then feed the output to a supervised learning model for attack detection. ii.) Prediction algorithms - LGR, Kernel Ridge Regression (KRR) and Support Vector Regression (SVR), which were used to predict imminent attacks. Experimental tests were carried out and obtained results showed that the hybrid model was able to achieve 100% accuracy with zero false positives; while all the prediction models were able to achieve over 94% attack prediction accuracy.
翻訳日:2021-12-13 15:53:57 公開日:2021-12-10
# 暗黙的および微分的分散の存在下での公平な選択について

On Fair Selection in the Presence of Implicit and Differential Variance ( http://arxiv.org/abs/2112.05630v1 )

ライセンス: Link先を確認
Vitalii Emelianov, Nicolas Gast, Krishna P. Gummadi, Patrick Loiseau(参考訳) 雇用や大学入学などの選択問題における差別は、しばしば不利な集団に対する意思決定者からの暗黙の偏見によって説明される。 本稿では,各候補の品質について,各候補の品質について,その差異が候補のグループに依存する,ノイズの多い評価を受けるモデルについて考察する。 2つの注目すべき設定を分析した: まず、ノイズのばらつきは、グループとは独立に最も高い品質の候補を選定する意思決定者に対して不明であり、次に、ばらつきが知られ、ノイズの見積りから、最も高い品質の候補を選定する。 両基線決定要因が区別されるが、反対方向には、第1は低分散群の表現不足につながるが、第2は高分散群の表現不足につながる。 我々は、$\gamma$-rule(これは古典的な4-fifths則の拡張であり、また人口統計学的同値性も含む)というフェアネス機構を付与する選択性に対する効果について研究する。 最初の設定(未知のばらつきを含む)では、穏やかな条件下では、$\gamma$-rule を課すことで選択ユーティリティが増加することを証明します。 2つ目の設定(既知の分散を伴う)では、$\gamma$-rule がユーティリティを減少させるが、フェアネス機構によるユーティリティ損失の限界を証明している。

Discrimination in selection problems such as hiring or college admission is often explained by implicit bias from the decision maker against disadvantaged demographic groups. In this paper, we consider a model where the decision maker receives a noisy estimate of each candidate's quality, whose variance depends on the candidate's group -- we argue that such differential variance is a key feature of many selection problems. We analyze two notable settings: in the first, the noise variances are unknown to the decision maker who simply picks the candidates with the highest estimated quality independently of their group; in the second, the variances are known and the decision maker picks candidates having the highest expected quality given the noisy estimate. We show that both baseline decision makers yield discrimination, although in opposite directions: the first leads to underrepresentation of the low-variance group while the second leads to underrepresentation of the high-variance group. We study the effect on the selection utility of imposing a fairness mechanism that we term the $\gamma$-rule (it is an extension of the classical four-fifths rule and it also includes demographic parity). In the first setting (with unknown variances), we prove that under mild conditions, imposing the $\gamma$-rule increases the selection utility -- here there is no trade-off between fairness and utility. In the second setting (with known variances), imposing the $\gamma$-rule decreases the utility but we prove a bound on the utility loss due to the fairness mechanism.
翻訳日:2021-12-13 15:53:29 公開日:2021-12-10
# マルチポリトープマシンによる解釈可能なクラスタリング

Interpretable Clustering via Multi-Polytope Machines ( http://arxiv.org/abs/2112.05653v1 )

ライセンス: Link先を確認
Connor Lawless, Jayant Kalagnanam, Lam M. Nguyen, Dzung Phan, Chandra Reddy(参考訳) クラスタリングは、顧客セグメントや患者サブタイプといったより大きな集団内のグループを見つけるためによく使われる、教師なし学習ツールである。 しかし、サブグループの発見と記述のツールとして使われているにもかかわらず、最先端のアルゴリズムが発見されたクラスタの背後にある根拠や記述を提供するものはほとんどない。 本稿では,クラスタデータポイントと,検出したクラスタの周辺にポリトープを構築することで,解析可能なクラスタリングを提案する。 我々のフレームワークは、ポリトープを構成する超平面が整数係数を持つ軸平行あるいはスパースであることを保証することを含む、ポリトープに対するさらなる制約を可能にする。 混合整数非線形プログラム (MINLP) として, ポリトープによるクラスタ構築の問題を定式化する。 そこで我々は,クラスタとポリトープを交互に最小化することで初期化し,次に座標降下を用いてクラスタリング性能を向上させる2相アプローチを提案する。 我々は,我々の手法を,人工クラスタリングと実世界のクラスタリングの一連の問題にベンチマークし,我々のアルゴリズムは,アート解釈可能で非解釈可能なクラスタリングアルゴリズムの状態を上回ります。

Clustering is a popular unsupervised learning tool often used to discover groups within a larger population such as customer segments, or patient subtypes. However, despite its use as a tool for subgroup discovery and description - few state-of-the-art algorithms provide any rationale or description behind the clusters found. We propose a novel approach for interpretable clustering that both clusters data points and constructs polytopes around the discovered clusters to explain them. Our framework allows for additional constraints on the polytopes - including ensuring that the hyperplanes constructing the polytope are axis-parallel or sparse with integer coefficients. We formulate the problem of constructing clusters via polytopes as a Mixed-Integer Non-Linear Program (MINLP). To solve our formulation we propose a two phase approach where we first initialize clusters and polytopes using alternating minimization, and then use coordinate descent to boost clustering performance. We benchmark our approach on a suite of synthetic and real world clustering problems, where our algorithm outperforms state of the art interpretable and non-interpretable clustering algorithms.
翻訳日:2021-12-13 15:53:03 公開日:2021-12-10
# サインベース投票によるフェデレーション2段階学習

Federated Two-stage Learning with Sign-based Voting ( http://arxiv.org/abs/2112.05687v1 )

ライセンス: Link先を確認
Zichen Ma, Zihan Lu, Yu Lu, Wenye Li, Jinfeng Yi, Shuguang Cui(参考訳) フェデレートラーニング(Federated Learning)は、ローカルデバイスが中央サーバのオーケストレーションの下で共有グローバルモデルを共同でトレーニングし、すべてのプライベートデータを分散化する分散機械学習メカニズムである。 システムでは、モデルパラメータとその更新が生データの代わりに送信されるため、通信ボトルネックが重要な課題となっている。 さらに、最近の大規模でより深い機械学習モデルでは、フェデレーション環境でのデプロイがさらに困難になる。 本稿では,デバイス上にカット層を設け,モデル更新に多数決の投票方式を付加した,手話に基づく確率的勾配降下を用いる2段階学習フレームワークを考案する。 デバイス上のカットレイヤは、生データの情報的および低次元表現をローカルに学習することで、グローバルモデルパラメータの削減とデータ漏洩の防止に役立つ。 モデル更新の多数投票方式を持つ署名ベースのSGDも、通信制限を軽減するのに役立つ。 経験的に、本システムは効率良く、プライバシーを保った連合学習方式であり、一般的なアプリケーションシナリオに適していることを示す。

Federated learning is a distributed machine learning mechanism where local devices collaboratively train a shared global model under the orchestration of a central server, while keeping all private data decentralized. In the system, model parameters and its updates are transmitted instead of raw data, and thus the communication bottleneck has become a key challenge. Besides, recent larger and deeper machine learning models also pose more difficulties in deploying them in a federated environment. In this paper, we design a federated two-stage learning framework that augments prototypical federated learning with a cut layer on devices and uses sign-based stochastic gradient descent with the majority vote method on model updates. Cut layer on devices learns informative and low-dimension representations of raw data locally, which helps reduce global model parameters and prevents data leakage. Sign-based SGD with the majority vote method for model updates also helps alleviate communication limitations. Empirically, we show that our system is an efficient and privacy preserving federated learning scheme and suits for general application scenarios.
翻訳日:2021-12-13 15:52:43 公開日:2021-12-10
# 粒子画像速度計測のためのサーロゲートに基づく相互相関

Surrogate-based cross-correlation for particle image velocimetry ( http://arxiv.org/abs/2112.05303v1 )

ライセンス: Link先を確認
Yong Lee and Fuqiang Gu and Zeyu Gong(参考訳) 本稿では,2つの画像信号間の相関性能を改善するために,SBCC(Surrogate-based cross-correlation)フレームワークを提案する。 sbccの基本的な考え方は、最適化されたサーロゲートフィルタ/イメージが1つのオリジナルイメージに取って代わることで、より堅牢で正確な相関信号を生成することだ。 SBCCの相互相関推定は、代理損失と相関整合損失からなる目的関数で定式化される。 閉形式解は効率的な推定を提供する。 驚いたことに、SBCCフレームワークは、GCC(Generalized Cross-correlation)メソッドのセットを説明し、パラメータの意味を理解するための代替的なビューを提供することができる。 SBCCフレームワークの助けを借りて,新たに4つの相互相関法を提案し,既存のGCC法を改善するための提案を行った。 顕著な事実は、SBCCが他の負の文脈像を取り入れることで相関ロバスト性を高めることができることである。 粒子画像ベロシメトリー(PIV)のサブピクセル精度とロバスト性要件を考慮して,各項の目的関数への寄与を粒子画像を用いて検討した。 SBCC法は、最先端のベースライン法と比較して、合成データセットの性能向上(精度と堅牢性)と、いくつかの挑戦的な実実験PIV症例を示す。

This paper presents a novel surrogate-based cross-correlation (SBCC) framework to improve the correlation performance between two image signals. The basic idea behind the SBCC is that an optimized surrogate filter/image, supplanting one original image, will produce a more robust and more accurate correlation signal. The cross-correlation estimation of the SBCC is formularized with an objective function composed of surrogate loss and correlation consistency loss. The closed-form solution provides an efficient estimation. To our surprise, the SBCC framework could provide an alternative view to explain a set of generalized cross-correlation (GCC) methods and comprehend the meaning of parameters. With the help of our SBCC framework, we further propose four new specific cross-correlation methods, and provide some suggestions for improving existing GCC methods. A noticeable fact is that the SBCC could enhance the correlation robustness by incorporating other negative context images. Considering the sub-pixel accuracy and robustness requirement of particle image velocimetry (PIV), the contribution of each term in the objective function is investigated with particles' images. Compared with the state-of-the-art baseline methods, the SBCC methods exhibit improved performance (accuracy and robustness) on the synthetic dataset and several challenging real experimental PIV cases.
翻訳日:2021-12-13 15:52:23 公開日:2021-12-10
# メラノーマのカスケードSVM分類のための動的ハードウェアシステム

Dynamic hardware system for cascade SVM classification of melanoma ( http://arxiv.org/abs/2112.05322v1 )

ライセンス: Link先を確認
Shereen Afifi, Hamid GholamHosseini, Roopak Sinha(参考訳) メラノーマは皮膚がんの最も危険な形態であり、皮膚がんによる死の大半の原因となっている。 メラノーマの早期診断は死亡率と治療費を大幅に削減する。 そのため、皮膚がん専門医は、早期にメラノーマを検出するために画像ベースの診断ツールを使用している。 医療現場でメラノーマの早期発見を促進するために,低コストで高性能なハンドヘルドデバイスを開発することを目的とする。 しかし、組込み診断システムに必要な複雑な計算のために、この装置の開発は非常に困難である。 そこで我々は,最近のハードウェア技術を活用して,低コストで高性能な組込みシステムを実現することを目的とする。 サポートベクターマシン(SVM)は診断システム内でメラノーマを分類するための高精度な分類器であり、システム内で最も計算集約的なタスクと考えられている。 本稿では,早期メラノーマ検出のためのFPGAにカスケードSVM分類器を実装するための動的ハードウェアシステムを提案する。 精度98%と73%の2つの分類器を用いた2段階カスケード分類器を実装するために,マルチコアアーキテクチャを提案する。 ハードウェア実装の結果は,1%スライスの資源利用率と1.5wの消費電力の極めて低い動的部分再構成技術を用いて最適化された。 実装された動的ハードウェアシステムは、高い性能と低コスト、資源利用、電力消費という重要な組み込みシステムの制約を満たすとともに、高い精度で効率的な分類を実現する。

Melanoma is the most dangerous form of skin cancer, which is responsible for the majority of skin cancer-related deaths. Early diagnosis of melanoma can significantly reduce mortality rates and treatment costs. Therefore, skin cancer specialists are using image-based diagnostic tools for detecting melanoma earlier. We aim to develop a handheld device featured with low cost and high performance to enhance early detection of melanoma at the primary healthcare. But, developing this device is very challenging due to the complicated computations required by the embedded diagnosis system. Thus, we aim to exploit the recent hardware technology in reconfigurable computing to achieve a high-performance embedded system at low cost. Support vector machine (SVM) is a common classifier that shows high accuracy for classifying melanoma within the diagnosis system and is considered as the most compute-intensive task in the system. In this paper, we propose a dynamic hardware system for implementing a cascade SVM classifier on FPGA for early melanoma detection. A multi-core architecture is proposed to implement a two-stage cascade classifier using two classifiers with accuracies of 98% and 73%. The hardware implementation results were optimized by using the dynamic partial reconfiguration technology, where very low resource utilization of 1% slices and power consumption of 1.5 W were achieved. Consequently, the implemented dynamic hardware system meets vital embedded system constraints of high performance and low cost, resource utilization, and power consumption, while achieving efficient classification with high accuracy.
翻訳日:2021-12-13 15:52:02 公開日:2021-12-10
# 暗黙的ニューラルネットワークのためのロバスト性証明:混合単調契約的アプローチ

Robustness Certificates for Implicit Neural Networks: A Mixed Monotone Contractive Approach ( http://arxiv.org/abs/2112.05310v1 )

ライセンス: Link先を確認
Saber Jafarpour, Matthew Abate, Alexander Davydov, Francesco Bullo, Samuel Coogan(参考訳) 入射ニューラルネットワークは、従来のフィードフォワードモデルの層を暗黙の代数方程式で置き換える学習モデルの一般的なクラスである。 従来の学習モデルと比較して、暗黙のネットワークは競合性能とメモリ消費の削減を提供する。 しかし、それらは入力の敵対的摂動に関して不安定であり続けることができる。 本稿では,暗黙的ニューラルネットワークのロバスト性検証のための理論的および計算的枠組みを提案する。 まず、暗黙的なニューラルネットワークが与えられたとき、関連する組込みネットワークを導入し、入力に対する$\ell_\infty$-normボックス制約が与えられると、組込みネットワークは、与えられたネットワークの出力に対して$\ell_\infty$-normボックスをオーバー近似する。 第二に、$\ell_{\infty}$-matrix測度を用いて、元のシステムと組込みシステムの両立に十分な条件を提案し、到達可能性と分類問題に対する$\ell_{\infty}$-normボックスの頑健性マージンを計算する反復アルゴリズムを設計する。 第3に、独立な値を持つ新しい相対分類器変数を提案し、分類問題における証明された対角的堅牢性に厳密な境界をもたらす。 最後に,MNISTデータセットに基づいて訓練したNon-Euclidean Monotone Operator Network(NEMON)の数値シミュレーションを行った。 これらのシミュレーションでは, 混合単調収縮アプローチの精度と実行時間を比較し, 既存のロバスト性検証手法を用いて, 認証された対向的ロバストネスを推定する。

Implicit neural networks are a general class of learning models that replace the layers in traditional feedforward models with implicit algebraic equations. Compared to traditional learning models, implicit networks offer competitive performance and reduced memory consumption. However, they can remain brittle with respect to input adversarial perturbations. This paper proposes a theoretical and computational framework for robustness verification of implicit neural networks; our framework blends together mixed monotone systems theory and contraction theory. First, given an implicit neural network, we introduce a related embedded network and show that, given an $\ell_\infty$-norm box constraint on the input, the embedded network provides an $\ell_\infty$-norm box overapproximation for the output of the given network. Second, using $\ell_{\infty}$-matrix measures, we propose sufficient conditions for well-posedness of both the original and embedded system and design an iterative algorithm to compute the $\ell_{\infty}$-norm box robustness margins for reachability and classification problems. Third, of independent value, we propose a novel relative classifier variable that leads to tighter bounds on the certified adversarial robustness in classification problems. Finally, we perform numerical simulations on a Non-Euclidean Monotone Operator Network (NEMON) trained on the MNIST dataset. In these simulations, we compare the accuracy and run time of our mixed monotone contractive approach with the existing robustness verification approaches in the literature for estimating the certified adversarial robustness.
翻訳日:2021-12-13 15:49:53 公開日:2021-12-10
# 情報理論を用いた空力最適化結果の対話型感度解析

Interaction-Aware Sensitivity Analysis for Aerodynamic Optimization Results using Information Theory ( http://arxiv.org/abs/2112.05609v1 )

ライセンス: Link先を確認
Patricia Wollstadt and Sebastian Schmitt(参考訳) エンジニアリング設計プロセスにおいて重要な問題は、設計パラメータがパフォーマンスに最も影響を与えることを理解することである。 特に最適化アプローチの文脈では、効率的な設計プロセスを実現し、ハイパフォーマンスな結果を達成するためには、この知識が不可欠である。 情報理論は、指標がモデルフリーであり、入力データに最小限の仮定しか必要とせず、非線形関係も捉えるので、これらの関係を調べる強力なツールを提供する。 そこで,最近導入された情報理論的手法と推定アルゴリズムを用いて,最適化結果に最も影響を与える入力パラメータを求める。 提案手法はしばしば無視されるが、複数のパラメータの冗長あるいは相乗的貢献につながる可能性があるパラメータ間の相互作用を特に考慮することができる。 そこで我々は,最近導入されたパラメータ間の相互作用を考慮に入れた情報理論的特徴選択アルゴリズムを用いて,最も関連性の高い最適化パラメータを最初に同定する。 第2に,選択されたパラメータ間の冗長および相乗的貢献を定量化し,パラメータ間相互作用を識別する,新しい部分情報分解(pid)フレームワークを用いた。 そこで我々は、最適化における関連パラメータの同定における新しい情報理論的アプローチの力を示し、これらの手法が冗長パラメータの選択を回避し、複数のパラメータの相乗的寄与をもたらす相互作用を検出することを強調する。

An important issue during an engineering design process is to develop an understanding which design parameters have the most influence on the performance. Especially in the context of optimization approaches this knowledge is crucial in order to realize an efficient design process and achieve high-performing results. Information theory provides powerful tools to investigate these relationships because measures are model-free and thus also capture non-linear relationships, while requiring only minimal assumptions on the input data. We therefore propose to use recently introduced information-theoretic methods and estimation algorithms to find the most influential input parameters in optimization results. The proposed methods are in particular able to account for interactions between parameters, which are often neglected but may lead to redundant or synergistic contributions of multiple parameters. We demonstrate the application of these methods on optimization data from aerospace engineering, where we first identify the most relevant optimization parameters using a recently introduced information-theoretic feature-selection algorithm that accounts for interactions between parameters. Second, we use the novel partial information decomposition (PID) framework that allows to quantify redundant and synergistic contributions between selected parameters with respect to the optimization outcome to identify parameter interactions. We thus demonstrate the power of novel information-theoretic approaches in identifying relevant parameters in optimization runs and highlight how these methods avoid the selection of redundant parameters, while detecting interactions that result in synergistic contributions of multiple parameters.
翻訳日:2021-12-13 15:49:26 公開日:2021-12-10
# まばらな半盲源分離のためのアンロールヤシ

unrolling palm for sparse semi-blind source separation ( http://arxiv.org/abs/2112.05694v1 )

ライセンス: Link先を確認
Mohammad Fahes (1), Christophe Kervazo (1), J\'er\^ome Bobin (2), Florence Tupin (1) ((1) LTCI, T\'el\'ecom Paris, Institut Polytechnique de Paris, Palaiseau, France, (2) CEA Saclay, Gif-sur-Yvette, France)(参考訳) スパースブラインドソース分離(BSS)は、天体物理学やリモートセンシングなど、幅広いアプリケーションのための確立されたツールとなっている。 palm(proximal alternating linearized minimization)アルゴリズムのような古典的なスパースbss法は、しかしながら、しばしば困難なハイパーパラメータの選択に苦しめられ、その結果を損なう。 この落とし穴を回避すべく,本研究では,アルゴリズム展開/展開の活発な分野を構築することを提案する。 PALMの展開は、PALMハイパーパラメータと変数の両方を学習することで、現実的なシミュレーションや地平線データから生じるデータ駆動の知識を活用することができる。 トレーニングおよびテストフェーズの間、固定既知の辞書を仮定した既存の未ロールアルゴリズムの多くとは対照的に、この記事では、可変混合行列(すなわち辞書)を扱う能力をさらに強調する。 提案したLearted PALM (LPALM) アルゴリズムは,実世界の応用において学習モデルの一般化を促進する鍵となる半盲音源分離を実現する。 宇宙物理マルチスペクトル画像におけるLPALMの関連性について述べる。このアルゴリズムは、PALMの最大10^4-10^5$倍のイテレーションを必要とするだけでなく、PALMの煩雑なハイパーパラメータや初期化の選択を回避しつつ、分離品質を向上させる。 さらに、LPALMは、セミブレンド設定において、他のアンロールソース分離方法よりも優れていることを示す。

Sparse Blind Source Separation (BSS) has become a well established tool for a wide range of applications - for instance, in astrophysics and remote sensing. Classical sparse BSS methods, such as the Proximal Alternating Linearized Minimization (PALM) algorithm, nevertheless often suffer from a difficult hyperparameter choice, which undermines their results. To bypass this pitfall, we propose in this work to build on the thriving field of algorithm unfolding/unrolling. Unrolling PALM enables to leverage the data-driven knowledge stemming from realistic simulations or ground-truth data by learning both PALM hyperparameters and variables. In contrast to most existing unrolled algorithms, which assume a fixed known dictionary during the training and testing phases, this article further emphasizes on the ability to deal with variable mixing matrices (a.k.a. dictionaries). The proposed Learned PALM (LPALM) algorithm thus enables to perform semi-blind source separation, which is key to increase the generalization of the learnt model in real-world applications. We illustrate the relevance of LPALM in astrophysical multispectral imaging: the algorithm not only needs up to $10^4-10^5$ times fewer iterations than PALM, but also improves the separation quality, while avoiding the cumbersome hyperparameter and initialization choice of PALM. We further show that LPALM outperforms other unrolled source separation methods in the semi-blind setting.
翻訳日:2021-12-13 15:49:02 公開日:2021-12-10
# (参考訳) もっと自由にコントロールしろ! 意味拡散指導による画像合成

More Control for Free! Image Synthesis with Semantic Diffusion Guidance ( http://arxiv.org/abs/2112.05744v1 )

ライセンス: CC BY 4.0
Xihui Liu, Dong Huk Park, Samaneh Azadi, Gong Zhang, Arman Chopikyan, Yuxiao Hu, Humphrey Shi, Anna Rohrbach, Trevor Darrell(参考訳) 制御可能な画像合成モデルは、サンプル画像からテキスト命令やガイダンスに基づいて多様な画像を作成することができる。 近年,拡散確率モデルが従来の手法よりも現実的な画像を生成することが示され,無条件およびクラス条件設定で実演されている。 我々は、このモデルクラスのきめ細かい連続的な制御を探求し、言語または画像の誘導を可能にする意味的拡散誘導のための新しい統合フレームワークを導入する。 画像テキストや画像マッチングスコアの勾配を用いて、事前訓練された非条件拡散モデルに誘導する。 我々はCLIPベースのテキストガイダンスとコンテンツとスタイルベースのイメージガイダンスを統一形式で検討する。 テキストガイドによる合成アプローチは、関連するテキストアノテーションなしでデータセットに適用できる。 ffhqおよびlsunデータセットについて実験を行い,細粒度のテキスト誘導画像合成,スタイルやコンテンツサンプル画像に関連する画像の合成,テキストと画像指導の併用例を示す。

Controllable image synthesis models allow creation of diverse images based on text instructions or guidance from an example image. Recently, denoising diffusion probabilistic models have been shown to generate more realistic imagery than prior methods, and have been successfully demonstrated in unconditional and class-conditional settings. We explore fine-grained, continuous control of this model class, and introduce a novel unified framework for semantic diffusion guidance, which allows either language or image guidance, or both. Guidance is injected into a pretrained unconditional diffusion model using the gradient of image-text or image matching scores. We explore CLIP-based textual guidance as well as both content and style-based image guidance in a unified form. Our text-guided synthesis approach can be applied to datasets without associated text annotations. We conduct experiments on FFHQ and LSUN datasets, and show results on fine-grained text-guided image synthesis, synthesis of images related to a style or content example image, and examples with both textual and image guidance.
翻訳日:2021-12-13 15:47:39 公開日:2021-12-10
# 垂直的フェデレーション学習におけるラベル推論とバックドア攻撃

Defending Label Inference and Backdoor Attacks in Vertical Federated Learning ( http://arxiv.org/abs/2112.05409v1 )

ライセンス: Link先を確認
Yang Liu, Zhihao Yi, Yan Kang, Yuanqin He, Wenhan Liu, Tianyuan Zou, Qiang Yang(参考訳) フェデレート学習のような協調学習環境では、好奇心の強いパリティは正直だが、悪意のある当事者がバックドア攻撃を通じて学習プロセスを操作できる一方で、推論攻撃によって他人のプライベートデータを推論しようとしている。 しかしながら、既存のほとんどの作品は、データがサンプル(hfl)によって分割されるフェデレーション学習シナリオのみを考慮に入れている。 VFL(Feature-partitioned Federated Learning)は、多くの現実世界アプリケーションにおいて重要なシナリオである。 このようなシナリオにおける攻撃と防御は、攻撃者と防御者が他の参加者の特徴やモデルパラメータにアクセスできない場合、特に難しい。 以前の研究では、プライベートラベルをサンプル毎の勾配から再構築できることしか示されていない。 本稿では,まず,一般的な推定値に逆らうバッチ平均勾配のみを明らかにした場合,プライベートラベルを再構成可能であることを示す。 さらに、vflの受動的パーティは、勾配再配置攻撃によって、アクティブパーティ内の対応するラベルをターゲットラベルに置き換えることさえ可能であることを示した。 最初の攻撃から防御するために、オートエンコーダとエントロピー正規化に基づく混乱型オートエンコーダ(CoAE)と呼ばれる新しい手法を導入する。 この手法によってラベル推論攻撃をうまくブロックでき、既存の手法に比べてタスクの精度を損なうことが実証された。 また,本手法は勾配再配置バックドアアタックの防御にも有効であり,vflプロトコルの変更を伴わない,普遍的かつ実用的な防衛戦略である。 両立VFL設定と多人数VFL設定によるアプローチの有効性を示す。 我々の知る限りでは、この研究は、機能分割型フェデレーション学習フレームワークにおけるラベル推論とバックドアアタックを扱う最初の体系的な研究である。

In collaborative learning settings like federated learning, curious parities might be honest but are attempting to infer other parties' private data through inference attacks while malicious parties might manipulate the learning process for their own purposes through backdoor attacks. However, most existing works only consider the federated learning scenario where data are partitioned by samples (HFL). The feature-partitioned federated learning (VFL) can be another important scenario in many real-world applications. Attacks and defenses in such scenarios are especially challenging when the attackers and the defenders are not able to access the features or model parameters of other participants. Previous works have only shown that private labels can be reconstructed from per-sample gradients. In this paper, we first show that private labels can be reconstructed when only batch-averaged gradients are revealed, which is against the common presumption. In addition, we show that a passive party in VFL can even replace its corresponding labels in the active party with a target label through a gradient-replacement attack. To defend against the first attack, we introduce a novel technique termed confusional autoencoder (CoAE), based on autoencoder and entropy regularization. We demonstrate that label inference attacks can be successfully blocked by this technique while hurting less main task accuracy compared to existing methods. Our CoAE technique is also effective in defending the gradient-replacement backdoor attack, making it an universal and practical defense strategy with no change to the original VFL protocol. We demonstrate the effectiveness of our approaches under both two-party and multi-party VFL settings. To the best of our knowledge, this is the first systematic study to deal with label inference and backdoor attacks in the feature-partitioned federated learning framework.
翻訳日:2021-12-13 15:32:01 公開日:2021-12-10
# ガウス過程と変分積分器を用いた構造保存学習

Structure-Preserving Learning Using Gaussian Processes and Variational Integrators ( http://arxiv.org/abs/2112.05451v1 )

ライセンス: Link先を確認
Jan Br\"udigam, Martin Schuck, Alexandre Capone, Stefan Sosnowski, Sandra Hirche(参考訳) ガウス過程の回帰は、未知のシステムを学習し、学習モデルの不確かさを特定するためにしばしば適用される。 未知の系を学習するためにガウス過程の回帰を用いる場合、一般的に考慮されるアプローチは、いくつかの標準離散化を適用した後の残差ダイナミクスを学習することである。 変分積分器は、エネルギー保存や明示的な制約の満足度といった基礎システムの物理的特性を保持するため、あまり一般的ではないが、離散化に対する有望なアプローチである。 本研究では,機械システムの名目力学のための変分積分器と,ガウス過程回帰による残差力学の学習を組み合わせることを提案する。 我々は、既知の運動的制約のあるシステムへのアプローチを拡張し、予測の不確実性に関する公式な境界を提供する。 提案手法のシミュレーション評価は, 理論的結果に応じて望ましいエネルギー保存特性を示し, 制約された力学系を扱う能力を示す。

Gaussian process regression is often applied for learning unknown systems and specifying the uncertainty of the learned model. When using Gaussian process regression to learn unknown systems, a commonly considered approach consists of learning the residual dynamics after applying some standard discretization, which might however not be appropriate for the system at hand. Variational integrators are a less common yet promising approach to discretization, as they retain physical properties of the underlying system, such as energy conservation or satisfaction of explicit constraints. In this work, we propose the combination of a variational integrator for the nominal dynamics of a mechanical system and learning residual dynamics with Gaussian process regression. We extend our approach to systems with known kinematic constraints and provide formal bounds on the prediction uncertainty. The simulative evaluation of the proposed method shows desirable energy conservation properties in accordance with the theoretical results and demonstrates the capability of treating constrained dynamical systems.
翻訳日:2021-12-13 15:31:35 公開日:2021-12-10
# コントラスト型自己監督学習を用いた概念表現学習

Concept Representation Learning with Contrastive Self-Supervised Learning ( http://arxiv.org/abs/2112.05677v1 )

ライセンス: Link先を確認
Daniel T. Chang(参考訳) 概念指向型ディープラーニング(CODL)は,(1)外部監督の少ない学習,(2)トレーニングの例とは異なる分布から得られるテスト例への対処,(3)記号型AIとの深層学習の統合といった,深層学習の今後の課題に対応するための一般的なアプローチである。 CODLでは、人間の学習と同様に概念表現は概念の模範に基づいて学習される。 対照的な自己教師付き学習(cssl)は、それを行うための有望なアプローチを提供する。 (1) 意味ラベルから逃れるためにデータ駆動の関連を使い、(2) 段階的かつ継続的な学習をサポートし、(大きな)固定されたデータセットから離れ、(3) 創発的な目的に適応し、固定された目的(タスク)から逃れる。 CSSLを用いた概念表現学習の主要な側面について論じる。 これには、デュアルレベル概念表現、特徴表現のためのcssl、例示的類似性測度と自己教師付き関係推論、漸進的および連続的なcssl、コントラスト的自己教師付き概念(クラス)インクリメンタル学習が含まれる。 この議論は、cognitive neural scienceとcsslの最近の知見を活用している。

Concept-oriented deep learning (CODL) is a general approach to meet the future challenges for deep learning: (1) learning with little or no external supervision, (2) coping with test examples that come from a different distribution than the training examples, and (3) integrating deep learning with symbolic AI. In CODL, as in human learning, concept representations are learned based on concept exemplars. Contrastive self-supervised learning (CSSL) provides a promising approach to do so, since it: (1) uses data-driven associations, to get away from semantic labels, (2) supports incremental and continual learning, to get away from (large) fixed datasets, and (3) accommodates emergent objectives, to get away from fixed objectives (tasks). We discuss major aspects of concept representation learning using CSSL. These include dual-level concept representations, CSSL for feature representations, exemplar similarity measures and self-supervised relational reasoning, incremental and continual CSSL, and contrastive self-supervised concept (class) incremental learning. The discussion leverages recent findings from cognitive neural science and CSSL.
翻訳日:2021-12-13 15:31:19 公開日:2021-12-10
# 自己注意は$O(n^2)$メモリを必要としない

Self-attention Does Not Need $O(n^2)$ Memory ( http://arxiv.org/abs/2112.05682v1 )

ライセンス: Link先を確認
Markus N. Rabe and Charles Staats(参考訳) 我々は、配列長に関して$O(1)$メモリを必要とする非常に単純なアルゴリズムと、$O(\log n)$メモリを必要とする自己注意の拡張を提案する。 これは、自己アテンションが$o(n^2)$メモリを必要とするというしばしば述べられている信念とは対照的である。 時間複雑性は依然として$O(n^2)$であるが、現代のアクセラレータでは計算能力よりもデバイスメモリが制限要因となることが多い。 したがって、注意のメモリ要件の削減は、他の方法よりも長いシーケンスの処理を可能にする。 我々は、$o(\sqrt{n})$メモリを必要とし、数値的に安定であり、標準的注意実装のランタイム数パーセント以内のアクセラレーターの実用的な実装を提供する。 また、メモリ効率を保ちながら関数を区別する方法も示す。 シーケンス長16384では、自己アテンションのメモリオーバーヘッドを推論の59倍、微分の32倍に削減する。

We present a very simple algorithm for attention that requires $O(1)$ memory with respect to sequence length and an extension to self-attention that requires $O(\log n)$ memory. This is in contrast with the frequently stated belief that self-attention requires $O(n^2)$ memory. While the time complexity is still $O(n^2)$, device memory rather than compute capability is often the limiting factor on modern accelerators. Thus, reducing the memory requirements of attention allows processing of longer sequences than might otherwise be feasible. We provide a practical implementation for accelerators that requires $O(\sqrt{n})$ memory, is numerically stable, and is within a few percent of the runtime of the standard implementation of attention. We also demonstrate how to differentiate the function while remaining memory-efficient. For sequence length 16384, the memory overhead of self-attention is reduced by 59X for inference and by 32X for differentiation.
翻訳日:2021-12-13 15:30:57 公開日:2021-12-10
# 複雑平衡系におけるソフト介入の学習

Learning soft interventions in complex equilibrium systems ( http://arxiv.org/abs/2112.05729v1 )

ライセンス: Link先を確認
Michel Besserve and Bernhard Sch\"olkopf(参考訳) 複雑系はしばしば循環因果モデルとして記述できるフィードバックループを含む。 このようなシステムへの介入は、グラフ構造から直接推測できない反直感効果をもたらす可能性がある。 リー群に基づく微分可能介入の枠組みを確立後、近代的自動微分技術とその暗黙的機能への応用を利用して、循環因果モデルにおける介入の最適化を行う。 我々は、持続可能経済への移行シナリオを調査することにより、この枠組みの使用を説明する。

Complex systems often contain feedback loops that can be described as cyclic causal models. Intervening in such systems may lead to counter-intuitive effects, which cannot be inferred directly from the graph structure. After establishing a framework for differentiable interventions based on Lie groups, we take advantage of modern automatic differentiation techniques and their application to implicit functions in order to optimize interventions in cyclic causal models. We illustrate the use of this framework by investigating scenarios of transition to sustainable economies.
翻訳日:2021-12-13 15:30:42 公開日:2021-12-10
# 計算最短経路の有効性:理論的および実験的研究

Computing Diverse Shortest Paths Efficiently: A Theoretical and Experimental Study ( http://arxiv.org/abs/2112.05403v1 )

ライセンス: Link先を確認
Tesshu Hanaka, Yasuaki Kobayashi, Kazuhiro Kurita, See Woo Lee, Yota Otachi(参考訳) 近年,組合せ問題における多様な解の発見が注目されている(Baste et al. 2020, Fomin et al. 2020, Hanaka et al. 2021)。 整数 $k$ が与えられたとき、これらの解間のペアワイズ(重み付けされた)ハミング距離の和が最大化されるような$k$の解を求める。 このような解は多様な解と呼ばれる。 重み付き有向グラフにおいて最短の$st$パスを求める多項式時間アルゴリズムを提案する。 さらに,多彩な重み付きマトロイド基底,多彩な重み付きアルブレッセンス,多様な二成分マッチングなど,他の古典的組合せ問題についても検討した。 これらの問題を多項式時間で解くことができることを示す。 提案手法の実用的性能を評価するために,我々は合成および実世界のインスタンスを用いた計算実験を行い,提案手法が妥当な計算時間内に多様な解をうまく計算できることを示した。

Finding diverse solutions in combinatorial problems recently has received considerable attention (Baste et al. 2020; Fomin et al. 2020; Hanaka et al. 2021). In this paper we study the following type of problems: given an integer $k$, the problem asks for $k$ solutions such that the sum of pairwise (weighted) Hamming distances between these solutions is maximized. Such solutions are called diverse solutions. We present a polynomial-time algorithm for finding diverse shortest $st$-paths in weighted directed graphs. Moreover, we study the diverse version of other classical combinatorial problems such as diverse weighted matroid bases, diverse weighted arborescences, and diverse bipartite matchings. We show that these problems can be solved in polynomial time as well. To evaluate the practical performance of our algorithm for finding diverse shortest $st$-paths, we conduct a computational experiment with synthetic and real-world instances.The experiment shows that our algorithm successfully computes diverse solutions within reasonable computational time.
翻訳日:2021-12-13 15:30:34 公開日:2021-12-10
# 高速探索とインターセプションのための自律飛行ロボット

Autonomous Aerial Robot for High-Speed Search and Intercept Applications ( http://arxiv.org/abs/2112.05465v1 )

ライセンス: Link先を確認
Alejandro Rodriguez-Ramos, Adrian Alvarez-Fernandez Hriday Bavle, Javier Rodriguez-Vazquez, Liang Lu Miguel Fernandez-Cortizas, Ramon A. Suarez Fernandez, Alberto Rodelgo, Carlos Santos, Martin Molina, Luis Merino, Fernando Caballero and Pascual Campoy(参考訳) 近年、航空ロボティクスの文脈における高速ナビゲーションと環境相互作用は、いくつかの学術研究や産業研究の分野として注目されている。 特に、航空機用ロボットの検索・インターセプト(sai)応用は、いくつかの環境におけるユーザビリティの潜在的な理由から、魅力的な研究領域となっている。 それにもかかわらず、SaIタスクには、センサーウェイト、オンボード計算リソース、アクティベーション設計、知覚と制御のためのアルゴリズムなどに関する挑戦的な開発が含まれている。 本研究では, 高速物体把握のための完全自律空中ロボットを提案する。 追加のサブタスクとして、我々のシステムは、表面に近い極にある気球を自律的にピアスすることができる。 私たちの最初の貢献は、新しいグリッパーデザインと追加のセンサーにより、ロボットが高速に物体を把握できる、アクチュエーションと感覚レベルでの空中ロボットの設計です。 第2の貢献は、知覚、状態推定、運動計画、運動制御、ミッション制御からなる完全なソフトウェアフレームワークであり、自律的な把握ミッションを迅速かつ堅牢に実行する。 当社のアプローチは国際競争で検証され,屋外環境において移動物体を6m/sで自律的に追尾し,追尾し,把握し,優れた結果が得られた。

In recent years, high-speed navigation and environment interaction in the context of aerial robotics has become a field of interest for several academic and industrial research studies. In particular, Search and Intercept (SaI) applications for aerial robots pose a compelling research area due to their potential usability in several environments. Nevertheless, SaI tasks involve a challenging development regarding sensory weight, on-board computation resources, actuation design and algorithms for perception and control, among others. In this work, a fully-autonomous aerial robot for high-speed object grasping has been proposed. As an additional sub-task, our system is able to autonomously pierce balloons located in poles close to the surface. Our first contribution is the design of the aerial robot at an actuation and sensory level consisting of a novel gripper design with additional sensors enabling the robot to grasp objects at high speeds. The second contribution is a complete software framework consisting of perception, state estimation, motion planning, motion control and mission control in order to rapid- and robustly perform the autonomous grasping mission. Our approach has been validated in a challenging international competition and has shown outstanding results, being able to autonomously search, follow and grasp a moving object at 6 m/s in an outdoor environment
翻訳日:2021-12-13 15:29:09 公開日:2021-12-10
# 能動的自己を持つ自律型人工エージェントを目指して--位置行動における制御感覚のモデル化

Towards autonomous artificial agents with an active self: modeling sense of control in situated action ( http://arxiv.org/abs/2112.05577v1 )

ライセンス: Link先を確認
Sebastian Kahl, Sebastian Wiese, Nele Russwinkel, Stefan Kopp(参考訳) 本稿では,人工エージェントにおけるアクティブ自己の計算モデルについて述べる。 特に,自律的位置決め行動においてエージェントがどのように制御の感覚を組み込むことができるか,どのようにしてエージェントが自律的位置決め行動に現れるか,そしてその制御に影響を及ぼすかに焦点を当てる。 これはボトムアッププロセス(感覚運動学習と制御のきめ細かい適応)とトップダウンプロセス(戦略選択と意思決定のための認知プロセス)を組み合わせた具体化された認知モデルを構築する必要があると論じている。 本稿では,予測処理と自由エネルギー最小化の原理に基づく概念計算アーキテクチャを提案する。 この一般的なモデルを用いて、制御階層のレベルにわたって制御の感覚がどのように形成され、予測不可能な環境でアクション制御をサポートするかを記述する。 本稿では, 自律エージェントが予測不能な状況に対処し, 対応する制御感覚に対処しなければならないシミュレーションタスクシナリオにおいて, このモデルの実装と最初の評価を行う。 低レベルと高レベルのアクション制御を組み合わせる方法が異なるモデルパラメータの設定について検討する。 その結果,低レベル・高レベルな行動制御の必要性が変化する状況において,情報を適切に重み付けすることの重要性が示された。

In this paper we present a computational modeling account of an active self in artificial agents. In particular we focus on how an agent can be equipped with a sense of control and how it arises in autonomous situated action and, in turn, influences action control. We argue that this requires laying out an embodied cognitive model that combines bottom-up processes (sensorimotor learning and fine-grained adaptation of control) with top-down processes (cognitive processes for strategy selection and decision-making). We present such a conceptual computational architecture based on principles of predictive processing and free energy minimization. Using this general model, we describe how a sense of control can form across the levels of a control hierarchy and how this can support action control in an unpredictable environment. We present an implementation of this model as well as first evaluations in a simulated task scenario, in which an autonomous agent has to cope with un-/predictable situations and experiences corresponding sense of control. We explore different model parameter settings that lead to different ways of combining low-level and high-level action control. The results show the importance of appropriately weighting information in situations where the need for low/high-level action control varies and they demonstrate how the sense of control can facilitate this.
翻訳日:2021-12-13 15:28:51 公開日:2021-12-10
# ディープ・リカレントニューラルネットワークのための統一場理論

Unified Field Theory for Deep and Recurrent Neural Networks ( http://arxiv.org/abs/2112.05589v1 )

ライセンス: Link先を確認
Kai Segadlo, Bastian Epping, Alexander van Meegen, David Dahmen, Michael Kr\"amer, Moritz Helias(参考訳) 異なるネットワークアーキテクチャの能力と限界を理解することは、機械学習にとって基本的な重要性である。 ガウス過程のベイズ推論は、無限層幅の極限である$n\to\infty$ で再帰的および深層ネットワークを研究するための有効なアプローチであることが証明されている。 本稿では,無秩序系の統計物理学の確立した手法を用いて,第一原理から始まり,両アーキテクチャの平均場理論を統一的かつ体系的に導出する。 この理論は、平均場方程式は時間的構造に関して異なるが、読み出しが1つの点または層で取られるとき、それぞれ同じガウス核を生成すると結論付ける。 分類に適用されたベイズ推定は、2つのアーキテクチャの同一の性能と能力を予測する。 数値的には、平均場理論への収束は、ディープネットワークよりも再帰的なネットワークでは遅く、収束速度は、それぞれ、前の重みのパラメータや、深さや時間ステップの数に依存する。 提案手法はガウス過程が1/n$の体系的展開の最小順序であることを示す。 したがって形式主義は、有限幅のリカレントアーキテクチャとディープアーキテクチャの基本的な違いを探究する方法である。

Understanding capabilities and limitations of different network architectures is of fundamental importance to machine learning. Bayesian inference on Gaussian processes has proven to be a viable approach for studying recurrent and deep networks in the limit of infinite layer width, $n\to\infty$. Here we present a unified and systematic derivation of the mean-field theory for both architectures that starts from first principles by employing established methods from statistical physics of disordered systems. The theory elucidates that while the mean-field equations are different with regard to their temporal structure, they yet yield identical Gaussian kernels when readouts are taken at a single time point or layer, respectively. Bayesian inference applied to classification then predicts identical performance and capabilities for the two architectures. Numerically, we find that convergence towards the mean-field theory is typically slower for recurrent networks than for deep networks and the convergence speed depends non-trivially on the parameters of the weight prior as well as the depth or number of time steps, respectively. Our method exposes that Gaussian processes are but the lowest order of a systematic expansion in $1/n$. The formalism thus paves the way to investigate the fundamental differences between recurrent and deep architectures at finite widths $n$.
翻訳日:2021-12-13 15:28:31 公開日:2021-12-10
# Shennong: 音声音声特徴抽出のためのPythonツールボックス

Shennong: a Python toolbox for audio speech features extraction ( http://arxiv.org/abs/2112.05555v1 )

ライセンス: Link先を確認
Mathieu Bernard and Maxime Poli and Julien Karadayi and Emmanuel Dupoux(参考訳) 音声特徴抽出のためのPythonツールボックスとコマンドラインユーティリティであるShennongを紹介する。 Mel-Frequency Cepstral FilterbanksやPredictive Linear Filters、事前トレーニングされたニューラルネットワーク、ピッチ推定器、話者正規化方法や後処理アルゴリズムなどの分光時間フィルタを含む、幅広い技術アルゴリズムの確立された状態を実装している。 Shennongはオープンソースの、使いやすく、信頼性があり、拡張可能なフレームワークだ。 Pythonを使うことで、他の言語モデリングや機械学習ツールとの統合が簡単になる。 KaldiやPraatといった異種ソフトウェアを置き換えたり補完することを目的としている。 本論文は,shennong software architecture,そのコアコンポーネント,実装アルゴリズムについて記述した後,その応用例について述べる。 電話識別タスクにおける性能比較,訓練に使用する発話継続時間の関数としての声道長正規化モデルの解析,様々な騒音条件におけるピッチ推定アルゴリズムの比較。

We introduce Shennong, a Python toolbox and command-line utility for speech features extraction. It implements a wide range of well-established state of art algorithms including spectro-temporal filters such as Mel-Frequency Cepstral Filterbanks or Predictive Linear Filters, pre-trained neural networks, pitch estimators as well as speaker normalization methods and post-processing algorithms. Shennong is an open source, easy-to-use, reliable and extensible framework. The use of Python makes the integration to others speech modeling and machine learning tools easy. It aims to replace or complement several heterogeneous software, such as Kaldi or Praat. After describing the Shennong software architecture, its core components and implemented algorithms, this paper illustrates its use on three applications: a comparison of speech features performances on a phones discrimination task, an analysis of a Vocal Tract Length Normalization model as a function of the speech duration used for training and a comparison of pitch estimation algorithms under various noise conditions.
翻訳日:2021-12-13 15:28:14 公開日:2021-12-10
# 低コントラスト環境における長距離熱3次元知覚

Long-Range Thermal 3D Perception in Low Contrast Environments ( http://arxiv.org/abs/2112.05280v1 )

ライセンス: Link先を確認
Andrey Filippov, Olga Filippova(参考訳) 本報告では, マイクロボロメータを用いたLWIR(Long Wave Infrared)検出器の感度, 特に3次元計測において, 劇的な改善の可能性を示すため, SBIR フェーズI の成果について述べる。 結果として生じる低SWaP-C熱深度センシングシステムにより、AAM(Autonomous Air Mobilitys for Advanced Air Mobility)の状況認識が可能になる。 低コントラストの静的な物体や動く物体など、周囲の環境に関する堅牢な3d情報を提供する。 COTS非冷却熱センサによって実現されたマルチセンサ3D知覚は、LWIRセンサの大きな弱点を軽減し、システム感度を桁違いに高めることで、低コントラストを実現している。 この技術を評価するのに適した熱画像は存在せず、データセットの獲得を最初の目標にしました。 16の640p×512pのLWIR検出器、カメラキャリブレーションによるサブピクセル解像度、キャプチャ、同期画像の処理によるプロトタイプシステムの設計と構築について論じる。 その結果,40mKセンサで1.9mKのシステムノイズ等価温度差(NETD)に達すると,そのコントラストが3.84倍増加し,さらに5.5倍増加した。

This report discusses the results of SBIR Phase I effort to prove the feasibility of dramatic improvement of the microbolometer-based Long Wave Infrared (LWIR) detectors sensitivity, especially for the 3D measurements. The resulting low SWaP-C thermal depth-sensing system will enable the situational awareness of Autonomous Air Vehicles for Advanced Air Mobility (AAM). It will provide robust 3D information of the surrounding environment, including low-contrast static and moving objects, at far distances in degraded visual conditions and GPS-denied areas. Our multi-sensor 3D perception enabled by COTS uncooled thermal sensors mitigates major weakness of LWIR sensors - low contrast by increasing the system sensitivity over an order of magnitude. There were no available thermal image sets suitable for evaluating this technology, making datasets acquisition our first goal. We discuss the design and construction of the prototype system with sixteen 640pix x 512pix LWIR detectors, camera calibration to subpixel resolution, capture, and process synchronized image. The results show the 3.84x contrast increase for intrascene-only data and an additional 5.5x - with the interscene accumulation, reaching system noise-equivalent temperature difference (NETD) of 1.9 mK with the 40 mK sensors.
翻訳日:2021-12-13 15:24:18 公開日:2021-12-10
# faceformer:トランスフォーマーを使った音声駆動3d顔アニメーション

FaceFormer: Speech-Driven 3D Facial Animation with Transformers ( http://arxiv.org/abs/2112.05329v1 )

ライセンス: Link先を確認
Yingruo Fan, Zhaojiang Lin, Jun Saito, Wenping Wang, Taku Komura(参考訳) 音声駆動の3D顔アニメーションは、人間の顔の複雑な形状と、3Dオーディオ視覚データの利用が制限されているため、難しい。 先行研究は通常、短い音声ウィンドウの音素レベルの特徴を学習することに集中しており、時には不正確な唇の動きをもたらす。 そこで本稿では,この制約に対処するために,長期的な音声コンテキストを符号化し,アニメーション3d顔メッシュのシーケンスを自己回帰的に予測する,トランスフォーマティブベースの自己回帰モデルfaceformerを提案する。 データ不足問題に対処するために,自己教師付き事前学習音声表現を統合する。 また,このタスクによく適合する2つのバイアス付き注意機構を考案し,バイアス付きクロスモーダルマルチヘッド (mh) の注意と,周期的位置符号化戦略によるバイアス付き因果的mhセルフアテンションを含む。 前者は音声モーションのモダリティを効果的に調整し、後者は長い音声シーケンスに一般化する機能を提供する。 広範な実験と知覚的ユーザ調査の結果,既存の最先端技術よりも優れたアプローチが得られた。 コードは利用可能になります。

Speech-driven 3D facial animation is challenging due to the complex geometry of human faces and the limited availability of 3D audio-visual data. Prior works typically focus on learning phoneme-level features of short audio windows with limited context, occasionally resulting in inaccurate lip movements. To tackle this limitation, we propose a Transformer-based autoregressive model, FaceFormer, which encodes the long-term audio context and autoregressively predicts a sequence of animated 3D face meshes. To cope with the data scarcity issue, we integrate the self-supervised pre-trained speech representations. Also, we devise two biased attention mechanisms well suited to this specific task, including the biased cross-modal multi-head (MH) attention and the biased causal MH self-attention with a periodic positional encoding strategy. The former effectively aligns the audio-motion modalities, whereas the latter offers abilities to generalize to longer audio sequences. Extensive experiments and a perceptual user study show that our approach outperforms the existing state-of-the-arts. The code will be made available.
翻訳日:2021-12-13 15:23:54 公開日:2021-12-10
# UNIST: ニューラルインシシトな形状変換ネットワーク

UNIST: Unpaired Neural Implicit Shape Translation Network ( http://arxiv.org/abs/2112.05381v1 )

ライセンス: Link先を確認
Qimin Chen, Johannes Merz, Aditya Sanghi, Hooman Shayani, Ali Mahdavi-Amiri, Hao Zhang(参考訳) 2次元領域と3次元領域の両方において、汎用的で不対形な形状変換のための最初の深部神経暗黙モデルUNISTを導入する。 我々のモデルは、芸術の状態を表わす点雲ではなく、暗黙のフィールドを自動エンコードして構築されている。 さらに,我々の翻訳ネットワークは,潜在空間処理と位置認識の両方のメリットを組み合わせた潜在グリッド表現上でのタスクを訓練し,劇的な形状変換を可能にするだけでなく,空間的特徴や自然形状変換の詳細な局所的詳細も保存する。 同じネットワークアーキテクチャで、入力ドメインペアによってのみ規定されるので、我々のモデルは、スタイル保存コンテンツ変更とコンテンツ保存スタイル転送の両方を学ぶことができる。 翻訳結果の汎用性と品質を実証し,よく知られたベースラインと比較する。

We introduce UNIST, the first deep neural implicit model for general-purpose, unpaired shape-to-shape translation, in both 2D and 3D domains. Our model is built on autoencoding implicit fields, rather than point clouds which represents the state of the art. Furthermore, our translation network is trained to perform the task over a latent grid representation which combines the merits of both latent-space processing and position awareness, to not only enable drastic shape transforms but also well preserve spatial features and fine local details for natural shape translations. With the same network architecture and only dictated by the input domain pairs, our model can learn both style-preserving content alteration and content-preserving style transfer. We demonstrate the generality and quality of the translation results, and compare them to well-known baselines.
翻訳日:2021-12-13 15:23:32 公開日:2021-12-10
# 3つの射影ビューに対する臨界構成

Critical configurations for three projective views ( http://arxiv.org/abs/2112.05478v1 )

ライセンス: Link先を確認
Martin Br{\aa}telund(参考訳) 運動からの構造の問題とは、物体の3次元構造を2次元画像の集合から復元することである。 一般的に、十分な画像とイメージポイントが提供されると、すべての情報が一意に復元できるが、ユニークなリカバリが不可能なケースもある。 本稿では、3つの射影カメラの臨界構成を研究するために代数的手法を用いる。 すべての臨界構成は二次曲面の交叉上にあり、どの交叉が臨界配置を構成するかを正確に分類する。

The problem of structure from motion is concerned with recovering the 3-dimensional structure of an object from a set of 2-dimensional images. Generally, all information can be uniquely recovered if enough images and image points are provided, yet there are certain cases where unique recovery is impossible; these are called critical configurations. In this paper we use an algebraic approach to study the critical configurations for three projective cameras. We show that all critical configurations lie on the intersection of quadric surfaces, and classify exactly which intersections constitute a critical configuration.
翻訳日:2021-12-13 15:23:17 公開日:2021-12-10
# DeepRLS:非盲点画像デコンボリューションのための最小二乗層を含むリカレントネットワークアーキテクチャ

DeepRLS: A Recurrent Network Architecture with Least Squares Implicit Layers for Non-blind Image Deconvolution ( http://arxiv.org/abs/2112.05505v1 )

ライセンス: Link先を確認
Iaroslav Koshelev, Daniil Selikhanovych and Stamatios Lefkimmiatis(参考訳) 本研究では,非ブラインド画像のデコンボリューションの問題について検討し,高い画質の復元結果をもたらす新たな再帰的ネットワークアーキテクチャを提案する。 既存の大規模線形解法の計算効率と頑健性に動機づけられ,適応的非負の最小二乗問題の解としてこの問題の解を表現した。 提案したRecurrent Least Squares Deconvolution Network (RLSDN)アーキテクチャは,入力と出力の間に線形制約を課す暗黙のレイヤで構成されている。 設計上、我々のネットワークは2つの重要な目的を同時に果たすことができる。 1つは、自然画像の集合を適切に特徴付けることができる有効画像を暗黙的にモデル化し、もう1つは、対応する最大余剰推定値(MAP)を復元することである。 近年の最先端手法と比較した公開データセットの実験から,提案したRLSDNアプローチは,すべてのテストシナリオにおいて,グレースケールとカラーイメージの両方において,最も優れたパフォーマンスを実現することが示された。 さらに,線形システムの解法をパイプラインの一部として含む任意のネットワークアーキテクチャで適用可能な,新たなトレーニング戦略を提案する。 我々の戦略は、線形ソルバが必要とするイテレーションをアンロールする必要性を完全に排除し、トレーニング中のメモリフットプリントを大幅に削減する。 これにより、より深いネットワークアーキテクチャのトレーニングが可能になり、再構築結果をさらに改善することができる。

In this work, we study the problem of non-blind image deconvolution and propose a novel recurrent network architecture that leads to very competitive restoration results of high image quality. Motivated by the computational efficiency and robustness of existing large scale linear solvers, we manage to express the solution to this problem as the solution of a series of adaptive non-negative least-squares problems. This gives rise to our proposed Recurrent Least Squares Deconvolution Network (RLSDN) architecture, which consists of an implicit layer that imposes a linear constraint between its input and output. By design, our network manages to serve two important purposes simultaneously. The first is that it implicitly models an effective image prior that can adequately characterize the set of natural images, while the second is that it recovers the corresponding maximum a posteriori (MAP) estimate. Experiments on publicly available datasets, comparing recent state-of-the-art methods, show that our proposed RLSDN approach achieves the best reported performance both for grayscale and color images for all tested scenarios. Furthermore, we introduce a novel training strategy that can be adopted by any network architecture that involves the solution of linear systems as part of its pipeline. Our strategy eliminates completely the need to unroll the iterations required by the linear solver and, thus, it reduces significantly the memory footprint during training. Consequently, this enables the training of deeper network architectures which can further improve the reconstruction results.
翻訳日:2021-12-13 15:22:07 公開日:2021-12-10
# Roominoes:既存の3Dルームから新しい3Dフロアプランを作成

Roominoes: Generating Novel 3D Floor Plans From Existing 3D Rooms ( http://arxiv.org/abs/2112.05644v1 )

ライセンス: Link先を確認
Kai Wang, Xianghao Xu, Leon Lei, Selena Ling, Natalie Lindsay, Angel X. Chang, Manolis Savva, Daniel Ritchie(参考訳) リアルな3D屋内シーンデータセットは、コンピュータビジョン、シーン理解、自律ナビゲーション、および3D再構成の大幅な進歩を可能にしている。 しかし、既存のデータセットのスケール、多様性、カスタマイズ性は制限されており、もっとスキャンして注釈を付けるのに時間がかかる。 幸いなことに、 combinatoricsは私たちの側にいる。既存の3dシーンデータセットには、それらを新しいレイアウトに再結合する方法がなければ、十分な部屋がある。 本稿では,既存の3D部屋から新しい3Dフロアプランを作成するタスクを提案する。 この問題の3つのサブタスクを識別する: 2次元レイアウトの生成、互換性のある3次元部屋の検索、レイアウトに適合する3次元部屋の変形。 この問題を解決するための様々な戦略を議論し、2つの代表的なパイプラインを設計する: 1つは利用可能な2Dフロアプランを使用して3D部屋の選択と変形をガイドし、もう1つは互換性のある3D部屋の集合を検索し、それらを新しいレイアウトに組み合わせることを学ぶ。 3つのサブタスクそれぞれに対して生成された結果を評価するメトリクスセットを設計し、異なるメソッドがこれらのサブタスクのパフォーマンスをトレードオフすることを示す。 最後に,生成した3dシーンの恩恵を受ける下流タスクを調査し,これらのタスクの要求に最も適した方法を選択するための戦略を検討する。

Realistic 3D indoor scene datasets have enabled significant recent progress in computer vision, scene understanding, autonomous navigation, and 3D reconstruction. But the scale, diversity, and customizability of existing datasets is limited, and it is time-consuming and expensive to scan and annotate more. Fortunately, combinatorics is on our side: there are enough individual rooms in existing 3D scene datasets, if there was but a way to recombine them into new layouts. In this paper, we propose the task of generating novel 3D floor plans from existing 3D rooms. We identify three sub-tasks of this problem: generation of 2D layout, retrieval of compatible 3D rooms, and deformation of 3D rooms to fit the layout. We then discuss different strategies for solving the problem, and design two representative pipelines: one uses available 2D floor plans to guide selection and deformation of 3D rooms; the other learns to retrieve a set of compatible 3D rooms and combine them into novel layouts. We design a set of metrics that evaluate the generated results with respect to each of the three subtasks and show that different methods trade off performance on these subtasks. Finally, we survey downstream tasks that benefit from generated 3D scenes and discuss strategies in selecting the methods most appropriate for the demands of these tasks.
翻訳日:2021-12-13 15:21:43 公開日:2021-12-10
# 視神経頭の焦点切欠き解析に基づく緑内障自動診断のための深層学習に基づく枠組み

Deep Learning based Framework for Automatic Diagnosis of Glaucoma based on analysis of Focal Notching in the Optic Nerve Head ( http://arxiv.org/abs/2112.05748v1 )

ライセンス: Link先を確認
Sneha Dasgupta, Rishav Mukherjee, Kaushik Dutta and Anindya Sen(参考訳) 緑内障などの進行眼疾患の早期発見と治療において,網膜底部画像の自動評価が最も重要なツールの1つである。 緑内障は視力の進行的な変性をもたらし、眼球の形状の変形と血管の変性によってニューロ網膜縁に沿ってノッチが形成されるのが特徴である。 本稿では,デジタルファンドス画像(DFI)から光ディスク(OD)とオプティカルカップ(OC)領域の自動分割のための深層学習パイプラインを提案し,緑内障の予測に必要な特徴を抽出する。 本手法は緑内障解析におけるcadシステムの精度を高めるために,脳神経網膜リムの焦点ノッチ解析とカップ・ツー・ディスク比値を分類パラメータとして用いた。 サポートベクトルに基づく機械学習アルゴリズムは、抽出した特徴に基づいてDFIをGlaucomatousまたはNormalに分類する分類に使用される。 提案したパイプラインは、DFIから緑内障を検出するために利用可能なDRISHTI-GSデータセットで93.33%の精度で評価された。

Automatic evaluation of the retinal fundus image is emerging as one of the most important tools for early detection and treatment of progressive eye diseases like Glaucoma. Glaucoma results to a progressive degeneration of vision and is characterized by the deformation of the shape of optic cup and the degeneration of the blood vessels resulting in the formation of a notch along the neuroretinal rim. In this paper, we propose a deep learning-based pipeline for automatic segmentation of optic disc (OD) and optic cup (OC) regions from Digital Fundus Images (DFIs), thereby extracting distinct features necessary for prediction of Glaucoma. This methodology has utilized focal notch analysis of neuroretinal rim along with cup-to-disc ratio values as classifying parameters to enhance the accuracy of Computer-aided design (CAD) systems in analyzing glaucoma. Support Vector-based Machine Learning algorithm is used for classification, which classifies DFIs as Glaucomatous or Normal based on the extracted features. The proposed pipeline was evaluated on the freely available DRISHTI-GS dataset with a resultant accuracy of 93.33% for detecting Glaucoma from DFIs.
翻訳日:2021-12-13 15:21:18 公開日:2021-12-10
# 記憶情報は脳に格納されているか?

Where is Memory Information Stored in the Brain? ( http://arxiv.org/abs/2112.05362v1 )

ライセンス: Link先を確認
James Tee and Desmond P. Taylor(参考訳) 科学研究コミュニティでは、脳内の記憶情報はシナプスに格納されていると一般的に信じられている。 しかし、記憶が分子(rnaまたはdna)レベルで記憶されていると仮定する少数派が増加しており、これは心理学者のランディ・ギャリステル(randy gallistel)が提唱した細胞イントリン性仮説(cell-intrinsic hypothesis)として知られる別の仮定である。 本稿では,議論の両面から重要な実験的な証拠の選定について検討する。 我々はエリック・カンデルによる海溝の研究から始め、シナプス仮説を支持する最初の証拠を提供した。 次に、John O'Keefe氏(宣言的記憶と海馬)とJoseph LeDoux氏(手続き的恐怖記憶と扁桃体)によるマウス実験に触れます。 次に,今日の人工知能ニューラルネットの基本構成要素としてシナプスを紹介する。 その後、david glanzmanによる記憶記憶の解離とシナプスの変化に関する研究、およびレーザーを用いたマウスの逆行性健忘症に対するssumu tonegawaの実験について述べる。 そこからgermund hesslowによるフェレットの条件付けポーズの実験と、beatrice gelberによるシナプスのない単細胞生物(paramecium aurelia)の条件付け実験に注目した。 続いて、david glanzmanによるrnaを用いたウミガエル間の記憶移植実験が紹介された。 最後に、Brian Dias氏とKerry Ressler氏による、親から子へのマウスの恐怖のDNA移動に関する実験の概要を紹介する。 我々は心理学の幅広い分野にいくつかの潜在的な意味を結論付けている。

Within the scientific research community, memory information in the brain is commonly believed to be stored in the synapse - a hypothesis famously attributed to psychologist Donald Hebb. However, there is a growing minority who postulate that memory is stored inside the neuron at the molecular (RNA or DNA) level - an alternative postulation known as the cell-intrinsic hypothesis, coined by psychologist Randy Gallistel. In this paper, we review a selection of key experimental evidence from both sides of the argument. We begin with Eric Kandel's studies on sea slugs, which provided the first evidence in support of the synaptic hypothesis. Next, we touch on experiments in mice by John O'Keefe (declarative memory and the hippocampus) and Joseph LeDoux (procedural fear memory and the amygdala). Then, we introduce the synapse as the basic building block of today's artificial intelligence neural networks. After that, we describe David Glanzman's study on dissociating memory storage and synaptic change in sea slugs, and Susumu Tonegawa's experiment on reactivating retrograde amnesia in mice using laser. From there, we highlight Germund Hesslow's experiment on conditioned pauses in ferrets, and Beatrice Gelber's experiment on conditioning in single-celled organisms without synapses (Paramecium aurelia). This is followed by a description of David Glanzman's experiment on transplanting memory between sea slugs using RNA. Finally, we provide an overview of Brian Dias and Kerry Ressler's experiment on DNA transfer of fear in mice from parents to offspring. We conclude with some potential implications for the wider field of psychology.
翻訳日:2021-12-13 15:21:00 公開日:2021-12-10
# Marvin: 家庭環境のためのイノベーティブなOmni指向型ロボットアシスタント

Marvin: Innovative Omni-Directional Robotic Assistant for Domestic Environments ( http://arxiv.org/abs/2112.05597v1 )

ライセンス: Link先を確認
Andrea Eirale, Mauro Martini, Luigi Tagliavini, Marcello Chiaberge, Giuseppe Quaglia(参考訳) テクノロジーは、私たちの知る国内環境を徐々に作り変え、家庭の安全と、スマートコネクテッドデバイスによる環境全体の品質を高めている。 しかし、近年の人口移動やパンデミックは高齢者を自宅に隔離させ、信頼できる支援者の必要性を生じさせている。 ロボットアシスタントは、家庭福祉のイノベーションの新たなフロンティアである。 高齢者モニタリングは、インテリジェントなロボットプラットフォームが集団的幸福のために扱うことのできるサービスアプリケーションの1つに過ぎません。 本稿では,モジュール型階層型アーキテクチャで開発した新しい補助ロボットMarvinについて紹介する。 ロボットアシスタントに関するこれまでの研究について, 分散環境下での効率的な障害物回避と協調して自律走行を可能にする, 4つのメカナムホイールを備えた全方向プラットフォームを提案する。 さらに,センサの視覚範囲を拡張し,テレプレゼンスと接続のためのユーザインタフェースへのアクセスを改善するための制御可能な位置決め装置を設計する。 視覚的知覚のための軽量なディープラーニングソリューション、人物のポーズ分類、音声コマンドはロボットの組み込みハードウェアで完全に動作し、クラウドサービス上のプライベートデータ収集に起因するプライバシーの問題を回避する。

Technology is progressively reshaping the domestic environment as we know it, enhancing home security and the overall ambient quality through smart connected devices. However, demographic shift and pandemics recently demonstrate to cause isolation of elderly people in their houses, generating the need for a reliable assistive figure. Robotic assistants are the new frontier of innovation for domestic welfare. Elderly monitoring is only one of the possible service applications an intelligent robotic platform can handle for collective wellbeing. In this paper, we present Marvin, a novel assistive robot we developed with a modular layer-based architecture, merging a flexible mechanical design with state-of-the-art Artificial Intelligence for perception and vocal control. With respect to previous works on robotic assistants, we propose an omnidirectional platform provided with four mecanum wheels, which enable autonomous navigation in conjunction with efficient obstacle avoidance in cluttered environments. Moreover, we design a controllable positioning device to extend the visual range of sensors and to improve the access to the user interface for telepresence and connectivity. Lightweight deep learning solutions for visual perception, person pose classification and vocal command completely run on the embedded hardware of the robot, avoiding privacy issues arising from private data collection on cloud services.
翻訳日:2021-12-13 15:20:32 公開日:2021-12-10
# AIシステムの公正性を評価する - AI実践者のプロセス、課題、サポートの必要性

Assessing the Fairness of AI Systems: AI Practitioners' Processes, Challenges, and Needs for Support ( http://arxiv.org/abs/2112.05675v1 )

ライセンス: Link先を確認
Michael Madaio, Lisa Egede, Hariharan Subramonyam, Jennifer Wortman Vaughan, Hanna Wallach(参考訳) AIシステムによって引き起こされる公正関連害を特定し、評価し、緩和する実践者を支援するために、さまざまなツールやプラクティスが開発されている。 しかしながら、以前の研究では、これらのツールやプラクティスの意図された設計と、組織的要因が公正な作業を形成する上で果たす役割によって引き起こされるギャップを含む、特定のコンテキストにおけるそれらの使用とのギャップが強調されている。 本稿では,人口集団間のパフォーマンス格差を明らかにすることを目的とした,AIシステムの非集約評価を行う。 3つのテクノロジ企業で10チームから33人のai実践者と半構造化インタビューや構造化ワークショップを実施して,評価の分散設計における実践者のプロセスや課題,サポートの必要性を特定した。 パフォーマンス指標の選択、最も関連する直接的な利害関係者や人口集団の特定、非集約的な評価を行うデータセットの収集において、実践者は課題に直面している。 より一般的には、直接利害関係者との関わりの欠如、疎外されたグループよりも顧客を優先するビジネスインペラティブ、大規模にAIシステムをデプロイする動機から生じる公平さの作業への影響を特定します。

Various tools and practices have been developed to support practitioners in identifying, assessing, and mitigating fairness-related harms caused by AI systems. However, prior research has highlighted gaps between the intended design of these tools and practices and their use within particular contexts, including gaps caused by the role that organizational factors play in shaping fairness work. In this paper, we investigate these gaps for one such practice: disaggregated evaluations of AI systems, intended to uncover performance disparities between demographic groups. By conducting semi-structured interviews and structured workshops with thirty-three AI practitioners from ten teams at three technology companies, we identify practitioners' processes, challenges, and needs for support when designing disaggregated evaluations. We find that practitioners face challenges when choosing performance metrics, identifying the most relevant direct stakeholders and demographic groups on which to focus, and collecting datasets with which to conduct disaggregated evaluations. More generally, we identify impacts on fairness work stemming from a lack of engagement with direct stakeholders, business imperatives that prioritize customers over marginalized groups, and the drive to deploy AI systems at scale.
翻訳日:2021-12-13 15:20:13 公開日:2021-12-10
# 等価量子グラフ回路

Equivariant Quantum Graph Circuits ( http://arxiv.org/abs/2112.05261v1 )

ライセンス: Link先を確認
P\'eter Mernyei, Konstantinos Meichanetzidis, \.Ismail \.Ilkan Ceylan(参考訳) 本研究では,グラフ表現学習のための量子回路を調査し,グラフ構造データ上で学習するための相関帰納バイアスの強いパラメータ化量子回路のクラスとして等価量子グラフ回路(eqgcs)を提案する。 概念的には、EQGCは量子グラフ表現学習の統一フレームワークとして機能し、既存の提案を仮定するいくつかの興味深いサブクラスを定義することができる。 表現力の観点からは、関心のサブクラスが有界グラフ領域上の関数の普遍近似であることを証明し、実験的な証拠を提供する。 量子グラフ機械学習手法に関する理論的な展望は、さらなる研究のために多くの方向を開き、古典的アプローチ以上の能力を持つモデルに繋がる可能性がある。

We investigate quantum circuits for graph representation learning, and propose equivariant quantum graph circuits (EQGCs), as a class of parameterized quantum circuits with strong relational inductive bias for learning over graph-structured data. Conceptually, EQGCs serve as a unifying framework for quantum graph representation learning, allowing us to define several interesting subclasses subsuming existing proposals. In terms of the representation power, we prove that the subclasses of interest are universal approximators for functions over the bounded graph domain, and provide experimental evidence. Our theoretical perspective on quantum graph machine learning methods opens many directions for further work, and could lead to models with capabilities beyond those of classical approaches.
翻訳日:2021-12-13 15:19:22 公開日:2021-12-10
# (参考訳) 自然言語推論のためのパズルベースデータセット

A Puzzle-Based Dataset for Natural Language Inference ( http://arxiv.org/abs/2112.05742v1 )

ライセンス: CC BY 4.0
Roxana Szomiu and Adrian Groza(参考訳) ここでは自然言語理解と自然言語推論に関連するタスクのデータセットを提供する。 このデータセットには、パズル、ニー、ニーブ、ゼブラパズルという3つの領域の自然言語の論理パズルが含まれている。 各パズルは、テキスト内で発生した関係と個人に基づいて生成できる原子の質問のセットに関連付けられている。 各質問に対して、私たちは正しい答えを提供する: 細部、矛盾、曖昧さ。 答えの正しさは定理証明者に対して検証される。 良いパズルには2つの特性があります i)各情報の断片が必要であり、かつ (ii)不要な情報は提供されない。 これらの性質により、パズルは機械理解タスクの候補として興味深い。

We provide here a dataset for tasks related to natural language understanding and natural language inference. The dataset contains logical puzzles in natural language from three domains: comparing puzzles, knighs and knaves, and zebra puzzles. Each puzzle is associated with the entire set of atomic questions that can be generated based on the relations and individuals occurring in the text. For each question we provide the correct answer: entailment, contradiction or ambiguity. The answer's correctness is verified against theorem provers. Good puzzles have two properties: (i) each piece of information is necessary and (ii) no unnecessary information is provided. These properties make puzzles interesting candidates for machine comprehension tasks.
翻訳日:2021-12-13 15:18:07 公開日:2021-12-10
# 中央フィルタによるネットワーク圧縮

Network Compression via Central Filter ( http://arxiv.org/abs/2112.05493v1 )

ライセンス: Link先を確認
Yuanzhi Duan, Xiaofang Hu, Yue Zhou, Qiang Liu, Shukai Duan(参考訳) ニューラルネットワークのプルーニングは、ディープネットワークモデルの複雑さを減らすための優れた性能を持つ。 最近のネットワークプルーニング手法は、ネットワーク内の重要でないフィルタや冗長なフィルタの除去に重点を置いている。 本稿では,特徴マップ間の類似性を検討することにより,フィルタの適切な調整により,フィルタが他のフィルタのセットとほぼ等しいことを示唆する,新しいフィルタプルーニング法であるセントラルフィルタ(cf)を提案する。 提案手法は,入力画像の数に関係なく,特徴マップ間の平均的類似性がほとんど変化しないことを示す。 この結果に基づき,特徴写像上の類似性グラフを確立し,各ノードの近接性中心度を計算して中央フィルタを選択する。 さらに, 中心フィルタに対応する次の層の重みを直接調整し, プルーニングによる誤差を効果的に最小化する手法を考案した。 様々なベンチマークネットワークとデータセットの実験を通じて、cfは最先端のパフォーマンスをもたらす。 例えば、ResNet-56では、CFはパラメータの47.1%を取り除き、約39.7%のFLOPを削減し、CIFAR-10の精度は0.33%向上した。 googlenetでは、cfは55.6%のパラメータを削除することでフロップの約63.2%を削減し、cifar-10のtop-1精度では0.35%の損失しかなかった。 ResNet-50では、パラメータの36.9%を削除することで、FLOPの約47.9%が削減され、ImageNetでは1.07%の精度しか失われていない。 コードはhttps://github.com/8ubpshLR23/Central-Filterで入手できる。

Neural network pruning has remarkable performance for reducing the complexity of deep network models. Recent network pruning methods usually focused on removing unimportant or redundant filters in the network. In this paper, by exploring the similarities between feature maps, we propose a novel filter pruning method, Central Filter (CF), which suggests that a filter is approximately equal to a set of other filters after appropriate adjustments. Our method is based on the discovery that the average similarity between feature maps changes very little, regardless of the number of input images. Based on this finding, we establish similarity graphs on feature maps and calculate the closeness centrality of each node to select the Central Filter. Moreover, we design a method to directly adjust weights in the next layer corresponding to the Central Filter, effectively minimizing the error caused by pruning. Through experiments on various benchmark networks and datasets, CF yields state-of-the-art performance. For example, with ResNet-56, CF reduces approximately 39.7% of FLOPs by removing 47.1% of the parameters, with even 0.33% accuracy improvement on CIFAR-10. With GoogLeNet, CF reduces approximately 63.2% of FLOPs by removing 55.6% of the parameters, with only a small loss of 0.35% in top-1 accuracy on CIFAR-10. With ResNet-50, CF reduces approximately 47.9% of FLOPs by removing 36.9% of the parameters, with only a small loss of 1.07% in top-1 accuracy on ImageNet. The codes can be available at https://github.com/8ubpshLR23/Central-Filter.
翻訳日:2021-12-13 14:56:55 公開日:2021-12-10
# 中間者攻撃に対するユーザ保護のためのプリエンプティブ画像ロバスティフィケーション

Preemptive Image Robustification for Protecting Users against Man-in-the-Middle Adversarial Attacks ( http://arxiv.org/abs/2112.05634v1 )

ライセンス: Link先を確認
Seungyong Moon, Gaon An, Hyun Oh Song(参考訳) ディープニューラルネットワークは現代の画像認識システムの原動力となっている。 しかし、敵対的攻撃に対するニューラルネットワークの脆弱性は、これらのシステムに影響を受ける人々に深刻な脅威をもたらす。 本稿では,Webユーザがオンラインでアップロードした画像に対して,悪質な傍受と妨害を行う現実世界の脅威モデルに焦点を当てる。 この種の攻撃は、単純なパフォーマンス劣化の上に厳しい倫理的懸念を引き起こす可能性がある。 この攻撃を防ぐために,本手法では,逆摂動に頑健な自然画像近傍の点を探索する新しい二値最適化アルゴリズムを考案する。 CIFAR-10 と ImageNet を用いた実験により,提案手法は修正予算内で自然画像を効果的に堅牢化することができることを示した。 また,ランダムな平滑化を併用することで,ロバスト性を向上できることを示す。

Deep neural networks have become the driving force of modern image recognition systems. However, the vulnerability of neural networks against adversarial attacks poses a serious threat to the people affected by these systems. In this paper, we focus on a real-world threat model where a Man-in-the-Middle adversary maliciously intercepts and perturbs images web users upload online. This type of attack can raise severe ethical concerns on top of simple performance degradation. To prevent this attack, we devise a novel bi-level optimization algorithm that finds points in the vicinity of natural images that are robust to adversarial perturbations. Experiments on CIFAR-10 and ImageNet show our method can effectively robustify natural images within the given modification budget. We also show the proposed method can improve robustness when jointly used with randomized smoothing.
翻訳日:2021-12-13 14:56:29 公開日:2021-12-10
# 単純かつ効率的なサンプリングに基づく一般到達可能性解析アルゴリズム

A Simple and Efficient Sampling-based Algorithm for General Reachability Analysis ( http://arxiv.org/abs/2112.05745v1 )

ライセンス: Link先を確認
Thomas Lew, Lucas Janson, Riccardo Bonalli, Marco Pavone(参考訳) 本研究では,汎用到達可能性解析のための効率的なサンプリングベースアルゴリズムを解析し,ニューラルネットワークの検証から動的システムの安全性解析まで,非常に難しい課題である。 入力をサンプリングし、真の到達可能セットで画像を評価し、その$\epsilon$-padded convex hullをセット推定器として取ることにより、このアルゴリズムは一般的な問題設定に適用され、実装が容易である。 我々の主な貢献は、ランダム集合理論を用いた漸近的および有限サンプル精度保証の導出である。 この解析はアルゴリズム設計に、高い確率で$\epsilon$-close reachable setの近似を得るよう通知し、到達可能性問題が最も困難であることを示す洞察を与え、この技術の安全性クリティカルな応用を動機付ける。 ニューラルネットワーク検証タスクでは、このアプローチが以前の作業よりも正確で、はるかに高速であることを示す。 分析により,ハードウェア実験で実証した堅牢なモデル予測コントローラも設計した。

In this work, we analyze an efficient sampling-based algorithm for general-purpose reachability analysis, which remains a notoriously challenging problem with applications ranging from neural network verification to safety analysis of dynamical systems. By sampling inputs, evaluating their images in the true reachable set, and taking their $\epsilon$-padded convex hull as a set estimator, this algorithm applies to general problem settings and is simple to implement. Our main contribution is the derivation of asymptotic and finite-sample accuracy guarantees using random set theory. This analysis informs algorithmic design to obtain an $\epsilon$-close reachable set approximation with high probability, provides insights into which reachability problems are most challenging, and motivates safety-critical applications of the technique. On a neural network verification task, we show that this approach is more accurate and significantly faster than prior work. Informed by our analysis, we also design a robust model predictive controller that we demonstrate in hardware experiments.
翻訳日:2021-12-13 14:56:16 公開日:2021-12-10
# AAAI FSS-21:政府及び公共部門における人工知能

AAAI FSS-21: Artificial Intelligence in Government and Public Sector Proceedings ( http://arxiv.org/abs/2112.05614v1 )

ライセンス: Link先を確認
Mihai Boicu, Erik Blasch, Alun Preece(参考訳) AAAI Fall Symposium on Artificial Intelligence in Government and Public Sector, Washington, DC, USA, November 4-6, 2021 に参加して

Proceedings of the AAAI Fall Symposium on Artificial Intelligence in Government and Public Sector, Washington, DC, USA, November 4-6, 2021
翻訳日:2021-12-13 14:55:20 公開日:2021-12-10
# DisCo: 文埋め込みのコントラスト学習のための効果的な知識蒸留

DisCo: Effective Knowledge Distillation For Contrastive Learning of Sentence Embeddings ( http://arxiv.org/abs/2112.05638v1 )

ライセンス: Link先を確認
Xing Wu, Chaochen Gao, Jue Wang, Liangjun Zang, Zhongyuan Wang, Songlin Hu(参考訳) コントラスト学習は文の埋め込み学習に適していることが証明されており、意味的テキスト類似性(STS)タスクを大幅に改善することができる。 近年、Sentence-T5のような大きなコントラスト学習モデルは、より強力な文埋め込みを学ぶために提案される傾向にある。 しかし、そのような大規模なモデルは、計算資源や時間的コスト制限のため、オンラインでは提供し難い。 これを解決するために、知識蒸留(KD)が一般的に採用され、大きな「教師」モデルを小さな「学生」モデルに圧縮することができるが、一般的にはパフォーマンス損失に悩まされる。 本稿では,Distill-Contrast (DisCo) と呼ばれる拡張KDフレームワークを提案する。 提案するdiscoフレームワークは,まずkdを用いて大文埋め込みモデルの能力を小学生モデルに転送し,ラベル付き学習データを用いたコントラスト学習を用いて学生モデルを微調整する。 さらに,DisCoにおけるKDプロセスにおいて,教師モデルトレーニング,KD,学生モデルファインタニングのコントラスト的知識蒸留(CKD)を提案する。 7つのSTSベンチマークの大規模な実験によると、提案されたDisCoとCKDでトレーニングされた学生モデルは、ほとんど、あるいは全くパフォーマンスの損失を受けておらず、同じパラメータサイズの対応するモデルよりも一貫して優れていた。 驚くべきことに、私たちの110万の学生モデルは、最新の最先端(SOTA)モデル、すなわちSentence-T5(11B)を1%のパラメータで上回ります。

Contrastive learning has been proven suitable for learning sentence embeddings and can significantly improve the semantic textual similarity (STS) tasks. Recently, large contrastive learning models, e.g., Sentence-T5, tend to be proposed to learn more powerful sentence embeddings. Though effective, such large models are hard to serve online due to computational resources or time cost limits. To tackle that, knowledge distillation (KD) is commonly adopted, which can compress a large "teacher" model into a small "student" model but generally suffer from some performance loss. Here we propose an enhanced KD framework termed Distill-Contrast (DisCo). The proposed DisCo framework firstly utilizes KD to transfer the capability of a large sentence embedding model to a small student model on large unlabelled data, and then finetunes the student model with contrastive learning on labelled training data. For the KD process in DisCo, we further propose Contrastive Knowledge Distillation (CKD) to enhance the consistencies among teacher model training, KD, and student model finetuning, which can probably improve performance like prompt learning. Extensive experiments on 7 STS benchmarks show that student models trained with the proposed DisCo and CKD suffer from little or even no performance loss and consistently outperform the corresponding counterparts of the same parameter size. Amazingly, our 110M student model can even outperform the latest state-of-the-art (SOTA) model, i.e., Sentence-T5(11B), with only 1% parameters.
翻訳日:2021-12-13 14:54:02 公開日:2021-12-10
# 公正のためのフレームワーク: 既存の公正なAIソリューションの体系的レビュー

A Framework for Fairness: A Systematic Review of Existing Fair AI Solutions ( http://arxiv.org/abs/2112.05700v1 )

ライセンス: Link先を確認
Brianna Richardson, Juan E. Gilbert(参考訳) 日々の科学的な探求と発見の世界では、機械学習が産業にまたがって大量にローンチされることは、MLの可能性に精通している人々にとってほとんど驚きではない。 偏見と不公平という問題に対する反応として現れた倫理に焦点を当てた研究が、全く同じ応用から生まれたものであってはならない。 アルゴリズムバイアスと戦う技術に焦点を当てたfairness researchが、これまで以上にサポートされた。 公正性の研究の大部分は、機械学習の実践者がアルゴリズムを設計しながらバイアスを監査するツールの開発に費やされている。 それでも、実際にはこれらの公平性ソリューションの応用は不十分である。 この体系的レビューは、定義されているアルゴリズムバイアス問題と提案されている公平性解決空間の詳細な概要を提供する。 さらに、このレビューでは、リリース以来のソリューション空間への注意事項の詳細な説明と、機械学習実践者、公正研究者、機関利害関係者によって提案されたニーズの分類を提供する。 これらのニーズは、公正な研究者、MLアルゴリズムを作成する組織、マシンラーニング実践者自身を含む、実装に最も影響力のある関係者に組織され、対処されている。 これらの発見は、将来、実践者と公正な専門家のギャップを埋め、使用可能な公正なMLツールキットの作成を知らせるために利用することができる。

In a world of daily emerging scientific inquisition and discovery, the prolific launch of machine learning across industries comes to little surprise for those familiar with the potential of ML. Neither so should the congruent expansion of ethics-focused research that emerged as a response to issues of bias and unfairness that stemmed from those very same applications. Fairness research, which focuses on techniques to combat algorithmic bias, is now more supported than ever before. A large portion of fairness research has gone to producing tools that machine learning practitioners can use to audit for bias while designing their algorithms. Nonetheless, there is a lack of application of these fairness solutions in practice. This systematic review provides an in-depth summary of the algorithmic bias issues that have been defined and the fairness solution space that has been proposed. Moreover, this review provides an in-depth breakdown of the caveats to the solution space that have arisen since their release and a taxonomy of needs that have been proposed by machine learning practitioners, fairness researchers, and institutional stakeholders. These needs have been organized and addressed to the parties most influential to their implementation, which includes fairness researchers, organizations that produce ML algorithms, and the machine learning practitioners themselves. These findings can be used in the future to bridge the gap between practitioners and fairness experts and inform the creation of usable fair ML toolkits.
翻訳日:2021-12-13 14:53:35 公開日:2021-12-10
# 画像から画像への変換に基づくロバストEV充電入口検出のためのデータ拡張

Image-to-Image Translation-based Data Augmentation for Robust EV Charging Inlet Detection ( http://arxiv.org/abs/2112.05290v1 )

ライセンス: Link先を確認
Yeonjun Bang and Yeejin Lee and Byeongkeun Kang(参考訳) 本研究は、自律型EV充電ロボットの入出力検出における電気自動車(EV)充電の課題に対処する。 近年,自動EV充電システムが注目され,ユーザエクスペリエンスの向上と,充電インフラや駐車場の効率化が図られている。 しかし、ほとんどの関連作品はシステム設計、ロボット制御、計画、操作に焦点を当てている。 そこで本研究では,画像から画像への変換を基本とした新しいデータセット(evciデータセット)と新しいデータ拡張手法を提案する。 私たちの知る限りでは、EVCIデータセットは、最初のEV充電インレットデータセットです。 データ拡張法では、直感的に合成画像の撮影環境(例えば、時間、照明)を制御できることに重点を置いている。 そこで我々はまず,人間が直感的に解釈できる環境ガイドベクトルを提案する。 次に,ベクトルによって記述された環境に対して,与えられた画像を変換する新しい画像変換ネットワークを提案する。 そこで,環境ガイドベクターによって提供された環境を捉えつつ,与えられた画像と同じ内容の新たな画像を合成することを目的とする。 最後に,拡張データセットを用いて検出方法を学習する。 EVCIデータセットの実験を通して,提案手法が最先端手法より優れていることを示す。 また,提案手法は画像と環境ガイドベクトルを用いて合成画像を制御することができることを示す。

This work addresses the task of electric vehicle (EV) charging inlet detection for autonomous EV charging robots. Recently, automated EV charging systems have received huge attention to improve users' experience and to efficiently utilize charging infrastructures and parking lots. However, most related works have focused on system design, robot control, planning, and manipulation. Towards robust EV charging inlet detection, we propose a new dataset (EVCI dataset) and a novel data augmentation method that is based on image-to-image translation where typical image-to-image translation methods synthesize a new image in a different domain given an image. To the best of our knowledge, the EVCI dataset is the first EV charging inlet dataset. For the data augmentation method, we focus on being able to control synthesized images' captured environments (e.g., time, lighting) in an intuitive way. To achieve this, we first propose the environment guide vector that humans can intuitively interpret. We then propose a novel image-to-image translation network that translates a given image towards the environment described by the vector. Accordingly, it aims to synthesize a new image that has the same content as the given image while looking like captured in the provided environment by the environment guide vector. Lastly, we train a detection method using the augmented dataset. Through experiments on the EVCI dataset, we demonstrate that the proposed method outperforms the state-of-the-art methods. We also show that the proposed method is able to control synthesized images using an image and environment guide vectors.
翻訳日:2021-12-13 14:52:30 公開日:2021-12-10
# LCTR:弱監視対象局所化のための変圧器の局所連続性覚醒について

LCTR: On Awakening the Local Continuity of Transformer for Weakly Supervised Object Localization ( http://arxiv.org/abs/2112.05291v1 )

ライセンス: Link先を確認
Zhiwei Chen, Changan Wang, Yabiao Wang, Guannan Jiang, Yunhang Shen, Ying Tai, Chengjie Wang, Wei Zhang, Liujuan Cao(参考訳) weakly supervised object localization (wsol) は、画像レベルのラベルだけでオブジェクトローカライザを学習することを目的としている。 畳み込みニューラルネットワーク(CNN)ベースの技術は、オブジェクト全体を無視しながら、オブジェクトの最も識別性の高い部分を強調させる。 近年, トランスフォーマーアーキテクチャがWSOLに導入され, 自己認識機構と多層パーセプトロン構造により, 長距離機能依存性を捉えている。 それでもトランスフォーマーはcnnに固有の局所的帰納的バイアスを欠いているため、wsolの局所的特徴の詳細が劣化する可能性がある。 本稿では,グローバル特徴量の局所知覚能力の向上を目的としたlctr(local continuity transformer)と呼ばれるトランスを基盤とした新しい枠組みを提案する。 この目的のために,グローバルベースでクロスパッチ情報を検討するリレーショナルパッチアテンションモジュール (RPAM) を提案する。 さらに、局所的な特徴を利用してモデルの学習トレンドを導出し、弱い局所応答をハイライトするキュー掘削モジュール(CDM)を設計する。 最後に,本手法の有効性を検証するために,ie,cub-200-2011,ilsvrcの2つのデータセットを用いた総合実験を行った。

Weakly supervised object localization (WSOL) aims to learn object localizer solely by using image-level labels. The convolution neural network (CNN) based techniques often result in highlighting the most discriminative part of objects while ignoring the entire object extent. Recently, the transformer architecture has been deployed to WSOL to capture the long-range feature dependencies with self-attention mechanism and multilayer perceptron structure. Nevertheless, transformers lack the locality inductive bias inherent to CNNs and therefore may deteriorate local feature details in WSOL. In this paper, we propose a novel framework built upon the transformer, termed LCTR (Local Continuity TRansformer), which targets at enhancing the local perception capability of global features among long-range feature dependencies. To this end, we propose a relational patch-attention module (RPAM), which considers cross-patch information on a global basis. We further design a cue digging module (CDM), which utilizes local features to guide the learning trend of the model for highlighting the weak local responses. Finally, comprehensive experiments are carried out on two widely used datasets, ie, CUB-200-2011 and ILSVRC, to verify the effectiveness of our method.
翻訳日:2021-12-13 14:52:08 公開日:2021-12-10
# 3dポイントクラウドドメイン適応のための自己センシング

Self-Ensemling for 3D Point Cloud Domain Adaption ( http://arxiv.org/abs/2112.05301v1 )

ライセンス: Link先を確認
Qing Li, Xiaojiang Peng, Qi Hao(参考訳) 最近の3d point cloud learningは、コンピュータビジョンと自動運転でホットな話題になっている。 定性的な大規模3Dポイントクラウドデータセットを手動でアノテートすることは難しいため、ラベル付きソースドメインからラベル付きターゲットドメインへの学習知識の転送を目的とした3Dポイントクラウドラーニングでは、教師なしドメイン適応(UDA)が一般的である。 しかし、単純学習モデルによるドメインシフトによる一般化と再構成エラーは避けられないため、良い表現の学習からモデルの能力を実質的に妨げている。 これらの問題に対処するため,我々は3dポイントクラウドドメイン適応タスクのためのエンドツーエンドの自己センシングネットワーク (sen) を提案する。 一般に, 平均教師と半教師学習の利点を活かし, ソフト分類損失と一貫性損失を導入し, 一貫した一般化と正確な再構築を目指す。 senでは,教師ネットワークは教師学習と自己教師学習とを協調的に保持し,教師ネットワークは時間的一貫性を保ち,有用な表現を学習し,ポイントクラウドの再構築の質を保証する。 いくつかの3Dポイントクラウド UDA ベンチマークでの大規模な実験により、SEN は分類タスクとセグメンテーションタスクの両方において最先端の手法より優れていることが示された。 さらに, さらなる解析により, SEN の再現性も向上することが示された。

Recently 3D point cloud learning has been a hot topic in computer vision and autonomous driving. Due to the fact that it is difficult to manually annotate a qualitative large-scale 3D point cloud dataset, unsupervised domain adaptation (UDA) is popular in 3D point cloud learning which aims to transfer the learned knowledge from the labeled source domain to the unlabeled target domain. However, the generalization and reconstruction errors caused by domain shift with simply-learned model are inevitable which substantially hinder the model's capability from learning good representations. To address these issues, we propose an end-to-end self-ensembling network (SEN) for 3D point cloud domain adaption tasks. Generally, our SEN resorts to the advantages of Mean Teacher and semi-supervised learning, and introduces a soft classification loss and a consistency loss, aiming to achieve consistent generalization and accurate reconstruction. In SEN, a student network is kept in a collaborative manner with supervised learning and self-supervised learning, and a teacher network conducts temporal consistency to learn useful representations and ensure the quality of point clouds reconstruction. Extensive experiments on several 3D point cloud UDA benchmarks show that our SEN outperforms the state-of-the-art methods on both classification and segmentation tasks. Moreover, further analysis demonstrates that our SEN also achieves better reconstruction results.
翻訳日:2021-12-13 14:51:44 公開日:2021-12-10
# 潜在特徴から点雲への注意に基づく変換

Attention-based Transformation from Latent Features to Point Clouds ( http://arxiv.org/abs/2112.05324v1 )

ライセンス: Link先を確認
Kaiyi Zhang, Ximing Yang, Yuan Wu, Cheng Jin(参考訳) ポイントクラウドの生成と完了において、潜在機能をポイントクラウドに変換する以前の方法は、一般的に完全に接続された層(fcベース)または折り畳み操作(フォールディングベース)に基づいている。 しかし、FCベースの方法によって生成された点雲は、通常、外れ値や粗い表面によって悩まされる。 折り畳み方式では,データフローが大きく,収束速度は遅く,非滑らかな面の生成も困難である。 本稿では,潜在機能からポイントクラウドへ変換する注意に基づく手法であるaxformを提案する。 AXformは最初、完全に連結された層を使って中間空間の点を生成する。 これらの中間点を集約して対象点雲を生成する。 AXformはパラメータ共有とデータフローの両方を考慮に入れており、アウトレーヤが減り、ネットワークパラメータが減り、収束速度が速くなる。 AXformによって生成される点は強い2次元の制約を持たず、非滑らかな曲面の生成を改善する。 AXformが局所的な世代のために複数のブランチに拡張されると、中心的な制約は自己クラスタリングと空間整合性を持ち、さらに教師なしのセマンティックセグメンテーションを可能にする。 また、このスキームを採用し、ポイントクラウド補完のためにAXformNetを設計します。 異なるデータセットに対する検討実験により,本手法が最先端の結果が得られることが示された。

In point cloud generation and completion, previous methods for transforming latent features to point clouds are generally based on fully connected layers (FC-based) or folding operations (Folding-based). However, point clouds generated by FC-based methods are usually troubled by outliers and rough surfaces. For folding-based methods, their data flow is large, convergence speed is slow, and they are also hard to handle the generation of non-smooth surfaces. In this work, we propose AXform, an attention-based method to transform latent features to point clouds. AXform first generates points in an interim space, using a fully connected layer. These interim points are then aggregated to generate the target point cloud. AXform takes both parameter sharing and data flow into account, which makes it has fewer outliers, fewer network parameters, and a faster convergence speed. The points generated by AXform do not have the strong 2-manifold constraint, which improves the generation of non-smooth surfaces. When AXform is expanded to multiple branches for local generations, the centripetal constraint makes it has properties of self-clustering and space consistency, which further enables unsupervised semantic segmentation. We also adopt this scheme and design AXformNet for point cloud completion. Considerable experiments on different datasets show that our methods achieve state-of-the-art results.
翻訳日:2021-12-13 14:50:28 公開日:2021-12-10
# 弱教師付き意味セグメンテーションのためのピクセルレベル自己スーパービジョンの検討

Exploring Pixel-level Self-supervision for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2112.05351v1 )

ライセンス: Link先を確認
Sung-Hoon Yoon, Hyeokjun Kweon, Jaeseok Jeong, Hyeonseong Kim, Shinjeong Kim, Kuk-Jin Yoon(参考訳) weakly supervised semantic segmentation (wsss) の既存の研究はクラスアクティベーションマップ (cams) を利用してクラスオブジェクトをローカライズしている。 しかし、正確な対象領域を提供するには分類損失が不十分であるため、CAMは識別パターン(スパースネス)に偏りがあり、正確な対象境界情報(即ち不正確さ)を提供しない傾向にある。 これらの制約を解決するために,画像レベルの監視から画素レベルの自己監督を導出する新しいフレームワーク(MainNetとSupportNetで構成された)を提案する。 提案するRegional Contrastive Module(RCM)とMulti-scale Attentive Module(MAM)の助けを借りて,MainNetはSupportNetの自己監督によって訓練される。 rcmはサポートネットから(1)camsから生成されたクラス領域マスクと(2)クラス領域マスクに従って特徴から得られたクラス単位でのプロトタイプの2つの形態の自己スーパービジョンを抽出する。 そして、MainNetのピクセル単位でのすべての機能は、プロトタイプによって対照的に訓練され、その結果のCAMを鋭くします。 MAMは、SupportNetから複数のスケールで推論されたCAMを、MainNetを導くためのセルフスーパービジョンとして利用する。 MainNetとSupportNetのマルチスケールCAMの相違に基づき、MainNetのCAMは差別の少ない領域に拡張するように訓練されている。 提案手法は,PASCAL VOC 2012データセット上での列車および検証セットにおける最先端のWSSS性能を示す。 再現性のために、コードはまもなく公開されます。

Existing studies in weakly supervised semantic segmentation (WSSS) have utilized class activation maps (CAMs) to localize the class objects. However, since a classification loss is insufficient for providing precise object regions, CAMs tend to be biased towards discriminative patterns (i.e., sparseness) and do not provide precise object boundary information (i.e., impreciseness). To resolve these limitations, we propose a novel framework (composed of MainNet and SupportNet.) that derives pixel-level self-supervision from given image-level supervision. In our framework, with the help of the proposed Regional Contrastive Module (RCM) and Multi-scale Attentive Module (MAM), MainNet is trained by self-supervision from the SupportNet. The RCM extracts two forms of self-supervision from SupportNet: (1) class region masks generated from the CAMs and (2) class-wise prototypes obtained from the features according to the class region masks. Then, every pixel-wise feature of the MainNet is trained by the prototype in a contrastive manner, sharpening the resulting CAMs. The MAM utilizes CAMs inferred at multiple scales from the SupportNet as self-supervision to guide the MainNet. Based on the dissimilarity between the multi-scale CAMs from MainNet and SupportNet, CAMs from the MainNet are trained to expand to the less-discriminative regions. The proposed method shows state-of-the-art WSSS performance both on the train and validation sets on the PASCAL VOC 2012 dataset. For reproducibility, code will be available publicly soon.
翻訳日:2021-12-13 14:50:06 公開日:2021-12-10
# 地上環境認識のための2段階フレームワークの再考

Rethinking the Two-Stage Framework for Grounded Situation Recognition ( http://arxiv.org/abs/2112.05375v1 )

ライセンス: Link先を確認
Meng Wei, Long Chen, Wei Ji, Xiaoyu Yue, Tat-Seng Chua(参考訳) 接地状況認識(GSR)、すなわち画像(例えば購入)における健全な活動(動詞)カテゴリを認識し、対応するすべての意味的役割(例えば、エージェントや商品)を検出することは、「人間のような」出来事を理解するための重要なステップである。 各動詞は特定の意味的役割に関連付けられているため、既存のGSRメソッドはすべて、第1段階で動詞を予測し、第2段階での意味的役割を検出するという2段階の枠組みを利用している。 しかし、どちらの段階でも明らかな欠点がある。 1) 対象認識のための広範に使用されるクロスエントロピー(XE)損失は, 日常活動において, クラス内変動が大きく, クラス間類似度が高いために, 動詞分類において不十分である。 2) 全ての意味的役割は自己回帰的に検出され, 異なる役割間の複雑な意味的関係をモデル化できない。 そこで本稿では,CFVM(Coarse-to-Fine Verb Model)とTNM(Transformer-based Noun Model)からなるGSR用SituFormerを提案する。 CFVMは2段階の動詞予測モデルである: XE損失で訓練された粗い粒度モデルがまず一連の動詞候補を提案し、次に三重項損失で訓練された粒度モデルがこれらの候補を強化された動詞特徴で再ランクする。 tnmはトランスフォーマティブに基づくセマンティクスロール検出モデルであり、すべてのロールを並列に検出する。 トランスデコーダのグローバル関係モデリング能力と柔軟性により、tnmは役割の統計的依存性を完全に探求することができる。 挑戦的なswigベンチマークの広範囲な検証は、situformerが様々なメトリクスで大きな利益をもたらす新しい最先端のパフォーマンスを達成していることを示している。 コードはhttps://github.com/kellyiss/situformerで入手できる。

Grounded Situation Recognition (GSR), i.e., recognizing the salient activity (or verb) category in an image (e.g., buying) and detecting all corresponding semantic roles (e.g., agent and goods), is an essential step towards "human-like" event understanding. Since each verb is associated with a specific set of semantic roles, all existing GSR methods resort to a two-stage framework: predicting the verb in the first stage and detecting the semantic roles in the second stage. However, there are obvious drawbacks in both stages: 1) The widely-used cross-entropy (XE) loss for object recognition is insufficient in verb classification due to the large intra-class variation and high inter-class similarity among daily activities. 2) All semantic roles are detected in an autoregressive manner, which fails to model the complex semantic relations between different roles. To this end, we propose a novel SituFormer for GSR which consists of a Coarse-to-Fine Verb Model (CFVM) and a Transformer-based Noun Model (TNM). CFVM is a two-step verb prediction model: a coarse-grained model trained with XE loss first proposes a set of verb candidates, and then a fine-grained model trained with triplet loss re-ranks these candidates with enhanced verb features (not only separable but also discriminative). TNM is a transformer-based semantic role detection model, which detects all roles parallelly. Owing to the global relation modeling ability and flexibility of the transformer decoder, TNM can fully explore the statistical dependency of the roles. Extensive validations on the challenging SWiG benchmark show that SituFormer achieves a new state-of-the-art performance with significant gains under various metrics. Code is available at https://github.com/kellyiss/SituFormer.
翻訳日:2021-12-13 14:49:38 公開日:2021-12-10
# 構造認識特徴符号化とソフトセマンティクス領域適応正規化による全空室生成に向けて

Towards Full-to-Empty Room Generation with Structure-Aware Feature Encoding and Soft Semantic Region-Adaptive Normalization ( http://arxiv.org/abs/2112.05396v1 )

ライセンス: Link先を確認
Vasileios Gkitsas, Nikolaos Zioulis, Vladimiros Sterzentsenko, Alexandros Doumanoglou, Dimitrios Zarpalas(参考訳) 全体のレイアウトやスタイルを保ちながら、シーンコンテキストに大きな変更を加える必要があるため、空き部屋イメージを背景のみに変換する作業は極めて困難である。 フォトリアリスティックで構造的一貫性のある背景を得るために、既存のディープラーニング手法では、イメージインペインティングアプローチを採用するか、シーンレイアウトの学習を個別のタスクとして取り入れ、後に完全に区別できないセマンティック領域適応正規化モジュールで活用する。 これらの欠点に対処するために,シーンレイアウト生成を特徴線形変換問題として扱い,完全微分可能なソフトセマンティクス領域適応正規化モジュール(softsean)ブロックを提案する。 そこでは,学習の複雑さと非微分可能性の問題の軽減に加えて,比較手法を定量的かつ定性的に上回っている。 当社のsoftseanブロックは、既存の判別および生成モデルのドロップインモジュールとして使用できる。 vcl3d.github.io/PanoDR/で実装できる。

The task of transforming a furnished room image into a background-only is extremely challenging since it requires making large changes regarding the scene context while still preserving the overall layout and style. In order to acquire photo-realistic and structural consistent background, existing deep learning methods either employ image inpainting approaches or incorporate the learning of the scene layout as an individual task and leverage it later in a not fully differentiable semantic region-adaptive normalization module. To tackle these drawbacks, we treat scene layout generation as a feature linear transformation problem and propose a simple yet effective adjusted fully differentiable soft semantic region-adaptive normalization module (softSEAN) block. We showcase the applicability in diminished reality and depth estimation tasks, where our approach besides the advantages of mitigating training complexity and non-differentiability issues, surpasses the compared methods both quantitatively and qualitatively. Our softSEAN block can be used as a drop-in module for existing discriminative and generative models. Implementation is available on vcl3d.github.io/PanoDR/.
翻訳日:2021-12-13 14:49:01 公開日:2021-12-10
# マルチカットペナルティを用いた画像分割のためのエッジ検出の最適化

Optimizing Edge Detection for Image Segmentation with Multicut Penalties ( http://arxiv.org/abs/2112.05416v1 )

ライセンス: Link先を確認
Steffen Jung, Sebastian Ziegler, Amirhossein Kardoost, Margret Keuper(参考訳) 最小コストマルチカット問題(MP)は、エッジコストに対してバイナリエッジラベルを最適化することでグラフ分解を得る一般的な方法である。 独立に推定されるエッジ当たりのコストからmpの定式化は高度に柔軟で直感的であるが、mpの解決はnpハードで時間のかかるものである。 対策として、最近の研究は、予測プロセスにサイクル制約を組み込むことで、潜在的な対立に対する認識を伴うエッジ確率を予測することを提案した。 このような定式化は、エンド・ツー・エンドの学習可能なエッジウェイトへの第一歩であるが、MPの緩やかな緩和の上に構築されているため、最適ではない。 そこで我々は、より侵害された制約を段階的に考慮し、その結果、より高い妥当性のソリューションを発行できる適応型CRFを提案する。 自然画像セグメンテーションのためのBSDS500ベンチマークと電子顕微鏡記録による実験により, より正確なエッジ検出と画像セグメンテーションが得られた。

The Minimum Cost Multicut Problem (MP) is a popular way for obtaining a graph decomposition by optimizing binary edge labels over edge costs. While the formulation of a MP from independently estimated costs per edge is highly flexible and intuitive, solving the MP is NP-hard and time-expensive. As a remedy, recent work proposed to predict edge probabilities with awareness to potential conflicts by incorporating cycle constraints in the prediction process. We argue that such formulation, while providing a first step towards end-to-end learnable edge weights, is suboptimal, since it is built upon a loose relaxation of the MP. We therefore propose an adaptive CRF that allows to progressively consider more violated constraints and, in consequence, to issue solutions with higher validity. Experiments on the BSDS500 benchmark for natural image segmentation as well as on electron microscopic recordings show that our approach yields more precise edge detection and image segmentation.
翻訳日:2021-12-13 14:48:41 公開日:2021-12-10
# Couplformer:Coupling Attention Mapによる視覚変換器の再考

Couplformer:Rethinking Vision Transformer with Coupling Attention Map ( http://arxiv.org/abs/2112.05425v1 )

ライセンス: Link先を確認
Hai Lan, Xihao Wang, Xian Wei(参考訳) 自己着脱機構の開発により、トランスフォーマーモデルはコンピュータビジョン領域において優れた性能を示している。 しかし、フルアテンション機構から引き起こされた膨大な計算は、メモリ消費の重荷となった。 順次、メモリの制限はトランスフォーマーモデルを改善する可能性を低下させる。 そこで本研究では,注意マップを2つのサブ行列に分解し,空間情報からアライメントスコアを生成する,新しい記憶経済アライメント機構であるcoolformerを提案する。 本モデルの有効性を評価するために,様々なスケール画像分類タスクを適用した。 実験の結果、imagenet-1k分類タスクにおいて、couplformerは、十分な精度要求にアクセスしながら、通常のトランスフォーマーに比べて28%のメモリ消費を著しく削減でき、同じメモリフットプリントを占有しながらtop-1の精度で0.92%を上回った。 その結果、Couplformerは視覚タスクの効率的なバックボーンとして機能し、研究者にとって新たな注意機構を提供することができる。

With the development of the self-attention mechanism, the Transformer model has demonstrated its outstanding performance in the computer vision domain. However, the massive computation brought from the full attention mechanism became a heavy burden for memory consumption. Sequentially, the limitation of memory reduces the possibility of improving the Transformer model. To remedy this problem, we propose a novel memory economy attention mechanism named Couplformer, which decouples the attention map into two sub-matrices and generates the alignment scores from spatial information. A series of different scale image classification tasks are applied to evaluate the effectiveness of our model. The result of experiments shows that on the ImageNet-1k classification task, the Couplformer can significantly decrease 28% memory consumption compared with regular Transformer while accessing sufficient accuracy requirements and outperforming 0.92% on Top-1 accuracy while occupying the same memory footprint. As a result, the Couplformer can serve as an efficient backbone in visual tasks, and provide a novel perspective on the attention mechanism for researchers.
翻訳日:2021-12-13 14:48:22 公開日:2021-12-10
# 複数ラベル画像分類のためのプリマルオブジェクトクエリを用いた視覚変換器

Visual Transformers with Primal Object Queries for Multi-Label Image Classification ( http://arxiv.org/abs/2112.05485v1 )

ライセンス: Link先を確認
Vacit Oguz Yazici, Joost van de Weijer, Longlong Yu(参考訳) マルチラベル画像分類は、順序のないシーケンシャルデータと見なせる一連のクラスラベルを予測することである。 変換器はシーケンシャルデータを全体として処理するので、本質的にセット予測に長けている。 オブジェクト検出タスクのために提案された最初のビジョンベースのトランスフォーマーモデルは、オブジェクトクエリの概念を導入した。 オブジェクトクエリは、画像内の関心領域を使用してオブジェクトクラスやバウンディングボックスをデコードするためにデコーダレイヤのアテンションモジュールによって使用される、学習可能な位置エンコーディングである。 しかし、異なるデコーダ層に同じオブジェクトクエリのセットを入力するとトレーニングが妨げられ、結果としてパフォーマンスが低下し、収束が遅れる。 本稿では,transformerデコーダスタックの開始時にのみ提供されるプリミティブオブジェクトクエリの利用を提案する。 さらに,マルチラベル分類のための混合手法の改良を行った。 提案手法では,ms-coco と nus-wide データセットでそれぞれ79.0% と 38.6% の収束速度を向上し,最新クラスの wise f1 メトリックを 2.1% と 1.8% 改善した。

Multi-label image classification is about predicting a set of class labels that can be considered as orderless sequential data. Transformers process the sequential data as a whole, therefore they are inherently good at set prediction. The first vision-based transformer model, which was proposed for the object detection task introduced the concept of object queries. Object queries are learnable positional encodings that are used by attention modules in decoder layers to decode the object classes or bounding boxes using the region of interests in an image. However, inputting the same set of object queries to different decoder layers hinders the training: it results in lower performance and delays convergence. In this paper, we propose the usage of primal object queries that are only provided at the start of the transformer decoder stack. In addition, we improve the mixup technique proposed for multi-label classification. The proposed transformer model with primal object queries improves the state-of-the-art class wise F1 metric by 2.1% and 1.8%; and speeds up the convergence by 79.0% and 38.6% on MS-COCO and NUS-WIDE datasets respectively.
翻訳日:2021-12-13 14:48:05 公開日:2021-12-10
# DronePose:ニューラルネットワークによるドローンの識別、セグメンテーション、方向検出

DronePose: The identification, segmentation, and orientation detection of drones via neural networks ( http://arxiv.org/abs/2112.05488v1 )

ライセンス: Link先を確認
Stirling Scholes, Alice Ruget, German Mora-Martin, Feng Zhu, Istvan Gyongy, and Jonathan Leach(参考訳) ドローンの普及は、従来の空域監視技術がそのような車両を正確に特徴付ける能力に懸念を抱いている。 ここでは、決定木とアンサンブル構造を用いて、飛行中のドローンを完全に特徴付けるCNNを提案する。 我々のシステムは、ドローンの種類、方向(ピッチ、ロール、ヨー)を決定し、異なるボディ部品(エンジン、ボディ、カメラ)を分類するためにセグメンテーションを行う。 また,高精度にラベル付けされた写真リアルなトレーニングデータを高速に生成するためのコンピュータモデルも提供し,実際のドローンを飛行中に正確に特徴付けるのに十分な忠実さを示す。 私たちのネットワークは、画像処理チェーンにおいて貴重なツールを提供し、既存のドローン検出技術を基盤として、広範囲にわたる完全なドローン特性を提供する。

The growing ubiquity of drones has raised concerns over the ability of traditional air-space monitoring technologies to accurately characterise such vehicles. Here, we present a CNN using a decision tree and ensemble structure to fully characterise drones in flight. Our system determines the drone type, orientation (in terms of pitch, roll, and yaw), and performs segmentation to classify different body parts (engines, body, and camera). We also provide a computer model for the rapid generation of large quantities of accurately labelled photo-realistic training data and demonstrate that this data is of sufficient fidelity to allow the system to accurately characterise real drones in flight. Our network will provide a valuable tool in the image processing chain where it may build upon existing drone detection technologies to provide complete drone characterisation over wide areas.
翻訳日:2021-12-13 14:47:44 公開日:2021-12-10
# Pose Preservationを用いたグラフベース生成顔匿名化

Graph-based Generative Face Anonymisation with Pose Preservation ( http://arxiv.org/abs/2112.05496v1 )

ライセンス: Link先を確認
Nicola Dall'Asen, Yiming Wang, Hao Tang, Luca Zanella and Elisa Ricci(参考訳) 我々は,顔の匿名化のためのGANベースのソリューションであるAnonyGANを提案し,ソースの同一性に対応する視覚情報を,任意の画像として提供される条件の同一性に置き換える。 対象の顔の幾何学的属性、すなわち顔のポーズと表情を維持し、より自然な顔生成を促進することを目的として、ソースアイデンティティの顔面ランドマークと状態同一性の関係をディープモデルを通じて明示的にモデル化する二部グラフを提案する。 さらに、顔ランドマークの手動選択を緩和し、ネットワークがランドマークを重み付け、最良の視覚的自然性とポーズ保存を可能にするランドマーク注意モデルを提案する。 最後に,視認学習を容易にするために,画素レベルの直接監督の欠如による課題に対処するためのハイブリッドトレーニング戦略を提案する。 本手法とその変種を2つの公開データセット,celebaとlfw上で評価し,視覚的自然性,顔のポーズ保存,顔検出および再同定への影響について検討した。 視覚的自然性, 顔検出, ポーズ保存において, アノニガンは最先端の手法を著しく上回っていることを証明した。

We propose AnonyGAN, a GAN-based solution for face anonymisation which replaces the visual information corresponding to a source identity with a condition identity provided as any single image. With the goal to maintain the geometric attributes of the source face, i.e., the facial pose and expression, and to promote more natural face generation, we propose to exploit a Bipartite Graph to explicitly model the relations between the facial landmarks of the source identity and the ones of the condition identity through a deep model. We further propose a landmark attention model to relax the manual selection of facial landmarks, allowing the network to weight the landmarks for the best visual naturalness and pose preservation. Finally, to facilitate the appearance learning, we propose a hybrid training strategy to address the challenge caused by the lack of direct pixel-level supervision. We evaluate our method and its variants on two public datasets, CelebA and LFW, in terms of visual naturalness, facial pose preservation and of its impacts on face detection and re-identification. We prove that AnonyGAN significantly outperforms the state-of-the-art methods in terms of visual naturalness, face detection and pose preservation.
翻訳日:2021-12-13 14:47:30 公開日:2021-12-10
# グローバルアテンションメカニズム:チャネルと空間の相互作用を促進する情報を保持する

Global Attention Mechanism: Retain Information to Enhance Channel-Spatial Interactions ( http://arxiv.org/abs/2112.05561v1 )

ライセンス: Link先を確認
Yichao Liu, Zongru Shao, Nico Hoffmann(参考訳) 様々なコンピュータビジョンタスクの性能向上のために,様々な注意機構が研究されている。 しかし, 従来の手法では, チャネル面と空間面の両方に情報を保持することの重要性を軽視し, 対次元相互作用を強化する。 そこで我々は,情報低減とグローバルな対話表現の増大により,ディープニューラルネットワークの性能を高めるグローバルアテンション機構を提案する。 畳み込み空間アテンションサブモジュールと並行してチャネルアテンションのための多層パーセプトロンを用いた3D-permutationを導入する。 CIFAR-100 と ImageNet-1K による画像分類処理の機構の評価は,ResNet と軽量 MobileNet の双方による近年の注目機構を安定的に上回っていることを示す。

A variety of attention mechanisms have been studied to improve the performance of various computer vision tasks. However, the prior methods overlooked the significance of retaining the information on both channel and spatial aspects to enhance the cross-dimension interactions. Therefore, we propose a global attention mechanism that boosts the performance of deep neural networks by reducing information reduction and magnifying the global interactive representations. We introduce 3D-permutation with multilayer-perceptron for channel attention alongside a convolutional spatial attention submodule. The evaluation of the proposed mechanism for the image classification task on CIFAR-100 and ImageNet-1K indicates that our method stably outperforms several recent attention mechanisms with both ResNet and lightweight MobileNet.
翻訳日:2021-12-13 14:46:48 公開日:2021-12-10
# 説明可能な異常検出のための離散的神経表現

Discrete neural representations for explainable anomaly detection ( http://arxiv.org/abs/2112.05585v1 )

ライセンス: Link先を確認
Stanislaw Szymanowicz, James Charles, Roberto Cipolla(参考訳) 本研究の目的は,映像中の異常事象の高レベルな説明を自動生成することである。 異常事象の原因を理解することは、要求される応答はその性質と重大さに依存しているため重要である。 最近の研究では、通常オブジェクトまたはアクション分類器を使用して異常イベントのラベルを検出し、提供する。 しかし、これは検知システムを既知のクラスに限定し、未知のオブジェクトや振る舞いへの一般化を防ぐ。 ここでは,オブジェクトやアクションの分類器を使用せずに,イベントの背後にある高レベルな理由を回復する手法を示す。 1) オブジェクトとアクションの分類器から異常事象の説明を分離するために,サリエンシマップを用いた手法,(2) 将来のフレームを予測して映像の離散表現を学習するための新しいニューラルネットワークを用いて,サリエンシマップの品質を向上する方法,(3) パブリックベンチマークX-MANデータセットのサブセット上で,最先端の異常説明手法を60%上回る方法を示す。

The aim of this work is to detect and automatically generate high-level explanations of anomalous events in video. Understanding the cause of an anomalous event is crucial as the required response is dependant on its nature and severity. Recent works typically use object or action classifier to detect and provide labels for anomalous events. However, this constrains detection systems to a finite set of known classes and prevents generalisation to unknown objects or behaviours. Here we show how to robustly detect anomalies without the use of object or action classifiers yet still recover the high level reason behind the event. We make the following contributions: (1) a method using saliency maps to decouple the explanation of anomalous events from object and action classifiers, (2) show how to improve the quality of saliency maps using a novel neural architecture for learning discrete representations of video by predicting future frames and (3) beat the state-of-the-art anomaly explanation methods by 60\% on a subset of the public benchmark X-MAN dataset.
翻訳日:2021-12-13 14:46:34 公開日:2021-12-10
# perf: performant, explicit radiance フィールド

PERF: Performant, Explicit Radiance Fields ( http://arxiv.org/abs/2112.05598v1 )

ライセンス: Link先を確認
Sverker Rasmuson, Erik Sintorn, Ulf Assarsson(参考訳) 本稿では,放射能場に基づく画像に基づく3次元再構成手法を提案する。 体積再構成の問題は非線形最小二乗問題として定式化され、ニューラルネットワークを用いることなく明示的に解決される。 これにより、ニューラルネットワークで一般的に使用されるものよりも収束率の高いソルバの使用が可能になり、収束までイテレーションを少なくすることができる。 ボリュームはボクセルのグリッドで表現され、シーンは環境マップの階層で囲まれている。 これにより、前景と背景が分離した360{\deg}シーンのクリーンな再構築が可能になる。 良く知られたベンチマークスイートの合成シーンや実際のシーンは、最先端の手法に匹敵するクオリティでうまく再構築されるが、リコンストラクション時間が大幅に短縮される。

We present a novel way of approaching image-based 3D reconstruction based on radiance fields. The problem of volumetric reconstruction is formulated as a non-linear least-squares problem and solved explicitly without the use of neural networks. This enables the use of solvers with a higher rate of convergence than what is typically used for neural networks, and fewer iterations are required until convergence. The volume is represented using a grid of voxels, with the scene surrounded by a hierarchy of environment maps. This makes it possible to get clean reconstructions of 360{\deg} scenes where the foreground and background is separated. A number of synthetic and real scenes from well known benchmark-suites are successfully reconstructed with quality on par with state-of-the-art methods, but at significantly reduced reconstruction times.
翻訳日:2021-12-13 14:46:12 公開日:2021-12-10
# HeadNeRF:リアルタイムNeRFを用いたパラメトリックヘッドモデル

HeadNeRF: A Real-time NeRF-based Parametric Head Model ( http://arxiv.org/abs/2112.05637v1 )

ライセンス: Link先を確認
Yang Hong, Peng Bo, Haiyao Xiao, Ligang Liu, Juyong Zhang(参考訳) 本稿では,人間の頭部のパラメトリック表現に神経放射場を統合する新しいNeRFを用いたパラメトリックヘッドモデルであるHeadNeRFを提案する。 高忠実度ヘッドイメージをリアルタイムでレンダリングでき、生成した画像のレンダリングポーズとさまざまなセマンティック属性を直接制御できる。 既存のパラメトリックモデルと異なり、従来の3Dテクスチャメッシュの代わりにニューラルレージアンスフィールドを新しい3Dプロキシとして使用することで、HeadNeRFは高忠実度画像を生成することができる。 しかし、原型NeRFの計算コストのかかるレンダリングプロセスは、パラメトリックNeRFモデルの構築を妨げる。 この問題に対処するために,2次元ニューラルレンダリングをnerfのレンダリングプロセスに統合し,新たな損失項を設計する手法を採用する。 その結果、HeadNeRFのレンダリング速度が大幅に向上し、1フレームのレンダリング時間が5sから25msに短縮される。 新規に設計された損失項はレンダリング精度も向上し、歯、しわ、あごひげの隙間などの人間の頭部の細部の詳細をヘッドナーフによって表現・合成することができる。 広範な実験結果といくつかの応用が有効性を示している。 コードとトレーニングされたモデルを一般公開します。

In this paper, we propose HeadNeRF, a novel NeRF-based parametric head model that integrates the neural radiance field to the parametric representation of the human head. It can render high fidelity head images in real-time, and supports directly controlling the generated images' rendering pose and various semantic attributes. Different from existing related parametric models, we use the neural radiance fields as a novel 3D proxy instead of the traditional 3D textured mesh, which makes that HeadNeRF is able to generate high fidelity images. However, the computationally expensive rendering process of the original NeRF hinders the construction of the parametric NeRF model. To address this issue, we adopt the strategy of integrating 2D neural rendering to the rendering process of NeRF and design novel loss terms. As a result, the rendering speed of HeadNeRF can be significantly accelerated, and the rendering time of one frame is reduced from 5s to 25ms. The novel-designed loss terms also improve the rendering accuracy, and the fine-level details of the human head, such as the gaps between teeth, wrinkles, and beards, can be represented and synthesized by HeadNeRF. Extensive experimental results and several applications demonstrate its effectiveness. We will release the code and trained model to the public.
翻訳日:2021-12-13 14:45:58 公開日:2021-12-10
# テンプレートレベル知識蒸留によるマスク不変顔認識

Mask-invariant Face Recognition through Template-level Knowledge Distillation ( http://arxiv.org/abs/2112.05646v1 )

ライセンス: Link先を確認
Marco Huber, Fadi Boutros, Florian Kirchbuchner, Naser Damer(参考訳) 世界的な新型コロナウイルス(covid-19)パンデミックの出現はバイオメトリックスに新たな課題をもたらす。 接触のない生体認証オプションがより重要になるだけでなく、顔認証も最近マスクを頻繁に着用することに直面している。 これらのマスクは、重要なアイデンティティ情報を隠すため、以前の顔認識システムの性能に影響する。 本稿では,同一人物の非マスク顔と類似したマスク面の埋め込みを生成することを目的とした,訓練パラダイム内でテンプレートレベルの知識蒸留を利用するマスク不変顔認識ソリューション(MaskInv)を提案する。 蒸留知識に加えて、学生ネットワークは、マージンベースのアイデンティティ分類損失、elasticface、マスク面と非マスク面による追加ガイダンスの恩恵を受けている。 2つのマスク付き顔データベースと5つのメインストリームデータベースの段階的アブレーション研究において、我々はMaskInvアプローチの合理化を証明した。 提案手法は,最近のmfrc-21チャレンジにおいて,従来のsof-the-art(sota)アカデミックソリューションよりも優れており,マスキング対マスキング対マスキング対非マスク対で,mfr2データセットの以前のソリューションよりも優れていた。 さらに, 提案手法は, 検証性能の小さな損失を伴わずに, 仮面のない顔でも良好に動作できることを実証した。 コード、トレーニングされたモデル、および合成マスキングされたデータの評価プロトコルは、 https://github.com/fdbtrs/Masked-Face-Recognition-KD.comで公開されている。

The emergence of the global COVID-19 pandemic poses new challenges for biometrics. Not only are contactless biometric identification options becoming more important, but face recognition has also recently been confronted with the frequent wearing of masks. These masks affect the performance of previous face recognition systems, as they hide important identity information. In this paper, we propose a mask-invariant face recognition solution (MaskInv) that utilizes template-level knowledge distillation within a training paradigm that aims at producing embeddings of masked faces that are similar to those of non-masked faces of the same identities. In addition to the distilled knowledge, the student network benefits from additional guidance by margin-based identity classification loss, ElasticFace, using masked and non-masked faces. In a step-wise ablation study on two real masked face databases and five mainstream databases with synthetic masks, we prove the rationalization of our MaskInv approach. Our proposed solution outperforms previous state-of-the-art (SOTA) academic solutions in the recent MFRC-21 challenge in both scenarios, masked vs masked and masked vs non-masked, and also outperforms the previous solution on the MFR2 dataset. Furthermore, we demonstrate that the proposed model can still perform well on unmasked faces with only a minor loss in verification performance. The code, the trained models, as well as the evaluation protocol on the synthetically masked data are publicly available: https://github.com/fdbtrs/Masked-Face-Recognition-KD.
翻訳日:2021-12-13 14:45:37 公開日:2021-12-10
# シーングラフ生成のためのニューラル信条伝播

Neural Belief Propagation for Scene Graph Generation ( http://arxiv.org/abs/2112.05727v1 )

ライセンス: Link先を確認
Daqi Liu, Miroslaw Bober, Josef Kittler(参考訳) シーングラフ生成は、潜在的なオブジェクトとその関係を明示的にモデル化することで、入力イメージを解釈することを目的としている。 現在、そのような近似モデルは一般に出力変数が完全に独立であると仮定し、情報的構造上の高次相互作用を無視する。 これは入力画像に対する矛盾した解釈につながる可能性がある。 本稿では,得られたシーングラフを生成するためのニューラル信念伝搬法を提案する。 平均場近似よりも構造的Bethe近似を用いて、関連する限界を推定する。 より優れたバイアス分散トレードオフを求めるため、提案モデルはペア相互作用だけでなく、高次相互作用を関連するスコアリング関数に組み込む。 様々な人気のあるシーングラフ生成ベンチマークで最先端のパフォーマンスを達成する。

Scene graph generation aims to interpret an input image by explicitly modelling the potential objects and their relationships, which is predominantly solved by the message passing neural network models in previous methods. Currently, such approximation models generally assume the output variables are totally independent and thus ignore the informative structural higher-order interactions. This could lead to the inconsistent interpretations for an input image. In this paper, we propose a novel neural belief propagation method to generate the resulting scene graph. It employs a structural Bethe approximation rather than the mean field approximation to infer the associated marginals. To find a better bias-variance trade-off, the proposed model not only incorporates pairwise interactions but also higher order interactions into the associated scoring function. It achieves the state-of-the-art performance on various popular scene graph generation benchmarks.
翻訳日:2021-12-13 14:45:09 公開日:2021-12-10
# Label, Verify, correct: A Simple Few Shot Object Detection Method

Label, Verify, Correct: A Simple Few Shot Object Detection Method ( http://arxiv.org/abs/2112.05749v1 )

ライセンス: Link先を確認
Prannay Kaul, Weidi Xie, Andrew Zisserman(参考訳) 本論文の目的は, 少数の訓練例に限って, 対象物検出装置を新たなカテゴリに拡張する作業として, 少ショット物体検出 (FSOD) を行うことである。 本稿では,新しいカテゴリごとに,訓練セットから高品質な擬似アノテーションを抽出し,トレーニングインスタンス数を大幅に増加させ,クラス不均衡を低減させる単純な擬似ラベル手法を提案する。 まず,不正なクラスラベルによる候補検出を除去した検証手法と,品質の悪いバウンダリングボックスの修正のために特殊化したモデルを訓練する手法を提案する。 これら2つの新しいステップの後に、最終的な検出器をエンドツーエンドで訓練できる高品質な擬似注釈のセットを得る。 さらに,本手法は基本クラス性能を維持し,fsodにおける簡易拡張の有用性を示す。 PASCAL VOCとMS-COCOのベンチマークでは,全てのショットに対する既存手法と比較して,最先端ないし第2のベスト性能を実現している。

The objective of this paper is few-shot object detection (FSOD) -- the task of expanding an object detector for a new category given only a few instances for training. We introduce a simple pseudo-labelling method to source high-quality pseudo-annotations from the training set, for each new category, vastly increasing the number of training instances and reducing class imbalance; our method finds previously unlabelled instances. Na\"ively training with model predictions yields sub-optimal performance; we present two novel methods to improve the precision of the pseudo-labelling process: first, we introduce a verification technique to remove candidate detections with incorrect class labels; second, we train a specialised model to correct poor quality bounding boxes. After these two novel steps, we obtain a large set of high-quality pseudo-annotations that allow our final detector to be trained end-to-end. Additionally, we demonstrate our method maintains base class performance, and the utility of simple augmentations in FSOD. While benchmarking on PASCAL VOC and MS-COCO, our method achieves state-of-the-art or second-best performance compared to existing approaches across all number of shots.
翻訳日:2021-12-13 14:44:57 公開日:2021-12-10
# 言葉に合致しろ! 神経情報検索における語彙マッチングの検討

Match Your Words! A Study of Lexical Matching in Neural Information Retrieval ( http://arxiv.org/abs/2112.05662v1 )

ライセンス: Link先を確認
Thibault Formal, Benjamin Piwowarski, St\'ephane Clinchant(参考訳) ニューラル情報検索モデルは、現代の検索エンジンにおける語彙マッチングモデル(例えばbm25)を置き換えると約束されている。 それらの機能は、ms marcoのようなドメイン内データセットに完全に依存しているが、最近、ドメイン外ゼロショット設定(ベンチマーク)に挑戦された。 特に、これらの欠点は、(部分的には)ニューラルIRモデルが、棚外での語彙マッチングを実行できない結果であるのではないかと考える。本研究では、任意の(神経)モデルと「理想」モデルによる語彙マッチングとの違いを測る尺度を提案する。 これに基づいて、異なる最先端のニューラルIRモデルの振る舞いを研究し、それが実際に有用である場合、すなわち重要な用語で語彙マッチングを行うことができるかどうかに焦点をあてる。 全体として、ニューラルネットワークモデルでは、トレーニング中にドメイン外のコレクションや用語がほとんど見えない場合に、用語の重要性を適切に一般化できないことを示す。

Neural Information Retrieval models hold the promise to replace lexical matching models, e.g. BM25, in modern search engines. While their capabilities have fully shone on in-domain datasets like MS MARCO, they have recently been challenged on out-of-domain zero-shot settings (BEIR benchmark), questioning their actual generalization capabilities compared to bag-of-words approaches. Particularly, we wonder if these shortcomings could (partly) be the consequence of the inability of neural IR models to perform lexical matching off-the-shelf.In this work, we propose a measure of discrepancy between the lexical matching performed by any (neural) model and an 'ideal' one. Based on this, we study the behavior of different state-of-the-art neural IR models, focusing on whether they are able to perform lexical matching when it's actually useful, i.e. for important terms. Overall, we show that neural IR models fail to properly generalize term importance on out-of-domain collections or terms almost unseen during training
翻訳日:2021-12-13 14:43:58 公開日:2021-12-10
# 後期核融合による長期気候予測における深層学習モデルの不確かさへの対処

Addressing Deep Learning Model Uncertainty in Long-Range Climate Forecasting with Late Fusion ( http://arxiv.org/abs/2112.05254v1 )

ライセンス: Link先を確認
Ken C. L. Wong, Hongzhi Wang, Etienne E. Vos, Bianca Zadrozny, Campbell D. Watson, Tanveer Syeda-Mahmood(参考訳) 地球温暖化により、極端な気候の頻度と強度が増加し、生命と財産が著しく失われる。 正確な長距離気候予測は、このような極端な出来事に備える準備と災害リスク管理により多くの時間を割くことができる。 機械学習アプローチは長期の気候予測において有望な結果を示しているが、関連するモデルの不確実性は信頼性を低下させる可能性がある。 この問題に対処するために,複数のモデルからの予測を体系的に組み合わせて,融合した結果の予測誤差を低減する,遅延融合手法を提案する。 また,データ正規化の利点を実際に正規化することなく得るために,新しい非正規化層を用いたネットワークアーキテクチャを提案する。 長距離2m温度予測実験の結果, フレームワークは30年間の気候標準よりも優れており, モデル数を増やして精度を向上させることができることがわかった。

Global warming leads to the increase in frequency and intensity of climate extremes that cause tremendous loss of lives and property. Accurate long-range climate prediction allows more time for preparation and disaster risk management for such extreme events. Although machine learning approaches have shown promising results in long-range climate forecasting, the associated model uncertainties may reduce their reliability. To address this issue, we propose a late fusion approach that systematically combines the predictions from multiple models to reduce the expected errors of the fused results. We also propose a network architecture with the novel denormalization layer to gain the benefits of data normalization without actually normalizing the data. The experimental results on long-range 2m temperature forecasting show that the framework outperforms the 30-year climate normals, and the accuracy can be improved by increasing the number of models.
翻訳日:2021-12-13 14:43:21 公開日:2021-12-10
# オンラインステイナツリーのための学習強化アルゴリズム

Learning-Augmented Algorithms for Online Steiner Tree ( http://arxiv.org/abs/2112.05353v1 )

ライセンス: Link先を確認
Chenyang Xu and Benjamin Moseley(参考訳) 本稿では,機械学習予測とオンラインアルゴリズム設計を統合したアルゴリズム解析モデルについて考察する。 このモデルでは、有向グラフおよび無向グラフのオンラインSteiner木問題を考える。 シュタイナーツリーは、オンライン設定において強い境界を持つことが知られており、アルゴリズムの最悪の保証は望ましくない。 本稿では,どの端末がオンラインに到着するかを予測するアルゴリズムについて検討する。 予測は誤りであり、アルゴリズムのパフォーマンスは誤って予測された端末の数によってパラメータ化される。 これらの保証は、アルゴリズムが良い予測でオンラインの下限を突破し、予測エラーが大きくなるにつれて競争比率が優雅に低下することを保証する。 そして、この理論が経験的に何が起こるかを予測する。 分布から端末が引き出されるグラフ上で、新しいオンラインアルゴリズムは、適度に正確な予測であっても、高い性能を示す。

This paper considers the recently popular beyond-worst-case algorithm analysis model which integrates machine-learned predictions with online algorithm design. We consider the online Steiner tree problem in this model for both directed and undirected graphs. Steiner tree is known to have strong lower bounds in the online setting and any algorithm's worst-case guarantee is far from desirable. This paper considers algorithms that predict which terminal arrives online. The predictions may be incorrect and the algorithms' performance is parameterized by the number of incorrectly predicted terminals. These guarantees ensure that algorithms break through the online lower bounds with good predictions and the competitive ratio gracefully degrades as the prediction error grows. We then observe that the theory is predictive of what will occur empirically. We show on graphs where terminals are drawn from a distribution, the new online algorithms have strong performance even with modestly correct predictions.
翻訳日:2021-12-13 14:43:08 公開日:2021-12-10
# 自己教師付き混合曲率グラフニューラルネットワーク

A Self-supervised Mixed-curvature Graph Neural Network ( http://arxiv.org/abs/2112.05393v1 )

ライセンス: Link先を確認
Li Sun, Zhongbao Zhang, Junda Ye, Hao Peng, Jiawei Zhang, Sen Su, Philip S. Yu(参考訳) 近年,グラフ表現学習が注目されている。 既存の手法のほとんどはグラフ構造の複雑さを無視し、特定の種類のグラフ構造にのみ適合する単一の定数曲率表現空間でグラフを制限する。 さらに、これらの手法は教師付きあるいは半教師付き学習パラダイムに従い、実際のアプリケーションにおけるラベルなしグラフへの展開を著しく制限する。 これらの制約に対処するため、混合曲率空間における自己教師付きグラフ表現学習の研究を初めて試みる。 本稿では,自己教師型混合曲率グラフニューラルネットワーク(SelfMGNN)を提案する。 1つの定数曲率空間に取り組む代わりに、複数のリーマン成分空間のデカルト積を通して混合曲率空間を構築し、これらの成分空間をまたいで表現を学習し融合するための階層的注意機構を設計する。 自己教師あり学習を可能にするために,新しい双対コントラストアプローチを提案する。 混合曲率リーマン空間は、実際にコントラスト学習のための複数のリーマン的ビューを提供する。 これらの視点を明らかにするためにリーマン的プロジェクタを導入し、よく設計されたリーマン的判別器を用いて、リーマン的視点の内外におけるシングルビューおよびクロスビューの対照的な学習を行う。 最後に、幅広い実験により、selfmgnnが現実の複雑なグラフ構造を捉え、最先端のベースラインを上回ることが示されている。

Graph representation learning received increasing attentions in recent years. Most of existing methods ignore the complexity of the graph structures and restrict graphs in a single constant-curvature representation space, which is only suitable to particular kinds of graph structure indeed. Additionally, these methods follow the supervised or semi-supervised learning paradigm, and thereby notably limit their deployment on the unlabeled graphs in real applications. To address these aforementioned limitations, we take the first attempt to study the self-supervised graph representation learning in the mixed-curvature spaces. In this paper, we present a novel Self-supervised Mixed-curvature Graph Neural Network (SelfMGNN). Instead of working on one single constant-curvature space, we construct a mixed-curvature space via the Cartesian product of multiple Riemannian component spaces and design hierarchical attention mechanisms for learning and fusing the representations across these component spaces. To enable the self-supervisd learning, we propose a novel dual contrastive approach. The mixed-curvature Riemannian space actually provides multiple Riemannian views for the contrastive learning. We introduce a Riemannian projector to reveal these views, and utilize a well-designed Riemannian discriminator for the single-view and cross-view contrastive learning within and across the Riemannian views. Finally, extensive experiments show that SelfMGNN captures the complicated graph structures in reality and outperforms state-of-the-art baselines.
翻訳日:2021-12-13 14:42:53 公開日:2021-12-10
# (参考訳) 因果解離表現について

On Causally Disentangled Representations ( http://arxiv.org/abs/2112.05746v1 )

ライセンス: CC BY 4.0
Abbavaram Gowtham Reddy, Benin Godfrey L, Vineeth N Balasubramanian(参考訳) 変動の偏角因子は、フェアネスや解釈可能性といった様々な現実世界の懸念に対処する上ですでに重要であることが証明されている。 当初、独立仮定を持つ教師なしモデルからなるが、より近年では、弱い監督と相関した特徴が研究されているが、生成過程の因果的な見解は得られていない。 対照的に、私たちは、生成因子が独立しているか、あるいは観測されたあるいは観測されていない共同設立者によって構成できる可能性のある因果生成プロセスの体制の下で働いている。 本稿では, 因果過程の非絡み合いという概念を通して, 絡み合い表現の分析を行う。 我々は,因果関係の絡み合いを研究するための新しい指標とデータセットの必要性を動機付け,二つの評価指標とデータセットを提案する。 我々の測定値が不整合因果過程のデシダラタを捉えることを示す。 最後に,実測とデータセットを用いて,芸術的異種表現学習者の実態に関する実証研究を行い,因果的視点から評価する。

Representation learners that disentangle factors of variation have already proven to be important in addressing various real world concerns such as fairness and interpretability. Initially consisting of unsupervised models with independence assumptions, more recently, weak supervision and correlated features have been explored, but without a causal view of the generative process. In contrast, we work under the regime of a causal generative process where generative factors are either independent or can be potentially confounded by a set of observed or unobserved confounders. We present an analysis of disentangled representations through the notion of disentangled causal process. We motivate the need for new metrics and datasets to study causal disentanglement and propose two evaluation metrics and a dataset. We show that our metrics capture the desiderata of disentangled causal process. Finally, we perform an empirical study on state of the art disentangled representation learners using our metrics and dataset to evaluate them from causal perspective.
翻訳日:2021-12-13 14:40:23 公開日:2021-12-10
# マルチタスクオブジェクトによる事前学習エンコーダのプルーニング

Pruning Pretrained Encoders with a Multitask Objective ( http://arxiv.org/abs/2112.05705v1 )

ライセンス: Link先を確認
Patrick Xia, Richard Shin(参考訳) 事前訓練された言語モデルのサイズは、複数のダウンストリームタスクが必要な場合に使用が難しく、費用がかかる。 本研究では,マルチタスクに使用できるように,単一エンコーダをプルーピングできるかどうかという問題を探究するために,微調整中のモデルプルーニングに関する最近の戦略を採用する。 固定パラメータ予算を割り当て、単一モデルの最適アンサンブルに対して、マルチタスクの目的と1つのモデルのプルーニングを比較した。 2つのプルーニング戦略(要素的およびランク的プルーニング)の下では、マルチタスク目的によるアプローチは、すべてのタスクの平均化時に個別にトレーニングモデルより優れており、各タスクに対して競合する。 さらなる分析により、プルーニング中にマルチタスクの目的物を使うことは、低リソースタスクのモデルサイズを減らす効果的な方法であることがわかった。

The sizes of pretrained language models make them challenging and expensive to use when there are multiple desired downstream tasks. In this work, we adopt recent strategies for model pruning during finetuning to explore the question of whether it is possible to prune a single encoder so that it can be used for multiple tasks. We allocate a fixed parameter budget and compare pruning a single model with a multitask objective against the best ensemble of single-task models. We find that under two pruning strategies (element-wise and rank pruning), the approach with the multitask objective outperforms training models separately when averaged across all tasks, and it is competitive on each individual one. Additional analysis finds that using a multitask objective during pruning can also be an effective method for reducing model sizes for low-resource tasks.
翻訳日:2021-12-13 14:11:31 公開日:2021-12-10
# 部分観測型強化学習のためのブロックワイズ逐次モデル学習

Blockwise Sequential Model Learning for Partially Observable Reinforcement Learning ( http://arxiv.org/abs/2112.05343v1 )

ライセンス: Link先を確認
Giseung Park, Sungho Choi, Youngchul Sung(参考訳) 本稿では,部分可観測マルコフ決定問題を解決する新しい逐次モデル学習アーキテクチャを提案する。 提案アーキテクチャは,従来のリカレントニューラルネットワーク方式のように各タイミングで逐次情報を圧縮するのではなく,複数のタイムステップを持つ各データブロックに潜時変数を生成し,最も関連性の高い情報を次のブロックに渡す。 提案するブロックワイズシーケンシャルモデルは, 自己アテンションに基づいて実装され, 部分観測可能な設定で詳細なシーケンシャル学習が可能となる。 モデル学習において複雑なブロック単位の入力データ再構成を必要としない自己正規化重要度サンプリングを用いて、勾配推定を効率的に実装する学習ネットワークを構築した。 数値計算の結果, 提案手法は, 様々な部分観測環境において, 従来の手法を大きく上回ることがわかった。

This paper proposes a new sequential model learning architecture to solve partially observable Markov decision problems. Rather than compressing sequential information at every timestep as in conventional recurrent neural network-based methods, the proposed architecture generates a latent variable in each data block with a length of multiple timesteps and passes the most relevant information to the next block for policy optimization. The proposed blockwise sequential model is implemented based on self-attention, making the model capable of detailed sequential learning in partial observable settings. The proposed model builds an additional learning network to efficiently implement gradient estimation by using self-normalized importance sampling, which does not require the complex blockwise input data reconstruction in the model learning. Numerical results show that the proposed method significantly outperforms previous methods in various partially observable environments.
翻訳日:2021-12-13 14:11:14 公開日:2021-12-10
# 因果知識による社会イベント予測

Causal Knowledge Guided Societal Event Forecasting ( http://arxiv.org/abs/2112.05695v1 )

ライセンス: Link先を確認
Songgaojun Deng, Huzefa Rangwala, Yue Ning(参考訳) データ駆動社会イベント予測手法は、関連する歴史的情報を利用して将来のイベントを予測する。 これらの手法は過去のラベル付きデータに依存しており、データが制限された場合や品質の悪い場合を正確に予測することはできない。 イベント間の因果効果を研究することは相関分析を超えて、イベントのより堅牢な予測に寄与する。 しかし、データ駆動イベント予測に因果分析を組み込むことは、いくつかの要因により困難である。 (i)複雑な動的社会環境においてイベントが発生する。 多くの未観測変数、すなわち隠れた共同創設者は潜在的な原因と結果の両方に影響を及ぼす。 (ii)非独立かつ同一分布(非iid)データがあるとき、正確な因果効果推定のための隠れた共同創設者のモデル化は自明ではない。 本研究では,イベント予測に因果効果推定を統合するディープラーニングフレームワークを提案する。 まず,時空間的属性を持つ観測事象データから個々の治療効果(ite)推定の問題を調べ,それを評価するための新しい因果推論モデルを提案する。 次に、学習したイベント関連因果情報を、先行知識としてイベント予測に組み込む。 機能拡張モジュールと近似制約損失を含む2つの堅牢な学習モジュールを導入し,事前知識注入を実現する。 実世界のイベントデータセットにおける因果推論モデルの評価を行い、学習した因果情報を異なる深層学習手法に入力することにより、イベント予測における頑健な学習モジュールの有効性を検証する。 実験の結果,社会イベントにおける ite 推定のための因果推論モデルの強みを示し,社会イベント予測におけるロバスト学習モジュールの有用性を示す。

Data-driven societal event forecasting methods exploit relevant historical information to predict future events. These methods rely on historical labeled data and cannot accurately predict events when data are limited or of poor quality. Studying causal effects between events goes beyond correlation analysis and can contribute to a more robust prediction of events. However, incorporating causality analysis in data-driven event forecasting is challenging due to several factors: (i) Events occur in a complex and dynamic social environment. Many unobserved variables, i.e., hidden confounders, affect both potential causes and outcomes. (ii) Given spatiotemporal non-independent and identically distributed (non-IID) data, modeling hidden confounders for accurate causal effect estimation is not trivial. In this work, we introduce a deep learning framework that integrates causal effect estimation into event forecasting. We first study the problem of Individual Treatment Effect (ITE) estimation from observational event data with spatiotemporal attributes and present a novel causal inference model to estimate ITEs. We then incorporate the learned event-related causal information into event prediction as prior knowledge. Two robust learning modules, including a feature reweighting module and an approximate constraint loss, are introduced to enable prior knowledge injection. We evaluate the proposed causal inference model on real-world event datasets and validate the effectiveness of proposed robust learning modules in event prediction by feeding learned causal information into different deep learning methods. Experimental results demonstrate the strengths of the proposed causal inference model for ITE estimation in societal events and showcase the beneficial properties of robust learning modules in societal event forecasting.
翻訳日:2021-12-13 14:10:59 公開日:2021-12-10
# pacman:pacスタイルの境界は正確性と負のログロスのミスマッチを説明する

PACMAN: PAC-style bounds accounting for the Mismatch between Accuracy and Negative log-loss ( http://arxiv.org/abs/2112.05547v1 )

ライセンス: Link先を確認
Matias Vera, Leonardo Rey Vega and Pablo Piantanida(参考訳) 分類タスクのための機械学習アルゴリズムの最終的な性能は通常、テストデータセットに基づいて経験的エラー確率(または精度)で測定される。 一方、これらのアルゴリズムはトレーニングセットに基づいたより便利なロス関数を最小化することで最適化される。 分類タスクでは、この損失関数は、よく知られたクロスエントロピーリスクにつながる負のログロスであり、一般的に(数値的な観点から)エラー確率よりも振舞いがよい。 一般化誤差に関する従来の研究は、通常、トレーニングにおける損失とテストフェーズの間の根本的なミスマッチを考慮に入れない。 本研究では,精度指標に基づくテストのミスマッチと負のログロスのトレーニングを考慮した一般化ギャップに対するポイントワイズpacアプローチに基づく分析を提案する。 私たちはこの分析をPACMANとラベル付けします。 上記のミスマッチが可能性比として記述できるという事実に基づいて、集中不等式は、ある意味のある情報理論量に依存するポイントワイドPAC境界の観点から一般化問題に対するいくつかの洞察を与えることができる。 また、得られたバウンダリの分析と、文献で利用可能な結果との比較も提供する。

The ultimate performance of machine learning algorithms for classification tasks is usually measured in terms of the empirical error probability (or accuracy) based on a testing dataset. Whereas, these algorithms are optimized through the minimization of a typically different--more convenient--loss function based on a training set. For classification tasks, this loss function is often the negative log-loss that leads to the well-known cross-entropy risk which is typically better behaved (from a numerical perspective) than the error probability. Conventional studies on the generalization error do not usually take into account the underlying mismatch between losses at training and testing phases. In this work, we introduce an analysis based on point-wise PAC approach over the generalization gap considering the mismatch of testing based on the accuracy metric and training on the negative log-loss. We label this analysis PACMAN. Building on the fact that the mentioned mismatch can be written as a likelihood ratio, concentration inequalities can be used to provide some insights for the generalization problem in terms of some point-wise PAC bounds depending on some meaningful information-theoretic quantities. An analysis of the obtained bounds and a comparison with available results in the literature are also provided.
翻訳日:2021-12-13 14:10:36 公開日:2021-12-10
# The Many Faces of Anger: A Multicultural Video Dataset of Negative Emotions in the Wild (MFA-Wild)

The Many Faces of Anger: A Multicultural Video Dataset of Negative Emotions in the Wild (MFA-Wild) ( http://arxiv.org/abs/2112.05267v1 )

ライセンス: Link先を確認
Roya Javadi, Angelica Lim(参考訳) 怒りのような否定的な感情の描写は、調和を維持するために抑圧するのではなく、完全な感情を表現することの受容性によって、文化と文脈によって大きく異なる。 感情的なデータセットの大多数は、"anger"という広義のラベルでデータを収集するが、社会的なシグナルは、イライラ、軽蔑、怒り、怒り、憎しみなど多岐にわたる。 本研究では,感情の多文化ビデオデータセットを初めて収集し,多言語フレームワークで6つのラベルと13の絵文字で動画をラベル付けするよう,文化に富むアノテータに依頼することで,怒りに関連した感情表現を深く検討した。 データセットにベースラインのマルチラベル分類器を提供し、アノテーションの言語に依存しないツールとして絵文字を効果的に利用できるかを示す。

The portrayal of negative emotions such as anger can vary widely between cultures and contexts, depending on the acceptability of expressing full-blown emotions rather than suppression to maintain harmony. The majority of emotional datasets collect data under the broad label ``anger", but social signals can range from annoyed, contemptuous, angry, furious, hateful, and more. In this work, we curated the first in-the-wild multicultural video dataset of emotions, and deeply explored anger-related emotional expressions by asking culture-fluent annotators to label the videos with 6 labels and 13 emojis in a multi-label framework. We provide a baseline multi-label classifier on our dataset, and show how emojis can be effectively used as a language-agnostic tool for annotation.
翻訳日:2021-12-13 14:08:28 公開日:2021-12-10
# 確率的指向距離場を用いた3次元形状表現

Representing 3D Shapes with Probabilistic Directed Distance Fields ( http://arxiv.org/abs/2112.05300v1 )

ライセンス: Link先を確認
Tristan Aumentado-Armstrong, Stavros Tsogkas, Sven Dickinson, Allan Jepson(参考訳) 微分レンダリングは、現代のビジョンにおいて必須の操作であり、現代の機械学習フレームワークで3D理解への逆グラフィックアプローチを利用することができる。 明示的な形状表現(ボクセル、点雲、メッシュ)は比較的容易に表現できるが、しばしば幾何学的忠実さや位相的制約に悩まされる。 一方、暗黙の表現(占有率、距離、放射界)はより忠実さを保つが、複雑なあるいは非効率なレンダリングプロセスに悩まされ、スケーラビリティが制限される。 本研究では、暗黙的なアーキテクチャ内での高速な微分可能レンダリングを可能にする新しい形状表現を用いて、両方の欠点に対処する。 暗黙的な距離表現に基づいて、方向の点(位置と方向)を表面の可視性と深度にマッピングする方向距離場(Directed Distance Fields, DDF)を定義する。 そのようなフィールドは1ピクセルあたりの1つの前方パスで深度マップを描画し、微分曲面幾何学的抽出(例えば、表面正規度や曲率)をネットワークデリバティブを介して容易に構成でき、古典的符号なし距離場の抽出を許可することができる。 確率的DDF (PDDF) を用いて, 基礎分野における固有不連続性をモデル化する方法を示す。 最後に, 単一形状の3次元画像モデリング, 単一画像再構成タスクに適応し, 表現の汎用性を通じて, シンプルな構造部品を用いて強靭な性能を示す。

Differentiable rendering is an essential operation in modern vision, allowing inverse graphics approaches to 3D understanding to be utilized in modern machine learning frameworks. Explicit shape representations (voxels, point clouds, or meshes), while relatively easily rendered, often suffer from limited geometric fidelity or topological constraints. On the other hand, implicit representations (occupancy, distance, or radiance fields) preserve greater fidelity, but suffer from complex or inefficient rendering processes, limiting scalability. In this work, we endeavour to address both shortcomings with a novel shape representation that allows fast differentiable rendering within an implicit architecture. Building on implicit distance representations, we define Directed Distance Fields (DDFs), which map an oriented point (position and direction) to surface visibility and depth. Such a field can render a depth map with a single forward pass per pixel, enable differential surface geometry extraction (e.g., surface normals and curvatures) via network derivatives, be easily composed, and permit extraction of classical unsigned distance fields. Using probabilistic DDFs (PDDFs), we show how to model inherent discontinuities in the underlying field. Finally, we apply our method to fitting single shapes, unpaired 3D-aware generative image modelling, and single-image 3D reconstruction tasks, showcasing strong performance with simple architectural components via the versatility of our representation.
翻訳日:2021-12-13 14:08:10 公開日:2021-12-10
# リモートセンシング画像の自動建物検出のための不確かさ・エッジ・逆アテンション誘導ジェネレータネットワーク

Uncertainty, Edge, and Reverse-Attention Guided Generative Adversarial Network for Automatic Building Detection in Remotely Sensed Images ( http://arxiv.org/abs/2112.05335v1 )

ライセンス: Link先を確認
Somrita Chattopadhyay and Avinash C. Kak(参考訳) 近年のディープラーニングに基づくセマンティックセマンティックセグメンテーションの進歩にもかかわらず、リモートセンシング画像からの自動ビルディング検出は、世界中の建物の外観に大きなばらつきがあるため、依然として難しい問題である。 この誤差は、主に建物のフットプリントの境界付近、影の領域で発生し、外面が周囲の領域と非常によく似た反射特性を持つ建物を検出する際に発生する。 これらの問題を克服するために, ジェネレータ内に不確実な注意ユニットと改良モジュールを組み込んだ生成逆ネットワークに基づくセグメンテーションフレームワークを提案する。 エッジとリバースアテンションユニットからなるリファインメントモジュールは、予測された建物マップを洗練するように設計されている。 エッジアテンションは境界機能を強化し、より高精度に建物の境界を推定し、リバースアテンションにより、ネットワークは、事前に見積もられた領域に欠けている機能を調べることができる。 不確実性注意部は、分類の不確実性を解決するネットワークを支援する。 われわれのアプローチの力の尺度として、2021年12月4日時点では、私たちのアプローチの主な焦点、すなわち建物の縁の洗練は、リーダーボードのランキングに使用される指標と正確に一致していないにもかかわらず、DeepGlobeの公共のリーダーボードで第2位にランクインしている。 DeepGlobeの挑戦的なデータセットの全体的なF1スコアは0.745である。 また、我々のネットワークがIoU全体の81.28%、全体的な精度97.03%を達成した、挑戦的なINRIAバリデーションデータセットに対する前回のベスト結果の改善についても報告する。 同じ線に沿って、公式のINRIAテストデータセットでは、我々のネットワークはIoU全体の77.86%と96.41%のスコアを得た。

Despite recent advances in deep-learning based semantic segmentation, automatic building detection from remotely sensed imagery is still a challenging problem owing to large variability in the appearance of buildings across the globe. The errors occur mostly around the boundaries of the building footprints, in shadow areas, and when detecting buildings whose exterior surfaces have reflectivity properties that are very similar to those of the surrounding regions. To overcome these problems, we propose a generative adversarial network based segmentation framework with uncertainty attention unit and refinement module embedded in the generator. The refinement module, composed of edge and reverse attention units, is designed to refine the predicted building map. The edge attention enhances the boundary features to estimate building boundaries with greater precision, and the reverse attention allows the network to explore the features missing in the previously estimated regions. The uncertainty attention unit assists the network in resolving uncertainties in classification. As a measure of the power of our approach, as of December 4, 2021, it ranks at the second place on DeepGlobe's public leaderboard despite the fact that main focus of our approach -- refinement of the building edges -- does not align exactly with the metrics used for leaderboard rankings. Our overall F1-score on DeepGlobe's challenging dataset is 0.745. We also report improvements on the previous-best results for the challenging INRIA Validation Dataset for which our network achieves an overall IoU of 81.28% and an overall accuracy of 97.03%. Along the same lines, for the official INRIA Test Dataset, our network scores 77.86% and 96.41% in overall IoU and accuracy.
翻訳日:2021-12-13 14:07:42 公開日:2021-12-10
# コントラストと教師付き学習のトレードオフ--実証的研究

Tradeoffs Between Contrastive and Supervised Learning: An Empirical Study ( http://arxiv.org/abs/2112.05340v1 )

ライセンス: Link先を確認
Ananya Karthik, Mike Wu, Noah Goodman, Alex Tamkin(参考訳) コントラスト学習はコンピュータビジョンにおいてかなりの進歩を遂げ、ダウンストリームデータセットの教師付き事前トレーニングを上回っている。 しかし、対照的な学習はあらゆる状況においてより良い選択なのか? そうでない2つのケースを示します。 まず、十分に小さな事前訓練予算の下では、imagenetでの教師付き事前訓練は、8つの多様な画像分類データセット上の比較モデルよりも一貫して優れています。 これは、何百、何千というエポックで事前学習アプローチを比較する一般的なプラクティスは、計算予算がより限られている人々にとって、実行可能な洞察を生み出すものではないことを示唆している。 第二に、もっと大きな事前トレーニング予算であっても、教師付き事前トレーニングのオブジェクト中心のバイアスによって、共通の腐敗やスプリアスフォアグラウンド-バックグラウンド相関に対してより弾力性があるため、教師付き学習が普及するタスクを特定します。 これらの結果は、異なる事前学習目標のトレードオフを、より広い範囲のコンテキストとトレーニング体制で特徴づける必要性を強調している。

Contrastive learning has made considerable progress in computer vision, outperforming supervised pretraining on a range of downstream datasets. However, is contrastive learning the better choice in all situations? We demonstrate two cases where it is not. First, under sufficiently small pretraining budgets, supervised pretraining on ImageNet consistently outperforms a comparable contrastive model on eight diverse image classification datasets. This suggests that the common practice of comparing pretraining approaches at hundreds or thousands of epochs may not produce actionable insights for those with more limited compute budgets. Second, even with larger pretraining budgets we identify tasks where supervised learning prevails, perhaps because the object-centric bias of supervised pretraining makes the model more resilient to common corruptions and spurious foreground-background correlations. These results underscore the need to characterize tradeoffs of different pretraining objectives across a wider range of contexts and training regimes.
翻訳日:2021-12-13 14:07:08 公開日:2021-12-10
# 深層学習に基づく自動衛生訓練システム

A Deep Learning Based Automated Hand Hygiene Training System ( http://arxiv.org/abs/2112.05667v1 )

ライセンス: Link先を確認
Mobina Shahbandeh, Fatemeh Ghaffarpour, Sina Vali, Mohammad Amin Haghpanah, Amin Mousavi Torkamani, Mehdi Tale Masouleh, Ahmad Kalhor(参考訳) 手衛生はウイルスや感染症の予防に不可欠である。 新型コロナウイルス(covid-19)の感染拡大により、マスクと手衛生を身につけることが、感染拡大を抑制する最も効果的な方法に思える。 世界保健機関(WHO)は、すべての手の表面が完全にきれいであることを保証するため、アルコールベースの手こりのガイドラインを8段階で推奨している。 これらのステップは複雑なジェスチャーを含むため、人間の評価には十分な精度が欠けている。 しかし、Deep Neural Network(DNN)とマシンビジョンにより、トレーニングとフィードバックのために手こりの品質を正確に評価することが可能になった。 本稿では,リアルタイムフィードバックを用いた自動深層学習型ハンドルーブ評価システムを提案する。 本システムでは, 各種皮膚音と手指特性を有するボランティアのビデオデータセット上でトレーニングされたdnnアーキテクチャを用いて, 8段階のガイドラインの遵守度を評価する。 様々なDNNアーキテクチャがテストされ、Inception-ResNetモデルが97%のテスト精度で最高の結果をもたらした。 提案システムでは,NVIDIA Jetson AGX Xavier 組み込みボードがソフトウェアを動作させる。 各種利用者が使用する具体的な状況下でシステムの有効性を評価し,課題を特定した。 この実験では、ボランティアの手をこすった歩数の平均時間は27.2秒であり、WHOのガイドラインに従っている。

Hand hygiene is crucial for preventing viruses and infections. Due to the pervasive outbreak of COVID-19, wearing a mask and hand hygiene appear to be the most effective ways for the public to curb the spread of these viruses. The World Health Organization (WHO) recommends a guideline for alcohol-based hand rub in eight steps to ensure that all surfaces of hands are entirely clean. As these steps involve complex gestures, human assessment of them lacks enough accuracy. However, Deep Neural Network (DNN) and machine vision have made it possible to accurately evaluate hand rubbing quality for the purposes of training and feedback. In this paper, an automated deep learning based hand rub assessment system with real-time feedback is presented. The system evaluates the compliance with the 8-step guideline using a DNN architecture trained on a dataset of videos collected from volunteers with various skin tones and hand characteristics following the hand rubbing guideline. Various DNN architectures were tested, and an Inception-ResNet model led to the best results with 97% test accuracy. In the proposed system, an NVIDIA Jetson AGX Xavier embedded board runs the software. The efficacy of the system is evaluated in a concrete situation of being used by various users, and challenging steps are identified. In this experiment, the average time taken by the hand rubbing steps among volunteers is 27.2 seconds, which conforms to the WHO guidelines.
翻訳日:2021-12-13 14:06:51 公開日:2021-12-10
# 品質・効率トレードオフを考慮した離散エネルギーモデルからのサンプリング

Sampling from Discrete Energy-Based Models with Quality/Efficiency Trade-offs ( http://arxiv.org/abs/2112.05702v1 )

ライセンス: Link先を確認
Bryan Eikema, Germ\'an Kruszewski, Hady Elsahar, Marc Dymetman(参考訳) エネルギーベースモデル(EBM)は、確率分布の非常に柔軟な仕様を可能にする。 しかし、これらの分布から正確なサンプルを得るメカニズムを提供していない。 モンテカルロ法は、容易にサンプル化できる提案分布が利用可能であれば、サンプルを得るのに役立ちます。 例えば、リジェクションサンプリングは正確なサンプルを提供することができるが、ターゲット分布を至る所で上界する提案分布を見つける必要があるため、しばしば適用が困難または不可能である。 metropolis-hastingsのような近似マルコフ連鎖モンテカルロサンプリング手法は設計が容易であり、進化するサンプル上でローカル編集を実行するローカルプロポーザル分布を利用する。 しかし,これらの手法は,提案分布の局所的性質のため非効率であり,試料の質を推定することができない。 本研究では, サンプリング効率とサンプリング品質とのトレードオフを実現するとともに, 明示的な収束限界と診断を提供する新しい近似サンプリング手法, 準拒絶サンプリング (qrs) を提案する。 QRSは、ディープラーニングモデルから得られる高品質なグローバルな提案分布の可用性に便乗している。 分散制約とパラフレーズ生成を伴う制御されたテキスト生成タスクにおけるテキスト上の離散ebmsに対するqrsサンプリングの有効性を実証する。 サンプリング効率を犠牲にして,このようなebmから任意の精度でサンプリングできることを示す。

Energy-Based Models (EBMs) allow for extremely flexible specifications of probability distributions. However, they do not provide a mechanism for obtaining exact samples from these distributions. Monte Carlo techniques can aid us in obtaining samples if some proposal distribution that we can easily sample from is available. For instance, rejection sampling can provide exact samples but is often difficult or impossible to apply due to the need to find a proposal distribution that upper-bounds the target distribution everywhere. Approximate Markov chain Monte Carlo sampling techniques like Metropolis-Hastings are usually easier to design, exploiting a local proposal distribution that performs local edits on an evolving sample. However, these techniques can be inefficient due to the local nature of the proposal distribution and do not provide an estimate of the quality of their samples. In this work, we propose a new approximate sampling technique, Quasi Rejection Sampling (QRS), that allows for a trade-off between sampling efficiency and sampling quality, while providing explicit convergence bounds and diagnostics. QRS capitalizes on the availability of high-quality global proposal distributions obtained from deep learning models. We demonstrate the effectiveness of QRS sampling for discrete EBMs over text for the tasks of controlled text generation with distributional constraints and paraphrase generation. We show that we can sample from such EBMs with arbitrary precision at the cost of sampling efficiency.
翻訳日:2021-12-13 14:05:56 公開日:2021-12-10
# 強い凹凸のないミニマックス最適化のための高速単一ループアルゴリズム

Faster Single-loop Algorithms for Minimax Optimization without Strong Concavity ( http://arxiv.org/abs/2112.05604v1 )

ライセンス: Link先を確認
Junchi Yang, Antonio Orvieto, Aurelien Lucchi and Niao He(参考訳) 非凸極小最適化のための最も単純な単一ループアルゴリズムである勾配降下昇降法 (GDA) は、GAN(generative adversarial network) や対向訓練などの実践的応用に広く用いられている。 その望ましい単純さにもかかわらず、最近の研究は理論上gdaの収束率が低いことを示している。 本稿では, 1変数のpolyak-Lojasiewicz (PL) 条件を満たすという軽微な仮定の下で, GDA と滑らかな GDA を交互に組み合わせた2つの代替シングルループアルゴリズムの新たな収束結果を確立する。 私たちは、$\epsilon$-stationary 点を見つけるために、それを証明します。 i) GDA とその確率的変種(ミニバッチなしで)を交互に交換するには、それぞれ$O(\kappa^{2} \epsilon^{-2})$と$O(\kappa^{4} \epsilon^{-4})$反復が必要である。 (ii)滑らかなGDAとその確率多様体(ミニバッチなし)はそれぞれ$O(\kappa \epsilon^{-2})$と$O(\kappa^{2} \epsilon^{-4})$反復を必要とする。 後者はバニラGDAを大幅に改善し、同様の設定下でシングルループアルゴリズムで最もよく知られた複雑性結果を提供する。 さらに,ganの学習とロバスト非線形回帰における経験的効率を示す。

Gradient descent ascent (GDA), the simplest single-loop algorithm for nonconvex minimax optimization, is widely used in practical applications such as generative adversarial networks (GANs) and adversarial training. Albeit its desirable simplicity, recent work shows inferior convergence rates of GDA in theory even assuming strong concavity of the objective on one side. This paper establishes new convergence results for two alternative single-loop algorithms -- alternating GDA and smoothed GDA -- under the mild assumption that the objective satisfies the Polyak-Lojasiewicz (PL) condition about one variable. We prove that, to find an $\epsilon$-stationary point, (i) alternating GDA and its stochastic variant (without mini batch) respectively require $O(\kappa^{2} \epsilon^{-2})$ and $O(\kappa^{4} \epsilon^{-4})$ iterations, while (ii) smoothed GDA and its stochastic variant (without mini batch) respectively require $O(\kappa \epsilon^{-2})$ and $O(\kappa^{2} \epsilon^{-4})$ iterations. The latter greatly improves over the vanilla GDA and gives the hitherto best known complexity results among single-loop algorithms under similar settings. We further showcase the empirical efficiency of these algorithms in training GANs and robust nonlinear regression.
翻訳日:2021-12-13 14:03:56 公開日:2021-12-10
# (参考訳) 臨床試験結果の自動集計:変換器に基づく言語表現を用いた共同エンティティと関係抽出アプローチ

Automated tabulation of clinical trial results: A joint entity and relation extraction approach with transformer-based language representations ( http://arxiv.org/abs/2112.05596v1 )

ライセンス: CC BY 4.0
Jetsun Whitton and Anthony Hunter(参考訳) エビデンスに基づく医療は、医療専門家が意思決定において最善の証拠を参照する行為であり、現代の医療の基礎を形成している。 しかし、これは労働集約的な体系的レビューに依存しており、ドメインの専門家は、主にランダム化比較試験(RCT)の結果を含む何千もの出版物から情報を収集して抽出しなければならない。 本稿では、2つの言語処理タスクにまたがる問題を分解してエビデンステーブルの自動生成について検討する。薬物名などのテキスト内のキーエンティティを識別する \textit{name entity recognition} と、それらを順序づけられたタプルに分割する関係をマッピングする \textit{relation extract} である。 本稿では,研究成果を報告するRCT要約文の自動集計に注目した。 2つのディープニューラルネットワークモデルは、トランスファー学習とトランスフォーマーに基づく言語表現の原則を用いて、統合抽出パイプラインの一部として開発された。 これらのモデルの訓練とテストのために、6つの病域から600近い結果文を含む新しい金標準コーパスが開発された。 本手法は,複数の自然言語処理タスクや疾患領域に対して良好に機能すると共に,訓練中にみられない疾患領域への一般化を図った。 さらに、これらの結果は、200の例文でモデルをトレーニングすることで達成可能であることを示す。 最終システムは、エビデンステーブルの生成を半自動化できるという概念の証明であり、体系的なレビューを完全に自動化するためのステップを表している。

Evidence-based medicine, the practice in which healthcare professionals refer to the best available evidence when making decisions, forms the foundation of modern healthcare. However, it relies on labour-intensive systematic reviews, where domain specialists must aggregate and extract information from thousands of publications, primarily of randomised controlled trial (RCT) results, into evidence tables. This paper investigates automating evidence table generation by decomposing the problem across two language processing tasks: \textit{named entity recognition}, which identifies key entities within text, such as drug names, and \textit{relation extraction}, which maps their relationships for separating them into ordered tuples. We focus on the automatic tabulation of sentences from published RCT abstracts that report the results of the study outcomes. Two deep neural net models were developed as part of a joint extraction pipeline, using the principles of transfer learning and transformer-based language representations. To train and test these models, a new gold-standard corpus was developed, comprising almost 600 result sentences from six disease areas. This approach demonstrated significant advantages, with our system performing well across multiple natural language processing tasks and disease areas, as well as in generalising to disease domains unseen during training. Furthermore, we show these results were achievable through training our models on as few as 200 example sentences. The final system is a proof of concept that the generation of evidence tables can be semi-automated, representing a step towards fully automating systematic reviews.
翻訳日:2021-12-13 14:00:23 公開日:2021-12-10
# (参考訳) SIMMC 2.0のための事前訓練単モーダルモデルを用いたマルチモーダルインタラクション

Multimodal Interactions Using Pretrained Unimodal Models for SIMMC 2.0 ( http://arxiv.org/abs/2112.05328v1 )

ライセンス: CC BY 4.0
Joosung Lee, Kijong Han(参考訳) 本稿では,Dialog State Tracking Challenge 10で実施されたSituated Interactive MultiModal Conversations 2.0の課題について述べる。 SIMMC 2.0には4つのサブタスクが含まれており、サブタスク \#1, \#2 とサブタスク \#4 の生成に対するマルチモーダルアプローチを導入しています。 SIMMC 2.0データセットは、画像とテキスト情報を含むマルチモーダルデータセットであり、画像とテキストの関係を理解することで解決する必要があるため、テキストベースの会話の問題よりも難しい。 したがって,BERT や GPT2 のようなテキストモデルのみを解決するには限界があるため,画像とテキストを組み合わせたマルチモーダルモデルを提案する。 まず、画像とテキストの関係を理解するためにマルチモーダルモデルを事前訓練し、タスク毎にモデルを微調整する。 我々は,subtask \#1, \#2における3番目に優れた性能と,subtask \#4の生成におけるランナーアップを達成する。 ソースコードはhttps://github.com/rungjoo/simmc2.0で入手できる。

This paper presents our work on the Situated Interactive MultiModal Conversations 2.0 challenge held at Dialog State Tracking Challenge 10. SIMMC 2.0 includes 4 subtasks, and we introduce our multimodal approaches for the subtask \#1, \#2 and the generation of subtask \#4. SIMMC 2.0 dataset is a multimodal dataset containing image and text information, which is more challenging than the problem of only text-based conversations because it must be solved by understanding the relationship between image and text. Therefore, since there is a limit to solving only text models such as BERT or GPT2, we propose a multimodal model combining image and text. We first pretrain the multimodal model to understand the relationship between image and text, then finetune our model for each task. We achieve the 3rd best performance in subtask \#1, \#2 and a runner-up in the generation of subtask \#4. The source code is available at https://github.com/rungjoo/simmc2.0.
翻訳日:2021-12-13 13:31:34 公開日:2021-12-10
# 疑似ストーリーの教師なし編集

Unsupervised Editing for Counterfactual Stories ( http://arxiv.org/abs/2112.05417v1 )

ライセンス: Link先を確認
Jiangjie Chen, Chun Gan, Sijie Cheng, Hao Zhou, Yanghua Xiao, Lei Li(参考訳) what-ifストーリーを作成するには、事前のステートメントと変更条件の可能な結果について推論する必要がある。 新しい条件下では、一貫性のある終端を簡単に生成できるが、現在のシステムでは、元のストーリーに最小限の変更を加えることは困難である。 したがって、大きな課題のひとつは、論理的なストーリーの生成と最小限の編集による書き直しのトレードオフである。 本稿では,編集による非教師なしのストーリー書き換え手法であるEDUCATを提案する。 EDUCATは、What-if条件の因果効果を推定した目標位置検出戦略を含み、ストーリーの因果不変部分を保っている。 EDUCATは、流布、一貫性、最小限の編集制約の下でストーリーを生成する。 また、現在の自動メトリクスの欠点を緩和し、トレードオフをよりよく評価する新しい指標を提案する。 我々は, EDUCATを公開対実ストーリ書き換えベンチマークで評価した。 実験の結果,EDUCATは自動評価と人的評価の両方で,教師なしSOTA法よりも最良のトレードオフを実現することがわかった。 EDUCATのリソースは、https://github.com/jiangjiechen/EDUCATで入手できる。

Creating what-if stories requires reasoning about prior statements and possible outcomes of the changed conditions. One can easily generate coherent endings under new conditions, but it would be challenging for current systems to do it with minimal changes to the original story. Therefore, one major challenge is the trade-off between generating a logical story and rewriting with minimal-edits. In this paper, we propose EDUCAT, an editing-based unsupervised approach for counterfactual story rewriting. EDUCAT includes a target position detection strategy based on estimating causal effects of the what-if conditions, which keeps the causal invariant parts of the story. EDUCAT then generates the stories under fluency, coherence and minimal-edits constraints. We also propose a new metric to alleviate the shortcomings of current automatic metrics and better evaluate the trade-off. We evaluate EDUCAT on a public counterfactual story rewriting benchmark. Experiments show that EDUCAT achieves the best trade-off over unsupervised SOTA methods according to both automatic and human evaluation. The resources of EDUCAT are available at: https://github.com/jiangjiechen/EDUCAT.
翻訳日:2021-12-13 13:20:57 公開日:2021-12-10
# (参考訳) 固有空間再構成:ニューラルネットワークにおける空間と周波数の原理

Eigenspace Restructuring: a Principle of Space and Frequency in Neural Networks ( http://arxiv.org/abs/2112.05611v1 )

ライセンス: CC BY 4.0
Lechao Xiao(参考訳) ニューラルネットワークの成功の背後にある基本的な原則を理解することは、ディープラーニングにおいて最も重要なオープン質問の1つです。 しかし、問題の非常に複雑な性質のため、進展は比較的遅い。 本稿では,無限幅ネットワーク,すなわちニューラルカーネルのレンズを通して,階層的局所性から生じる1つの原理を提案する。 無限幅多層パーセプトロン(MLP)の固有構造は、相互作用の順序を測定する概念周波数のみに依存することが知られている。 深層畳み込みネットワーク(CNN)のトポロジは、関連する固有空間をより微細な部分空間に再構成する。 周波数に加えて、新しい構造は、非線形相互作用項間の空間距離を測定する概念空間にも依存する。 結果として得られる細粒度の固有構造はネットワークの学習性を劇的に改善し、長距離-低周波相互作用、短距離-高周波相互作用、様々な補間と補間の間の外挿など、よりリッチな相互作用を同時にモデル化することができる。 さらに、モデルスケーリングは補間や外挿の解像度を改善し、ネットワークの学習可能性を向上させる。 最後に,高次元環境における任意の深さの無限幅cnnの一般化誤差を鋭く評価する。 1) 無限幅深部CNNは表現力を失うことなく次元の呪いを破ることができ、(2) スケーリングは有限データと無限データの両方で性能を向上させる。

Understanding the fundamental principles behind the massive success of neural networks is one of the most important open questions in deep learning. However, due to the highly complex nature of the problem, progress has been relatively slow. In this note, through the lens of infinite-width networks, a.k.a. neural kernels, we present one such principle resulting from hierarchical localities. It is well-known that the eigenstructure of infinite-width multilayer perceptrons (MLPs) depends solely on the concept frequency, which measures the order of interactions. We show that the topologies from deep convolutional networks (CNNs) restructure the associated eigenspaces into finer subspaces. In addition to frequency, the new structure also depends on the concept space, which measures the spatial distance among nonlinear interaction terms. The resulting fine-grained eigenstructure dramatically improves the network's learnability, empowering them to simultaneously model a much richer class of interactions, including Long-Range-Low-Frequency interactions, Short-Range-High-Frequency interactions, and various interpolations and extrapolations in-between. Additionally, model scaling can improve the resolutions of interpolations and extrapolations and, therefore, the network's learnability. Finally, we prove a sharp characterization of the generalization error for infinite-width CNNs of any depth in the high-dimensional setting. Two corollaries follow: (1) infinite-width deep CNNs can break the curse of dimensionality without losing their expressivity, and (2) scaling improves performance in both the finite and infinite data regimes.
翻訳日:2021-12-13 13:19:58 公開日:2021-12-10
# (参考訳) 人工インテリジェンス - 生命科学と超越の応用。 上ライン人工知能シンポジウム UR-AI 2021

Artificial Intellgence -- Application in Life Sciences and Beyond. The Upper Rhine Artificial Intelligence Symposium UR-AI 2021 ( http://arxiv.org/abs/2112.05657v1 )

ライセンス: CC BY 4.0
Karl-Herbert Sch\"afer (1), Franz Quint (2) ((1) Kaiserslautern University of Applied Sciences, (2) Karlsruhe University of Applied Sciences)(参考訳) トリレナ技術同盟は2021年10月27日にドイツのカイザースラウテルンで開かれた「アップパー・ライン人工知能シンポジウム」の受理論文を発表した。 カンファレンスのトピックは、生命科学、インテリジェントシステム、業界 4.0、モビリティなどにおける人工インテリジェンスの適用である。 トリルヘナテック・アライアンス(trirhenatech alliance)は、スイス北西部のフルトワンゲン、カイザースラウテルン、カールスルーエ、オッフェンブルク、トリアーのドイツ応用科学大学、バーデン=ウーエルテンベルク協同州立大学、フランスの大学ネットワークalsace tech(工学、建築、管理の分野では14の'grandes \'ecoles'から構成されている)、そして応用科学・芸術大学(university of applied sciences and arts)の3大都市圏の大学ネットワークである。 同盟の共通の目標は、知識、研究、技術、および学生の国境を越えたモビリティの移転を強化することである。

The TriRhenaTech alliance presents the accepted papers of the 'Upper-Rhine Artificial Intelligence Symposium' held on October 27th 2021 in Kaiserslautern, Germany. Topics of the conference are applications of Artificial Intellgence in life sciences, intelligent systems, industry 4.0, mobility and others. The TriRhenaTech alliance is a network of universities in the Upper-Rhine Trinational Metropolitan Region comprising of the German universities of applied sciences in Furtwangen, Kaiserslautern, Karlsruhe, Offenburg and Trier, the Baden-Wuerttemberg Cooperative State University Loerrach, the French university network Alsace Tech (comprised of 14 'grandes \'ecoles' in the fields of engineering, architecture and management) and the University of Applied Sciences and Arts Northwestern Switzerland. The alliance's common goal is to reinforce the transfer of knowledge, research, and technology, as well as the cross-border mobility of students.
翻訳日:2021-12-13 13:18:36 公開日:2021-12-10
# 自走車に与えられた指令の物理世界決定予測

Predicting Physical World Destinations for Commands Given to Self-Driving Cars ( http://arxiv.org/abs/2112.05419v1 )

ライセンス: Link先を確認
Dusan Grujicic, Thierry Deruyttere, Marie-Francine Moens, Matthew Blaschko(参考訳) 近年、自動運転車の開発において大きなステップが取られている。 複数の企業が、さまざまな設定で動く印象的なシステムを展開し始めた。 これらのシステムは、完全な自動運転がちょうど角を曲がっており、ハンドルさえ持たずにすぐに車を作るという印象を与えることもある。 AIに与えられる自律性とコントロールのレベルの増加は、人間と車のインタラクションの新しいモードの機会を提供する。 しかし、自動運転車のAIにより多くのコントロールを与えるには、乗客の不安が伴うことが調査で示されている。 この問題を軽減するために、最近の研究では、乗客が視覚シーンの特定のオブジェクトを参照するコマンドを与えることで、自然言語指向のアプローチをとっている。 それでもこれは、車がコマンドの物理的目的地を理解する必要があるため、タスクの半分に過ぎません。 本稿では,与えられたコマンドを実行した後,車が到達する必要がある3D宛先をアノテートし,その宛先を予測するための複数のベースラインを評価する拡張を提案する。 さらに、この特定の設定に適応した先行作品よりも優れたモデルを導入する。

In recent years, we have seen significant steps taken in the development of self-driving cars. Multiple companies are starting to roll out impressive systems that work in a variety of settings. These systems can sometimes give the impression that full self-driving is just around the corner and that we would soon build cars without even a steering wheel. The increase in the level of autonomy and control given to an AI provides an opportunity for new modes of human-vehicle interaction. However, surveys have shown that giving more control to an AI in self-driving cars is accompanied by a degree of uneasiness by passengers. In an attempt to alleviate this issue, recent works have taken a natural language-oriented approach by allowing the passenger to give commands that refer to specific objects in the visual scene. Nevertheless, this is only half the task as the car should also understand the physical destination of the command, which is what we focus on in this paper. We propose an extension in which we annotate the 3D destination that the car needs to reach after executing the given command and evaluate multiple different baselines on predicting this destination location. Additionally, we introduce a model that outperforms the prior works adapted for this particular setting.
翻訳日:2021-12-13 13:15:07 公開日:2021-12-10
# DeBACER:適度な議論をスライスする方法

DEBACER: a method for slicing moderated debates ( http://arxiv.org/abs/2112.05438v1 )

ライセンス: Link先を確認
Thomas Palmeira Ferraz, Alexandre Alcoforado, Enzo Bustos, Andr\'e Seidel Oliveira, Rodrigo Gerber, Na\'ide M\"uller, Andr\'e Corr\^ea d'Almeida, Bruno Miguel Veloso, Anna Helena Reali Costa(参考訳) 議題は、議会セッション、選挙討論、公判など、いくつかの参加者と穏健な議論において頻繁に変化する。 同じテーマのブロックに議論を分割することは、理解に不可欠である。 しばしば、モデレーターは、新しいブロックがいつ始まるかを定義する責任を負うので、適度な議論を自動的に分割するタスクは、モデレーターの振る舞いだけに集中できる。 本稿では, (i)議論を適度に分割する新しいアルゴリズムDEBACERを提案する。 (ii)従来の管路とベルチボー管路の比較研究を行い、 (iii)ポルトガル共和国議会の議事録に適用する受刑者を検証すること。 以上の結果から,DeBACERの有効性が示唆された。 キーワード:自然言語処理、政治文書、音声テキスト処理、音声分割、対話分割。

Subjects change frequently in moderated debates with several participants, such as in parliamentary sessions, electoral debates, and trials. Partitioning a debate into blocks with the same subject is essential for understanding. Often a moderator is responsible for defining when a new block begins so that the task of automatically partitioning a moderated debate can focus solely on the moderator's behavior. In this paper, we (i) propose a new algorithm, DEBACER, which partitions moderated debates; (ii) carry out a comparative study between conventional and BERTimbau pipelines; and (iii) validate DEBACER applying it to the minutes of the Assembly of the Republic of Portugal. Our results show the effectiveness of DEBACER. Keywords: Natural Language Processing, Political Documents, Spoken Text Processing, Speech Split, Dialogue Partitioning.
翻訳日:2021-12-13 13:14:50 公開日:2021-12-10
# テキスト生成のための談話認識プロンプトデザイン

Discourse-Aware Prompt Design for Text Generation ( http://arxiv.org/abs/2112.05717v1 )

ライセンス: Link先を確認
Marjan Ghazvininejad, Vladimir Karpukhin, Asli Celikyilmaz(参考訳) 現在の効率的な微調整法(アダプタ、プレフィックスチューニングなど)は、ニューラルネットワークモデルの小さなパラメータセットをトレーニングし、残りを効率的に凍結することで条件付きテキスト生成を最適化している。 いくつかのジェネレーションタスクで強いパフォーマンスを示す一方で、すべてのジェネレーションタスクで一般化するわけではない。 本研究では,人間の文章の談話構造のモデル化をシミュレートする簡易かつ効率的な手法により,プロンプトベースの条件付きテキスト生成を改善できることを示す。 まず,入力文と出力文の異なる部分にまたがり,より一貫性のある出力生成を可能にするプレフィックスパラメータに対して,人間の文章の上位レベルの談話構造を \textit{hierarchical blocking} でモデル化できることを示す。 次に,ネットワークの異なるレイヤのプレフィックスパラメータに \textit{attention sparsity} を導入し,ソフトマックス関数のスパース変換を学習することで,スパースプレフィックスチューニングを提案する。 疎注意により、プレフィックスチューニングにより、プレフィックスパラメータのより効率的なチューニングを実現する入力内容(意味のある事実)をよりよく制御できることがわかった。 テキスト生成タスクの多種多様な実験により、低リソース設定でも全ての生成タスクに対して標準的なプレフィックスチューニングを達成しつつ、すべてのパラメータを微調整することで、プレフィックスパラメータの構造設計が同等の結果が得られることが示された。

Current efficient fine-tuning methods (e.g., adapters, prefix-tuning, etc.) have optimized conditional text generation via training a small set of extra parameters of the neural language model, while freezing the rest for efficiency. While showing strong performance on some generation tasks, they don't generalize across all generation tasks. In this work, we show that prompt based conditional text generation can be improved with simple and efficient methods that simulate modeling the discourse structure of human written text. We introduce two key design choices: First we show that a higher-level discourse structure of human written text can be modelled with \textit{hierarchical blocking} on prefix parameters that enable spanning different parts of the input and output text and yield more coherent output generations. Second, we propose sparse prefix tuning by introducing \textit{attention sparsity} on the prefix parameters at different layers of the network and learn sparse transformations on the softmax-function, respectively. We find that sparse attention enables the prefix-tuning to better control of the input contents (salient facts) yielding more efficient tuning of the prefix-parameters. Experiments on a wide-variety of text generation tasks show that structured design of prefix parameters can achieve comparable results to fine-tuning all parameters while outperforming standard prefix-tuning on all generation tasks even in low-resource settings.
翻訳日:2021-12-13 13:14:40 公開日:2021-12-10
# 長いシーケンスに対する自己意識の理解と促進のためのツールとしてのスケッチ

Sketching as a Tool for Understanding and Accelerating Self-attention for Long Sequences ( http://arxiv.org/abs/2112.05359v1 )

ライセンス: Link先を確認
Yifan Chen, Qi Zeng, Dilek Hakkani-Tur, Di Jin, Heng Ji, Yun Yang(参考訳) トランスベースモデルは、二次空間と自己接続モジュールの時間複雑性のため、長い列を処理するのに効率的ではない。 この制限に対処するために、linformer と informer は、それぞれ低次元射影と行選択によって二次複雑性を線形(モジュロ対数因子)に減らすことを提案している。 これら2つのモデルは本質的に連結であり,それらの関係を理解するために,行列スケッチの理論的枠組みを導入する。 理論解析に基づき, カラムサンプリング, 適応行正規化, パイロットサンプリング再活用の3つのコンポーネントを用いて, 自己着脱を加速し, 行列近似の精度をさらに向上させるskeinformerを提案する。 long range arena (lra)ベンチマークによる実験は、我々の手法がより小さな時間と空間のフットプリントで代替案を上回ることを示している。

Transformer-based models are not efficient in processing long sequences due to the quadratic space and time complexity of the self-attention modules. To address this limitation, Linformer and Informer are proposed to reduce the quadratic complexity to linear (modulo logarithmic factors) via low-dimensional projection and row selection respectively. These two models are intrinsically connected, and to understand their connection, we introduce a theoretical framework of matrix sketching. Based on the theoretical analysis, we propose Skeinformer to accelerate self-attention and further improve the accuracy of matrix approximation to self-attention with three carefully designed components: column sampling, adaptive row normalization and pilot sampling reutilization. Experiments on the Long Range Arena (LRA) benchmark demonstrate that our methods outperform alternatives with a consistently smaller time/space footprint.
翻訳日:2021-12-13 13:14:13 公開日:2021-12-10
# 視覚言語理解・生成のための統一型マルチモーダル事前学習とプロンプトベースチューニング

Unified Multimodal Pre-training and Prompt-based Tuning for Vision-Language Understanding and Generation ( http://arxiv.org/abs/2112.05587v1 )

ライセンス: Link先を確認
Tianyi Liu, Zuxuan Wu, Wenhan Xiong, Jingjing Chen, Yu-Gang Jiang(参考訳) 既存の視覚言語事前学習法はタスクの理解に重点を置いており、事前学習中にbertのような目的(マスク言語モデリングと画像テキストマッチング)を使用する。 視覚的質問応答、画像テキスト検索、視覚的エンターメントなど、下流の多くのタスクにおいてよく機能するが、生成する能力は持っていない。 この問題に対処するために、視覚言語理解と生成のための統一マルチモーダル事前学習(UniVL)を提案する。 提案したUniVLは、理解タスクと生成タスクの両方を扱うことができる。 我々は,無作為マスクと因果マスク,すなわち将来のトークンをマスクする三角形マスクのみを使用する既存の事前学習パラダイムを補強し,事前訓練されたモデルが設計によって自己回帰的生成能力を持つようにした。 従来の理解タスクをテキスト生成タスクとして定式化し、異なる下流タスクを微調整するためのプロンプトベースの手法を提案する。 私たちの実験では、同じモデルを使ってタスクと生成タスクを理解することと、両方のタスクを改善するためにより多くのデータを使うというトレードオフがあることが示されています。 我々のUniVLフレームワークは、タスクと生成タスクの両方の理解において、近年の視覚言語による事前学習手法に匹敵する性能を得る。 さらに私たちは,プロンプトベースの微調整の方がデータ効率がよいことを強調する。

Most existing vision-language pre-training methods focus on understanding tasks and use BERT-like objectives (masked language modeling and image-text matching) during pretraining. Although they perform well in many understanding downstream tasks, e.g., visual question answering, image-text retrieval and visual entailment, they do not possess the ability to generate. To tackle this problem, we propose Unified multimodal pre-training for both Vision-Language understanding and generation (UniVL). The proposed UniVL is capable of handling both understanding tasks and generative tasks. We augment existing pretraining paradigms that only use random masks with causal masks, i.e., triangular masks that mask out future tokens, such that the pre-trained models can have autoregressive generation abilities by design. We formulate several previous understanding tasks as a text generation task and propose to use prompt-based method for fine-tuning on different downstream tasks. Our experiments show that there is a trade-off between understanding tasks and generation tasks while using the same model, and a feasible way to improve both tasks is to use more data. Our UniVL framework attains comparable performance to recent vision-language pre-training methods on both understanding tasks and generation tasks. Moreover, we demostrate that prompt-based finetuning is more data-efficient - it outperforms discriminative methods in few-shot scenarios.
翻訳日:2021-12-13 13:13:54 公開日:2021-12-10
# RamBoAttack: 効率的なディープニューラルネットワーク決定エクスプロイトのロバストクエリ

RamBoAttack: A Robust Query Efficient Deep Neural Network Decision Exploit ( http://arxiv.org/abs/2112.05282v1 )

ライセンス: Link先を確認
Viet Quoc Vo and Ehsan Abbasnejad and Damith C. Ranasinghe(参考訳) 機械学習モデルは、敵の例からの回避攻撃に極めて敏感である。 一般的に、元の入力と知覚的に類似した修正された入力は、モデルに完全にアクセス可能な敵によってホワイトボックス設定で構築される。 しかし、最近の攻撃では、ブラックボックス攻撃を使って敵の例を作るためにクエリ数が著しく減少している。 特にアラームは、google、microsoft、ibmを含む多くの機械学習サービスプロバイダによって提供されるトレーニングされたモデルのアクセスインターフェースから、これらのモデルを組み込んだ多数のアプリケーションによって使用される分類決定を活用できる能力である。 モデルから予測されたラベルのみを利用して敵の例を作る能力は、決定に基づく攻撃として区別される。 本研究では,iclrとspにおける最近の最先端意思決定に基づく攻撃を深く掘り下げ,勾配推定手法を用いた低歪み逆検出の費用対効果を強調する。 我々は,局所的な最小値の侵入を回避し,勾配推定法で見られる雑音勾配からの誤方向を回避できる,堅牢なクエリ効率的な攻撃を開発する。 提案する攻撃手法であるRamBoAttackは、ランダム化ブロック座標 Descent の概念を利用して隠れた分類器多様体を探索し、局所化入力のみを演算して勾配推定法の問題に対処する摂動を目標とする。 重要なことは、RamBoAttackは、敵とターゲットクラスに利用可能な異なるサンプル入力に対してより堅牢である。 全体として、特定のターゲットクラスに対して、RamBoAttackは、所定のクエリ予算内で低い歪みを達成するために、より堅牢であることが示されている。 大規模な高解像度imagenetデータセットを使用して広範な結果をキュレーションし、攻撃、テストサンプル、アーティファクトをgithubでオープンソースにしました。

Machine learning models are critically susceptible to evasion attacks from adversarial examples. Generally, adversarial examples, modified inputs deceptively similar to the original input, are constructed under whitebox settings by adversaries with full access to the model. However, recent attacks have shown a remarkable reduction in query numbers to craft adversarial examples using blackbox attacks. Particularly, alarming is the ability to exploit the classification decision from the access interface of a trained model provided by a growing number of Machine Learning as a Service providers including Google, Microsoft, IBM and used by a plethora of applications incorporating these models. The ability of an adversary to exploit only the predicted label from a model to craft adversarial examples is distinguished as a decision-based attack. In our study, we first deep dive into recent state-of-the-art decision-based attacks in ICLR and SP to highlight the costly nature of discovering low distortion adversarial employing gradient estimation methods. We develop a robust query efficient attack capable of avoiding entrapment in a local minimum and misdirection from noisy gradients seen in gradient estimation methods. The attack method we propose, RamBoAttack, exploits the notion of Randomized Block Coordinate Descent to explore the hidden classifier manifold, targeting perturbations to manipulate only localized input features to address the issues of gradient estimation methods. Importantly, the RamBoAttack is more robust to the different sample inputs available to an adversary and the targeted class. Overall, for a given target class, RamBoAttack is demonstrated to be more robust at achieving a lower distortion within a given query budget. We curate our extensive results using the large-scale high-resolution ImageNet dataset and open-source our attack, test samples and artifacts on GitHub.
翻訳日:2021-12-13 13:13:29 公開日:2021-12-10
# VUT:マルチモードマルチタスクユーザインタフェースモデリングのためのVersatile UI変換器

VUT: Versatile UI Transformer for Multi-Modal Multi-Task User Interface Modeling ( http://arxiv.org/abs/2112.05692v1 )

ライセンス: Link先を確認
Yang Li, Gang Li, Xin Zhou, Mostafa Dehghani, Alexey Gritsenko(参考訳) ユーザインターフェースモデリングは本質的にマルチモーダルであり、画像、構造、言語など、いくつかの異なるタイプのデータを含んでいる。 タスクは、オブジェクト検出、言語生成、グラウンド化など、多種多様である。 本稿では,マルチモーダル入力を受け取り,同じモデルで5つの異なるタスクを同時に達成する多用途uiトランスフォーマーであるvutを提案する。 本モデルは,UIイメージと構造を共同で符号化するマルチモーダルトランスフォーマーエンコーダと,UI構造が存在しない場合にUIオブジェクト検出を行う。 また,言語入力を符号化し,出力をデコードする自動回帰トランスフォーマモデルを用いて,UIに関する質問応答とコマンドグラウンドの両モデルを構築した。 実験の結果,複数タスクに対して共同でトレーニングを行う場合,VUTは複数のタスクの実行に必要なモデルやフットプリントの数を大幅に削減し,各タスクに対してトレーニングしたベースラインモデルと同等の精度を達成できた。

User interface modeling is inherently multimodal, which involves several distinct types of data: images, structures and language. The tasks are also diverse, including object detection, language generation and grounding. In this paper, we present VUT, a Versatile UI Transformer that takes multimodal input and simultaneously accomplishes 5 distinct tasks with the same model. Our model consists of a multimodal Transformer encoder that jointly encodes UI images and structures, and performs UI object detection when the UI structures are absent in the input. Our model also consists of an auto-regressive Transformer model that encodes the language input and decodes output, for both question-answering and command grounding with respect to the UI. Our experiments show that for most of the tasks, when trained jointly for multi-tasks, VUT substantially reduces the number of models and footprints needed for performing multiple tasks, while achieving accuracy exceeding or on par with baseline models trained for each individual task.
翻訳日:2021-12-13 13:12:56 公開日:2021-12-10
# (参考訳) ビデオにおける異常検出のための階層型時空間グラフ畳み込みニューラルネットワーク

A Hierarchical Spatio-Temporal Graph Convolutional Neural Network for Anomaly Detection in Videos ( http://arxiv.org/abs/2112.04294v2 )

ライセンス: CC BY 4.0
Xianlin Zeng, Yalong Jiang, Wenrui Ding, Hongguang Li, Yafeng Hao, Zifeng Qiu(参考訳) ディープラーニングモデルは監視ビデオの異常検出に広く利用されている。 典型的なモデルは、正常なビデオの再構成機能を備え、異常の程度を示すために異常なビデオの再構成エラーを評価する。 しかし、既存のアプローチには2つの欠点がある。 第一に、個々のアイデンティティの動きを、異常を示す可能性のあるアイデンティティ間の相互作用を考慮せずに、独立に符号化できる。 第2に、異なるシーンで固定された構造を持つ非フレキシブルモデルを活用し、この構成はシーンの理解を無効にする。 本稿では,これらの問題に対処する階層型時空間グラフ畳み込みニューラルネットワーク(HSTGCNN)を提案する。 高レベルグラフ表現は人の軌跡と複数のアイデンティティ間の相互作用をエンコードし、低レベルグラフ表現は各人の身体姿勢をエンコードする。 さらに,異なる場面でより優れた複数の枝を重み付けする手法を提案する。 このように、シングルレベルグラフ表現の改善が達成される。 シーンの理解が達成され、異常検出に役立つ。 ハイレベルグラフ表現は低解像度ビデオで人の移動速度と方向をエンコードするために高重みが割り当てられ、低レベルグラフ表現は高解像度ビデオで人間の骨格をエンコードするために高重みが割り当てられる。 実験結果から,提案したHSTGCNNは,学習可能なパラメータをはるかに少なくすることで,4つのベンチマークデータセット(UCSD Pedestrian, ShanghaiTech, CUHK Avenue, IITB-Corridor)の最先端モデルを著しく上回ることがわかった。

Deep learning models have been widely used for anomaly detection in surveillance videos. Typical models are equipped with the capability to reconstruct normal videos and evaluate the reconstruction errors on anomalous videos to indicate the extent of abnormalities. However, existing approaches suffer from two disadvantages. Firstly, they can only encode the movements of each identity independently, without considering the interactions among identities which may also indicate anomalies. Secondly, they leverage inflexible models whose structures are fixed under different scenes, this configuration disables the understanding of scenes. In this paper, we propose a Hierarchical Spatio-Temporal Graph Convolutional Neural Network (HSTGCNN) to address these problems, the HSTGCNN is composed of multiple branches that correspond to different levels of graph representations. High-level graph representations encode the trajectories of people and the interactions among multiple identities while low-level graph representations encode the local body postures of each person. Furthermore, we propose to weightedly combine multiple branches that are better at different scenes. An improvement over single-level graph representations is achieved in this way. An understanding of scenes is achieved and serves anomaly detection. High-level graph representations are assigned higher weights to encode moving speed and directions of people in low-resolution videos while low-level graph representations are assigned higher weights to encode human skeletons in high-resolution videos. Experimental results show that the proposed HSTGCNN significantly outperforms current state-of-the-art models on four benchmark datasets (UCSD Pedestrian, ShanghaiTech, CUHK Avenue and IITB-Corridor) by using much less learnable parameters.
翻訳日:2021-12-13 12:27:28 公開日:2021-12-10
# (参考訳) 深部ニューラルネットワークを用いた地震後の超高分解能画像からの超画素型建物被害検出

Superpixel-Based Building Damage Detection from Post-earthquake Very High Resolution Imagery Using Deep Neural Networks ( http://arxiv.org/abs/2112.04744v2 )

ライセンス: CC BY 4.0
Jun Wang, Zhoujing Li, Yixuan Qiao, Qiming Qin, Peng Gao, Guotong Xie(参考訳) 地震などの自然災害後の建物被害検知は, 緊急対応行動の実施に不可欠である。 リモートセンシングされた超高空間解像度(VHR)画像は、影響を受ける建物を高い幾何学的精度でマッピングできるため、重要な情報を提供することができる。 地震による建物被害を検知する手法が数多く開発されている。 しかし、ディープニューラルネットワーク(DNN)を使用してVHR画像に表現されたリッチな特徴を活用することにはほとんど注意が払われていない。 本稿では,vhr画像から損傷建物を検出するために,dnnと改良セグメント法を組み合わせた新しい超画素ベース手法を提案する。 まず、修正されたFast Scanning and Adaptive Mergingメソッドを拡張して、初期オーバーセグメンテーションを生成する。 第2に、これらのセグメントは、局所二項パターン(LBP)テクスチャ、スペクトル、形状特徴からなる意味的類似性基準を改善した領域隣接グラフ(RAG)に基づいてマージされる。 第三に、SDAE-DNNと呼ばれるスタックド・デノナイジング・オートエンコーダを用いた事前訓練されたDNNを示し、損傷検出を構築するためのリッチな意味的特徴を利用する。 SDAE-DNNの深層的特徴抽象化は、より本質的で差別的な特徴を学習することで検出精度を高めることができる。 2015年4月25日のネパール地震で被災したネパール・バクタプール(Bhaktapur)の複雑な都市部におけるWorldView-2画像のサブセットを用いて,本手法の有効性と有効性を示す。

Building damage detection after natural disasters like earthquakes is crucial for initiating effective emergency response actions. Remotely sensed very high spatial resolution (VHR) imagery can provide vital information due to their ability to map the affected buildings with high geometric precision. Many approaches have been developed to detect damaged buildings due to earthquakes. However, little attention has been paid to exploiting rich features represented in VHR images using Deep Neural Networks (DNN). This paper presents a novel super-pixel based approach combining DNN and a modified segmentation method, to detect damaged buildings from VHR imagery. Firstly, a modified Fast Scanning and Adaptive Merging method is extended to create initial over-segmentation. Secondly, the segments are merged based on the Region Adjacent Graph (RAG), considered an improved semantic similarity criterion composed of Local Binary Patterns (LBP) texture, spectral, and shape features. Thirdly, a pre-trained DNN using Stacked Denoising Auto-Encoders called SDAE-DNN is presented, to exploit the rich semantic features for building damage detection. Deep-layer feature abstraction of SDAE-DNN could boost detection accuracy through learning more intrinsic and discriminative features, which outperformed other methods using state-of-the-art alternative classifiers. We demonstrate the feasibility and effectiveness of our method using a subset of WorldView-2 imagery, in the complex urban areas of Bhaktapur, Nepal, which was affected by the Nepal Earthquake of April 25, 2015.
翻訳日:2021-12-13 12:01:02 公開日:2021-12-10
# (参考訳) マニフォールド学習によるメディアソフトウェアのサイドチャネル自動解析

Automated Side Channel Analysis of Media Software with Manifold Learning ( http://arxiv.org/abs/2112.04947v2 )

ライセンス: CC BY 4.0
Yuanyuan Yuan, Qi Pang, Shuai Wang(参考訳) クラウドコンピューティングと機械学習のサービスとしての発展は、機密メディアデータを処理するためのメディアソフトウェアの普及につながった。 本稿では,メディアソフトウェアに対するサイドチャネル解析(SCA)を起動し,機密メディアのインプットを再構築する敵の能力について検討する。 近年の表現学習と知覚学習の進歩により,メディアインプットとサイドチャネル観察のマッピングを学習するオートエンコーダフレームワークを用いて,メディアインプットからメディアインプットの再構築を,一貫した方法で処理可能なクロスモーダルな多様体学習タスクとして考えることができた。 我々はさらに、SCAに主要な貢献をするプログラムポイントのローカライズに注意を払ってオートエンコーダを強化し、メディアソフトウェアにおける情報参照ポイントを自動的に特定する。 また,認知マスクを用いてメディア入力を摂動させ,多様体学習に基づくSCAを緩和する,視覚ブラインド方式という,新規で効果的な防御手法を提案する。 評価では,画像,音声,テキスト形式の入力を3つのメディアソフトウェアを用いて再構成する。 キャッシュバンク、キャッシュライン、ページテーブルの3つの一般的なサイドチャネルと、標準のPrime+Probeでログされたユーザスペースのみのキャッシュセットアクセスを分析します。 本フレームワークは,評価されたメディアソフトウェアから高品質な機密情報を復元し,脆弱なプログラムポイントを自動的に特定することに成功した。 さらに、知覚盲目は、余分なコストで多様体学習に基づくscaを緩和できることを示した。

The prosperous development of cloud computing and machine learning as a service has led to the widespread use of media software to process confidential media data. This paper explores an adversary's ability to launch side channel analyses (SCA) against media software to reconstruct confidential media inputs. Recent advances in representation learning and perceptual learning inspired us to consider the reconstruction of media inputs from side channel traces as a cross-modality manifold learning task that can be addressed in a unified manner with an autoencoder framework trained to learn the mapping between media inputs and side channel observations. We further enhance the autoencoder with attention to localize the program points that make the primary contribution to SCA, thus automatically pinpointing information-leakage points in media software. We also propose a novel and highly effective defensive technique called perception blinding that can perturb media inputs with perception masks and mitigate manifold learning-based SCA. Our evaluation exploits three popular media software to reconstruct inputs in image, audio, and text formats. We analyze three common side channels - cache bank, cache line, and page tables - and userspace-only cache set accesses logged by standard Prime+Probe. Our framework successfully reconstructs high-quality confidential inputs from the assessed media software and automatically pinpoint their vulnerable program points, many of which are unknown to the public. We further show that perception blinding can mitigate manifold learning-based SCA with negligible extra cost.
翻訳日:2021-12-13 11:49:57 公開日:2021-12-10
# (参考訳) InvGAN: Invertible GANs

InvGAN: Invertible GANs ( http://arxiv.org/abs/2112.04598v2 )

ライセンス: CC BY 4.0
Partha Ghosh, Dominik Zietlow, Michael J. Black, Larry S. Davis, Xiaochen Hu(参考訳) フォトリアリスティック画像の生成、セマンティック編集、表現学習は、高解像度生成モデルの潜在的な応用のいくつかである。 GANの最近の進歩は、こうしたタスクに優れた選択肢として確立されている。 しかし、推論モデルを提供していないため、画像編集や分類などの下流タスクは、GANラテント空間を用いて実際の画像では実行できない。 推論モデルをトレーニングしたり、事前訓練されたジェネレータを反転させる反復的な手法を設計するための多くの努力にもかかわらず、以前の手法はデータセット(例えば、人間の顔画像)とアーキテクチャ(例えば、StyleGAN)である。 これらのメソッドを新しいデータセットやアーキテクチャに拡張するのは非自明です。 アーキテクチャやデータセットに依存しない汎用フレームワークを提案する。 私たちの重要な洞察は、推論と生成モデルを一緒に訓練することで、互いに適応し、よりよい品質モデルに収束できるということです。 Invertible GAN の略である我々の \textbf{InvGAN} は、高品質な生成モデルの潜在空間に実画像を埋め込むことに成功した。 これにより、画像のインペインティング、マージ、補間、オンラインデータ拡張が実行できます。 定性的かつ定量的な実験によってこれを実証する。

Generation of photo-realistic images, semantic editing and representation learning are a few of many potential applications of high resolution generative models. Recent progress in GANs have established them as an excellent choice for such tasks. However, since they do not provide an inference model, image editing or downstream tasks such as classification can not be done on real images using the GAN latent space. Despite numerous efforts to train an inference model or design an iterative method to invert a pre-trained generator, previous methods are dataset (e.g. human face images) and architecture (e.g. StyleGAN) specific. These methods are nontrivial to extend to novel datasets or architectures. We propose a general framework that is agnostic to architecture and datasets. Our key insight is that, by training the inference and the generative model together, we allow them to adapt to each other and to converge to a better quality model. Our \textbf{InvGAN}, short for Invertible GAN, successfully embeds real images to the latent space of a high quality generative model. This allows us to perform image inpainting, merging, interpolation and online data augmentation. We demonstrate this with extensive qualitative and quantitative experiments.
翻訳日:2021-12-13 11:46:51 公開日:2021-12-10
# oracleを模倣する - クラスインクリメンタル学習のための初期フェーズ分離アプローチ

Mimicking the Oracle: An Initial Phase Decorrelation Approach for Class Incremental Learning ( http://arxiv.org/abs/2112.04731v2 )

ライセンス: Link先を確認
Yujun Shi, Kuangqi Zhou, Jian Liang, Zihang Jiang, Jiashi Feng, Philip Torr, Song Bai, Vincent Y. F. Tan(参考訳) クラスインクリメンタル学習(cil)は、各フェーズでクラスサブセットのデータのみを提供する、フェーズ毎の方法でマルチクラス分類器を学習することを目的としている。 これまでの作業は主に,最初のフェーズ以降のフェーズにおける忘れの軽減に重点を置いていた。 しかし、初期段階でのCILの改善も有望な方向であることがわかった。 具体的には、CILラーナーを初期段階で直接奨励し、全てのクラスで協調訓練されたモデルがCILの性能を大幅に向上させることができることを実験的に示す。 そこで本研究では, 初期相モデルとオラクルモデルとの差について検討した。 具体的には、これらの2つのモデルの大きな違いがトレーニングクラスの数であることから、そのような差がモデル表現に与える影響について検討する。 トレーニングクラスが少ないと、各クラスのデータ表現は長く狭い領域に置かれ、より多くのトレーニングクラスでは、各クラスの表現がより均一に散らばっている。 この観測から着想を得たCwD (Class-wise Decorrelation) は,各クラスの表現をより均一に散らばるように効果的に正規化することで,全てのクラスで共同訓練されたモデルを模倣する。 私たちのCwDは実装が簡単で、既存のメソッドに簡単にプラグインできます。 様々なベンチマークデータセットの大規模な実験により、CwDは既存の最先端メソッドのパフォーマンスを約1\%から3\%改善している。 コードはリリースされる。

Class Incremental Learning (CIL) aims at learning a multi-class classifier in a phase-by-phase manner, in which only data of a subset of the classes are provided at each phase. Previous works mainly focus on mitigating forgetting in phases after the initial one. However, we find that improving CIL at its initial phase is also a promising direction. Specifically, we experimentally show that directly encouraging CIL Learner at the initial phase to output similar representations as the model jointly trained on all classes can greatly boost the CIL performance. Motivated by this, we study the difference between a na\"ively-trained initial-phase model and the oracle model. Specifically, since one major difference between these two models is the number of training classes, we investigate how such difference affects the model representations. We find that, with fewer training classes, the data representations of each class lie in a long and narrow region; with more training classes, the representations of each class scatter more uniformly. Inspired by this observation, we propose Class-wise Decorrelation (CwD) that effectively regularizes representations of each class to scatter more uniformly, thus mimicking the model jointly trained with all classes (i.e., the oracle model). Our CwD is simple to implement and easy to plug into existing methods. Extensive experiments on various benchmark datasets show that CwD consistently and significantly improves the performance of existing state-of-the-art methods by around 1\% to 3\%. Code will be released.
翻訳日:2021-12-13 11:31:02 公開日:2021-12-10
# Atariにおける深層強化学習のレビュー:ベンチマーク,課題,解決策

A Review for Deep Reinforcement Learning in Atari:Benchmarks, Challenges, and Solutions ( http://arxiv.org/abs/2112.04145v2 )

ライセンス: Link先を確認
Jiajun Fan(参考訳) アーケード学習環境(ale)は、多数のatari 2600ゲームにおけるエージェントの汎用性を評価するための評価プラットフォームとして提案されている。 ALEは様々な困難な問題を提供しており、深層強化学習(RL)コミュニティから大きな注目を集めている。 Deep Q-Networks (DQN) から Agent57 まで、RL エージェントは ALE において超人的性能を達成する。 しかし、これは当てはまりますか。 本稿では,まずatariベンチマークにおける現在の評価基準を概観し,その評価基準が不適切であることを明らかにした。 これらの問題に対処し、RL研究の発展を促進するために、人間の世界記録に基づく新しいAtariベンチマーク(HWR)を提案し、最終性能と学習効率の両面でRLエージェントのより高い要求を推し進める。 さらに,AtariベンチマークのSOTA(State-of-the-art)手法を要約し,人間の世界記録に基づく新しい評価指標に対するベンチマーク結果を提供する。 我々は、少なくとも4つのオープンな課題は、RLエージェントがこれらの新しいベンチマーク結果から超人的性能を達成することを妨げていると結論付けた。 最後に,これらの問題に対処するための有望な方法についても論じる。

The Arcade Learning Environment (ALE) is proposed as an evaluation platform for empirically assessing the generality of agents across dozens of Atari 2600 games. ALE offers various challenging problems and has drawn significant attention from the deep reinforcement learning (RL) community. From Deep Q-Networks (DQN) to Agent57, RL agents seem to achieve superhuman performance in ALE. However, is this the case? In this paper, to explore this problem, we first review the current evaluation metrics in the Atari benchmarks and then reveal that the current evaluation criteria of achieving superhuman performance are inappropriate, which underestimated the human performance relative to what is possible. To handle those problems and promote the development of RL research, we propose a novel Atari benchmark based on human world records (HWR), which puts forward higher requirements for RL agents on both final performance and learning efficiency. Furthermore, we summarize the state-of-the-art (SOTA) methods in Atari benchmarks and provide benchmark results over new evaluation metrics based on human world records. We concluded that at least four open challenges hinder RL agents from achieving superhuman performance from those new benchmark results. Finally, we also discuss some promising ways to handle those problems.
翻訳日:2021-12-13 11:30:36 公開日:2021-12-10
# ヘシアン逆数のない二値最適化のための完全単ループアルゴリズム

A Fully Single Loop Algorithm for Bilevel Optimization without Hessian Inverse ( http://arxiv.org/abs/2112.04660v2 )

ライセンス: Link先を確認
Junyi Li, Bin Gu, Heng Huang(参考訳) 本稿では,二値最適化問題に対する新しいヘッセン逆自由完全ループアルゴリズム(fsla)を提案する。 双レベル最適化のための古典的なアルゴリズムは計算コストのかかる二重ループ構造を持つ。 近年,インナー変数とアウター変数を交互に最適化する単一ループアルゴリズムが提案されている。 しかし、これらのアルゴリズムは完全な単一ループを達成していない。 それらを見渡すと、ループは与えられた内部状態と外部状態の過勾配を評価する必要がある。 完全な単一ループアルゴリズムを開発するために、まずハイパー勾配の構造を研究し、時間によるバックプロパゲーション、共役勾配、emph{etcなどのいくつかの一般的なアプローチを含む超勾配計算の一般的な近似式を同定する。 この定式化に基づき、歴史的過次情報を維持するための新しい状態変数を導入する。 新しい定式化と内部変数と外部変数の代替更新を組み合わせることで,効率的な完全単一ループアルゴリズムを提案する。 理論的には、新しい状態によって生成された誤差は有界であり、我々のアルゴリズムは$O(\epsilon^{-2})$と収束する。 最後に、複数の二段階最適化に基づく機械学習タスクにより、アルゴリズムの有効性を実証的に検証する。

In this paper, we propose a new Hessian inverse free Fully Single Loop Algorithm (FSLA) for bilevel optimization problems. Classic algorithms for bilevel optimization admit a double loop structure which is computationally expensive. Recently, several single loop algorithms have been proposed with optimizing the inner and outer variable alternatively. However, these algorithms not yet achieve fully single loop. As they overlook the loop needed to evaluate the hyper-gradient for a given inner and outer state. In order to develop a fully single loop algorithm, we first study the structure of the hyper-gradient and identify a general approximation formulation of hyper-gradient computation that encompasses several previous common approaches, e.g. back-propagation through time, conjugate gradient, \emph{etc.} Based on this formulation, we introduce a new state variable to maintain the historical hyper-gradient information. Combining our new formulation with the alternative update of the inner and outer variables, we propose an efficient fully single loop algorithm. We theoretically show that the error generated by the new state can be bounded and our algorithm converges with the rate of $O(\epsilon^{-2})$. Finally, we verify the efficacy our algorithm empirically through multiple bilevel optimization based machine learning tasks.
翻訳日:2021-12-13 11:30:16 公開日:2021-12-10