このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20220312)

# スパイクニューラルネットワークの最近の進歩と新たなフロンティア

Recent Advances and New Frontiers in Spiking Neural Networks ( http://arxiv.org/abs/2204.07050v1 )

ライセンス: Link先を確認
Duzhen Zhang, Tielin Zhang, Shuncheng Jia, Qingyu Wang, Bo Xu(参考訳) 近年、スパイクニューラルネットワーク(SNN)は、空間的時間的ダイナミクスの充実、様々なコーディングスキーム、ニューロモルフィックハードウェアに自然に適合するイベント駆動特性により、脳にインスパイアされたインテリジェンス分野に大きな注目を集めている。 脳にインスパイアされたインテリジェンスであるSNNの開発により、脳科学の成果にインスパイアされ、人工知能を目指す新たな研究分野がホットになりつつある。 本稿では,近年のsnsにおける新たなフロンティアについて,本質的要素(スパイクニューロンモデル,エンコーディング法,トポロジー構造),データセット,最適化アルゴリズム,ソフトウェアおよびハードウェアフレームワークを含む4つの主要な研究トピックから考察する。 我々の調査は、研究者がSNNをよりよく理解し、この分野を前進させるための新しい研究を促すのに役立つことを期待しています。

In recent years, spiking neural networks (SNNs) have received extensive attention in the field of brain-inspired intelligence due to their rich spatially-temporal dynamics, various coding schemes, and event-driven characteristics that naturally fit the neuromorphic hardware. With the development of SNNs, brain-inspired intelligence, an emerging research field inspired by brain science achievements and aiming at artificial general intelligence, is becoming hot. In this paper, we review the recent advances and discuss the new frontiers in SNNs from four major research topics, including essential elements (i.e., spiking neuron models, encoding methods, and topology structures), datasets, optimization algorithms, and software and hardware frameworks. We hope our survey can help researchers understand SNNs better and inspire new works to advance this field.
翻訳日:2022-04-17 07:28:25 公開日:2022-03-12
# レコメンデーションシステムにおける行列因子化と因子化マシンの紹介

An Introduction to Matrix factorization and Factorization Machines in Recommendation System, and Beyond ( http://arxiv.org/abs/2203.11026v1 )

ライセンス: Link先を確認
Yuefeng Zhang(参考訳) 本稿では,行列因数分解装置(MF),因子分解装置(FM),深層アルゴリズムのレコメンデーションシステムへの応用について,より深く理解することを目的とする。 具体的には,Singular Value Decomposition(SVD)とその派生(Funk-SVD,SVD++など)に焦点を当てる。 ステップバイステップの式計算と説明可能な画像を表示する。 さらに、FMがディープラーニングによって補助されるDeepFMモデルについて説明する。 数値例を通して,理論を実世界問題と結びつけようとする。

This paper aims at a better understanding of matrix factorization (MF), factorization machines (FM), and their combination with deep algorithms' application in recommendation systems. Specifically, this paper will focus on Singular Value Decomposition (SVD) and its derivations, e.g Funk-SVD, SVD++, etc. Step-by-step formula calculation and explainable pictures are displayed. What's more, we explain the DeepFM model in which FM is assisted by deep learning. Through numerical examples, we attempt to tie the theory to real-world problems.
翻訳日:2022-03-27 05:48:59 公開日:2022-03-12
# (参考訳) 深部相互情報推定を用いたニューラルトピックモデリング [全文訳有]

Neural Topic Modeling with Deep Mutual Information Estimation ( http://arxiv.org/abs/2203.06298v1 )

ライセンス: CC BY 4.0
Kang Xu and Xiaoqiu Lu and Yuan-fang Li and Tongtong Wu and Guilin Qi and Ning Ye and Dong Wang and Zheng Zhou(参考訳) 新たなニューラルトピックモデルは、教師なしテキストマイニングにおいてトピックモデリングをより容易に適応可能で拡張可能にする。 しかし、既存のニューラルトピックモデルでは、学習したトピック表現の中に文書の代表情報を保持することが困難である。 本稿では,深い相互情報推定,すなわち,深層相互情報推定を用いたニューラルトピックモデリング(NTM-DMIE)を組み込んだニューラルトピックモデルを提案する。 NTM-DMIEは、入力文書と潜在トピック表現の間の相互情報を最大化するトピック学習のためのニューラルネットワーク手法である。 強固な話題表現を学ぶために,我々は,否定的な例と否定的な例を,逆学習を通じて判別する判別器を組み込んだ。 さらに,グローバル情報とローカル情報の両方を用いて,トピック表現における入力文書の豊富な情報を保存する。 我々はNTM-DMIEをテキストクラスタリングの精度、トピック表現、トピック一意性、トピックコヒーレンスなどの指標で評価する。 既存の手法と比較すると,NTM-DMIEは4つのデータセットのすべての指標より優れていた。

The emerging neural topic models make topic modeling more easily adaptable and extendable in unsupervised text mining. However, the existing neural topic models is difficult to retain representative information of the documents within the learnt topic representation. In this paper, we propose a neural topic model which incorporates deep mutual information estimation, i.e., Neural Topic Modeling with Deep Mutual Information Estimation(NTM-DMIE) . NTM-DMIE is a neural network method for topic learning which maximizes the mutual information between the input documents and their latent topic representation. To learn robust topic representation, we incorporate the discriminator to discriminate negative examples and positive examples via adversarial learning. Moreover, we use both global and local mutual information to preserve the rich information of the input documents in the topic representation. We evaluate NTM-DMIE on several metrics, including accuracy of text clustering, with topic representation, topic uniqueness and topic coherence. Compared to the existing methods, the experimental results show that NTM-DMIE can outperform in all the metrics on the four datasets.
翻訳日:2022-03-20 03:05:06 公開日:2022-03-12
# (参考訳) Image Style Transfer: アートからフォトリアリスティックへ [全文訳有]

Image Style Transfer: from Artistic to Photorealistic ( http://arxiv.org/abs/2203.06328v1 )

ライセンス: CC BY 4.0
Chenggui Sun and Li Bin Song(参考訳) ディープラーニングの急速な進歩は、フォトリアリスティックなスタイル転送の発展を著しく加速させた。 本総説では, アルバータ大学マルチメディア研究室で完成した作品を含む, 芸術的スタイル転送から始まるフォトリアリスティックなスタイル転送の展開と, 従来の画像処理技術によるフォトリアリスティックなスタイル転送への貢献を概観する。 このレビューでは多くのテクニックが議論された。 しかし我々は,vggベースの技術,ホワイトニング,カラー化変換(wcts)に基づく技術,ディープラーニングと従来の画像処理技術の組み合わせに重点を置いている。

The rapid advancement of deep learning has significantly boomed the development of photorealistic style transfer. In this review, we reviewed the development of photorealistic style transfer starting from artistic style transfer and the contribution of traditional image processing techniques on photorealistic style transfer, including some work that had been completed in the Multimedia lab at the University of Alberta. Many techniques were discussed in this review. However, our focus is on VGG-based techniques, whitening and coloring transform (WCTs) based techniques, the combination of deep learning with traditional image processing techniques.
翻訳日:2022-03-20 02:46:19 公開日:2022-03-12
# (参考訳) Auto-FedRL:多施設医用画像分割のためのフェデレーションハイパーパラメータ最適化 [全文訳有]

Auto-FedRL: Federated Hyperparameter Optimization for Multi-institutional Medical Image Segmentation ( http://arxiv.org/abs/2203.06338v1 )

ライセンス: CC BY 4.0
Pengfei Guo, Dong Yang, Ali Hatamizadeh, An Xu, Ziyue Xu, Wenqi Li, Can Zhao, Daguang Xu, Stephanie Harmon, Evrim Turkbey, Baris Turkbey, Bradford Wood, Francesca Patella, Elvira Stellato, Gianpaolo Carrafiello, Vishal M. Patel, Holger R. Roth(参考訳) Federated Learning(FL)は、明示的なデータ共有を避けながら協調的なモデルトレーニングを可能にする分散機械学習技術である。 flアルゴリズムの固有のプライバシー保護特性は、医療分野に特に魅力的である。 しかし、ヘテロジニアスなクライアントデータ分布の場合、標準fl法は不安定であり、最適な性能を得るためには集中的なハイパーパラメータチューニングが必要となる。 従来のハイパーパラメータ最適化アルゴリズムは、多くのトレーニングトライアルを含む現実世界のFLアプリケーションでは実用的ではない。 本研究では、オンラインRLエージェントが、現在のトレーニング進捗に基づいて各クライアントのハイパーパラメータを動的に調整できるAuto-FedRLと呼ばれる、効率的な強化学習〜(RL)ベースのフェデレーション付きハイパーパラメータ最適化アルゴリズムを提案する。 様々な探索戦略とrlエージェントを調査するために広範な実験が行われている。 提案法の有効性は,cifar-10データセットの異種データ分割と,胸部ctにおけるcovid-19病変分画と腹部ctにおける膵臓分画のための2つの実世界医用画像分画データセットを用いて検証した。

Federated learning (FL) is a distributed machine learning technique that enables collaborative model training while avoiding explicit data sharing. The inherent privacy-preserving property of FL algorithms makes them especially attractive to the medical field. However, in case of heterogeneous client data distributions, standard FL methods are unstable and require intensive hyperparameter tuning to achieve optimal performance. Conventional hyperparameter optimization algorithms are impractical in real-world FL applications as they involve numerous training trials, which are often not affordable with limited compute budgets. In this work, we propose an efficient reinforcement learning~(RL)-based federated hyperparameter optimization algorithm, termed Auto-FedRL, in which an online RL agent can dynamically adjust hyperparameters of each client based on the current training progress. Extensive experiments are conducted to investigate different search strategies and RL agents. The effectiveness of the proposed method is validated on a heterogeneous data split of the CIFAR-10 dataset as well as two real-world medical image segmentation datasets for COVID-19 lesion segmentation in chest CT and pancreas segmentation in abdominal CT.
翻訳日:2022-03-20 02:37:09 公開日:2022-03-12
# (参考訳) MDT-Net:OCTスキャンにおける画像の知覚的スーパービジョンによるマルチドメイン転送 [全文訳有]

MDT-Net: Multi-domain Transfer by Perceptual Supervision for Unpaired Images in OCT Scan ( http://arxiv.org/abs/2203.06363v1 )

ライセンス: CC BY 4.0
Weinan Song, Gaurav Fotedar, Nima Tajbakhsh, Ziheng Zhou, and Xiaowei Ding(参考訳) ディープラーニングモデルは、ドメインシフトの存在下ではパフォーマンスが低い傾向があります。 ドメイン移行は、ドメインシフトを示す画像が拡張や適応のために他のドメインに変換される、有望なアプローチとして最近登場した。 しかし、ペア画像とアノテート画像が欠如しているため、ほとんどのドメイン転送手法は、主に敵対的ネットワークと弱いサイクル一貫性に依存しており、結果としてドメイン転送が不完全なり、元のイメージ内容に不完全であったりする可能性がある。 本稿では,MDT-Netを導入して,知覚的監督に基づくマルチドメイン転送モデルを用いて,上記の制限に対処する。 具体的には,解剖構造保存を目的としたエンコーダ・デコーダネットワークと,機能変換によるドメイン遷移を導く複数のドメイン固有転送モジュールから構成される。 推論中、MDT-Netはソースドメインから複数のターゲットドメインへの画像を参照画像なしで一度に転送することができる。 MDT-Netの性能を示すため,マルチドメイン転送のための3種類のスキャナーデバイス(ドメイン)のOCTスキャンを含むRETOUCHデータセットを用いて評価を行った。 また,octスキャンにおける流体分節化のための追加訓練画像として,領域適応とデータ拡張の課題についても検討した。 実験の結果, MDT-Netは他のドメイン転送モデルよりも質的, 定量的に優れていることがわかった。 さらに,複数のセグメンテーションモデルに対するダイススコアの大幅な改善は,提案手法の有効性と有効性を示す。

Deep learning models tend to underperform in the presence of domain shifts. Domain transfer has recently emerged as a promising approach wherein images exhibiting a domain shift are transformed into other domains for augmentation or adaptation. However, with the absence of paired and annotated images, most domain transfer methods mainly rely on adversarial networks and weak cycle consistency, which could result in incomplete domain transfer or poor adherence to the original image content. In this paper, we introduce MDT-Net to address the limitations above through a multi-domain transfer model based on perceptual supervision. Specifically, our model consists of an encoder-decoder network, which aims to preserve anatomical structures, and multiple domain-specific transfer modules, which guide the domain transition through feature transformation. During the inference, MDT-Net can directly transfer images from the source domain to multiple target domains at one time without any reference image. To demonstrate the performance of MDT-Net, we evaluate it on RETOUCH dataset, comprising OCT scans from three different scanner devices (domains), for multi-domain transfer. We also take the transformed results as additional training images for fluid segmentation in OCT scans in the tasks of domain adaptation and data augmentation. Experimental results show that MDT-Net can outperform other domain transfer models qualitatively and quantitatively. Furthermore, the significant improvement in dice scores over multiple segmentation models also demonstrates the effectiveness and efficiency of our proposed method.
翻訳日:2022-03-20 02:20:41 公開日:2022-03-12
# (参考訳) the health gym: 強化学習アルゴリズム開発のための合成健康関連データセット

The Health Gym: Synthetic Health-Related Datasets for the Development of Reinforcement Learning Algorithms ( http://arxiv.org/abs/2203.06369v1 )

ライセンス: CC BY 4.0
Nicholas I-Hsien Kuo, Mark N. Polizzotto, Simon Finfer, Federico Garcia, Anders S\"onnerborg, Maurizio Zazzi, Michael B\"ohm, Louisa Jorm and Sebastiano Barbieri(参考訳) 近年、機械学習研究コミュニティは、オープンアクセス可能なベンチマークデータセットの可用性から大きな恩恵を受けている。 臨床データは通常、機密性の高い性質のため公開されていない。 これにより、医療における再現可能で汎用的な機械学習アプリケーションの開発が妨げられた。 ここではHealth Gymを紹介します - プロトタイプに自由にアクセスし、評価し、機械学習アルゴリズムを比較し、強化学習に特化して比較できる、高度に現実的な合成医療データセットのコレクションです。 本稿では,集中治療室で急性低血圧と敗血症を呈する患者コホートと,抗レトロウイルス療法を受けたヒト免疫不全ウイルス(HIV)患者について述べる。 データセットはGAN(generative adversarial network)を使用して作成された。 変数の分布と、合成データセットにおける変数とトレンドの相関は、実際のデータセットのそれを反映している。 さらに、合成データセットの公開分布に関連する機密情報開示のリスクは非常に低いと推定される。

In recent years, the machine learning research community has benefited tremendously from the availability of openly accessible benchmark datasets. Clinical data are usually not openly available due to their highly confidential nature. This has hampered the development of reproducible and generalisable machine learning applications in health care. Here we introduce the Health Gym - a growing collection of highly realistic synthetic medical datasets that can be freely accessed to prototype, evaluate, and compare machine learning algorithms, with a specific focus on reinforcement learning. The three synthetic datasets described in this paper present patient cohorts with acute hypotension and sepsis in the intensive care unit, and people with human immunodeficiency virus (HIV) receiving antiretroviral therapy in ambulatory care. The datasets were created using a novel generative adversarial network (GAN). The distributions of variables, and correlations between variables and trends over time in the synthetic datasets mirror those in the real datasets. Furthermore, the risk of sensitive information disclosure associated with the public distribution of the synthetic datasets is estimated to be very low.
翻訳日:2022-03-20 02:09:12 公開日:2022-03-12
# (参考訳) 視覚言語知識蒸留によるCLIPのマルチモーダル生成 [全文訳有]

Enabling Multimodal Generation on CLIP via Vision-Language Knowledge Distillation ( http://arxiv.org/abs/2203.06386v1 )

ライセンス: CC BY 4.0
Wenliang Dai, Lu Hou, Lifeng Shang, Xin Jiang, Qun Liu, Pascale Fung(参考訳) 最近の2重ストリームアーキテクチャ(例えばCLIP)の大規模な視覚言語事前訓練(VLP)は、膨大な画像とテキストのペアデータを持ち、様々なマルチモーダルアライメントタスクにおいてその優位性を示している。 その成功にもかかわらず、結果として得られたモデルは、弱いテキストエンコーダのためにマルチモーダル生成タスクができない。 この問題に対処するために、視覚言語知識蒸留(VLKD)によるテキスト事前学習言語モデル(PLM)を用いて、デュアルストリームVLPモデルを拡張し、マルチモーダル生成を可能にすることを提案する。 VLKDは、スクラッチからの事前トレーニングに比べ、かなりデータ駆動で計算効率が良い。 実験結果から,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。 例えば、vqav2データセットで44.5%のゼロショット精度を達成し、以前の7\times$のパラメータで最先端のゼロショットモデルを上回る。 さらに、plmの原文理解と生成能力は、vlkdの後に維持され、マルチモーダルタスクとユニモーダルタスクの両方に利用できる。

The recent large-scale vision-language pre-training (VLP) of dual-stream architectures (e.g., CLIP) with a tremendous amount of image-text pair data, has shown its superiority on various multimodal alignment tasks. Despite its success, the resulting models are not capable of multimodal generative tasks due to the weak text encoder. To tackle this problem, we propose to augment the dual-stream VLP model with a textual pre-trained language model (PLM) via vision-language knowledge distillation (VLKD), enabling the capability for multimodal generation. VLKD is pretty data- and computation-efficien t compared to the pre-training from scratch. Experimental results show that the resulting model has strong zero-shot performance on multimodal generation tasks, such as open-ended visual question answering and image captioning. For example, it achieves 44.5% zero-shot accuracy on the VQAv2 dataset, surpassing the previous state-of-the-art zero-shot model with $7\times$ fewer parameters. Furthermore, the original textual language understanding and generation ability of the PLM is maintained after VLKD, which makes our model versatile for both multimodal and unimodal tasks.
翻訳日:2022-03-20 02:08:13 公開日:2022-03-12
# (参考訳) GRAND+:スケーラブルグラフランダムニューラルネットワーク [全文訳有]

GRAND+: Scalable Graph Random Neural Networks ( http://arxiv.org/abs/2203.06389v1 )

ライセンス: CC BY 4.0
Wenzheng Feng, Yuxiao Dong, Tinglin Huang, Ziqi Yin, Xu Cheng, Evgeny Kharlamov, Jie Tang(参考訳) グラフニューラルネットワーク(GNN)は、グラフ上の半教師付き学習に広く採用されている。 最近の研究では、グラフランダムニューラルネットワーク(grand)モデルがこの問題に対して最先端のパフォーマンスを生成できることが示されている。 しかし、計算コストのかかるデータ拡張手順に依存するため、GRANDが大規模グラフを扱うことは困難である。 本研究では,半教師付きグラフ学習のためのスケーラブルで高性能なGNNフレームワークGRAND+を提案する。 上記の問題に対処するために,grand+で一般化フォワードプッシュ(gfpush)アルゴリズムを開発し,汎用伝搬行列を事前計算し,グラフデータ拡張をミニバッチ方式で実行する。 GFPushの時間と空間の複雑さの両方が、GRAND+を大規模グラフに効率的にスケールできることが示される。 さらに、GRAND+のモデル最適化に信頼性を考慮した一貫性損失を導入し、GRAND+の一般化優位性を促進する。 異なるサイズの7つの公開データセットについて広範な実験を行う。 その結果、GRAND+は 1)大規模グラフへのスケールが可能で、既存のスケーラブルなgnnよりも実行時間が少なくなります。 2) すべてのデータセットにまたがるフルバッチとスケーラブルなgnnの両方に対して、一貫性のある精度改善を提供することができる。

Graph neural networks (GNNs) have been widely adopted for semi-supervised learning on graphs. A recent study shows that the graph random neural network (GRAND) model can generate state-of-the-art performance for this problem. However, it is difficult for GRAND to handle large-scale graphs since its effectiveness relies on computationally expensive data augmentation procedures. In this work, we present a scalable and high-performance GNN framework GRAND+ for semi-supervised graph learning. To address the above issue, we develop a generalized forward push (GFPush) algorithm in GRAND+ to pre-compute a general propagation matrix and employ it to perform graph data augmentation in a mini-batch manner. We show that both the low time and space complexities of GFPush enable GRAND+ to efficiently scale to large graphs. Furthermore, we introduce a confidence-aware consistency loss into the model optimization of GRAND+, facilitating GRAND+'s generalization superiority. We conduct extensive experiments on seven public datasets of different sizes. The results demonstrate that GRAND+ 1) is able to scale to large graphs and costs less running time than existing scalable GNNs, and 2) can offer consistent accuracy improvements over both full-batch and scalable GNNs across all datasets.
翻訳日:2022-03-20 01:47:33 公開日:2022-03-12
# (参考訳) コンタクトセンター領域における音声会話の分析への複合的アプローチ [全文訳有]

A combined approach to the analysis of speech conversations in a contact center domain ( http://arxiv.org/abs/2203.06396v1 )

ライセンス: CC BY 4.0
Andrea Brunello, Enrico Marzano, Angelo Montanari, Guido Sciavicco(参考訳) 顧客データの深い分析を求めるより正確な検索は、最近、非常に強力な技術トレンドであり、プライベートとパブリックの両方に非常にアピールしている。 音声分析は、顧客と人間のエージェントの会話から得られる、構造化されていないデータから洞察を得るための非常に強力な方法論である。 本研究では, インバウンドフローやアウトバウンドフローから抽出した通話記録を扱う, イタリアのコンタクトセンターにおける音声分析プロセスの実験について述べる。 まず、Kaldiフレームワークに基づく社内音声テキストソリューションの開発について詳細に説明し、その性能(およびGoogle Cloud Speech APIとの比較)を評価する。 次に,従来の正規表現から,ngramやロジスティック回帰に基づく機械学習モデルまで,コール書き起こしの意味的タグ付けに対する異なるアプローチを評価し比較し,それらの組み合わせを提案する。 最後に、タグ問題にj48sと呼ばれる決定木誘導器を適用する。 このようなアルゴリズムは、分類のためにテキストなどのシーケンシャルなデータを利用することができる。 このソリューションは、他のアプローチと比較され、高度に解釈可能なモデルを生成し、データ準備フェーズの複雑さを低減しながら、競合的な分類性能を提供する。 プロセス全体の潜在的な運用への影響を徹底的に調べます。

The ever more accurate search for deep analysis in customer data is a really strong technological trend nowadays, quite appealing to both private and public companies. This is particularly true in the contact center domain, where speech analytics is an extremely powerful methodology for gaining insights from unstructured data, coming from customer and human agent conversations. In this work, we describe an experimentation with a speech analytics process for an Italian contact center, that deals with call recordings extracted from inbound or outbound flows. First, we illustrate in detail the development of an in-house speech-to-text solution, based on Kaldi framework, and evaluate its performance (and compare it to Google Cloud Speech API). Then, we evaluate and compare different approaches to the semantic tagging of call transcripts, ranging from classic regular expressions to machine learning models based on ngrams and logistic regression, and propose a combination of them, which is shown to provide a consistent benefit. Finally, a decision tree inducer, called J48S, is applied to the problem of tagging. Such an algorithm is natively capable of exploiting sequential data, such as texts, for classification purposes. The solution is compared with the other approaches and is shown to provide competitive classification performances, while generating highly interpretable models and reducing the complexity of the data preparation phase. The potential operational impact of the whole process is thoroughly examined.
翻訳日:2022-03-20 00:55:01 公開日:2022-03-12
# (参考訳) SIGMA: ドメイン適応オブジェクト検出のための意味完全グラフマッチング [全文訳有]

SIGMA: Semantic-complete Graph Matching for Domain Adaptive Object Detection ( http://arxiv.org/abs/2203.06398v1 )

ライセンス: CC BY 4.0
Wuyang Li, Xinyu Liu, Yixuan Yuan(参考訳) ドメイン適応オブジェクト検出(daod)はラベル付きドメインを利用して、アノテーションのない新しいドメインに一般化したオブジェクト検出器を学習する。 最近の進歩は、クロスドメインプロトタイプ(クラスセンター)の縮小によるクラス条件分布の調整である。 大きな成功にもかかわらず、トレーニングバッチ内の重要なクラス内の分散とドメインミスマッチしたセマンティクスを無視し、サブ最適適応につながります。 これらの課題を克服するため,我々はdaodのための新しいセマンティクス完全グラフマッチング(sigma)フレームワークを提案する。 具体的には,不足するカテゴリに幻覚グラフノードを生成することにより,ミスマッチしたセマンティクスを補完するグラフ埋め込みセマンティクス補完モジュール(gsc)を設計した。 そこで,クラス条件分布をモデル化するクロスイメージグラフを構築し,グラフ誘導メモリバンクを学習し,セマンティックコンプリートを改善する。 ソースとターゲットデータをグラフとして表現した後、適応をグラフマッチング問題、すなわちグラフ間でよくマッチしたノードペアを見つけることにより、新たな2部グラフマッチングアダプタ(bgm)によって解決されるドメインギャップを低減する。 簡単に言えば、グラフノードを用いて意味認識ノード親和性を確立し、グラフエッジを構造認識マッチング損失の二次的制約として活用し、ノード間グラフマッチングによるきめ細かい適応を実現する。 大規模な実験では、SIGMAが既存の成果を大幅に上回っている。 私たちのコードはhttps://github.com/C ityU-AIM-Group/SIGMA .comで公開されています。

Domain Adaptive Object Detection (DAOD) leverages a labeled domain to learn an object detector generalizing to a novel domain free of annotations. Recent advances align class-conditional distributions by narrowing down cross-domain prototypes (class centers). Though great success,they ignore the significant within-class variance and the domain-mismatched semantics within the training batch, leading to a sub-optimal adaptation. To overcome these challenges, we propose a novel SemantIc-complete Graph MAtching (SIGMA) framework for DAOD, which completes mismatched semantics and reformulates the adaptation with graph matching. Specifically, we design a Graph-embedded Semantic Completion module (GSC) that completes mismatched semantics through generating hallucination graph nodes in missing categories. Then, we establish cross-image graphs to model class-conditional distributions and learn a graph-guided memory bank for better semantic completion in turn. After representing the source and target data as graphs, we reformulate the adaptation as a graph matching problem, i.e., finding well-matched node pairs across graphs to reduce the domain gap, which is solved with a novel Bipartite Graph Matching adaptor (BGM). In a nutshell, we utilize graph nodes to establish semantic-aware node affinity and leverage graph edges as quadratic constraints in a structure-aware matching loss, achieving fine-grained adaptation with a node-to-node graph matching. Extensive experiments verify that SIGMA outperforms existing works significantly. Our codes are available at https://github.com/C ityU-AIM-Group/SIGMA .
翻訳日:2022-03-20 00:32:36 公開日:2022-03-12
# (参考訳) バッグサンプリングとグループワイドロスによるラベルノイズ文書ランキング情報検索 [全文訳有]

Information retrieval for label noise document ranking by bag sampling and group-wise loss ( http://arxiv.org/abs/2203.06408v1 )

ライセンス: CC0 1.0
Chunyu Li and Jiajia Ding and Xing hu and Fan Wang(参考訳) 長い文書検索(DR)は理解と情報検索において常に大きな課題である。 事前学習モデルは,近年の長期文書検索とランキングにおいて良好な成果を上げている。 しかし、データラベルのノイズ、長いドキュメントの表現、負のデータアンバランスサンプリングなど、長いドキュメントのランク付けには依然として重大な問題がある。 ラベル付きデータのノイズを除去し,検索における長文のサンプル化を合理的に行えるようにするため,バッグサンプリング法とグループワイズローカライズコントラスト推定(lce)法を提案する。 長い文書をエンコードするために、頭部中尾通路を用いて長い文書を符号化し、検索において、段階的に濃密な検索を行い、候補のデータを生成する。 検索データはランキング段階で複数の袋に分割され、各袋に負のサンプルが選択される。 サンプリング後、2つの損失が組み合わされる。 最初の損失はLCEである。 バッグサンプリングをうまく適合させるために、クエリとドキュメントを符号化した後、各グループのグローバルな特徴を畳み込み層と最大プールにより抽出し、ラベル付けノイズの影響に対するモデルの抵抗を改善し、最終的にLCEグループワイドロスを算出する。 特に,MS MARCO Long文書ランキングでは優れた性能を示した。

Long Document retrieval (DR) has always been a tremendous challenge for reading comprehension and information retrieval. The pre-training model has achieved good results in the retrieval stage and Ranking for long documents in recent years. However, there is still some crucial problem in long document ranking, such as data label noises, long document representations, negative data Unbalanced sampling, etc. To eliminate the noise of labeled data and to be able to sample the long documents in the search reasonably negatively, we propose the bag sampling method and the group-wise Localized Contrastive Estimation(LCE) method. We use the head middle tail passage for the long document to encode the long document, and in the retrieval, stage Use dense retrieval to generate the candidate's data. The retrieval data is divided into multiple bags at the ranking stage, and negative samples are selected in each bag. After sampling, two losses are combined. The first loss is LCE. To fit bag sampling well, after query and document are encoded, the global features of each group are extracted by convolutional layer and max-pooling to improve the model's resistance to the impact of labeling noise, finally, calculate the LCE group-wise loss. Notably, our model shows excellent performance on the MS MARCO Long document ranking leaderboard.
翻訳日:2022-03-20 00:03:36 公開日:2022-03-12
# (参考訳) 任意形状テキスト検出のためのカーネル提案ネットワーク [全文訳有]

Kernel Proposal Network for Arbitrary Shape Text Detection ( http://arxiv.org/abs/2203.06410v1 )

ライセンス: CC BY-SA 4.0
Shi-Xue Zhang, Xiaobin Zhu, Jie-Bo Hou, Chun Yang, Xu-Cheng Yin(参考訳) セグメント法は任意の形状のテキスト検出において大きな成功を収めた。 しかし,シーン画像中のテキストの複雑さから,隣接するテキストインスタンスの分離は依然として最も難しい問題である。 本稿では,任意の形状テキスト検出のための革新的カーネル提案ネットワーク(KPN)を提案する。 提案したKPNは,異なるテキストをインスタンスに依存しない特徴マップに分類することで,隣接するテキストインスタンスを分離することができる。 具体的には、kpnは各テキスト画像のガウス中心マップを予測し、対応するキーポイント位置に応じて埋め込み特徴マップから一連の候補カーネル提案(動的畳み込みカーネル)を抽出する。 カーネル提案間の独立性を確保するために,直交制約による新しい直交学習損失(OLL)を提案する。 具体的には,ネットワークによって学習される重要な自己情報と位置埋め込みによる位置情報を含むカーネルの提案を行う。 最後に、カーネルの提案は、テキストインスタンスの個々の埋め込みマップを生成するためのすべての埋め込み機能マップを個別に展開する。 このようにして、我々のKPNは、近隣のテキストインスタンスを効果的に分離し、未知の境界に対する堅牢性を改善することができる。 本研究は,テキスト検出における隣接するテキストインスタンスの密着性問題に効率的かつ効果的に取り組むために,動的畳み込みカーネル戦略を導入する最初の試みである。 挑戦的データセットの実験結果から,本手法の優れた性能と効率性が確認された。 コードとモデルはhttps://github.com/g xym/kpnで入手できる。

Segmentation-based methods have achieved great success for arbitrary shape text detection. However, separating neighboring text instances is still one of the most challenging problems due to the complexity of texts in scene images. In this paper, we propose an innovative Kernel Proposal Network (dubbed KPN) for arbitrary shape text detection. The proposed KPN can separate neighboring text instances by classifying different texts into instance-independent feature maps, meanwhile avoiding the complex aggregation process existing in segmentation-based arbitrary shape text detection methods. To be concrete, our KPN will predict a Gaussian center map for each text image, which will be used to extract a series of candidate kernel proposals (i.e., dynamic convolution kernel) from the embedding feature maps according to their corresponding keypoint positions. To enforce the independence between kernel proposals, we propose a novel orthogonal learning loss (OLL) via orthogonal constraints. Specifically, our kernel proposals contain important self-information learned by network and location information by position embedding. Finally, kernel proposals will individually convolve all embedding feature maps for generating individual embedded maps of text instances. In this way, our KPN can effectively separate neighboring text instances and improve the robustness against unclear boundaries. To our knowledge, our work is the first to introduce the dynamic convolution kernel strategy to efficiently and effectively tackle the adhesion problem of neighboring text instances in text detection. Experimental results on challenging datasets verify the impressive performance and efficiency of our method. The code and model are available at https://github.com/G XYM/KPN.
翻訳日:2022-03-19 23:54:46 公開日:2022-03-12
# (参考訳) variabilitytrack:可変速物体移動を用いたマルチオブジェクトトラッキング [全文訳有]

VariabilityTrack:Mul ti-Object Tracking with Variable Speed Object Movement ( http://arxiv.org/abs/2203.06424v1 )

ライセンス: CC BY 4.0
Run Luo, JinLin Wei, and Qiao Lin(参考訳) マルチオブジェクトトラッキング(MOT)は、ビデオ内のオブジェクトのバウンディングボックスとIDを推定することを目的としている。 ほとんどの方法は追跡・検出・結合パラダイムとして大まかに分類できる。 Although the latter has elicited more attention and demonstrates comparable performance relative than the former, we claim that the tracking-by-detectio n paradigm is still the optimal solution in terms of tracking accuracy,such as ByteTrack,which achieves 80.3 MOTA, 77.3 IDF1 and 63.1 HOTA on the test set of MOT17 with 30 FPS running speed on a single V100 GPU.However, under complex perspectives such as vehicle and UAV acceleration, the performance of such a tracker using uniform Kalman filter will be greatly affected, resulting in tracking loss.In this paper, we propose a variable speed Kalman filter algorithm based on environmental feedback and improve the matching process, which can greatly improve the tracking effect in complex variable speed scenes while maintaining high tracking accuracy in relatively static scenes. 最終的には、ByteTrackよりも高いMOTAとIDF1がMOT17テストセットで達成される。

Multi-object tracking (MOT) aims at estimating bounding boxes and identities of objects in videos. Most methods can be roughly classified as tracking-by-detectio n and joint-detection-asso ciation paradigms. Although the latter has elicited more attention and demonstrates comparable performance relative than the former, we claim that the tracking-by-detectio n paradigm is still the optimal solution in terms of tracking accuracy,such as ByteTrack,which achieves 80.3 MOTA, 77.3 IDF1 and 63.1 HOTA on the test set of MOT17 with 30 FPS running speed on a single V100 GPU.However, under complex perspectives such as vehicle and UAV acceleration, the performance of such a tracker using uniform Kalman filter will be greatly affected, resulting in tracking loss.In this paper, we propose a variable speed Kalman filter algorithm based on environmental feedback and improve the matching process, which can greatly improve the tracking effect in complex variable speed scenes while maintaining high tracking accuracy in relatively static scenes. Eventually, higher MOTA and IDF1 results can be achieved on MOT17 test set than ByteTrack
翻訳日:2022-03-19 23:09:50 公開日:2022-03-12
# (参考訳) 制約付き等変グラフ力学ネットワーク [全文訳有]

Equivariant Graph Mechanics Networks with Constraints ( http://arxiv.org/abs/2203.06442v1 )

ライセンス: CC BY 4.0
Wenbing Huang, Jiaqi Han, Yu Rong, Tingyang Xu, Fuchun Sun, Junzhou Huang(参考訳) 複数の相互作用するオブジェクトに対する関係やダイナミクスを推論する学習は、機械学習において難しいトピックである。 主な課題は、相互作用する系が指数的に構成され、対称であり、一般に幾何学的に制約されることである。 現在の手法、特に同変グラフニューラルネットワーク(GNN)に基づく手法は、最初の2つの課題をターゲットにしているが、制約付きシステムでは未成熟のままである。 本稿では、組合せ効率、同変、制約対応のグラフ力学ネットワーク(gmn)を提案する。 GMNの中核は、一般化された座標により、構造体の前方運動学情報(位置と速度)を表すことである。 このように、幾何学的制約は、前方運動学において暗黙的に自然に符号化される。 さらに、GMNにおける同変メッセージパッシングを可能にするため、制約系が非制約系よりも複雑なことを考慮し、直交同変関数の一般的な形式を開発した。 理論的には、提案された同変の定式化は、ある条件下で普遍的に表現できることが証明される。 大規模実験は、粒子、棒、ヒンジからなるシミュレーションシステムにおける予測精度、制約満足度、データ効率、および分子動力学予測と人間のモーションキャプチャーのための2つの実世界のデータセットに対するGMNの利点を支持する。

Learning to reason about relations and dynamics over multiple interacting objects is a challenging topic in machine learning. The challenges mainly stem from that the interacting systems are exponentially-compos itional, symmetrical, and commonly geometrically-constr ained. Current methods, particularly the ones based on equivariant Graph Neural Networks (GNNs), have targeted on the first two challenges but remain immature for constrained systems. In this paper, we propose Graph Mechanics Network (GMN) which is combinatorially efficient, equivariant and constraint-aware. The core of GMN is that it represents, by generalized coordinates, the forward kinematics information (positions and velocities) of a structural object. In this manner, the geometrical constraints are implicitly and naturally encoded in the forward kinematics. Moreover, to allow equivariant message passing in GMN, we have developed a general form of orthogonality-equiva riant functions, given that the dynamics of constrained systems are more complicated than the unconstrained counterparts. Theoretically, the proposed equivariant formulation is proved to be universally expressive under certain conditions. Extensive experiments support the advantages of GMN compared to the state-of-the-art GNNs in terms of prediction accuracy, constraint satisfaction and data efficiency on the simulated systems consisting of particles, sticks and hinges, as well as two real-world datasets for molecular dynamics prediction and human motion capture.
翻訳日:2022-03-19 22:57:00 公開日:2022-03-12
# (参考訳) 分散ラベルを用いたランダムセンサによる状態推定のためのエネルギーネットワーク [全文訳有]

Energy networks for state estimation with random sensors using sparse labels ( http://arxiv.org/abs/2203.06456v1 )

ライセンス: CC BY 4.0
Yash Kumar and Souvik Chakraborty(参考訳) 完全な測定が利用できないことが多いため、高次元力学系を扱う場合、状態推定が必要となる。 洞察を得る、制御を実行する、あるいは設計タスクを最適化するための鍵です。 ほとんどのディープラーニングベースのアプローチは、高解像度ラベルを必要とし、固定センサー位置で動作するため、スコープが制限される。 また、スパースデータ上で適切な直交分解(pod)を行うことは非自明である。 これらの問題に対処するために,暗黙的最適化層と,スパースラベルから学習可能な物理ベースの損失関数を用いた手法を提案する。 ニューラルネットワークの予測のエネルギーを最小化することで、さまざまな場所でさまざまなセンサーを動作させることができる。 この手法に基づき,空間における離散予測と連続予測の2つのモデルを提案する。 本稿では,バーガーズ方程式とフローパスシリンダの2つの高次元流体問題を用いた離散モデルと連続モデルにおけるアレンカーン方程式と対流拡散方程式を用いた性能を示す。 モデルも測定における雑音に対して頑健であることを示す。

State estimation is required whenever we deal with high-dimensional dynamical systems, as the complete measurement is often unavailable. It is key to gaining insight, performing control or optimizing design tasks. Most deep learning-based approaches require high-resolution labels and work with fixed sensor locations, thus being restrictive in their scope. Also, doing Proper orthogonal decomposition (POD) on sparse data is nontrivial. To tackle these problems, we propose a technique with an implicit optimization layer and a physics-based loss function that can learn from sparse labels. It works by minimizing the energy of the neural network prediction, enabling it to work with a varying number of sensors at different locations. Based on this technique we present two models for discrete and continuous prediction in space. We demonstrate the performance using two high-dimensional fluid problems of Burgers' equation and Flow Past Cylinder for discrete model and using Allen Cahn equation and Convection-diffusion equations for continuous model. We show the models are also robust to noise in measurements.
翻訳日:2022-03-19 22:29:50 公開日:2022-03-12
# (参考訳) 3D-GIF: 帰納的因子表現による3次元制御可能なオブジェクト生成 [全文訳有]

3D-GIF: 3D-Controllable Object Generation via Implicit Factorized Representations ( http://arxiv.org/abs/2203.06457v1 )

ライセンス: CC BY 4.0
Minsoo Lee, Chaeyeon Chung, Hojun Cho, Minjung Kim, Sanghun Jung, Jaegul Choo, and Minhyuk Sung(参考訳) NeRFベースの3D画像生成手法は視点制御を可能にするが、様々な3Dアプリケーションに制限が適用され続けている。 ビュー依存かつ光束縛された体積表現のため、3次元幾何学は非現実的な品質を示し、色は全ての所望の視点で再レンダリングされるべきである。 本研究では,3次元画像生成から3次元制御可能なオブジェクト生成への3次元適用性の拡大を目的として,ランダムなサンプリング光条件の学習手法を提案する。 因子化表現,再照明画像,アルベドテクスチャメッシュを可視化することで,本手法の優位性を実証する。 さらに, 可視化と定量的比較により, 生成した幾何学の質を向上できることを示す。 私たちの知る限りでは、これはアルベドテクスチャメッシュを、追加のラベルや仮定を使わずに、2D画像で抽出する最初の作品です。

While NeRF-based 3D-aware image generation methods enable viewpoint control, limitations still remain to be adopted to various 3D applications. Due to their view-dependent and light-entangled volume representation, the 3D geometry presents unrealistic quality and the color should be re-rendered for every desired viewpoint. To broaden the 3D applicability from 3D-aware image generation to 3D-controllable object generation, we propose the factorized representations which are view-independent and light-disentangled, and training schemes with randomly sampled light conditions. We demonstrate the superiority of our method by visualizing factorized representations, re-lighted images, and albedo-textured meshes. In addition, we show that our approach improves the quality of the generated geometry via visualization and quantitative comparison. To the best of our knowledge, this is the first work that extracts albedo-textured meshes with unposed 2D images without any additional labels or assumptions.
翻訳日:2022-03-19 22:05:31 公開日:2022-03-12
# (参考訳) 低ランクのSoftmaxは理論上は未定のクラスを持つが、実際は稀である [全文訳有]

Low-Rank Softmax Can Have Unargmaxable Classes in Theory but Rarely in Practice ( http://arxiv.org/abs/2203.06462v1 )

ライセンス: CC BY-SA 4.0
Andreas Grivas, Nikolay Bogoychev, Adam Lopez(参考訳) 自然言語処理(NLP)における分類器は、しばしば多数の出力クラスを持つ。 例えば、ニューラルネットワークモデル(LM)と機械翻訳(MT)モデルはどちらも、数千の語彙からトークンを予測する。 これらのモデルのSoftmax出力層は一般に、出力よりもはるかに低次元の高密度な特徴表現として入力される。 理論的には、いくつかの単語は入力特徴に関係なくargmaxで予測することは不可能であり、実証的に、これは小さな言語モデルで起こる証拠がある。 本稿では,実際の大規模言語モデルや翻訳モデルで実現可能かどうかを問う。 そのために、公開モデルでそのような \emph{unargmaxable}トークンを検出するアルゴリズムを開発した。 150モデル中13モデルが実際にそのようなトークンを持っていることは分かっていますが、それらは非常に稀で、モデルの品質に影響を与えることはほとんどありません。 アルゴリズムとコードを公開しています。

Classifiers in natural language processing (NLP) often have a large number of output classes. For example, neural language models (LMs) and machine translation (MT) models both predict tokens from a vocabulary of thousands. The Softmax output layer of these models typically receives as input a dense feature representation, which has much lower dimensionality than the output. In theory, the result is some words may be impossible to be predicted via argmax, irrespective of input features, and empirically, there is evidence this happens in small language models. In this paper we ask whether it can happen in practical large language models and translation models. To do so, we develop algorithms to detect such \emph{unargmaxable} tokens in public models. We find that 13 out of 150 models do indeed have such tokens; however, they are very infrequent and unlikely to impact model quality. We release our algorithms and code to the public.
翻訳日:2022-03-19 21:47:40 公開日:2022-03-12
# (参考訳) Optimizer Amalgamation [全文訳有]

Optimizer Amalgamation ( http://arxiv.org/abs/2203.06474v1 )

ライセンス: CC BY 4.0
Tianshu Huang (1 and 2), Tianlong Chen (1), Sijia Liu (3), Shiyu Chang (4), Lisa Amini (5), Zhangyang Wang (1) ((1) University of Texas at Austin, (2) Carnegie Mellon University, (3) Michigan State University, (4) University of California Santa Barbara, (5) MIT-IBM Watson AI Lab IBM Research)(参考訳) 与えられた問題に対して適切なオプティマイザを選択することは、研究者や実践者にとって大きな関心事である。 多くの分析オプティマイザは、様々な理論と経験的アプローチを用いて提案されているが、他の競合オプティマイザに対して普遍的な利点を与えるものはない。 そこで私たちは、Optimizer Amalgamationという新しい問題の研究を動機付けています。 "Teacher"オプティマイザのプールをひとつの"Student"オプティマイザに組み合わせて、問題固有のパフォーマンスをより高める方法はどうすればよいのでしょう? 本稿では,「最適化する学習」という分野から着想を得て,学習可能な融合目標について述べる。 まず、勾配降下による解析最適化器のプールをアマルガメートする3つの異なるアマルガメーション機構を定義する。 そして,アマルガメーション過程の分散を低減するために,アマルガメーション対象を摂動させることでアマルガメーション過程を安定化する方法も検討する。 最後に,アマルガメート成分と比較して,アマルガメートオプティマイザの優越性を示す実験を行い,ベースラインの最適化を学習し,分散による摂動低減の有効性を示した。 私たちのコードと事前トレーニングされたモデルは、http://github.com/VI TA-Group/OptimizerAm algamation.comで公開されています。

Selecting an appropriate optimizer for a given problem is of major interest for researchers and practitioners. Many analytical optimizers have been proposed using a variety of theoretical and empirical approaches; however, none can offer a universal advantage over other competitive optimizers. We are thus motivated to study a new problem named Optimizer Amalgamation: how can we best combine a pool of "teacher" optimizers into a single "student" optimizer that can have stronger problem-specific performance? In this paper, we draw inspiration from the field of "learning to optimize" to use a learnable amalgamation target. First, we define three differentiable amalgamation mechanisms to amalgamate a pool of analytical optimizers by gradient descent. Then, in order to reduce variance of the amalgamation process, we also explore methods to stabilize the amalgamation process by perturbing the amalgamation target. Finally, we present experiments showing the superiority of our amalgamated optimizer compared to its amalgamated components and learning to optimize baselines, and the efficacy of our variance reducing perturbations. Our code and pre-trained models are publicly available at http://github.com/VI TA-Group/OptimizerAm algamation.
翻訳日:2022-03-19 20:32:07 公開日:2022-03-12
# (参考訳) FiNER:XBRLタグのための金融数値エンティティ認識 [全文訳有]

FiNER: Financial Numeric Entity Recognition for XBRL Tagging ( http://arxiv.org/abs/2203.06482v1 )

ライセンス: CC BY 4.0
Lefteris Loukas, Manos Fergadiotis, Ilias Chalkidis, Eirini Spyropoulou, Prodromos Malakasiotis, Ion Androutsopoulos, Georgios Paliouras(参考訳) 上場企業は、eXtensive Business Reporting Language (XBRL)ワードレベルのタグで定期的なレポートを提出する必要がある。 手動でレポートをタグ付けするのは面倒で費用がかかる。 そこで、金融ドメインのための新しいエンティティ抽出タスクとしてXBRLタグを導入し、金のXBRLタグ付き1.1M文のデータセットであるFiNER-139をリリースする。 典型的なエンティティ抽出データセットとは異なり、FiNER-139は139個のエンティティタイプのラベルセットを使用する。 ほとんどのアノテーション付きトークンは数値であり、トークンごとの正しいタグは、トークン自体よりもコンテキストによって異なる。 数値表現のサブワード断片化はBERTの性能に悪影響を及ぼし,単語レベルのBILSTMの性能が向上することを示す。 BERTの性能を向上させるために,数値式を元のトークン形状と数値等級を反映した擬似トークンに置き換える,単純で効果的な2つの方法を提案する。 また、ファイナンシャルドメイン用の既存のBERTモデルであるFIN-BERTを実験し、ファイナンシャルファイリングに基づいて事前トレーニングされた独自のBERT(SEC-BERT)をリリースする。 データとエラー解析を通じて、XBRLタグ付けの今後の作業を促す可能性のある制限を最終的に特定する。

Publicly traded companies are required to submit periodic reports with eXtensive Business Reporting Language (XBRL) word-level tags. Manually tagging the reports is tedious and costly. We, therefore, introduce XBRL tagging as a new entity extraction task for the financial domain and release FiNER-139, a dataset of 1.1M sentences with gold XBRL tags. Unlike typical entity extraction datasets, FiNER-139 uses a much larger label set of 139 entity types. Most annotated tokens are numeric, with the correct tag per token depending mostly on context, rather than the token itself. We show that subword fragmentation of numeric expressions harms BERT's performance, allowing word-level BILSTMs to perform better. To improve BERT's performance, we propose two simple and effective solutions that replace numeric expressions with pseudo-tokens reflecting original token shapes and numeric magnitudes. We also experiment with FIN-BERT, an existing BERT model for the financial domain, and release our own BERT (SEC-BERT), pre-trained on financial filings, which performs best. Through data and error analysis, we finally identify possible limitations to inspire future work on XBRL tagging.
翻訳日:2022-03-19 20:03:03 公開日:2022-03-12
# (参考訳) Chart-to-Text: グラフ要約のための大規模ベンチマーク [全文訳有]

Chart-to-Text: A Large-Scale Benchmark for Chart Summarization ( http://arxiv.org/abs/2203.06486v1 )

ライセンス: CC BY 4.0
Shankar Kanthara, Rixie Tiffany Ko Leong, Xiang Lin, Ahmed Masry, Megh Thakkar, Enamul Hoque, Shafiq Joty(参考訳) チャートはデータ探索や洞察の伝達に一般的に使用される。 グラフから自然言語要約を生成することは、多くの認知的および知覚的努力を必要とする重要な洞察を推測する人々にとって非常に役立つ。 2つのデータセットと44,096のチャートを持つ大規模ベンチマークであるChart-to-textを紹介します。 データセット構築プロセスを説明し、データセットを分析する。 また,画像キャプションとデータツーテキスト生成技術を用いて2つの問題に対処可能なベースラインとして,最先端のニューラルモデルをいくつか紹介する。 自動評価と人的評価を用いて分析した結果,我々の最善のモデルは通常,流行った要約を生成し,合理的なbleuスコアを得るが,幻覚や事実的誤りに苦しむだけでなく,複雑なパターンや傾向を正しく説明することが困難であることがわかった。

Charts are commonly used for exploring data and communicating insights. Generating natural language summaries from charts can be very helpful for people in inferring key insights that would otherwise require a lot of cognitive and perceptual efforts. We present Chart-to-text, a large-scale benchmark with two datasets and a total of 44,096 charts covering a wide range of topics and chart types. We explain the dataset construction process and analyze the datasets. We also introduce a number of state-of-the-art neural models as baselines that utilize image captioning and data-to-text generation techniques to tackle two problem variations: one assumes the underlying data table of the chart is available while the other needs to extract data from chart images. Our analysis with automatic and human evaluation shows that while our best models usually generate fluent summaries and yield reasonable BLEU scores, they also suffer from hallucinations and factual errors as well as difficulties in correctly explaining complex patterns and trends in charts.
翻訳日:2022-03-19 19:41:30 公開日:2022-03-12
# (参考訳) マルチモーダル医療画像タスクにおける説明可能なAIの評価:既存のアルゴリズムは臨床要件を満たすか? [全文訳有]

Evaluating Explainable AI on a Multi-Modal Medical Imaging Task: Can Existing Algorithms Fulfill Clinical Requirements? ( http://arxiv.org/abs/2203.06487v1 )

ライセンス: CC BY 4.0
Weina Jin, Xiaoxiao Li, Ghassan Hamarneh(参考訳) 臨床エンドユーザに予測を説明できることは、ai(artificial intelligence, 人工知能)モデルの力を臨床決定支援に活用する必要性である。 医療画像では、機能帰属マップ(feature attribution map、heatmap)は、aiモデルの予測において重要な特徴を強調する最も一般的な説明形式である。 しかし、ヒートマップがマルチモーダルな医療画像の意思決定にどの程度効果があるかは分かっておらず、それぞれの画像のモダリティやチャネルが、同じ基礎となるバイオメディカル現象の異なる臨床情報を視覚化している。 このようなモダリティに依存した特徴を理解することは、臨床ユーザーのAI決定の解釈に不可欠である。 臨床的に重要な問題であるが技術的に無視される問題に対処するために,モーダリティ特異的特徴重要度(MSFI)尺度を提案する。 モダリティ優先順位付けおよびモダリティ特異的特徴ローカライゼーションの臨床的画像および解釈パターンを符号化する。 我々は,計算手法と臨床ユーザスタディを用いた臨床要件ベースで体系的な評価を行う。 その結果、16のヒートマップアルゴリズムは、AIモデル決定プロセスや意思決定品質を正しく示すための臨床要件を満たすことができなかった。 評価基準とMSFI基準はXAIアルゴリズムの設計と選択を誘導し,マルチモーダルな説明に対する臨床要件を満たす。

Being able to explain the prediction to clinical end-users is a necessity to leverage the power of artificial intelligence (AI) models for clinical decision support. For medical images, a feature attribution map, or heatmap, is the most common form of explanation that highlights important features for AI models' prediction. However, it is unknown how well heatmaps perform on explaining decisions on multi-modal medical images, where each image modality or channel visualizes distinct clinical information of the same underlying biomedical phenomenon. Understanding such modality-dependent features is essential for clinical users' interpretation of AI decisions. To tackle this clinically important but technically ignored problem, we propose the modality-specific feature importance (MSFI) metric. It encodes clinical image and explanation interpretation patterns of modality prioritization and modality-specific feature localization. We conduct a clinical requirement-grounded , systematic evaluation using computational methods and a clinician user study. Results show that the examined 16 heatmap algorithms failed to fulfill clinical requirements to correctly indicate AI model decision process or decision quality. The evaluation and MSFI metric can guide the design and selection of XAI algorithms to meet clinical requirements on multi-modal explanation.
翻訳日:2022-03-19 19:19:41 公開日:2022-03-12
# (参考訳) 両世界の最悪の状況:心理学と機械学習のデータからの学習における誤りの比較分析 [全文訳有]

The worst of both worlds: A comparative analysis of errors in learning from data in psychology and machine learning ( http://arxiv.org/abs/2203.06498v1 )

ライセンス: CC BY 4.0
Jessica Hullman, Sayash Kapoor, Priyanka Nanayakkara, Andrew Gelman, and Arvind Narayanan(参考訳) 機械学習(ML)が再現性と複製の危機に直面しているという最近の懸念は、ML研究におけるいくつかの発表された主張が、対面価値で評価できないことを示唆している。 これらの懸念は、社会科学や医学に影響を及ぼす複製危機の類似点を刺激し、因果推論や予測モデリングに対する統計的アプローチのより深い統合を求める。 教師付きMLの研究における再現性に関する懸念は、実験科学における複製危機と共通しており、研究者が限界を理解しずに説明的モデリングから方法論を借用し始めると、研究者が「両方の世界の最悪のもの」を避けるのに役立つ。 本稿では,心理学において実証される因果帰属のモデルパイプラインの異なる段階で生じる帰納的学習に関する関心事と,MLで実証される予測的モデリングについて比較分析する。 我々は、漸近理論への過度な依存や、現実世界のデータ生成プロセスに関する信用できない信念など、改革の議論に再び現れるテーマを特定する。 どちらの分野でも、学習からの主張は特定の環境(例えば、入力データセットや対象サンプル、モデリング実装など)の外で一般化することが示唆されるが、過小評価の形態のため、しばしば否定できない。 特に、MLで認識されている多くのエラーは、巨大なデータセットを使用して予測精度を最適化することで、基礎となるデータ生成プロセスについて仮定する必要がなくなるという長年の信念の亀裂を露呈する。 方法論的不確実性の時に発生する誤り誤診のような修辞的リスクについて論じる。

Recent concerns that machine learning (ML) may be facing a reproducibility and replication crisis suggest that some published claims in ML research cannot be taken at face value. These concerns inspire analogies to the replication crisis affecting the social and medical sciences, as well as calls for greater integration of statistical approaches to causal inference and predictive modeling. A deeper understanding of what reproducibility concerns in research in supervised ML have in common with the replication crisis in experimental science can put the new concerns in perspective, and help researchers avoid "the worst of both worlds" that can emerge when ML researchers begin borrowing methodologies from explanatory modeling without understanding their limitations, and vice versa. We contribute a comparative analysis of concerns about inductive learning that arise in different stages of the modeling pipeline in causal attribution as exemplified in psychology versus predictive modeling as exemplified by ML. We identify themes that re-occur in reform discussions like overreliance on asymptotic theory and non-credible beliefs about real-world data generating processes. We argue that in both fields, claims from learning are implied to generalize outside the specific environment studied (e.g., the input dataset or subject sample, modeling implementation, etc.) but are often impossible to refute due to forms of underspecification. In particular, many errors being acknowledged in ML expose cracks in long-held beliefs that optimizing predictive accuracy using huge datasets absolves one from having to make assumptions about the underlying data generating process. We conclude by discussing rhetorical risks like error misdiagnosis that arise in times of methodological uncertainty.
翻訳日:2022-03-19 18:28:40 公開日:2022-03-12
# (参考訳) クラウドワークロード予測のためのWasserstein Adversarial Transformer [全文訳有]

Wasserstein Adversarial Transformer for Cloud Workload Prediction ( http://arxiv.org/abs/2203.06501v1 )

ライセンス: CC BY 4.0
Shivani Arbat, Vinodh Kumaran Jayakumar, Jaewoo Lee, Wei Wang, In Kee Kim(参考訳) Predictive Virtual Machine(VM)自動スケーリングは、クラウドアプリケーションの運用コストとパフォーマンスを最適化する有望なテクニックである。 ジョブの到着率を理解することは、クラウドワークロードの将来的な変更を正確に予測し、アプリケーションをホストするVMを積極的にプロビジョニングし、非プロビジョニングするために重要です。 しかし、クラウドワークロードの動的性質のため、クラウドワークロードの変化を正確に予測するモデルの開発は非常に難しい。 クラウドワークロード予測のためのLong-Short-Term-Memo ry(LSTM)モデルが開発されている。 残念なことに、最先端のLSTMモデルはリカレンスを利用して予測するので、複雑さが自然に増加し、入力シーケンスが長くなるにつれて推論オーバーヘッドが増加する。 クラウドワークロード予測モデルを高精度かつ低推論オーバーヘッドで開発するために,TransformerネットワークにインスパイアされたWGAN-gp Transformerと呼ばれる新しい時系列予測モデルを提案し,Wasserstein-GANを改善した。 提案手法では,トランスフォーマーネットワークをジェネレータとして,マルチ層パーセプトロンを批判として採用する。 WGAN-gp Transformerの実際のワークロードトレースによる広範な評価は、最先端のアプローチに対する予測精度を最大5.1%向上する5倍高速な推論時間を達成していることを示している。 また、google cloudプラットフォームのオートスケーリング機構にwgan-gp transformerを適用し、wgan-gp transformerベースのオートスケーリングメカニズムは、vmのオーバープロビジョンとオーバープロビジョンレートを大幅に削減することで、lstmベースのメカニズムを上回る。

Predictive Virtual Machine (VM) auto-scaling is a promising technique to optimize cloud applications operating costs and performance. Understanding the job arrival rate is crucial for accurately predicting future changes in cloud workloads and proactively provisioning and de-provisioning VMs for hosting the applications. However, developing a model that accurately predicts cloud workload changes is extremely challenging due to the dynamic nature of cloud workloads. Long-Short-Term-Memo ry (LSTM) models have been developed for cloud workload prediction. Unfortunately, the state-of-the-art LSTM model leverages recurrences to predict, which naturally adds complexity and increases the inference overhead as input sequences grow longer. To develop a cloud workload prediction model with high accuracy and low inference overhead, this work presents a novel time-series forecasting model called WGAN-gp Transformer, inspired by the Transformer network and improved Wasserstein-GANs. The proposed method adopts a Transformer network as a generator and a multi-layer perceptron as a critic. The extensive evaluations with real-world workload traces show WGAN-gp Transformer achieves 5 times faster inference time with up to 5.1 percent higher prediction accuracy against the state-of-the-art approach. We also apply WGAN-gp Transformer to auto-scaling mechanisms on Google cloud platforms, and the WGAN-gp Transformer-based auto-scaling mechanism outperforms the LSTM-based mechanism by significantly reducing VM over-provisioning and under-provisioning rates.
翻訳日:2022-03-19 17:52:50 公開日:2022-03-12
# (参考訳) 神経活性化のヌル空間における連続学習のためのスパーシティとヘテロジニアスドロップアウト [全文訳有]

Sparsity and Heterogeneous Dropout for Continual Learning in the Null Space of Neural Activations ( http://arxiv.org/abs/2203.06514v1 )

ライセンス: CC BY 4.0
Ali Abbasi, Parsa Nooralinejad, Vladimir Braverman, Hamed Pirsiavash, Soheil Kolouri(参考訳) 非定常入力データストリームからの連続的/長期的学習は知性の基盤である。 さまざまなアプリケーションにおいて、その驚くべき性能にもかかわらず、ディープニューラルネットワークは、新しいものを学ぶ際に、これまで学んだ情報を忘れがちである。 この現象は「破滅的忘れ」と呼ばれ、安定性と塑性のジレンマに深く根ざしている。 近年、ディープニューラルネットワークにおける破滅的な忘れを克服する研究が活発に行われている。 特に、勾配投影に基づく手法は、最近、破滅的な忘れを克服する優れた性能を示している。 本稿では, 長期にわたる学習者のパフォーマンスを著しく向上させる, 空間性と不均一なドロップアウトに基づく2つの生物学的刺激機構を提案する。 提案手法はGPM(Gradient Projection Memory)フレームワークに基づいている。 ニューラルネットワークの各層におけるK-winnerのアクティベーションを活用して、各タスクに対して階層的にスパースなアクティベーションを強制し、異なるタスク間で重複しないアクティベーションパターンを使用するようにネットワークに促す、タスク間の異種ドロップアウトと組み合わせる。 さらに、継続学習のための軽量かつ解釈可能な、しかし難しい合成ベンチマークとしてContinual Swiss Rollを紹介します。 最後に,提案手法の詳細な分析を行い,ベンチマーク連続学習問題に対して有意な性能向上を示す。

Continual/lifelong learning from a non-stationary input data stream is a cornerstone of intelligence. Despite their phenomenal performance in a wide variety of applications, deep neural networks are prone to forgetting their previously learned information upon learning new ones. This phenomenon is called "catastrophic forgetting" and is deeply rooted in the stability-plasticity dilemma. Overcoming catastrophic forgetting in deep neural networks has become an active field of research in recent years. In particular, gradient projection-based methods have recently shown exceptional performance at overcoming catastrophic forgetting. This paper proposes two biologically-inspire d mechanisms based on sparsity and heterogeneous dropout that significantly increase a continual learner's performance over a long sequence of tasks. Our proposed approach builds on the Gradient Projection Memory (GPM) framework. We leverage K-winner activations in each layer of a neural network to enforce layer-wise sparse activations for each task, together with a between-task heterogeneous dropout that encourages the network to use non-overlapping activation patterns between different tasks. In addition, we introduce Continual Swiss Roll as a lightweight and interpretable -- yet challenging -- synthetic benchmark for continual learning. Lastly, we provide an in-depth analysis of our proposed method and demonstrate a significant performance boost on various benchmark continual learning problems.
翻訳日:2022-03-19 17:40:02 公開日:2022-03-12
# (参考訳) 不足とは何か? 行方不明の観測場所が不明な隠れマルコフモデルを学ぶ [全文訳有]

Whats Missing? Learning Hidden Markov Models When the Locations of Missing Observations are Unknown ( http://arxiv.org/abs/2203.06527v1 )

ライセンス: CC BY-SA 4.0
Binyamin Perets, Mark Kozdoba, Shie Mannor(参考訳) 隠れマルコフモデル(HMM)は、シーケンシャルデータ解析において最も広く用いられている統計モデルの一つであり、様々な領域でうまく適用されている。 この汎用性の主要な理由の1つは、不足したデータを扱うHMMの能力である。 しかし、標準HMM学習アルゴリズムは、観測シーケンス内の欠落した観測の位置が知られているという仮定に大きく依存している。 このような仮定が実現不可能な状況では、いくつかの特別なアルゴリズムが開発されている。 現在、これらのアルゴリズムは非巡回性のような基礎となる鎖の構造的仮定に強く依存しており、一般には適用できない。 特に、医学や計算生物学には多くの領域があり、欠落した観測位置が不明であり、非周期性の仮定が成り立たないため、これらの分野におけるHMMの適用の障壁となる。 本稿では,未知の観測位置を持つデータからHMMを学習する一般的な問題について考察する。 位置欠落の生成モデルを導入し、このモデルのための2つの学習方法、(半)分析手法、およびギブスサンプリング器を提案する。 様々なシナリオでアルゴリズムを評価し比較し,モデルの誤特定下での再構成精度とロバスト性を測定した。

The Hidden Markov Model (HMM) is one of the most widely used statistical models for sequential data analysis, and it has been successfully applied in a large variety of domains. One of the key reasons for this versatility is the ability of HMMs to deal with missing data. However, standard HMM learning algorithms rely crucially on the assumption that the positions of the missing observations within the observation sequence are known. In some situations where such assumptions are not feasible, a number of special algorithms have been developed. Currently, these algorithms rely strongly on specific structural assumptions of the underlying chain, such as acyclicity, and are not applicable in the general case. In particular, there are numerous domains within medicine and computational biology, where the missing observation locations are unknown and acyclicity assumptions do not hold, thus presenting a barrier for the application of HMMs in those fields. In this paper we consider a general problem of learning HMMs from data with unknown missing observation locations (i.e., only the order of the non-missing observations are known). We introduce a generative model of the location omissions and propose two learning methods for this model, a (semi) analytic approach, and a Gibbs sampler. We evaluate and compare the algorithms in a variety of scenarios, measuring their reconstruction precision and robustness under model misspecification.
翻訳日:2022-03-19 17:23:59 公開日:2022-03-12
# 効果的な新型コロナウイルス対策のための意思決定支援システムの開発

Development of Decision Support System for Effective COVID-19 Management ( http://arxiv.org/abs/2203.08221v1 )

ライセンス: Link先を確認
shuvrangshu Jana, Rudrashis Majumder, Aashay Bhise, Nobin Paul, Stuti Garg, Debasish Ghose(参考訳) 本稿では、政府当局の異なるレベルでのcovid-19管理のための、ケース予測、リソースの割り当て、ロックダウン管理のための意思決定支援システム(dss)について述べる。 DSSに組み込まれたアルゴリズムは、データ駆動モデリングアプローチに基づいており、領域の物理パラメータとは独立しているため、提案されたDSSは任意の領域に適用可能である。 予測されたアクティブケースに基づいて、低レベルのユニットの要求と総可用性、割り当て、ロックダウンの決定が行われる。 MATLABベースのGUIは提案したDSSに基づいて開発され、地方自治体によって実装される。

This paper discusses a Decision Support System (DSS) for cases prediction, allocation of resources, and lockdown management for managing COVID-19 at different levels of a government authority. Algorithms incorporated in the DSS are based on a data-driven modeling approach and independent of physical parameters of the region, and hence the proposed DSS is applicable to any area. Based on predicted active cases, the demand of lower-level units and total availability, allocation, and lockdown decision is made. A MATLAB-based GUI is developed based on the proposed DSS and could be implemented by the local authority.
翻訳日:2022-03-17 16:05:34 公開日:2022-03-12
# デュアルバンド光誘起ニューラルネットワークを用いたジェネリックリソグラフィモデリング

Generic Lithography Modeling with Dual-band Optics-Inspired Neural Networks ( http://arxiv.org/abs/2203.08616v1 )

ライセンス: Link先を確認
Haoyu Yang and Zongyi Li and Kumara Sastry and Saumyadip Mukhopadhyay and Mark Kilgard and Anima Anandkumar and Brucek Khailany and Vivek Singh and Haoxing Ren(参考訳) リソグラフィーシミュレーションは、VLSIの設計と製造性最適化における重要なステップである。 厳密なモデルを用いた高精度なリソグラフィシミュレーションのための既存の解は、様々な近似技術を備えた場合でも計算コストが高く、遅い。 近年、機械学習は粗粒度エッジ配置誤差回帰や完全な輪郭予測といったリソグラフィシミュレーションタスクの代替ソリューションを提供している。 しかし、これらの学習に基づく手法の影響は、使用シナリオの制限やシミュレーション精度の低さにより制限されている。 これらの問題に対処するために,光物理を基礎とするデュアルバンド・オプティクスに触発されたニューラルネットワーク設計を導入する。 我々の知る限り、我々の手法はタイルサイズの1nm^2/ピクセル解像度で最初に公表された金属/金属層輪郭シミュレーションである。 従来の機械学習ベースのソリューションと比較して、我々のフレームワークはより高速にトレーニングでき、20倍のモデルサイズで効率と画質を大幅に向上させることができる。 また,従来のリソグラフィシミュレータよりも85倍の高速化を達成できた。

Lithography simulation is a critical step in VLSI design and optimization for manufacturability. Existing solutions for highly accurate lithography simulation with rigorous models are computationally expensive and slow, even when equipped with various approximation techniques. Recently, machine learning has provided alternative solutions for lithography simulation tasks such as coarse-grained edge placement error regression and complete contour prediction. However, the impact of these learning-based methods has been limited due to restrictive usage scenarios or low simulation accuracy. To tackle these concerns, we introduce an dual-band optics-inspired neural network design that considers the optical physics underlying lithography. To the best of our knowledge, our approach yields the first published via/metal layer contour simulation at 1nm^2/pixel resolution with any tile size. Compared to previous machine learning based solutions, we demonstrate that our framework can be trained much faster and offers a significant improvement on efficiency and image quality with 20X smaller model size. We also achieve 85X simulation speedup over traditional lithography simulator with 1% accuracy loss.
翻訳日:2022-03-17 16:01:15 公開日:2022-03-12
# 種々の空間的および時間的粒度における群集流予測の促進

Enhancing crowd flow prediction in various spatial and temporal granularities ( http://arxiv.org/abs/2203.07372v1 )

ライセンス: Link先を確認
Marco Cardia, Massimiliano Luca, Luca Pappalardo(参考訳) モノのインターネットの普及により、近年では非伝統的な方法(例えば、自転車ステーション内の自転車の数など)を用いて、ほぼリアルタイムで人間の移動を検知できるようになっている。 このような技術の拡散により、過去数年間、交通管理から公共の安全、計算疫学まで幅広い応用において、人間の移動性研究の重要性から、大きな成長が見られた。 注目されるモビリティタスクは、クラウドフロー予測、すなわち、地理的領域の場所における集合的な流入フローと流出フローの予測である。 この問題を解決するためにいくつかのディープラーニングアプローチが提案されているが、それらの使用法は特定の空間的テッセルレーションに限られており、それらの予測について十分な説明が得られていない。 本稿では,グラフ畳み込みネットワークに基づくクラウドフロー予測のソリューションであるCrowdNetを提案する。 最先端のソリューションと比較して、CrowdNetは不規則な形状の領域で使用することができ、予測された群衆の流れについて意味のある説明を提供する。 本研究では,クラウドフローの時空間的粒度を変化させた公開データに関する実験を行い,既存の手法に対するモデルの優越性を示すとともに,クラウドネットの欠落やうるさい入力データに対する信頼性について検討する。 我々のモデルは、都市環境における人間の変位を予測・説明するための信頼性の高い深層学習モデルの設計における一歩である。

Thanks to the diffusion of the Internet of Things, nowadays it is possible to sense human mobility almost in real time using unconventional methods (e.g., number of bikes in a bike station). Due to the diffusion of such technologies, the last years have witnessed a significant growth of human mobility studies, motivated by their importance in a wide range of applications, from traffic management to public security and computational epidemiology. A mobility task that is becoming prominent is crowd flow prediction, i.e., forecasting aggregated incoming and outgoing flows in the locations of a geographic region. Although several deep learning approaches have been proposed to solve this problem, their usage is limited to specific types of spatial tessellations and cannot provide sufficient explanations of their predictions. We propose CrowdNet, a solution to crowd flow prediction based on graph convolutional networks. Compared with state-of-the-art solutions, CrowdNet can be used with regions of irregular shapes and provide meaningful explanations of the predicted crowd flows. We conduct experiments on public data varying the spatio-temporal granularity of crowd flows to show the superiority of our model with respect to existing methods, and we investigate CrowdNet's reliability to missing or noisy input data. Our model is a step forward in the design of reliable deep learning models to predict and explain human displacements in urban environments.
翻訳日:2022-03-16 12:15:52 公開日:2022-03-12
# 適応型情報ボトルネック誘導ジョイント・チャネル符号化

Adaptive Information Bottleneck Guided Joint Source-Channel Coding ( http://arxiv.org/abs/2203.06492v1 )

ライセンス: Link先を確認
Lunan Sun, Caili Guo, Yang Yang(参考訳) ジョイントソースチャネル符号化(JSCC)は、その堅牢性と高い効率性から注目されている。 しかし,現行のjscc研究は,送信情報と受信情報との歪みを最小限に抑えつつ,必要なデータ速度を制限している。 したがって、送信された情報が十分に回収されているにもかかわらず、送信されたビットはレート歪み(RD)理論により最小限の閾値よりもはるかに大きい可能性がある。 本稿では,任意の復元品質に対して理論的に最大圧縮率を達成することを目的とした適応型情報ボトルネック(ib)誘導型jscc(aib-jscc)を提案する。 特に,AIB-JSCCにおける損失関数の数学的に抽出可能な形式を導出する。 さらに, 圧縮と復元品質のトレードオフを良好に保ちつつ, 学習中の歪みに応じて, 提案する損失関数のハイパーパラメータベータを動的に調整する適応アルゴリズムを提案する。 実験の結果,aib-jsccは送信データ量を大幅に削減し,復元品質と下流の人工知能タスク性能を向上させることができた。

Joint source channel coding (JSCC) has attracted increasing attentions due to its robustness and high efficiency. However, the existing research on JSCC mainly focuses on minimizing the distortion between the transmitted and received information, while limiting the required data rate. Therefore, even though the transmitted information is well recovered, the transmitted bits may be far more than the minimal threshold according to the rate-distortion (RD) theory. In this paper, we propose an adaptive Information Bottleneck (IB) guided JSCC (AIB-JSCC), which aims at achieving the theoretically maximal compression ratio for a given reconstruction quality. In particular, we first derive a mathematically tractable form of loss function for AIB-JSCC. To keep a better tradeoff between compression and reconstruction quality, we further propose an adaptive algorithm that adjusts hyperparameter beta of the proposed loss function dynamically according to the distortion during training. Experiment results show that AIB-JSCC can significantly reduce the required amount of the transmitted data and improve the reconstruction quality and downstream artificial-intellige nt task performance.
翻訳日:2022-03-15 17:47:25 公開日:2022-03-12
# SOCKS:カーネル法による確率的最適制御と到達性ツールボックス

SOCKS: A Stochastic Optimal Control and Reachability Toolbox Using Kernel Methods ( http://arxiv.org/abs/2203.06290v1 )

ライセンス: Link先を確認
Adam J. Thorpe, Meeko M. K. Oishi(参考訳) カーネル法に基づくデータ駆動確率的最適制御ツールボックスSOCKSを提案する。 ソックスは、任意のコストと制約関数を持つ確率的最適制御問題の近似解を計算するデータ駆動アルゴリズムの集合であり、事前に定義された一連の安全制約を尊重しながら、システムが所望の目標セットに到達する可能性を決定する確率的到達可能性を含む。 提案手法は,カーネルヒルベルト空間と呼ばれる高次元関数空間における確率分布を表現できる非パラメトリック手法である,カーネル法に基づく機械学習アルゴリズムのクラスに依存している。 非パラメトリック手法として、カーネルメソッドは本質的にデータ駆動であり、システム力学や不確実性の構造に事前の仮定を配置しない。 これにより、ツールボックスは、非線形ダイナミクスを持つもの、ブラックボックス要素、不明瞭な確率的乱れを含む、幅広いシステムに対応できる。 我々はSOCKSの主な特徴を示し、その能力をいくつかのベンチマークで示す。

We present SOCKS, a data-driven stochastic optimal control toolbox based in kernel methods. SOCKS is a collection of data-driven algorithms that compute approximate solutions to stochastic optimal control problems with arbitrary cost and constraint functions, including stochastic reachability, which seeks to determine the likelihood that a system will reach a desired target set while respecting a set of pre-defined safety constraints. Our approach relies upon a class of machine learning algorithms based in kernel methods, a nonparametric technique which can be used to represent probability distributions in a high-dimensional space of functions known as a reproducing kernel Hilbert space. As a nonparametric technique, kernel methods are inherently data-driven, meaning that they do not place prior assumptions on the system dynamics or the structure of the uncertainty. This makes the toolbox amenable to a wide variety of systems, including those with nonlinear dynamics, black-box elements, and poorly characterized stochastic disturbances. We present the main features of SOCKS and demonstrate its capabilities on several benchmarks.
翻訳日:2022-03-15 17:45:46 公開日:2022-03-12
# グラフ畳み込みネットワークを用いた触覚データからの形状記述子学習

Tactile-ViewGCN: Learning Shape Descriptor from Tactile Data using Graph Convolutional Network ( http://arxiv.org/abs/2203.06183v1 )

ライセンス: Link先を確認
Sachidanand V S and Mansi Sharma(参考訳) 人間にとって「触覚感覚」は、あらゆる環境において、あらゆる形の物体を正確かつ効率的に操作できる能力に欠かせないものだったが、近年まで、触覚フィードバックを完全に理解するための多くの研究は行われていない。 本研究では,触覚グローブから収集した複数の触覚データから物体を分類する既存の方法よりも優れた形状記述子を得る新しい方法を提案した。 触覚データを用いたオブジェクトの分類に関するこれまでの作業の改善に重点を置いている。 複数の触覚データからオブジェクトを分類する主な問題は、複数の触覚画像から抽出した特徴を集約する良い方法を見つけることである。 本稿では,グラフ畳み込みネットワークを用いて,異なる特徴間の関係を考慮した触覚特徴を階層的に集約する新しい手法 tactile-viewgcn を提案する。 このモデルは,stagデータセットの従来の手法を81.82%の精度で上回っている。

For humans, our "senses of touch" have always been necessary for our ability to precisely and efficiently manipulate objects of all shapes in any environment, but until recently, not many works have been done to fully understand haptic feedback. This work proposed a novel method for getting a better shape descriptor than existing methods for classifying an object from multiple tactile data collected from a tactile glove. It focuses on improving previous works on object classification using tactile data. The major problem for object classification from multiple tactile data is to find a good way to aggregate features extracted from multiple tactile images. We propose a novel method, dubbed as Tactile-ViewGCN, that hierarchically aggregate tactile features considering relations among different features by using Graph Convolutional Network. Our model outperforms previous methods on the STAG dataset with an accuracy of 81.82%.
翻訳日:2022-03-15 17:15:29 公開日:2022-03-12
# 爆発地震識別における深層学習と物理の融合

Combining Deep Learning with Physics Based Features in Explosion-Earthquake Discrimination ( http://arxiv.org/abs/2203.06347v1 )

ライセンス: Link先を確認
Qingkai Kong, Ruijia Wang, William R. Walter, Moira Pyle, Keith Koper, Brandon Schmandt(参考訳) 本稿では, 深層学習の力と物理特性の一般化性を組み合わせて, 地震と爆発の高度な識別法を提案する。 提案手法は,地震波形やスペクトログラムを直接操作する深層学習分枝と,物理に基づくパラメトリック特徴を扱う第2分枝の2つの分枝を含む。 これらの特徴は高周波P/S振幅比と局所等級(ML)とコーダ持続等級(MC)の差である。 この組み合わせは、ディープラーニングだけで開発されたモデルよりも、新しい領域に適用した場合の一般化性能が向上する。 また,波形データのどの部分が深層学習決定(grad-cam経由)を支配しているかについても検討した。 このような視覚化は、機械学習モデルのブラックボックスの性質を反映し、ディープラーニング派生モデルがデータを使用して意思決定を行う方法に関する新たな洞察を提供する。

This paper combines the power of deep-learning with the generalizability of physics-based features, to present an advanced method for seismic discrimination between earthquakes and explosions. The proposed method contains two branches: a deep learning branch operating directly on seismic waveforms or spectrograms, and a second branch operating on physics-based parametric features. These features are high-frequency P/S amplitude ratios and the difference between local magnitude (ML) and coda duration magnitude (MC). The combination achieves better generalization performance when applied to new regions than models that are developed solely with deep learning. We also examined which parts of the waveform data dominate deep learning decisions (i.e., via Grad-CAM). Such visualization provides a window into the black-box nature of the machine-learning models and offers new insight into how the deep learning derived models use data to make the decisions.
翻訳日:2022-03-15 17:15:13 公開日:2022-03-12
# B-Spline近似による可変係数線形判別法

Varying Coefficient Linear Discriminant Analysis via B-Spline Approximation ( http://arxiv.org/abs/2203.06371v1 )

ライセンス: Link先を確認
Yajie Bao and Yuyang Liu(参考訳) 線形識別分析(LDA)は統計学と機械学習において重要な分類ツールである。 本稿では、ベイズの識別方向が不均一性に対応するための露出変数の関数である動的データに対する変動係数LDAモデルについて検討する。 ベイズ方向と平行な新たな識別方向関数を導出することにより,B-スプライン近似に基づく最小二乗推定法を提案する。 高次元のシステムでは、対応するデータ駆動型判別規則は、既存の動的線形計画規則よりも計算効率が高い。 また,推定誤差のバウンドや一様過大分類率などの理論結果も定式化する。 合成データおよび実データに関する数値実験は,提案手法の優越性を裏付けるものである。

Linear discriminant analysis (LDA) is a vital classification tool in statistics and machine learning. This paper investigates the varying coefficient LDA model for dynamic data, with Bayes' discriminant direction being a function of some exposure variable to address the heterogeneity. By deriving a new discriminant direction function parallel with Bayes' direction, we propose a least-square estimation procedure based on the B-spline approximation. For high-dimensional regime, the corresponding data-driven discriminant rule is more computationally efficient than the existed dynamic linear programming rule. We also establish the corresponding theoretical results, including estimation error bound and the uniform excess misclassification rate. Numerical experiments on synthetic data and real data both corroborate the superiority of our proposed classification method.
翻訳日:2022-03-15 17:14:57 公開日:2022-03-12
# 機械学習のための微分可能多項式回路のカテゴリ

Categories of Differentiable Polynomial Circuits for Machine Learning ( http://arxiv.org/abs/2203.06430v1 )

ライセンス: Link先を確認
Paul Wilson, Fabio Zanasi(参考訳) 逆微分圏(RDC)は近年,機械学習アルゴリズムの研究に適したセマンティックフレームワークであることが示されている。 トレーニング方法論に重点を置いているが、特定の 'emph{model class}: 射が機械学習モデルを表す具体的なカテゴリにはあまり関心が向けられていない。 本稿では, RDCのクラスにおける生成元と方程式によるプレゼンテーションについて述べる。 特に,適切な機械学習モデルとして \emph{polynomial circuits} を提案する。 これらの回路の公理化を行い、機能完全性を証明する。 最後に,特定の半環上の多項式回路を用いた離散値の機械学習について述べる。

Reverse derivative categories (RDCs) have recently been shown to be a suitable semantic framework for studying machine learning algorithms. Whereas emphasis has been put on training methodologies, less attention has been devoted to particular \emph{model classes}: the concrete categories whose morphisms represent machine learning models. In this paper we study presentations by generators and equations of classes of RDCs. In particular, we propose \emph{polynomial circuits} as a suitable machine learning model. We give an axiomatisation for these circuits and prove a functional completeness result. Finally, we discuss the use of polynomial circuits over specific semirings to perform machine learning with discrete values.
翻訳日:2022-03-15 17:14:47 公開日:2022-03-12
# セッションベースレコメンデーションのための自己注意を考慮した遷移関係

Transition Relation Aware Self-Attention for Session-based Recommendation ( http://arxiv.org/abs/2203.06407v1 )

ライセンス: Link先を確認
Guanghui Zhu, Haojun Hou, Jingfan Chen, Chunfeng Yuan, Yihua Huang(参考訳) セッションベースのレコメンデーションは、匿名セッションに基づいて次のクリックアクションを予測することを目的とした、eコマース、ショートビデオプラットフォーム、音楽プラットフォームなど、現実世界のシーンでは難しい問題である。 近年,セッションベースレコメンデーションの最先端手法としてグラフニューラルネットワーク(GNN)が登場している。 しかし,これらの手法には2つの限界が存在することがわかった。 一つは、アイテム遷移の関係が明示的にモデル化されていないため、完全には利用されないことである。 もうひとつは、GNNの制限のため、アイテム間の長距離依存関係を効果的にキャプチャできないことだ。 以上の課題を解決するために,TRASA(Transition Relation Aware Self-Attention)と呼ばれるセッションベースの推薦手法を提案する。 具体的には、TRASAはまずセッションをグラフに変換し、次にゲート再帰単位を遷移関係としてアイテム間の最短経路を符号化する。 次に、TRASAは、長距離依存関係をキャプチャするために、自己保持機構を使用して、中間のものを経由することなく、2つのアイテム間の直接接続を構築する。 また、注目スコアを計算する際に、遷移関係を明示的に組み込む。 3つの実単語データセットに対する大規模な実験は、TRASAが既存の最先端手法を一貫して上回ることを示した。

Session-based recommendation is a challenging problem in the real-world scenes, e.g., ecommerce, short video platforms, and music platforms, which aims to predict the next click action based on the anonymous session. Recently, graph neural networks (GNNs) have emerged as the state-of-the-art methods for session-based recommendation. However, we find that there exist two limitations in these methods. One is the item transition relations are not fully exploited since the relations are not explicitly modeled. Another is the long-range dependencies between items can not be captured effectively due to the limitation of GNNs. To solve the above problems, we propose a novel approach for session-based recommendation, called Transition Relation Aware Self-Attention (TRASA). Specifically, TRASA first converts the session to a graph and then encodes the shortest path between items through the gated recurrent unit as their transition relation. Then, to capture the long-range dependencies, TRASA utilizes the self-attention mechanism to build the direct connection between any two items without going through intermediate ones. Also, the transition relations are incorporated explicitly when computing the attention scores. Extensive experiments on three real-word datasets demonstrate that TRASA outperforms the existing state-of-the-art methods consistently.
翻訳日:2022-03-15 16:51:28 公開日:2022-03-12
# MISF:高精細画像インパインティングのための多レベル対話型シームスフィルタ

MISF: Multi-level Interactive Siamese Filtering for High-Fidelity Image Inpainting ( http://arxiv.org/abs/2203.06304v1 )

ライセンス: Link先を確認
Xiaoguang Li and Qing Guo and Di Lin and Ping Li and Wei Feng and Song Wang(参考訳) 重要な進歩はあったが、既存の深層塗装法は、異なる場面での一般化が低かったため、実世界のアプリケーションとは程遠い。 その結果、通常生成された画像にはアーティファクトが含まれ、満たしたピクセルは基底の真理と大きく異なる。 画像レベルの予測フィルタリングは画像復元技術として広く用いられ、異なる入力シーンに応じて適切なカーネルを適応的に予測する。 この本質的な優位性に触発されて,フィルタリングタスクとしてのイメージインペイントの可能性を探る。 そこで本研究ではまず,局所的な構造を保ち,人工物を避けることができるが,大きな欠損領域を埋めることができない画像レベルの予測フィルタの利点と課題について検討する。 次に,不足している意味情報を満たしながら詳細を回復できない,深い特徴レベルでフィルタリングを行うことによる意味フィルタリングを提案する。 本稿では,それぞれの利点を生かしながらこの問題に対処するために,kernel prediction branch (kpb) と semantic & image filtering branch (sifb) の2つのブランチを含む多レベル対話型シアームフィルタリング (misf) という新しいフィルタリング手法を提案する。 SIFBはKPBのマルチレベル機能を提供し、KPBはSIFBの動的カーネルを予測する。 その結果, 有効セマンティクスと画像レベルのフィリングを有効活用し, 高忠実度インペイントを実現する。 本手法は,Dunhuang,Places2,Ce lebAの3つの挑戦的データセットで検証する。 提案手法は,4つの指標,すなわちL1,PSNR,SSIM,LPIPSにおいて,最先端のベースラインよりも優れる。 リリースコードとモデルをhttps://github.com/t singqguo/misfで試してみてください。

Although achieving significant progress, existing deep generative inpainting methods are far from real-world applications due to the low generalization across different scenes. As a result, the generated images usually contain artifacts or the filled pixels differ greatly from the ground truth. Image-level predictive filtering is a widely used image restoration technique, predicting suitable kernels adaptively according to different input scenes. Inspired by this inherent advantage, we explore the possibility of addressing image inpainting as a filtering task. To this end, we first study the advantages and challenges of image-level predictive filtering for image inpainting: the method can preserve local structures and avoid artifacts but fails to fill large missing areas. Then, we propose semantic filtering by conducting filtering on the deep feature level, which fills the missing semantic information but fails to recover the details. To address the issues while adopting the respective advantages, we propose a novel filtering technique, i.e., Multilevel Interactive Siamese Filtering (MISF), which contains two branches: kernel prediction branch (KPB) and semantic & image filtering branch (SIFB). These two branches are interactively linked: SIFB provides multi-level features for KPB while KPB predicts dynamic kernels for SIFB. As a result, the final method takes the advantage of effective semantic & image-level filling for high-fidelity inpainting. We validate our method on three challenging datasets, i.e., Dunhuang, Places2, and CelebA. Our method outperforms state-of-the-art baselines on four metrics, i.e., L1, PSNR, SSIM, and LPIPS. Please try the released code and model at https://github.com/t singqguo/misf.
翻訳日:2022-03-15 16:46:54 公開日:2022-03-12
# テンソル放射能:多成分放射能の体系化のためのパラダイム

Tensor Radiomics: Paradigm for Systematic Incorporation of Multi-Flavoured Radiomics Features ( http://arxiv.org/abs/2203.06314v1 )

ライセンス: Link先を確認
Arman Rahmim, Amirhosein Toosi, Mohammad R. Salmanpour, Natalia Dubljevic, Ian Janzen, Isaac Shiri, Mohamad A. Ramezani, Ren Yuan, Cheryl Ho, Habib Zaidi, Calum MacAulay, Carlos Uribe, Fereshteh Yousefirizi(参考訳) 放射線医学は、医学画像から定量的情報を抽出し、診断、予後、治療反応評価などの臨床タスクのためのバイオマーカーを導出する。 異なる画像判別パラメータ(ビン数やサイズなど)、畳み込みフィルタ、セグメンテーション摂動、マルチモダリティ融合レベルは、放射能の特徴や最終的なシグネチャを生成するのに使うことができる。 一般に、パラメータのセットは1つしか使用せず、結果として与えられたRFに対して1つの値またはフレーバーだけが使用される。 本稿では,複数のパラメータの組み合わせ(フレーバー)で計算された特徴のテンソルを用いて,放射能シグネチャの構築を最適化するテンソル放射能(TR)を提案する。 本稿では, PET/CT, MRI, CTによる機械学習, 深層学習ソリューションの活用例と再現性解析について述べる。(1) 肺がんCT像のビンサイズの変化によるTRと, 頭頸部癌(HNC)のPET-CT画像による生存率の予測。 TR-Netと呼ばれるハイブリッドディープニューラルネットワークとMLベースの2つのフレーバー融合法は、通常の心筋機能と比較して精度が向上した。 2)ct画像を用いた初回免疫療法による末期肺癌の分類における分節摂動とbinサイズの違いから構築したtr。 TRは予測された患者の反応を改善した。 3)mr画像におけるマルチフレーバーによる放射能特徴は,多くの単一フレーバー特徴と比較して再現性が向上した。 (4) HNCにおける複数のPET/CT融合によるTR フラックスはラプラシアピラミッドやウェーブレット変換のような方法で異なる融合から構築された。 TRは全体の生存予測を改善した。 以上の結果から,提案するtrパラダイムは,様々な医用画像処理における性能向上の可能性を示唆する。

Radiomics features extract quantitative information from medical images, towards the derivation of biomarkers for clinical tasks, such as diagnosis, prognosis, or treatment response assessment. Different image discretization parameters (e.g. bin number or size), convolutional filters, segmentation perturbation, or multi-modality fusion levels can be used to generate radiomics features and ultimately signatures. Commonly, only one set of parameters is used; resulting in only one value or flavour for a given RF. We propose tensor radiomics (TR) where tensors of features calculated with multiple combinations of parameters (i.e. flavours) are utilized to optimize the construction of radiomics signatures. We present examples of TR as applied to PET/CT, MRI, and CT imaging invoking machine learning or deep learning solutions, and reproducibility analyses: (1) TR via varying bin sizes on CT images of lung cancer and PET-CT images of head & neck cancer (HNC) for overall survival prediction. A hybrid deep neural network, referred to as TR-Net, along with two ML-based flavour fusion methods showed improved accuracy compared to regular rediomics features. (2) TR built from different segmentation perturbations and different bin sizes for classification of late-stage lung cancer response to first-line immunotherapy using CT images. TR improved predicted patient responses. (3) TR via multi-flavour generated radiomics features in MR imaging showed improved reproducibility when compared to many single-flavour features. (4) TR via multiple PET/CT fusions in HNC. Flavours were built from different fusions using methods, such as Laplacian pyramids and wavelet transforms. TR improved overall survival prediction. Our results suggest that the proposed TR paradigm has the potential to improve performance capabilities in different medical imaging tasks.
翻訳日:2022-03-15 16:46:20 公開日:2022-03-12
# LesionPaste:医療画像のワンショット異常検出

LesionPaste: One-Shot Anomaly Detection for Medical Images ( http://arxiv.org/abs/2203.06354v1 )

ライセンス: Link先を確認
Weikai Huang, Yijin Huang, Xiaoying Tang(参考訳) 医用画像、特に大規模データセットを手動でアノテートするコストが高いため、異常検出は通常のデータのみを用いたトレーニングモデルを通じて行われた。 真の異常に関する事前知識の欠如は、特に医用画像解析領域において、従来の異常検出方法の限定的な適用の主な理由である。 本研究では,1つの注釈付きサンプルから真の異常を利用して,異常検出のための人工異常サンプルを合成する一発異常検出フレームワークLesionPasteを提案する。 まず、ランダムに選択された病変パッチに拡大を加えて病変バンクを構築する。 次に、正常画像内のランダムな位置に病変バンクからパッチをペーストし、異常なサンプルを合成して訓練を行う。 最後に、合成異常サンプルと真の正常データとを用いて分類ネットワークを訓練する。 さまざまな種類の異常を有する2つの医療用画像データセットについて,広範な実験を行った。 いずれのデータセットにおいても,提案手法は,非教師なしおよび半教師なしの異常検出法を圧倒的に上回っており,完全教師なし法と同等である。 なお、早期糖尿病網膜症検出において、病原性パステは全監督法よりも優れている。

Due to the high cost of manually annotating medical images, especially for large-scale datasets, anomaly detection has been explored through training models with only normal data. Lacking prior knowledge of true anomalies is the main reason for the limited application of previous anomaly detection methods, especially in the medical image analysis realm. In this work, we propose a one-shot anomaly detection framework, namely LesionPaste, that utilizes true anomalies from a single annotated sample and synthesizes artificial anomalous samples for anomaly detection. First, a lesion bank is constructed by applying augmentation to randomly selected lesion patches. Then, MixUp is adopted to paste patches from the lesion bank at random positions in normal images to synthesize anomalous samples for training. Finally, a classification network is trained using the synthetic abnormal samples and the true normal data. Extensive experiments are conducted on two publicly-available medical image datasets with different types of abnormalities. On both datasets, our proposed LesionPaste largely outperforms several state-of-the-art unsupervised and semi-supervised anomaly detection methods, and is on a par with the fully-supervised counterpart. To note, LesionPaste is even better than the fully-supervised method in detecting early-stage diabetic retinopathy.
翻訳日:2022-03-15 16:45:51 公開日:2022-03-12
# ビデオデブロアリングのための再帰帰ネットワーク

Recurrence-in-Recurr ence Networks for Video Deblurring ( http://arxiv.org/abs/2203.06418v1 )

ライセンス: Link先を確認
Joonkyu Park, Seungjun Nah, Kyoung Mu Lee(参考訳) 最先端のビデオデブロアリング法は、しばしばフレーム間の時間的依存性をモデル化するために、リカレントニューラルネットワークを採用する。 隠れた状態が次のフレームに情報を伝える上で重要な役割を果たす一方で、突然の動きのぼけは隣のフレームの関連性を弱める傾向にある。 本稿では,短期記憶の限界に対処するために再帰的ネットワークアーキテクチャを提案する。 RNNセル内に追加のリカレントユニットを投入する。 まず、シーケンス内の長距離依存性を管理するためにインナー・リカレンス・モジュール(IRM)を用いる。 IRMは、セルメモリの追跡を学習し、劣化したフレームを見つけるための補完情報を提供する。 第2に,地域情報の必要な部分を抽出するために,注意に基づく時間的ブレンディング戦略を採用する。 適応時間ブレンディング(ATB)は、空間的注意により特徴を減衰または増幅することができる。 各種RNNアーキテクチャにおけるITMおよびATBの有効性を実験的に検証した。

State-of-the-art video deblurring methods often adopt recurrent neural networks to model the temporal dependency between the frames. While the hidden states play key role in delivering information to the next frame, abrupt motion blur tend to weaken the relevance in the neighbor frames. In this paper, we propose recurrence-in-recurr ence network architecture to cope with the limitations of short-ranged memory. We employ additional recurrent units inside the RNN cell. First, we employ inner-recurrence module (IRM) to manage the long-ranged dependency in a sequence. IRM learns to keep track of the cell memory and provides complementary information to find the deblurred frames. Second, we adopt an attention-based temporal blending strategy to extract the necessary part of the information in the local neighborhood. The adpative temporal blending (ATB) can either attenuate or amplify the features by the spatial attention. Our extensive experimental results and analysis validate the effectiveness of IRM and ATB on various RNN architectures.
翻訳日:2022-03-15 16:45:28 公開日:2022-03-12
# ワンステージビデオインスタンスセグメンテーション:フレームインフレームアウトからクリップインクリップアウトへ

One-stage Video Instance Segmentation: From Frame-in Frame-out to Clip-in Clip-out ( http://arxiv.org/abs/2203.06421v1 )

ライセンス: Link先を確認
Minghan Li and Lei Zhang(参考訳) 多くのビデオインスタンスセグメンテーション(VIS)メソッドは、ビデオシーケンスを個々のフレームに分割し、フレームごとにオブジェクトを検出および分割する。 しかし、このようなフレームイン・フレームアウト(FiFo)パイプラインは時間情報の活用には効果がない。 ショートクリップ内の隣接フレームがコンテントに密接な関係にあるという事実に基づいて,一段階のFiFoフレームワークをクリップインクリップアウト(CiCo)に拡張し,クリップ単位でVISクリップを実行することを提案する。 具体的には、短いビデオクリップに全フレームのFPN機能を積み重ねて、時空間の特徴立方体を構築し、予測ヘッドとマスクブランチの2次元凸層を3次元凸層に置き換え、クリップレベルの予測ヘッド(CPH)とクリップレベルのマスクヘッド(CMH)を形成する。 次に、CPHからのボックスレベルの予測とCMHからのクリップレベルの特徴を小さな完全な畳み込みネットワークに入力することで、インスタンスのクリップレベルのマスクを生成することができる。 生成したインスタンスマスクがクリップ内で時間的にコヒーレントであることを保証するために,クリップレベルのセグメンテーション損失を提案する。 提案されたcisco戦略はフレーム間のアライメントがなく、既存のfifoベースのvisアプローチに簡単に組み込むことができる。 To validate the generality and effectiveness of our CiCo strategy, we apply it to two representative FiFo methods, Yolact \cite{bolya2019yolact} and CondInst \cite{tian2020conditional}, resulting in two new one-stage VIS models, namely CiCo-Yolact and CiCo-CondInst, which achieve 37.1/37.3\%, 35.2/35.4\% and 17.2/18.0\% mask AP using the ResNet50 backbone, and 41.8/41.4\%, 38.0/38.9\% and 18.0/18.2\% mask AP using the Swin Transformer tiny backbone on YouTube-VIS 2019, 2021 and OVIS valid sets, respectively, recording new state-of-the-arts. CiCoのコードとビデオのデモは \url{https://github.com/M inghanLi/CiCo} で見ることができる。

Many video instance segmentation (VIS) methods partition a video sequence into individual frames to detect and segment objects frame by frame. However, such a frame-in frame-out (FiFo) pipeline is ineffective to exploit the temporal information. Based on the fact that adjacent frames in a short clip are highly coherent in content, we propose to extend the one-stage FiFo framework to a clip-in clip-out (CiCo) one, which performs VIS clip by clip. Specifically, we stack FPN features of all frames in a short video clip to build a spatio-temporal feature cube, and replace the 2D conv layers in the prediction heads and the mask branch with 3D conv layers, forming clip-level prediction heads (CPH) and clip-level mask heads (CMH). Then the clip-level masks of an instance can be generated by feeding its box-level predictions from CPH and clip-level features from CMH into a small fully convolutional network. A clip-level segmentation loss is proposed to ensure that the generated instance masks are temporally coherent in the clip. The proposed CiCo strategy is free of inter-frame alignment, and can be easily embedded into existing FiFo based VIS approaches. To validate the generality and effectiveness of our CiCo strategy, we apply it to two representative FiFo methods, Yolact \cite{bolya2019yolact} and CondInst \cite{tian2020conditional}, resulting in two new one-stage VIS models, namely CiCo-Yolact and CiCo-CondInst, which achieve 37.1/37.3\%, 35.2/35.4\% and 17.2/18.0\% mask AP using the ResNet50 backbone, and 41.8/41.4\%, 38.0/38.9\% and 18.0/18.2\% mask AP using the Swin Transformer tiny backbone on YouTube-VIS 2019, 2021 and OVIS valid sets, respectively, recording new state-of-the-arts. Code and video demos of CiCo can be found at \url{https://github.com/M inghanLi/CiCo}.
翻訳日:2022-03-15 16:45:15 公開日:2022-03-12
# 非構造的トピック関連超音波発生の注意と埋め込み

Factored Attention and Embedding for Unstructured-view Topic-related Ultrasound Report Generation ( http://arxiv.org/abs/2203.06458v1 )

ライセンス: Link先を確認
Fuhai Chen, Rongrong Ji, Chengpeng Dai, Xuri Ge, Shengchuang Zhang, Xiaojing Ma, Yue Gao(参考訳) 心エコー検査は、診断と治療、例えば共通の先天性心不全の診療に広く用いられている。 従来の手動操作は、スタッフの不足、過剰な作業負荷、経験不足などによりエラーを起こしやすいため、超音波技師の作業負荷を著しく軽減し、意思決定を支援する自動コンピュータ支援レポーティングシステムが緊急に必要となる。 最近の医療報告の自動生成の試みは成功したが、非構造化画像とトピック関連の記述を含む超音波レポート生成に閉じ込められている。 そこで本稿では,非構造的トピック関連超音波レポート生成の課題について検討し,新しいファシリテートと埋め込みモデル(FAE-Gen)を提案する。 提案されたFAE-Genは主に2つのモジュール、すなわちビュー誘導因子の注意とトピック指向因子の埋め込みで構成されている。 1)異なる視点にまたがる均質・不均質な形態的特徴を捉え, 2)異なる主題に対して異なる構文パターンと異なる強調内容で記述を生成する。 大規模心血管超音波データ(cardultdata)を用いて実験的評価を行った。 定量的比較と質的分析は、fae-genが7つの一般的なメトリクスよりも優れていることを示している。

Echocardiography is widely used to clinical practice for diagnosis and treatment, e.g., on the common congenital heart defects. The traditional manual manipulation is error-prone due to the staff shortage, excess workload, and less experience, leading to the urgent requirement of an automated computer-aided reporting system to lighten the workload of ultrasonologists considerably and assist them in decision making. Despite some recent successful attempts in automatical medical report generation, they are trapped in the ultrasound report generation, which involves unstructured-view images and topic-related descriptions. To this end, we investigate the task of the unstructured-view topic-related ultrasound report generation, and propose a novel factored attention and embedding model (termed FAE-Gen). The proposed FAE-Gen mainly consists of two modules, i.e., view-guided factored attention and topic-oriented factored embedding, which 1) capture the homogeneous and heterogeneous morphological characteristic across different views, and 2) generate the descriptions with different syntactic patterns and different emphatic contents for different topics. Experimental evaluations are conducted on a to-be-released large-scale clinical cardiovascular ultrasound dataset (CardUltData). Both quantitative comparisons and qualitative analysis demonstrate the effectiveness and the superiority of FAE-Gen over seven commonly-used metrics.
翻訳日:2022-03-15 16:10:26 公開日:2022-03-12
# コントラストリハーサルによる非監督的生涯人物再識別

Unsupervised Lifelong Person Re-identification via Contrastive Rehearsal ( http://arxiv.org/abs/2203.06468v1 )

ライセンス: Link先を確認
Hao Chen, Benoit Lagadec, Francois Bremond(参考訳) 既存の教師なしの人物再識別(ReID)メソッドは、ソースドメインでトレーニングされたモデルを固定ターゲットドメインに適応させることに重点を置いている。 しかし、適応されたreidモデルは、通常、特定のターゲットドメインでのみうまく機能するが、ソースドメインの知識を記憶することがほとんどなく、今後の見えないデータに一般化する。 本稿では,新しいドメインに対して,古いドメインから学んだ知識を忘れることなく,教師なしのドメイン適応を継続的に行うことに焦点を当てた,教師なし生涯のreidを提案する。 非教師なし寿命のReIDに対処するため、少数の古いサンプルに対して、新しいドメインに順応しながら対照的なリハーサルを行う。 さらに、古い知識に合った方法でモデル更新を正規化するために、古いモデルと新しいモデルの画像間類似性制約を設定します。 我々は,複数の大規模データセットに対して,教師なしの方法で順次モデルを訓練し,すべての参照領域および未認識領域でテストし,手法の一般化可能性を検証する。 提案手法は, 従来手法に比べて, 目に見える領域と目に見えない領域の両方で有意に優れていた。 コードはhttps://github.com/c henhao2345/UCRで公開される。

Existing unsupervised person re-identification (ReID) methods focus on adapting a model trained on a source domain to a fixed target domain. However, an adapted ReID model usually only works well on a certain target domain, but can hardly memorize the source domain knowledge and generalize to upcoming unseen data. In this paper, we propose unsupervised lifelong person ReID, which focuses on continuously conducting unsupervised domain adaptation on new domains without forgetting the knowledge learnt from old domains. To tackle unsupervised lifelong ReID, we conduct a contrastive rehearsal on a small number of stored old samples while sequentially adapting to new domains. We further set an image-to-image similarity constraint between old and new models to regularize the model updates in a way that suits old knowledge. We sequentially train our model on several large-scale datasets in an unsupervised manner and test it on all seen domains as well as several unseen domains to validate the generalizability of our method. Our proposed unsupervised lifelong method achieves strong generalizability, which significantly outperforms previous lifelong methods on both seen and unseen domains. Code will be made available at https://github.com/c henhao2345/UCR.
翻訳日:2022-03-15 16:10:06 公開日:2022-03-12
# 計算効率の良い逆トーンマッピングのための混合量子化ネットワーク

A Mixed Quantization Network for Computationally Efficient Mobile Inverse Tone Mapping ( http://arxiv.org/abs/2203.06504v1 )

ライセンス: Link先を確認
Juan Borrego-Carazo, Mete Ozay, Frederik Laboyrie, Paul Wisbey(参考訳) 高ダイナミックレンジ (HDR) 画像を単一低ダイナミックレンジ (LDR) 画像,すなわち逆トーンマッピング (ITM) から復元することは、過度の領域と過度の領域の情報不足により困難である。 現在の方法は、高性能だが計算効率の悪いitmモデルのトレーニングに特化しており、エッジやモバイルデバイスアプリケーションのような限られた計算能力を持つリソース制約環境におけるitmモデルのデプロイを妨げている。 そこで本稿では,モバイルプラットフォーム上でシングルイメージIMMを実現するための,高性能だが計算効率のよい混合量子化ネットワーク(MQN)を構築するために,ディープニューラルネットワークの効率的な操作と新しい混合量子化スキームを組み合わせることを提案する。 アブレーション研究では,IMMタスクにおけるMQNの性能に及ぼす異なる注意機構,量子化スキーム,損失関数の使用の影響について検討する。 比較分析では、MQNを使用してトレーニングされたIMMモデルは、ベンチマークデータセットの最先端メソッドと同等に機能する。 MQNモデルはレイテンシを最大10倍改善し、メモリ消費を25倍改善する。

Recovering a high dynamic range (HDR) image from a single low dynamic range (LDR) image, namely inverse tone mapping (ITM), is challenging due to the lack of information in over- and under-exposed regions. Current methods focus exclusively on training high-performing but computationally inefficient ITM models, which in turn hinder deployment of the ITM models in resource-constrained environments with limited computing power such as edge and mobile device applications. To this end, we propose combining efficient operations of deep neural networks with a novel mixed quantization scheme to construct a well-performing but computationally efficient mixed quantization network (MQN) which can perform single image ITM on mobile platforms. In the ablation studies, we explore the effect of using different attention mechanisms, quantization schemes, and loss functions on the performance of MQN in ITM tasks. In the comparative analyses, ITM models trained using MQN perform on par with the state-of-the-art methods on benchmark datasets. MQN models provide up to 10 times improvement on latency and 25 times improvement on memory consumption.
翻訳日:2022-03-15 16:09:45 公開日:2022-03-12
# Deformable VisTR:ビデオ・インスタンス・セグメンテーションのための時空間デフォルマブル・アテンション

Deformable VisTR: Spatio temporal deformable attention for video instance segmentation ( http://arxiv.org/abs/2203.06318v1 )

ライセンス: Link先を確認
Sudhir Yarram, Jialian Wu, Pan Ji, Yi Xu, Junsong Yuan(参考訳) ビデオインスタンスセグメンテーション(vis)タスクは、ビデオクリップ内の全フレームにわたるオブジェクトインスタンスの分類、セグメンテーション、追跡を必要とする。 近年、VisTRは最先端の性能を示しながら、エンドツーエンドのトランスフォーマーベースのVISフレームワークとして提案されている。 しかし、VisTRはトレーニング中に収束が遅く、トランスフォーマーアテンションモジュールの計算コストが高いため、約1000GPU時間を要する。 トレーニング効率を向上させるために、基準点付近のキー時空間サンプリングポイントの小さな固定セットにのみ対応可能な時空間変形型アテンションモジュールを利用した変形可能なVisTRを提案する。 これにより、デフォルマブル VisTR は時空間特徴写像のサイズで線形計算を行うことができる。 さらに、オリジナルのVisTRと同じパフォーマンスで10$\times$低いGPUトレーニング時間で実現できる。 提案手法の有効性をYoutube-VISベンチマークで検証した。 コードはhttps://github.com/s krya/DefVIS.comで入手できる。

Video instance segmentation (VIS) task requires classifying, segmenting, and tracking object instances over all frames in a video clip. Recently, VisTR has been proposed as end-to-end transformer-based VIS framework, while demonstrating state-of-the-art performance. However, VisTR is slow to converge during training, requiring around 1000 GPU hours due to the high computational cost of its transformer attention module. To improve the training efficiency, we propose Deformable VisTR, leveraging spatio-temporal deformable attention module that only attends to a small fixed set of key spatio-temporal sampling points around a reference point. This enables Deformable VisTR to achieve linear computation in the size of spatio-temporal feature maps. Moreover, it can achieve on par performance as the original VisTR with 10$\times$ less GPU training hours. We validate the effectiveness of our method on the Youtube-VIS benchmark. Code is available at https://github.com/s krya/DefVIS.
翻訳日:2022-03-15 15:17:20 公開日:2022-03-12
# EventFormer: 顔アクションユニットイベント検出のためのAU Event Transformer

EventFormer: AU Event Transformer for Facial Action Unit Event Detection ( http://arxiv.org/abs/2203.06355v1 )

ライセンス: Link先を確認
Yingjie Chen, Jiarui Zhang, Diqi Chen, Tao Wang, Yizhou Wang, and Yun Liang(参考訳) 顔行動単位(AU)は人間の感情分析において不可欠である。 実世界のアプリケーションでは,AUに基づく高レベル感情分析が緊急に必要とされているが,過去の研究で得られたフレームレベル感情分析はそのような分析には直接利用できない。 さらに, ausは動的プロセスであるため, 地球規模の時間情報の利用は重要であるが, 文献では無視されている。 そこで本研究では、AUイベント検出を複数のクラス固有のセット予測問題として見ることにより、ビデオシーケンスからAUイベントを直接検出する、AUイベント検出のためのEventFormerを提案する。 一般的に使用されるAUベンチマークデータセットBP4Dで実施された大規模な実験は、適切なメトリクス下でのEventFormerの優位性を示している。

Facial action units (AUs) play an indispensable role in human emotion analysis. We observe that although AU-based high-level emotion analysis is urgently needed by real-world applications, frame-level AU results provided by previous works cannot be directly used for such analysis. Moreover, as AUs are dynamic processes, the utilization of global temporal information is important but has been gravely ignored in the literature. To this end, we propose EventFormer for AU event detection, which is the first work directly detecting AU events from a video sequence by viewing AU event detection as a multiple class-specific sets prediction problem. Extensive experiments conducted on a commonly used AU benchmark dataset, BP4D, show the superiority of EventFormer under suitable metrics.
翻訳日:2022-03-15 15:17:05 公開日:2022-03-12
# 動画パラグラフのキャプションを感情的に見る

Taking an Emotional Look at Video Paragraph Captioning ( http://arxiv.org/abs/2203.06356v1 )

ライセンス: Link先を確認
Qinyu Li, Tengpeng Li, Hanli Wang, Chang Wen Chen(参考訳) 視覚データを自然言語に翻訳することは、機械が世界を理解し、人間と対話するために不可欠である。 本研究は,映像の段落レベルの記述を生成することを目的として,動画の段落を包括的に研究する。 しかし、近年の研究は、主に客観的事実の検出に焦点をあてており、文間の論理的関連性を確立し、ビデオコンテンツに関連するより正確な感情を発見する必要性を無視している。 このような問題は、人間の言葉のタンダードよりはるかに低い、予測されたキャプションの精巧で豊富な表現を妨げている。 そこで本研究では,大規模感情と論理駆動型多言語データセットの構築を提案する。 このデータセットはEMVPC("Emotional Video Paragraph Captioning"の略)と名付けられ、日常生活で広く使われている53の感情、これらの感情に対応する376の一般的なシーン、10,291の高品質ビデオ、20,582の精巧な段落を含む。 関連する感情カテゴリ、シーンラベル、感情語ラベル、論理語ラベルもこの新しいデータセットで提供される。 提案したEMVPCデータセットは、リッチな感情、コヒーレントな論理、精巧な表現という観点から、本格的なビデオパラグラフを提供することを目的としており、視覚言語分野の他のタスクにも役立てることができる。 さらに,既存のベンチマークビデオ文キャプションデータセットと提案するEMVPCの実験を通じて,総合的研究を行った。 異なる視覚的キャプションタスクからの最先端のスキームを15の一般的な指標で比較し、その詳細な目的と主観的な結果について要約する。 最後に,ビデオ字幕の残り問題と今後の方向性についても論じる。 本研究の独特な視点は,ビデオ字幕研究のさらなる発展を促進することが期待されている。

Translating visual data into natural language is essential for machines to understand the world and interact with humans. In this work, a comprehensive study is conducted on video paragraph captioning, with the goal to generate paragraph-level descriptions for a given video. However, current researches mainly focus on detecting objective facts, ignoring the needs to establish the logical associations between sentences and to discover more accurate emotions related to video contents. Such a problem impairs fluent and abundant expressions of predicted captions, which are far below human language tandards. To solve this problem, we propose to construct a large-scale emotion and logic driven multilingual dataset for this task. This dataset is named EMVPC (standing for "Emotional Video Paragraph Captioning") and contains 53 widely-used emotions in daily life, 376 common scenes corresponding to these emotions, 10,291 high-quality videos and 20,582 elaborated paragraph captions with English and Chinese versions. Relevant emotion categories, scene labels, emotion word labels and logic word labels are also provided in this new dataset. The proposed EMVPC dataset intends to provide full-fledged video paragraph captioning in terms of rich emotions, coherent logic and elaborate expressions, which can also benefit other tasks in vision-language fields. Furthermore, a comprehensive study is conducted through experiments on existing benchmark video paragraph captioning datasets and the proposed EMVPC. The stateof-the-art schemes from different visual captioning tasks are compared in terms of 15 popular metrics, and their detailed objective as well as subjective results are summarized. Finally, remaining problems and future directions of video paragraph captioning are also discussed. The unique perspective of this work is expected to boost further development in video paragraph captioning research.
翻訳日:2022-03-15 15:16:52 公開日:2022-03-12
# 非例クラスインクリメンタルラーニングのための自己持続表現展開

Self-Sustaining Representation Expansion for Non-Exemplar Class-Incremental Learning ( http://arxiv.org/abs/2203.06359v1 )

ライセンス: Link先を確認
Kai Zhu, Wei Zhai, Yang Cao, Jiebo Luo, Zheng-Jun Zha(参考訳) 非典型的なクラス増分学習は、古いクラスサンプルを保存できない場合に、古いクラスと新しいクラスの両方を認識することである。 表現の最適化と機能の維持は、新しいクラスの監督の下でのみ達成できるため、これは難しい課題です。 この問題に対処するために,新しい自己持続型表現拡張スキームを提案する。 本手法は, 従来の特徴を維持するため, 主ブランチ拡張と側ブランチ更新を融合する構造再構成戦略と, 不変知識を伝達する主ブランチ蒸留方式とから構成される。 さらに, 蒸留工程に新しい試料を選択的に組み込むことにより, 旧クラスと新クラスの識別性を高めるための試案選択機構を提案する。 3つのベンチマークに関する広範囲な実験は、重要なインクリメンタルなパフォーマンスを示し、最先端のメソッドを3%、3%、6%のマージンで上回っている。

Non-exemplar class-incremental learning is to recognize both the old and new classes when old class samples cannot be saved. It is a challenging task since representation optimization and feature retention can only be achieved under supervision from new classes. To address this problem, we propose a novel self-sustaining representation expansion scheme. Our scheme consists of a structure reorganization strategy that fuses main-branch expansion and side-branch updating to maintain the old features, and a main-branch distillation scheme to transfer the invariant knowledge. Furthermore, a prototype selection mechanism is proposed to enhance the discrimination between the old and new classes by selectively incorporating new samples into the distillation process. Extensive experiments on three benchmarks demonstrate significant incremental performance, outperforming the state-of-the-art methods by a margin of 3%, 3% and 6%, respectively.
翻訳日:2022-03-15 15:16:05 公開日:2022-03-12
# グループに基づく参照表現理解のための微分関連埋め込み

Differentiated Relevances Embedding for Group-based Referring Expression Comprehension ( http://arxiv.org/abs/2203.06382v1 )

ライセンス: Link先を確認
Fuhai Chen, Xiaoshuai Sun, Xuri Ge, Jianzhuang Liu, Yongjian Wu, Feiyue Huang, Rongrong Ji(参考訳) reference expression comprehension(rec)は、自然言語表現で参照される画像中の特定のオブジェクトを見つけることを目的としている。 領域と表現の合同理解のために、既存のREC作業は通常、各画像内の各領域-表現対における相互関係をモデル化することを目的としている。 本稿では,グループベースRECという新たなREC関連問題について検討する。そこでは,写真アルバムやビデオフレームなど,異なる主題関連画像(同じグループ内のイメージ)から領域や表現を抽出する。 RECとは違って、グループベースのRECは、各グループと異なるグループ間での相互関係を区別するが、既存の一行パラダイムでは無視される。 そこで本研究では,グループ内領域圧縮ペアを相互関連性に応じて異なる優先度でアダプティブに割り当て,グループ間の関連性制約によってグループ優先度のバイアスを同時にバランスさせる,関連性誘導型マルチグループ自己対応学習スキーマ(RMSL)を提案する。 特に、視覚的およびテキスト的意味的特徴に基づいて、rmslは三重項ランキングにおいて適応学習サイクルを行い、(1)グループ内関連度の低い対象負の領域表現ペアは、対象オブジェクトの一次意味論を識別するためにモデルトレーニングにおいて優先的に使用され、(2)グループ全体関連正規化は、グループ優先のバイアスのバランスをとるためにモデルトレーニングに統合される。 関連性、ペア、およびモデルパラメータは、統一された自己ペースのヒンジ損失によって更新される。

Referring expression comprehension (REC) aims to locate a certain object in an image referred by a natural language expression. For joint understanding of regions and expressions, existing REC works typically target on modeling the cross-modal relevance in each region-expression pair within each single image. In this paper, we explore a new but general REC-related problem, named Group-based REC, where the regions and expressions can come from different subject-related images (images in the same group), e.g., sets of photo albums or video frames. Different from REC, Group-based REC involves differentiated cross-modal relevances within each group and across different groups, which, however, are neglected in the existing one-line paradigm. To this end, we propose a novel relevance-guided multi-group self-paced learning schema (termed RMSL), where the within-group region-expression pairs are adaptively assigned with different priorities according to their cross-modal relevances, and the bias of the group priority is balanced via an across-group relevance constraint simultaneously. In particular, based on the visual and textual semantic features, RMSL conducts an adaptive learning cycle upon triplet ranking, where (1) the target-negative region-expression pairs with low within-group relevances are used preferentially in model training to distinguish the primary semantics of the target objects, and (2) an across-group relevance regularization is integrated into model training to balance the bias of group priority. The relevances, the pairs, and the model parameters are alternatively updated upon a unified self-paced hinge loss.
翻訳日:2022-03-15 15:14:19 公開日:2022-03-12
# 効率的な群集カウントのための弱教師付き学習によるCNNとトランスフォーマーネットワーク

Joint CNN and Transformer Network via weakly supervised Learning for efficient crowd counting ( http://arxiv.org/abs/2203.06388v1 )

ライセンス: Link先を確認
Fusen Wang, Kai Liu, Fei Long, Nong Sang, Xiaofeng Xia, Jun Sang(参考訳) 現在,クラウドカウントでは,密度マップ推定による全監督手法が主流となっている。 しかし,このような手法では画像中の人物の位置レベルのアノテーションが必要である。 そのため、カウントレベルアノテーションのみに依存する弱い教師付きメソッドが緊急に必要となる。 CNNは,グローバルコンテキストとイメージパッチ間のインタラクションをモデル化するのに適さないため,CNNによる弱教師付き学習による群集カウントは,一般的には良好な性能を示すことができない。 グローバルコンテキストのモデル化とコントラスト特徴の学習のために,トランスフォーマによる弱教師付きモデルが順次提案されている。 しかし, 変圧器は, 群集画像を一連のトークンに分割するが, 個々の歩行者が独立しているため, ネットワークのパラメータ数が非常に大きいため, よい選択ではない。 そこで本稿では, 群集カウントのための弱教師付き学習を通して, 共同CNNとトランスフォーマーネットワーク(JCTNet)を提案する。 JCTNetは、CNN機能抽出モジュール(CFM)、Transformer機能抽出モジュール(TFM)、カウントレグレッションモジュール(CRM)の3つの部分で構成されている。 特に、CFMは群衆の意味情報を抽出し、そのパッチパーティションをTRMに送信してグローバルコンテキストをモデル化し、CRMを使って人の数を予測している。 大規模な実験と可視化により、JCTNetは、群集領域に効果的に集中し、5つの主流データセットにおいて、より弱い教師付きカウント性能を得ることができることが示された。 モデルのパラメータの数は、純粋なTransformerの作業に比べて約67%から73%削減できる。 また,カウントレベルアノテーションのみに制約されたモデルが群集領域に集中できるという現象についても説明を試みた。 我々はこの分野でのさらなる研究を促進することができると信じている。

Currently, for crowd counting, the fully supervised methods via density map estimation are the mainstream research directions. However, such methods need location-level annotation of persons in an image, which is time-consuming and laborious. Therefore, the weakly supervised method just relying upon the count-level annotation is urgently needed. Since CNN is not suitable for modeling the global context and the interactions between image patches, crowd counting with weakly supervised learning via CNN generally can not show good performance. The weakly supervised model via Transformer was sequentially proposed to model the global context and learn contrast features. However, the transformer directly partitions the crowd images into a series of tokens, which may not be a good choice due to each pedestrian being an independent individual, and the parameter number of the network is very large. Hence, we propose a Joint CNN and Transformer Network (JCTNet) via weakly supervised learning for crowd counting in this paper. JCTNet consists of three parts: CNN feature extraction module (CFM), Transformer feature extraction module (TFM), and counting regression module (CRM). In particular, the CFM extracts crowd semantic information features, then sends their patch partitions to TRM for modeling global context, and CRM is used to predict the number of people. Extensive experiments and visualizations demonstrate that JCTNet can effectively focus on the crowd regions and obtain superior weakly supervised counting performance on five mainstream datasets. The number of parameters of the model can be reduced by about 67%~73% compared with the pure Transformer works. We also tried to explain the phenomenon that a model constrained only by count-level annotations can still focus on the crowd regions. We believe our work can promote further research in this field.
翻訳日:2022-03-15 15:13:49 公開日:2022-03-12
# VAFO-Loss : 網膜動脈・静脈分画における血管機能最適化

VAFO-Loss: VAscular Feature Optimised Loss Function for Retinal Artery/Vein Segmentation ( http://arxiv.org/abs/2203.06425v1 )

ライセンス: Link先を確認
Yukun Zhou, Moucheng Xu, Yipeng Hu, Stefano B. Blumberg, An Zhao, Siegfried K. Wagner, Pearse A. Keane, and Daniel C. Alexander(参考訳) 血管分割後の臨床的に関連のある血管特徴の推定は、眼疾患と全身疾患の両方に潜在的な眼バイオマーカーを提供する網膜血管分析の標準的なパイプラインである。 本研究では,これらの臨床特徴を新たな血管特徴最適化損失関数 (vafo-loss) に統合し,ネットワークを正規化し,より正確な血管特徴を導出できる分節地図を作成する。 血管密度とフラクタル次元の2つの共通した特徴は、血管内誤分類に敏感であることが判明しており、これは多系統動脈/肺動脈分画においてよく認識されている問題であり、特に血管的特徴の推定を妨げている。 したがって、これらの2つの機能をVAFO-Lossにエンコードする。 まず,標準セグメンテーションネットワークにエンド・ツー・エンドVAFO-Lossを組み込むことで血管機能評価が向上し,脳卒中発生予測の定量的改善が期待できることを示す。 また,機能最適化損失 VAFO-Loss に偏りがあるにもかかわらず,訓練されたセグメンテーションネットワークは,他の最先端セグメンテーション損失と比較して,統計的に有意なセグメンテーション指標の改善を示した。

Estimating clinically-relevant vascular features following vessel segmentation is a standard pipeline for retinal vessel analysis, which provides potential ocular biomarkers for both ophthalmic disease and systemic disease. In this work, we integrate these clinical features into a novel vascular feature optimised loss function (VAFO-Loss), in order to regularise networks to produce segmentation maps, with which more accurate vascular features can be derived. Two common vascular features, vessel density and fractal dimension, are identified to be sensitive to intra-segment misclassification, which is a well-recognised problem in multi-class artery/vein segmentation particularly hindering the estimation of these vascular features. Thus we encode these two features into VAFO-Loss. We first show that incorporating our end-to-end VAFO-Loss in standard segmentation networks indeed improves vascular feature estimation, yielding quantitative improvement in stroke incidence prediction, a clinical downstream task. We also report a technically interesting finding that the trained segmentation network, albeit biased by the feature optimised loss VAFO-Loss, shows statistically significant improvement in segmentation metrics, compared to those trained with other state-of-the-art segmentation losses.
翻訳日:2022-03-15 15:13:20 公開日:2022-03-12
# dftr:salient object detectionのための奥行き教師付き階層型特徴核融合トランス

DFTR: Depth-supervised Hierarchical Feature Fusion Transformer for Salient Object Detection ( http://arxiv.org/abs/2203.06429v1 )

ライセンス: Link先を確認
Heqin Zhu, Xu Sun, Yuexiang Li, Kai Ma, S. Kevin Zhou, Yefeng Zheng(参考訳) 多くのコンピュータビジョンアプリケーションにおいて、SOD(Automated Salient Object Detection)はますます重要な役割を担っている。 既存のフレームワークは、特にディープラーニング技術の開発で印象的なsodパフォーマンスを実現しているが、そのパフォーマンスには改善の余地がある。 本研究では,Depth-supervised Hierarchical Feature Fusion TRansformer (DFTR) という,トランスフォーマーをベースとした新しいSODフレームワークを提案し,RGBとRGB-D SODの精度をさらに向上させる。 提案されたDFTRには3つの主要な改善が含まれている。 1) 特徴エンコーダのバックボーンは、より効率的な特徴抽出のために、畳み込みニューラルネットワークからスウィントランスに切り換えられる。 2)Swin Transformerによって符号化されたマルチスケール機能を完全に活用するマルチスケール機能アグリゲーション(MFA)モジュールを提案する。 3)最近の研究により、深度マップ予測の補助タスクを定式化し、ネットワーク学習のための追加監督信号として地対地深度マップを用いた。 唾液分枝と深度枝の双方向情報流を可能にするため,新しいマルチタスク機能融合(MFF)モジュールをDFTRに統合した。 提案するDFTRを10のベンチマークデータセット上で広範囲に評価した。 実験の結果, DFTR は既存の RGB と RGB-D の SOD タスクにおいて, 従来手法よりも優れていた。 コードとモデルはリリースされる予定だ。

Automated salient object detection (SOD) plays an increasingly crucial role in many computer vision applications. Although existing frameworks achieve impressive SOD performances especially with the development of deep learning techniques, their performances still have room for improvement. In this work, we propose a novel pure Transformer-based SOD framework, namely Depth-supervised hierarchical feature Fusion TRansformer (DFTR), to further improve the accuracy of both RGB and RGB-D SOD. The proposed DFTR involves three primary improvements: 1) The backbone of feature encoder is switched from a convolutional neural network to a Swin Transformer for more effective feature extraction; 2) We propose a multi-scale feature aggregation (MFA) module to fully exploit the multi-scale features encoded by the Swin Transformer in a coarse-to-fine manner; 3) Following recent studies, we formulate an auxiliary task of depth map prediction and use the ground-truth depth maps as extra supervision signals for network learning. To enable bidirectional information flow between saliency and depth branches, a novel multi-task feature fusion (MFF) module is integrated into our DFTR. We extensively evaluate the proposed DFTR on ten benchmarking datasets. Experimental results show that our DFTR consistently outperforms the existing state-of-the-art methods for both RGB and RGB-D SOD tasks. The code and model will be released.
翻訳日:2022-03-15 15:12:57 公開日:2022-03-12
# datr:マルチドメインランドマーク検出のためのドメイン適応トランス

DATR: Domain-adaptive transformer for multi-domain landmark detection ( http://arxiv.org/abs/2203.06433v1 )

ライセンス: Link先を確認
Heqin Zhu, Qingsong Yao, S. Kevin Zhou(参考訳) 正確な解剖学的ランドマーク検出は、医療画像解析においてますます重要な役割を果たす。 既存の手法は性能を満足するが、ほとんどはcnnに基づいており、特定の解剖学的領域に関連する単一のドメイン say に特化している。 本稿では,多領域ランドマーク検出のための汎用モデルを提案する。長い依存関係のモデル化にtransformerを活用し,datrと呼ばれるドメイン適応型トランスフォーマーモデルを開発し,異なる解剖学の複数の混合データセット上でトレーニングし,それらの解剖から任意の画像のランドマークを検出する。 提案したDATRには3つの特徴がある。 (i)マルチ解剖学的ランドマーク検出のためのエンコーダとしてトランスフォーマーを導入する最初のユニバーサルモデルである。 (II)解剖学的ランドマーク検出のためのドメイン適応型トランスフォーマーを設計し,これを他のトランスネットワークに効果的に拡張する。 3) 先行研究の後, トランスフォーマーネットワークがより正確なランドマークを検出することを奨励する軽量誘導ネットワークを採用した。 我々は,3つの異なる解剖学(頭部,手,胸部)を含む1,588枚の画像と62個のランドマークを持つランドマーク検出のために,広く使用されている3つのX線データセットの実験を行った。 実験の結果,提案するdatrは,従来の畳み込みモデルよりも動作が良好であることがわかった。 コードは公開される予定だ。

Accurate anatomical landmark detection plays an increasingly vital role in medical image analysis. Although existing methods achieve satisfying performance, they are mostly based on CNN and specialized for a single domain say associated with a particular anatomical region. In this work, we propose a universal model for multi-domain landmark detection by taking advantage of transformer for modeling long dependencies and develop a domain-adaptive transformer model, named as DATR, which is trained on multiple mixed datasets from different anatomies and capable of detecting landmarks of any image from those anatomies. The proposed DATR exhibits three primary features: (i) It is the first universal model which introduces transformer as an encoder for multi-anatomy landmark detection; (ii) We design a domain-adaptive transformer for anatomy-aware landmark detection, which can be effectively extended to any other transformer network; (iii) Following previous studies, we employ a light-weighted guidance network, which encourages the transformer network to detect more accurate landmarks. We carry out experiments on three widely used X-ray datasets for landmark detection, which have 1,588 images and 62 landmarks in total, including three different anatomies (head, hand, and chest). Experimental results demonstrate that our proposed DATR achieves state-of-the-art performances by most metrics and behaves much better than any previous convolution-based models. The code will be released publicly.
翻訳日:2022-03-15 15:12:36 公開日:2022-03-12
# 回転するシャッター画像に二重反転歪みをもたらす

Bringing Rolling Shutter Images Alive with Dual Reversed Distortion ( http://arxiv.org/abs/2203.06451v1 )

ライセンス: Link先を確認
Zhihang Zhong, Mingdeng Cao, Xiao Sun, Zhirong Wu, Zhongyi Zhou, Yinqiang Zheng, Stephen Lin, Imari Sato(参考訳) ローリングシャッター(RS)歪みは、RSカメラの露出中に瞬時グローバルシャッター(GS)フレームから一列のピクセルを選択した結果であると解釈することができる。 これは、各瞬時GSフレームの情報が部分的に、しかし順次、行依存の歪みに埋め込まれていることを意味する。 この事実に触発されて,RS歪みに苦しむ画像から非歪なGSフレームを抽出するといった,このプロセスの逆転という課題に対処する。 しかし、RS歪みは、読み出し設定やカメラに対するシーン要素の相対速度などの他の要因と結合しているため、時間的に隣接した画像間の幾何学的相関のみを利用するモデルは、読み出し設定が異なるデータや、カメラモーションとオブジェクトモーションの両方で動的シーンを処理する場合の一般性に乏しい。 本稿では,2つの連続するフレームの代わりに,2台のRSカメラで撮像した2枚の画像に逆RS方向を印加する手法を提案する。 双対逆歪の対称かつ相補的な性質を基礎として, rs時間中の速度場の反復学習により2重光流列を生成するための新しいエンドツーエンドモデルifedを開発した。 大規模な実験結果から,IFEDは,隣接したRS画像を利用した最先端技術と同様に,単純なカスケード方式よりも優れていることが示された。 最も重要なことは、合成データセットでトレーニングされているにもかかわらず、IFEDは実世界のRS歪み画像からGSフレームのシーケンスを取得するのに効果的であることを示している。

Rolling shutter (RS) distortion can be interpreted as the result of picking a row of pixels from instant global shutter (GS) frames over time during the exposure of the RS camera. This means that the information of each instant GS frame is partially, yet sequentially, embedded into the row-dependent distortion. Inspired by this fact, we address the challenging task of reversing this process, i.e., extracting undistorted GS frames from images suffering from RS distortion. However, since RS distortion is coupled with other factors such as readout settings and the relative velocity of scene elements to the camera, models that only exploit the geometric correlation between temporally adjacent images suffer from poor generality in processing data with different readout settings and dynamic scenes with both camera motion and object motion. In this paper, instead of two consecutive frames, we propose to exploit a pair of images captured by dual RS cameras with reversed RS directions for this highly challenging task. Grounded on the symmetric and complementary nature of dual reversed distortion, we develop a novel end-to-end model, IFED, to generate dual optical flow sequence through iterative learning of the velocity field during the RS time. Extensive experimental results demonstrate that IFED is superior to naive cascade schemes, as well as the state-of-the-art which utilizes adjacent RS images. Most importantly, although it is trained on a synthetic dataset, IFED is shown to be effective at retrieving GS frame sequences from real-world RS distorted images of dynamic scenes.
翻訳日:2022-03-15 15:12:13 公開日:2022-03-12
# MarkBERT:中国語のBERTを改良した単語境界のマーク

MarkBERT: Marking Word Boundaries Improves Chinese BERT ( http://arxiv.org/abs/2203.06378v1 )

ライセンス: Link先を確認
Linyang Li, Yong Dai, Duyu Tang, Zhangyin Feng, Cong Zhou, Xipeng Qiu, Zenglin Xu, Shuming Shi(参考訳) 単語情報を用いた中国語のBERTモデルであるMarkBERTを提案する。 既存の単語ベースのBERTモデルは、単語を基本単位とみなすが、BERTの語彙制限のため、高頻度の単語のみをカバーし、語彙外単語(OOV)に遭遇すると文字レベルに戻る。 既存の作品と異なり、MarkBERTは語彙を漢字として保持し、連続した単語間の境界マーカーを挿入する。 このような設計により、モデルがOOVワードであるかどうかに関わらず、任意の単語を同じように扱うことができる。 第一に、従来の文字や文レベルの事前学習タスクを補完するマーカーの上に単語レベルの学習目標を追加するのが便利である。第二に、一般的なマーカーをposタグに置き換えることで、単語のposタグのようなよりリッチなセマンティクスを組み込むことができる。 MarkBERTは、中国のエンティティ認識の現状を、MSRAデータセットでは95.4\%から96.5\%、OntoNotesデータセットでは82.8\%から84.2\%にプッシュする。 従来の単語ベースのBERTモデルと比較して、MarkBERTはテキスト分類、キーワード認識、意味的類似性タスクにおいて精度が向上している。

We present a Chinese BERT model dubbed MarkBERT that uses word information. Existing word-based BERT models regard words as basic units, however, due to the vocabulary limit of BERT, they only cover high-frequency words and fall back to character level when encountering out-of-vocabulary (OOV) words. Different from existing works, MarkBERT keeps the vocabulary being Chinese characters and inserts boundary markers between contiguous words. Such design enables the model to handle any words in the same way, no matter they are OOV words or not. Besides, our model has two additional benefits: first, it is convenient to add word-level learning objectives over markers, which is complementary to traditional character and sentence-level pre-training tasks; second, it can easily incorporate richer semantics such as POS tags of words by replacing generic markers with POS tag-specific markers. MarkBERT pushes the state-of-the-art of Chinese named entity recognition from 95.4\% to 96.5\% on the MSRA dataset and from 82.8\% to 84.2\% on the OntoNotes dataset, respectively. Compared to previous word-based BERT models, MarkBERT achieves better accuracy on text classification, keyword recognition, and semantic similarity tasks.
翻訳日:2022-03-15 14:52:07 公開日:2022-03-12
# BiBERT:正確に完全なバイナリ化BERT

BiBERT: Accurate Fully Binarized BERT ( http://arxiv.org/abs/2203.06390v1 )

ライセンス: Link先を確認
Haotong Qin, Yifu Ding, Mingyuan Zhang, Qinghua Yan, Aishan Liu, Qingqing Dang, Ziwei Liu, Xianglong Liu(参考訳) 大規模な事前訓練されたBERTは、自然言語処理(NLP)タスクにおいて顕著なパフォーマンスを達成したが、計算とメモリコストも高い。 強力な圧縮手法の1つとして、ビナライゼーションは1ビットパラメータとビット演算を利用することで計算とメモリ消費を大幅に削減する。 残念なことに、BERTの完全な双対化(すなわち1ビットの重み、埋め込み、活性化)は、通常大きな性能低下を被り、この問題に対処する研究は稀である。 本稿では, 理論的正当性と経験的解析により, 前向きと後向きの伝搬において, 情報劣化と最適化方向のミスマッチに起因する深刻な性能低下を主に原因とすることができることを確認し, 正確な二項化BERTであるBiBERTを提案する。 具体的には、表現情報を統計的に最大化する効率的なBi-Attention構造と、完全な二項化BERTを正確に最適化するDMD(Direction-Matchi ng Distillation)方式を導入する。 広汎な実験により、BiBERTは、NLPベンチマークのマージンを説得することで、単純なベースラインと既存の最先端の量子化BERTの両方を超低ビットアクティベーションで上回ることを示した。 最初の完全二項化BERTとして、実世界の資源制約シナリオにおける完全二項化BERTモデルの大きな利点と可能性を実証し、FLOPとモデルサイズで56.3倍、31.2倍の節約が得られる。

The large pre-trained BERT has achieved remarkable performance on Natural Language Processing (NLP) tasks but is also computation and memory expensive. As one of the powerful compression approaches, binarization extremely reduces the computation and memory consumption by utilizing 1-bit parameters and bitwise operations. Unfortunately, the full binarization of BERT (i.e., 1-bit weight, embedding, and activation) usually suffer a significant performance drop, and there is rare study addressing this problem. In this paper, with the theoretical justification and empirical analysis, we identify that the severe performance drop can be mainly attributed to the information degradation and optimization direction mismatch respectively in the forward and backward propagation, and propose BiBERT, an accurate fully binarized BERT, to eliminate the performance bottlenecks. Specifically, BiBERT introduces an efficient Bi-Attention structure for maximizing representation information statistically and a Direction-Matching Distillation (DMD) scheme to optimize the full binarized BERT accurately. Extensive experiments show that BiBERT outperforms both the straightforward baseline and existing state-of-the-art quantized BERTs with ultra-low bit activations by convincing margins on the NLP benchmark. As the first fully binarized BERT, our method yields impressive 56.3 times and 31.2 times saving on FLOPs and model size, demonstrating the vast advantages and potential of the fully binarized BERT model in real-world resource-constrained scenarios.
翻訳日:2022-03-15 14:51:44 公開日:2022-03-12
# NLPにおける対人防御とロバスト性に関する調査

A Survey in Adversarial Defences and Robustness in NLP ( http://arxiv.org/abs/2203.06414v1 )

ライセンス: Link先を確認
Shreya Goyal, Sumanth Doddapaneni, Mitesh M.Khapra, Balaraman Ravindran(参考訳) 近年、深層ニューラルネットワークは頑健性が欠如しており、入力データに逆らって摂動した場合に故障する可能性が指摘されている。 強敵攻撃はコンピュータビジョンと自然言語処理(NLP)のために様々な著者によって提案されている。 対策として、これらのネットワークの障害を防ぐためにいくつかの防御機構も提案されている。 画像データとは対照的に、テキストデータの離散的な性質のため、NLPでは敵攻撃を発生させ、これらのモデルを守ることは容易ではない。 しかし, テキスト分類, 名前付きエンティティ認識, 自然言語推論などの異なるNLPタスクに対して, 敵防衛のための多くの手法が提案されている。 これらの方法は、敵の攻撃からニューラルネットワークを守るためにだけでなく、トレーニング中の正規化メカニズムとしても使われ、モデルの過度な適合を防ぐ。 提案した調査は,近年のNLPにおける敵防衛のための異なる手法を,新しい分類法を提案して検討する試みである。 この調査はまた、NLPにおける高度なディープニューラルネットワークの脆弱性と、それらを保護する上での課題を強調している。

In recent years, it has been seen that deep neural networks are lacking robustness and are likely to break in case of adversarial perturbations in input data. Strong adversarial attacks are proposed by various authors for computer vision and Natural Language Processing (NLP). As a counter-effort, several defense mechanisms are also proposed to save these networks from failing. In contrast with image data, generating adversarial attacks and defending these models is not easy in NLP because of the discrete nature of the text data. However, numerous methods for adversarial defense are proposed of late, for different NLP tasks such as text classification, named entity recognition, natural language inferencing, etc. These methods are not just used for defending neural networks from adversarial attacks, but also used as a regularization mechanism during training, saving the model from overfitting. The proposed survey is an attempt to review different methods proposed for adversarial defenses in NLP in the recent past by proposing a novel taxonomy. This survey also highlights the fragility of the advanced deep neural networks in NLP and the challenges in defending them.
翻訳日:2022-03-15 14:51:14 公開日:2022-03-12
# 自然言語システムにおける情報隠蔽について

On Information Hiding in Natural Language Systems ( http://arxiv.org/abs/2203.06512v1 )

ライセンス: Link先を確認
Geetanjali Bihani and Julia Taylor Rayz(参考訳) 今日のデジタル世界では、データプライバシが高級品よりも必要になりつつあるため、プライバシの保存と情報セキュリティに関するより堅牢なモデルの研究が増えている。 本稿では,自然言語システムに隠された情報を処理する自然言語ステレオグラフィ(NLS)手法について,データセキュリティと機密性を両立させる手段として考察する。 本研究は,これらのシステムの機密性および非受容性要件に関する主要な課題を要約し,特にステガノグラフテキストの品質をターゲットとして,改善の潜在的方向性を提案する。 この研究は、自然言語に基づくニューラルモデルにセキュリティを組み込むために、よりレジリエントな自然言語ステレオグラフィーモデルを構築するための適切なフレームワークとして機能すると考えています。

With data privacy becoming more of a necessity than a luxury in today's digital world, research on more robust models of privacy preservation and information security is on the rise. In this paper, we take a look at Natural Language Steganography (NLS) methods, which perform information hiding in natural language systems, as a means to achieve data security as well as confidentiality. We summarize primary challenges regarding the secrecy and imperceptibility requirements of these systems and propose potential directions of improvement, specifically targeting steganographic text quality. We believe that this study will act as an appropriate framework to build more resilient models of Natural Language Steganography, working towards instilling security within natural language-based neural models.
翻訳日:2022-03-15 14:50:55 公開日:2022-03-12
# GATSBI:シミュレーションに基づく推論のためのジェネレーティブ・アドバイサル・トレーニング

GATSBI: Generative Adversarial Training for Simulation-Based Inference ( http://arxiv.org/abs/2203.06481v1 )

ライセンス: Link先を確認
Poornima Ramesh, Jan-Matthis Lueckmann, Jan Boelts, \'Alvaro Tejero-Cantero, David S. Greenberg, Pedro J. Gon\c{c}alves, Jakob H. Macke(参考訳) シミュレーションベース推論(SBI)とは、確率モデルにおける統計的推論のことであり、サンプルを生成できるが、確率は計算できない。 SBIアルゴリズムと同様に、生成敵対ネットワーク(GAN)は明確な可能性を必要としない。 SBI と GAN の関係について検討し,SBI に対する敵対的アプローチである GATSBI を導入する。 GATSBIは、暗黙の後方分布を学習するために、敵の設定における変動目標を再構成する。 GATSBIによる推論は、高次元の後方空間で機能し、暗黙の先行をサポートする。 2つのSBIベンチマーク問題と2つの高次元シミュレータ上でGATSBIを評価する。 浅層水域表面における波動伝播モデルにおいて, GATSBIは高次元でもよく校正された後方推定値を返すことができることを示す。 カメラ光学のモデルでは、暗黙の先行を与えられた高次元の後方を推定し、最先端のSBIアプローチよりも優れた性能を発揮する。 また,GATSBIを拡張して連続的な後続推定を行い,個々の観測に集中できることを示す。 GATSBIは、GANの進歩を活用する機会を開放し、高次元シミュレーションベースモデルでベイズ推定を行う。

Simulation-based inference (SBI) refers to statistical inference on stochastic models for which we can generate samples, but not compute likelihoods. Like SBI algorithms, generative adversarial networks (GANs) do not require explicit likelihoods. We study the relationship between SBI and GANs, and introduce GATSBI, an adversarial approach to SBI. GATSBI reformulates the variational objective in an adversarial setting to learn implicit posterior distributions. Inference with GATSBI is amortised across observations, works in high-dimensional posterior spaces and supports implicit priors. We evaluate GATSBI on two SBI benchmark problems and on two high-dimensional simulators. On a model for wave propagation on the surface of a shallow water body, we show that GATSBI can return well-calibrated posterior estimates even in high dimensions. On a model of camera optics, it infers a high-dimensional posterior given an implicit prior, and performs better than a state-of-the-art SBI approach. We also show how GATSBI can be extended to perform sequential posterior estimation to focus on individual observations. Overall, GATSBI opens up opportunities for leveraging advances in GANs to perform Bayesian inference on high-dimensional simulation-based models.
翻訳日:2022-03-15 14:37:03 公開日:2022-03-12
# 深層学習に基づく4次元ct画像の復元のための条件付きインペインティング

Deep learning-based conditional inpainting for restoration of artifact-affected 4D CT images ( http://arxiv.org/abs/2203.06431v1 )

ライセンス: Link先を確認
Frederic Madesta, Thilo Sentker, Tobias Gauer, Rene Werner(参考訳) 4D CTは胸部・腹部腫瘍の放射線治療の必須成分である。 しかし、4dct画像は治療計画の品質を損なうアーティファクトに影響されることが多い。 本研究では, 深層学習(DL)に基づく条件付き塗装法を提案し, アーチファクトに影響を及ぼす領域の解剖学的に正しい画像情報を復元する。 DLに基づく共通補間 (INT) と二重構造 (DS) アーティファクトの検出と, アーティファクト領域に適用した条件付きインパインティングの2段階からなる。 この文脈では、コンディショナルは、解剖学的に信頼できる結果を確保するために患者固有の画像データによる塗り込みプロセスのガイダンスを指す。 肺がん患者65名の内4D CTデータセット(48例は軽微なアーティファクト,17例は顕著なアーティファクト)と,DIRLab 4D CTデータ(非独立性外部検査セット)に基づいて評価を行った。 ROC-AUCはINTが0.99、DSアーティファクト(社内データ)が0.97と自動で検出された。 提案手法は, 内部評価データに対する平均根平均二乗誤差 (RMSE) を60% (DS) と 42% (INT) に削減した。 外部のDIR-Labデータでは,RMSEはそれぞれ65%,36%減少した。 発音されたアーティファクトデータグループに適用すると、検出可能なアーティファクトの平均68%が削除された。 その結果, 人工物による4次元CTデータの復元におけるDLベースの塗布の可能性が浮き彫りになった。 条件付きインペインティングの性能向上(標準インペインティングと比較)は、患者固有の事前知識を利用する利点を示している。

4D CT imaging is an essential component of radiotherapy of thoracic/abdominal tumors. 4D CT images are, however, often affected by artifacts that compromise treatment planning quality. In this work, deep learning (DL)-based conditional inpainting is proposed to restore anatomically correct image information of artifact-affected areas. The restoration approach consists of a two-stage process: DL-based detection of common interpolation (INT) and double structure (DS) artifacts, followed by conditional inpainting applied to the artifact areas. In this context, conditional refers to a guidance of the inpainting process by patient-specific image data to ensure anatomically reliable results. Evaluation is based on 65 in-house 4D CT data sets of lung cancer patients (48 with only slight artifacts, 17 with pronounced artifacts) and the publicly available DIRLab 4D CT data (independent external test set). Automated artifact detection revealed a ROC-AUC of 0.99 for INT and 0.97 for DS artifacts (in-house data). The proposed inpainting method decreased the average root mean squared error (RMSE) by 60% (DS) and 42% (INT) for the in-house evaluation data (simulated artifacts for the slight artifact data; original data were considered as ground truth for RMSE computation). For the external DIR-Lab data, the RMSE decreased by 65% and 36%, respectively. Applied to the pronounced artifact data group, on average 68% of the detectable artifacts were removed. The results highlight the potential of DL-based inpainting for the restoration of artifact-affected 4D CT data. Improved performance of conditional inpainting (compared to standard inpainting) illustrates the benefits of exploiting patient-specific prior knowledge.
翻訳日:2022-03-15 14:35:07 公開日:2022-03-12
# 多様性の原則:全ての冗長性を減らすための強い視力変換器の訓練

The Principle of Diversity: Training Stronger Vision Transformers Calls for Reducing All Levels of Redundancy ( http://arxiv.org/abs/2203.06345v1 )

ライセンス: Link先を確認
Tianlong Chen, Zhenyu Zhang, Yu Cheng, Ahmed Awadallah, Zhangyang Wang(参考訳) 視覚トランスフォーマー(vits)は、従来の畳み込みネットワークよりも高いモデリング能力と表現柔軟性を持つと信じられているため、人気が高まっている。 しかし、学習したViTは過度なスムースティングに悩まされ、おそらく冗長なモデルをもたらすため、そのようなポテンシャルが実際に完全に解き放たれたかどうかは疑わしい。 最近の研究は、例えば埋め込み類似性を規則化したり、畳み込みのような構造を再注入することで、そのような冗長性を識別し緩和する予備的な試みを行った。 しかし、この分野では、ViTの冗長性の程度と、それを徹底的に緩和することでどれだけの利益が得られるかに関する「先行き評価」が欠落している。 本論文は, パッチ埋め込み, 注意マップ, 重量空間の3つのレベルにおいて, 冗長性のユビキタスな存在を体系的に研究した。 そこで我々は,vitの訓練における多様性の原則を提唱し,それぞれのレベルにおける表現の多様性と範囲を奨励する対応する正規化子を提示することで,より識別的な情報を捉えることを可能にする。 多数のViTバックボーンを用いたImageNetの大規模な実験により,提案手法の有効性が検証され,観測されたViT冗長性が大幅に低減され,モデル一般化が大幅に向上した。 例えば、当社の多様化したDeiTでは、ImageNet上で0.70%~1.76%の精度向上を実現しています。 私たちのコードはhttps://github.com/V ITA-Group/Diverse-Vi T.comで利用可能です。

Vision transformers (ViTs) have gained increasing popularity as they are commonly believed to own higher modeling capacity and representation flexibility, than traditional convolutional networks. However, it is questionable whether such potential has been fully unleashed in practice, as the learned ViTs often suffer from over-smoothening, yielding likely redundant models. Recent works made preliminary attempts to identify and alleviate such redundancy, e.g., via regularizing embedding similarity or re-injecting convolution-like structures. However, a "head-to-toe assessment" regarding the extent of redundancy in ViTs, and how much we could gain by thoroughly mitigating such, has been absent for this field. This paper, for the first time, systematically studies the ubiquitous existence of redundancy at all three levels: patch embedding, attention map, and weight space. In view of them, we advocate a principle of diversity for training ViTs, by presenting corresponding regularizers that encourage the representation diversity and coverage at each of those levels, that enabling capturing more discriminative information. Extensive experiments on ImageNet with a number of ViT backbones validate the effectiveness of our proposals, largely eliminating the observed ViT redundancy and significantly boosting the model generalization. For example, our diversified DeiT obtains 0.70%~1.76% accuracy boosts on ImageNet with highly reduced similarity. Our codes are fully available in https://github.com/V ITA-Group/Diverse-Vi T.
翻訳日:2022-03-15 14:20:39 公開日:2022-03-12
# TEN: Eroded境界を持つJigsawパズル問題のためのツイン埋め込みネットワーク

TEN: Twin Embedding Networks for the Jigsaw Puzzle Problem with Eroded Boundaries ( http://arxiv.org/abs/2203.06488v1 )

ライセンス: Link先を確認
Daniel Rika, Dror Sholomon, Eli David, Nathan S. Netanyahu(参考訳) ジグソーパズル問題(JPP)は、長年研究されてきたよく知られた研究問題である。 この問題の解法は典型的には2段階のスキームで、ペアワイズピース互換性尺度(CM)の計算とその後のパズル再構成アルゴリズムを組み合わせたものである。 多くの有効なcmsは、単にピースエッジに沿った情報に基づいて、単純な距離尺度を適用して提案されている。 しかし、これらの古典的手法の実用性は、純粋な合成画像よりも難しい問題例には疑わしい。 特に、これらの手法は、例えば単色パズル、長い時間にわたる断片の劣化による境界の侵食、欠片などを含むより現実的なシナリオに分解される傾向がある。 この重大な不足を克服するために、cnn(deep convolutional neural network)ベースのcmsが最近導入されている。 有望な精度にもかかわらず、これらのモデルは非常に計算集約的です。 TEN (Twin Embedding Networks) は、潜伏した埋め込み空間におけるその境界についての一部分を表す。 この潜伏表現と単純な距離測度を組み合わせることで、多くの実世界のJPP変種に対するテストベッドである浸食タイル境界の問題領域に対する様々な古典的手法と比較して、新たに提案したペアワイズCMの精度において優れた性能を示す。 さらに、TENは、最近のNNモデル、すなわち古典的手法と同等の速度で、平均して数桁高速であることを示す。 そこで本研究では,実世界のパズルのような問題に対して,比較的低い精度 (古典的手法) と集中的計算複雑性 (nnモデル) とのギャップを埋めるための重要な最初の試みを行う。

The jigsaw puzzle problem (JPP) is a well-known research problem, which has been studied for many years. Solving this problem typically involves a two-stage scheme, consisting of the computation of a pairwise piece compatibility measure (CM), coupled with a subsequent puzzle reconstruction algorithm. Many effective CMs, which apply a simple distance measure, based merely on the information along the piece edges, have been proposed. However, the practicality of these classical methods is rather doubtful for problem instances harder than pure synthetic images. Specifically, these methods tend to break down in more realistic scenarios involving, e.g., monochromatic puzzles, eroded boundaries due to piece degradation over long time periods, missing pieces, etc. To overcome this significant deficiency, a few deep convolutional neural network (CNN)-based CMs have been recently introduced. Despite their promising accuracy, these models are very computationally intensive. Twin Embedding Networks (TEN), to represent a piece with respect to its boundary in a latent embedding space. Combining this latent representation with a simple distance measure, we then demonstrate a superior performance, in terms of accuracy, of our newly proposed pairwise CM, compared to that of various classical methods, for the problem domain of eroded tile boundaries, a testbed for a number of real-world JPP variants. Furthermore, we also demonstrate that TEN is faster by a few orders of magnitude, on average, than the recent NN models, i.e., it is as fast as the classical methods. In this regard, the paper makes a significant first attempt at bridging the gap between the relatively low accuracy (of classical methods) and the intensive computational complexity (of NN models), for practical, real-world puzzle-like problems.
翻訳日:2022-03-15 14:20:14 公開日:2022-03-12
# 大規模マルチエージェントシステムの強化学習のための集中ネットワーク

Concentration Network for Reinforcement Learning of Large-Scale Multi-Agent Systems ( http://arxiv.org/abs/2203.06416v1 )

ライセンス: Link先を確認
Qingxu Fu, Tenghai Qiu, Jianqiang Yi, Zhiqiang Pu, Shiguang Wu(参考訳) 一連の差し迫った問題を扱う場合、人間は、モチベーション指標への貢献、例えば、ゲームに勝つ確率に応じて優先順位付けすることで、これらの問題のサブセットに集中することができる。 この集中の考え方は、数百のエージェントが参加する高度な大規模マルチエージェントシステム(LMAS)の強化学習に関する洞察を提供する。 このようなLMASでは、各エージェントは各ステップで長い実体観測を受け取り、グラフ注意ネットワークなどの既存の集約ネットワークを圧倒し、非効率の原因となる。 本稿では,ConcNetと呼ばれる集中ネットワークを提案する。 まず、ConcNetは、いくつかのモチベーション指標(例えば、エージェントの生存時間と状態値)を考慮して観察された実体をスコアし、次に、観察された実体のエンコーディングを分類して特徴を抽出する。 第二に、よく知られた注意機構とは違い、ConcNetは観察された実体を評価する際のモチベーション指標を明確に考慮するユニークな動機づけサブネットワークを持っている。 さらに, LMASにおける効果的なポリシをスクラッチから学習できる集中政策勾配アーキテクチャを提案する。 広範な実験により、このアーキテクチャは優れたスケーラビリティと柔軟性を有し、lmasベンチマークの既存のメソッドを大幅に上回っていることが示されている。

When dealing with a series of imminent issues, humans can naturally concentrate on a subset of these concerning issues by prioritizing them according to their contributions to motivational indices, e.g., the probability of winning a game. This idea of concentration offers insights into reinforcement learning of sophisticated Large-scale Multi-Agent Systems (LMAS) participated by hundreds of agents. In such an LMAS, each agent receives a long series of entity observations at each step, which can overwhelm existing aggregation networks such as graph attention networks and cause inefficiency. In this paper, we propose a concentration network called ConcNet. First, ConcNet scores the observed entities considering several motivational indices, e.g., expected survival time and state value of the agents, and then ranks, prunes, and aggregates the encodings of observed entities to extract features. Second, distinct from the well-known attention mechanism, ConcNet has a unique motivational subnetwork to explicitly consider the motivational indices when scoring the observed entities. Furthermore, we present a concentration policy gradient architecture that can learn effective policies in LMAS from scratch. Extensive experiments demonstrate that the presented architecture has excellent scalability and flexibility, and significantly outperforms existing methods on LMAS benchmarks.
翻訳日:2022-03-15 14:17:41 公開日:2022-03-12
# 農業サプライチェーン管理を実現する6g用オンデバイスaiとブロックチェーン

Towards On-Device AI and Blockchain for 6G enabled Agricultural Supply-chain Management ( http://arxiv.org/abs/2203.06465v1 )

ライセンス: Link先を確認
Muhammad Zawish, Nouman Ashraf, Rafay Iqbal Ansari, Steven Davy, Hassan Khaliq Qureshi, Nauman Aslam and Syed Ali Hassan(参考訳) 6Gは、ネットワークにおける品質・オブ・サービス(QoS)を強化し、リソースの最適な利用を確保するための人工知能(AI)ソリューションを構想している。 本研究では、トレーサビリティ、透明性、在庫の追跡、契約の確保を目的として、無人航空機(UAV)、AI、ブロックチェーンを組み合わせた農業サプライチェーン管理アーキテクチャを提案する。 我々は、様々なリソース・正確性トレードオフを持つモデルのロードマップを生成することにより、デバイス上でAIを促進するソリューションを提案する。 完全な畳み込みニューラルネットワーク(FCN)モデルは、UAVが捉えた画像によるバイオマス推定に使用される。 UAV上に展開するための1つの圧縮FCNモデルの代わりに、様々な複雑さと精度を持つ複数のタスク固有モデルを提供する反復プルーニングのアイデアを動機付けている。 6G対応ダイナミックUAVネットワークにおける飛行障害の影響を軽減するため,提案したモデル選択戦略は,実行時リソース要求に基づいて,UAVの更新を支援する。

6G envisions artificial intelligence (AI) powered solutions for enhancing the quality-of-service (QoS) in the network and to ensure optimal utilization of resources. In this work, we propose an architecture based on the combination of unmanned aerial vehicles (UAVs), AI and blockchain for agricultural supply-chain management with the purpose of ensuring traceability, transparency, tracking inventories and contracts. We propose a solution to facilitate on-device AI by generating a roadmap of models with various resource-accuracy trade-offs. A fully convolutional neural network (FCN) model is used for biomass estimation through images captured by the UAV. Instead of a single compressed FCN model for deployment on UAV, we motivate the idea of iterative pruning to provide multiple task-specific models with various complexities and accuracy. To alleviate the impact of flight failure in a 6G enabled dynamic UAV network, the proposed model selection strategy will assist UAVs to update the model based on the runtime resource requirements.
翻訳日:2022-03-15 14:17:19 公開日:2022-03-12
# g$^3$sr:グローバルグラフによるセッションベースレコメンデーション

G$^3$SR: Global Graph Guided Session-based Recommendation ( http://arxiv.org/abs/2203.06467v1 )

ライセンス: Link先を確認
Zhi-Hong Deng, Chang-Dong Wang, Ling Huang, Jian-Huang Lai and Philip S. Yu(参考訳) セッションベースのレコメンデーションは、匿名セッションデータを利用して、ユーザの注目とターゲットユーザの完全な履歴行動データが利用できないという条件の下で高品質なレコメンデーションを提供する。 以前の作品は各セッションを個別に考慮し、セッション内のユーザーの興味を捉えようとする。 奨励的な結果にもかかわらず、これらのモデルはセッション内アイテムしか認識できず、巨大な歴史的な関係情報を引き出すことができない。 そこで本稿では,g$^3$sr (global graph guided session-based recommendation) という新しい手法を提案する。 G$^3$SRはセッションベースのレコメンデーションワークフローを2つのステップに分解する。 まず、グローバルグラフはすべてのセッションデータに基づいて構築され、そこからグローバルアイテム表現が教師なしの方法で学習される。 次に、これらの表現をグラフネットワーク下のセッショングラフ上で洗練し、セッション毎にセッション表現を生成するために読み取り関数を使用する。 2つの実世界のベンチマークデータセットに対する大規模な実験は、特に寒冷品について、最先端の手法よりもG$^3$SR法の顕著で一貫した改善を示している。

Session-based recommendation tries to make use of anonymous session data to deliver high-quality recommendation under the condition that user-profiles and the complete historical behavioral data of a target user are unavailable. Previous works consider each session individually and try to capture user interests within a session. Despite their encouraging results, these models can only perceive intra-session items and cannot draw upon the massive historical relational information. To solve this problem, we propose a novel method named G$^3$SR (Global Graph Guided Session-based Recommendation). G$^3$SR decomposes the session-based recommendation workflow into two steps. First, a global graph is built upon all session data, from which the global item representations are learned in an unsupervised manner. Then, these representations are refined on session graphs under the graph networks, and a readout function is used to generate session representations for each session. Extensive experiments on two real-world benchmark datasets show remarkable and consistent improvements of the G$^3$SR method over the state-of-the-art methods, especially for cold items.
翻訳日:2022-03-15 14:17:02 公開日:2022-03-12
# 対人学習による平等な機会フェアネスを目指して

Towards Equal Opportunity Fairness through Adversarial Learning ( http://arxiv.org/abs/2203.06317v1 )

ライセンス: Link先を確認
Xudong Han, Timothy Baldwin, Trevor Cohn(参考訳) 逆行訓練は、自然言語処理におけるバイアス緩和の一般的なアプローチである。 デバイアスに関するほとんどの作業は平等な機会によって動機づけられているが、標準的な敵の訓練では明確に捉えられていない。 本稿では,よりリッチな特徴を生み出すために対象クラスを入力とし,より明確な機会のモデル化を行う,対人訓練のための拡張判別器を提案する。 2つのデータセットに対する実験結果から,本手法は性能-公正トレードオフの観点から,標準的な逆偏差法よりも大幅に改善されていることが示された。

Adversarial training is a common approach for bias mitigation in natural language processing. Although most work on debiasing is motivated by equal opportunity, it is not explicitly captured in standard adversarial training. In this paper, we propose an augmented discriminator for adversarial training, which takes the target class as input to create richer features and more explicitly model equal opportunity. Experimental results over two datasets show that our method substantially improves over standard adversarial debiasing methods, in terms of the performance--fairnes s trade-off.
翻訳日:2022-03-15 14:12:47 公開日:2022-03-12
# 包括的質問を読むのはなぜ難しいのか?

What Makes Reading Comprehension Questions Difficult? ( http://arxiv.org/abs/2203.06342v1 )

ライセンス: Link先を確認
Saku Sugawara, Nikita Nangia, Alex Warstadt, Samuel R. Bowman(参考訳) 自然言語理解ベンチマークが研究に有用であるためには、現在および近未来のシステム間で識別できるほど多様で難しい例で構成されなければならない。 しかし,テキストソースを選択して,さまざまな難解なサンプルを収集する方法はまだ分かっていない。 そこで本研究では,7つの定性的な資料から抽出した文の読み理解質問をクラウドソースし,収集した例の難易度と質問タイプにどのような寄与があるかを分析した。 驚いたことに、パスソース、長さ、可読性は質問の難易度に大きく影響しない。 7つの推論型を手作業で注釈することで,論理的な推論がより必要となるような,解釈元と推論型の間のいくつかの傾向を観察する。 これらの結果は、新しいベンチマークデータセットを作成する際に、さまざまなパスを選択することで、さまざまなタイプの質問を確実にすることができることを示唆している。

For a natural language understanding benchmark to be useful in research, it has to consist of examples that are diverse and difficult enough to discriminate among current and near-future state-of-the-art systems. However, we do not yet know how best to select text sources to collect a variety of challenging examples. In this study, we crowdsource multiple-choice reading comprehension questions for passages taken from seven qualitatively distinct sources, analyzing what attributes of passages contribute to the difficulty and question types of the collected examples. To our surprise, we find that passage source, length, and readability measures do not significantly affect question difficulty. Through our manual annotation of seven reasoning types, we observe several trends between passage sources and reasoning types, e.g., logical reasoning is more often required in questions written for technical passages. These results suggest that when creating a new benchmark dataset, selecting a diverse set of passages can help ensure a diverse range of question types, but that passage difficulty need not be a priority.
翻訳日:2022-03-15 14:12:37 公開日:2022-03-12
# いつ そんなに賢く 賢くなったの? マルチモーダル多人数対話におけるSarcasm説明

When did you become so smart, oh wise one?! Sarcasm Explanation in Multi-modal Multi-party Dialogues ( http://arxiv.org/abs/2203.06419v1 )

ライセンス: Link先を確認
Shivani Kumar, Atharva Kulkarni, Md Shad Akhtar, Tanmoy Chakraborty(参考訳) サルカズムのような間接的な発話は、人間のコミュニケーションにおける言論目標の集合を成す。 比喩的言語の間接性は、話者に特定の実用目標を達成するよう保証するが、AIエージェントがこのような人間のコミュニケーションの慣用性を理解することは困難である。 sarcasmの同定は対話分析においてよく研究されているトピックであるが、会話システムが会話の本来の意味を真に把握し、適切な応答を生成するためには、単にsarcasmを検出するだけでは十分ではない。 本研究では,皮肉会話の談話構造について検討し,対話におけるサルカズム説明(sed)という新しいタスクを提案する。 マルチモーダルでコードミキシングされた設定で設定されたタスクは、風刺会話の自然言語説明を生成することを目的としている。 この目的のために、タスクをサポートする新しいデータセットであるWITSをキュレートします。 我々は、マルチモーダルなコンテキスト認識とグローバル情報融合モジュールであるMAF(Modality Aware Fusion)を提案し、それをWITSのベンチマークに利用する。 提案するアテンションモジュールは,従来のマルチモーダル融合ベースラインを上回り,ほぼすべてのメトリクスで最高のパフォーマンスを報告している。 最後に,定量的かつ定性的に詳細な分析を行う。

Indirect speech such as sarcasm achieves a constellation of discourse goals in human communication. While the indirectness of figurative language warrants speakers to achieve certain pragmatic goals, it is challenging for AI agents to comprehend such idiosyncrasies of human communication. Though sarcasm identification has been a well-explored topic in dialogue analysis, for conversational systems to truly grasp a conversation's innate meaning and generate appropriate responses, simply detecting sarcasm is not enough; it is vital to explain its underlying sarcastic connotation to capture its true essence. In this work, we study the discourse structure of sarcastic conversations and propose a novel task - Sarcasm Explanation in Dialogue (SED). Set in a multimodal and code-mixed setting, the task aims to generate natural language explanations of satirical conversations. To this end, we curate WITS, a new dataset to support our task. We propose MAF (Modality Aware Fusion), a multimodal context-aware attention and global information fusion module to capture multimodality and use it to benchmark WITS. The proposed attention module surpasses the traditional multimodal fusion baselines and reports the best performance on almost all metrics. Lastly, we carry out detailed analyses both quantitatively and qualitatively.
翻訳日:2022-03-15 14:12:18 公開日:2022-03-12
# PillarGrid:3次元物体検出のためのディープラーニングによる協調認識

PillarGrid: Deep Learning-based Cooperative Perception for 3D Object Detection from Onboard-Roadside LiDAR ( http://arxiv.org/abs/2203.06319v1 )

ライセンス: Link先を確認
Zhengwei Bai, Guoyuan Wu, Matthew J. Barth, Yongkang Liu, Akin Sisbot, Kentaro Oguchi(参考訳) 3次元物体検出は、安全、移動性、持続可能性の観点から、現代交通システムのボトルネックを解き放つ重要な鍵である、自律運転を可能にする上で、基本的な役割を果たす。 点雲からのSOTA(State-of-the-ar t)オブジェクト検出法のほとんどは、特に密集した交通シナリオにおいて、その範囲と閉塞によって必然的に性能が制限される単一搭載LiDARに基づいて開発されている。 本稿では,コネクテッド・オートマチック・カー(CAV)の状況認識を高めるために,複数の3次元LiDAR(車載および道路側の両方)からの情報を利用した新しい協調認識手法である「textit{PillarGrid}」を提案する。 pillargridは4つの主要なフェーズからなる。 1)点雲の協調前処理, 2)柱回りボクセル化と特徴抽出 3)複数のセンサの特徴のグリッドワイドな融合、及び 4)畳み込みニューラルネットワーク(CNN)を用いた3次元物体検出。 モデルトレーニングとテストのための新しい協調認識プラットフォームを開発した。 広汎な実験により、PillarGridはSOTA単一LiDARに基づく3Dオブジェクト検出法よりも精度と範囲を大きなマージンで上回ることがわかった。

3D object detection plays a fundamental role in enabling autonomous driving, which is regarded as the significant key to unlocking the bottleneck of contemporary transportation systems from the perspectives of safety, mobility, and sustainability. Most of the state-of-the-art (SOTA) object detection methods from point clouds are developed based on a single onboard LiDAR, whose performance will be inevitably limited by the range and occlusion, especially in dense traffic scenarios. In this paper, we propose \textit{PillarGrid}, a novel cooperative perception method fusing information from multiple 3D LiDARs (both on-board and roadside), to enhance the situation awareness for connected and automated vehicles (CAVs). PillarGrid consists of four main phases: 1) cooperative preprocessing of point clouds, 2) pillar-wise voxelization and feature extraction, 3) grid-wise deep fusion of features from multiple sensors, and 4) convolutional neural network (CNN)-based augmented 3D object detection. A novel cooperative perception platform is developed for model training and testing. Extensive experimentation shows that PillarGrid outperforms the SOTA single-LiDAR-based 3D object detection methods with respect to both accuracy and range by a large margin.
翻訳日:2022-03-15 14:09:23 公開日:2022-03-12
# wavelet knowledge distillation:効率的な画像から画像への変換に向けて

Wavelet Knowledge Distillation: Towards Efficient Image-to-Image Translation ( http://arxiv.org/abs/2203.06321v1 )

ライセンス: Link先を確認
Linfeng Zhang, Xin Chen, Xiaobing Tu, Pengfei Wan, Ning Xu, Kaisheng Ma(参考訳) 画像と画像の翻訳において、GAN(Generative Adversarial Networks)で注目すべき成果が得られた。 しかし、非常に多くのパラメータがあるため、最先端のGANは通常、低効率とバルクメモリの使用に悩まされる。 この課題に対処するために、まず、周波数の観点からGANの性能について検討する。 その結果, GAN, 特に小型 GAN は高品質な高周波情報を生成できないことがわかった。 そこで本研究では,ウェーブレット知識蒸留と呼ばれる新しい知識蒸留法を提案する。 教師が生成した画像を直接蒸留する代わりに、ウェーブレット知識蒸留はまず個々のウェーブレット変換で異なる周波数帯域に分解し、次に高周波帯域のみを蒸留する。 その結果、学生ganは高周波帯域での学習により多くの注意を払うことができる。 実験の結果,CycleGANの圧縮は7.08倍,アクセラレーションは6.80倍となり,性能低下はほとんどなかった。 さらに, 識別器と生成器の関係について検討し, 識別器の圧縮が圧縮発生器の性能を促進できることを示した。

Remarkable achievements have been attained with Generative Adversarial Networks (GANs) in image-to-image translation. However, due to a tremendous amount of parameters, state-of-the-art GANs usually suffer from low efficiency and bulky memory usage. To tackle this challenge, firstly, this paper investigates GANs performance from a frequency perspective. The results show that GANs, especially small GANs lack the ability to generate high-quality high frequency information. To address this problem, we propose a novel knowledge distillation method referred to as wavelet knowledge distillation. Instead of directly distilling the generated images of teachers, wavelet knowledge distillation first decomposes the images into different frequency bands with discrete wavelet transformation and then only distills the high frequency bands. As a result, the student GAN can pay more attention to its learning on high frequency bands. Experiments demonstrate that our method leads to 7.08 times compression and 6.80 times acceleration on CycleGAN with almost no performance drop. Additionally, we have studied the relation between discriminators and generators which shows that the compression of discriminators can promote the performance of compressed generators.
翻訳日:2022-03-15 14:09:01 公開日:2022-03-12
# ハイクオリティデータはすべて必要か?」研究への一提案

A Proposal to Study "Is High Quality Data All We Need?" ( http://arxiv.org/abs/2203.06404v1 )

ライセンス: Link先を確認
Swaroop Mishra and Anjana Arunkumar(参考訳) ディープニューラルモデルは、多くの人気のあるベンチマークで超人的性能を達成したが、OODや敵対的なデータセットへの一般化には失敗した。 従来の堅牢性向上を目的としたアプローチとしては,大規模モデルの開発や大規模データセットの拡張などがある。 しかし、これらの傾向に直交して、より小さく高品質なデータセットが必要とされるものであると仮定する。 我々の仮説は、ディープニューラルネットワークがデータ駆動モデルであり、データがリード/ミスリードモデルであるという事実に基づいている。 本研究では,モデルが効果的に学習できるように,高品質なベンチマークデータのサブセットを選択・作成する方法を検証した経験的研究を行う。 私たちは、タスクを学ぶためにbig datasetが本当に必要か、高品質なデータの小さなサブセットがbig datasetを置き換えることができるか、という疑問に答えたいと考えています。 我々は,高品質なデータセットを生成するために,データプルーニングとデータ生成パラダイムの両方を検討する。

Even though deep neural models have achieved superhuman performance on many popular benchmarks, they have failed to generalize to OOD or adversarial datasets. Conventional approaches aimed at increasing robustness include developing increasingly large models and augmentation with large scale datasets. However, orthogonal to these trends, we hypothesize that a smaller, high quality dataset is what we need. Our hypothesis is based on the fact that deep neural networks are data driven models, and data is what leads/misleads models. In this work, we propose an empirical study that examines how to select a subset of and/or create high quality benchmark data, for a model to learn effectively. We seek to answer if big datasets are truly needed to learn a task, and whether a smaller subset of high quality data can replace big datasets. We plan to investigate both data pruning and data creation paradigms to generate high quality datasets.
翻訳日:2022-03-15 14:07:44 公開日:2022-03-12
# カーネル化帯域のインスタンス依存レグレト解析

Instance-Dependent Regret Analysis of Kernelized Bandits ( http://arxiv.org/abs/2203.06297v1 )

ライセンス: Link先を確認
Shubhanshu Shekhar, Tara Javidi(参考訳) 我々は,無名の関数$f$ のオプティマイザを再生カーネル hilbert space~(rkhs) において$m<\infty$ で有界なノルムで効率的に学習するために,ノイズの多いゼロ次oracle に問い合わせる適応戦略を設計することを含む,カーネル化されたバンドイット問題について検討する。 以前の結果は \emph{minimax framework} で動作し、(問題クラスのすべての関数よりも)最悪の場合を、 \emph{any} アルゴリズムによって達成可能な後悔の限界に特徴付け、(モジュロ多対数因子) カーネルファミリーの最悪の場合のパフォーマンスをマッチングするアルゴリズムを構築した。 これらの結果には2つの欠点がある。 第一に、ミニマックスの下限は、特定の問題インスタンスでよく使われるアルゴリズムによって達成される後悔の限界に関する情報を与えない。 第二に、その最悪の性質のため、既存の上限解析は関数クラス内のより簡単な問題インスタンスに適応できない。 私たちの仕事はこれらの問題に対処するためのステップを踏む。 まず、正規化された累積的後悔を解消する(関数クラス上)アルゴリズムに対する「emph{instance-dependent} regret lower bounds」を導出する。 その結果,GP-UCB,GP-TS,SupKer nelUCBなどの実効的なカーネル化バンディットアルゴリズムに有効であり,すべての問題インスタンスに関連する基本的な複雑性尺度を同定した。 次に,問題インスタンスにも適応する新しいminimaxニアオプティマイズアルゴリズムを提案することで,第2の課題に対処した。

We study the kernelized bandit problem, that involves designing an adaptive strategy for querying a noisy zeroth-order-oracle to efficiently learn about the optimizer of an unknown function $f$ with a norm bounded by $M<\infty$ in a Reproducing Kernel Hilbert Space~(RKHS) associated with a positive definite kernel $K$. Prior results, working in a \emph{minimax framework}, have characterized the worst-case~(over all functions in the problem class) limits on regret achievable by \emph{any} algorithm, and have constructed algorithms with matching~(modulo polylogarithmic factors) worst-case performance for the \matern family of kernels. These results suffer from two drawbacks. First, the minimax lower bound gives no information about the limits of regret achievable by the commonly used algorithms on specific problem instances. Second, due to their worst-case nature, the existing upper bound analysis fails to adapt to easier problem instances within the function class. Our work takes steps to address both these issues. First, we derive \emph{instance-dependent} regret lower bounds for algorithms with uniformly~(over the function class) vanishing normalized cumulative regret. Our result, valid for all the practically relevant kernelized bandits algorithms, such as, GP-UCB, GP-TS and SupKernelUCB, identifies a fundamental complexity measure associated with every problem instance. We then address the second issue, by proposing a new minimax near-optimal algorithm which also adapts to easier problem instances.
翻訳日:2022-03-15 14:02:30 公開日:2022-03-12
# サイクルティーチングによる半教師付きエンティティアライメント

Ensemble Semi-supervised Entity Alignment via Cycle-teaching ( http://arxiv.org/abs/2203.06308v1 )

ライセンス: Link先を確認
Kexuan Xin, Zequn Sun, Wen Hua, Bing Liu, Wei Hu, Jianfeng Qu, Xiaofang Zhou(参考訳) エンティティアライメントは、異なる知識グラフで同一のエンティティを見つけることである。 組み込みベースのエンティティアライメントは近年、著しい進歩を遂げているが、トレーニングデータ不足は依然として重要な課題である。 従来の半教師付き手法は、新しく提案されたトレーニングデータにおいて誤りなエンティティアライメントに苦しんでいる。 これらの問題を解決するため、半教師付きエンティティアライメントのための反復的サイクル学習フレームワークを設計する。 重要なアイデアは、複数のエンティティアライメントモデル(アライナと呼ばれる)を同時にトレーニングし、各アライナに新しいエンティティアライメントの提案を反復的に教えることだ。 本稿では,各アライナーに対して信頼性の高いエンティティアライメントを選択するための多様性対応アライメント選択手法を提案する。 また、アライメント器の新しいアライメントと教師のアライメントを組み合わせる際に、アライメント競合を解決するためのコンフリクト解決機構を設計する。 さらに,サイクル学習順序の影響を考慮し,複数の調整器の全体的な性能を最大化できる最適な順序を調整するための戦略を精巧に設計する。 サイクルティーチングプロセスは、各モデルの学習能力の制限を破り、新しいトレーニングデータのノイズを低減し、パフォーマンスを向上させることができる。 ベンチマークデータセットに対する大規模な実験は、トレーニングデータが不十分で新しいエンティティアライメントがノイズが大きい場合に、最先端モデルよりも大幅に優れたサイクル学習フレームワークの有効性を示す。

Entity alignment is to find identical entities in different knowledge graphs. Although embedding-based entity alignment has recently achieved remarkable progress, training data insufficiency remains a critical challenge. Conventional semi-supervised methods also suffer from the incorrect entity alignment in newly proposed training data. To resolve these issues, we design an iterative cycle-teaching framework for semi-supervised entity alignment. The key idea is to train multiple entity alignment models (called aligners) simultaneously and let each aligner iteratively teach its successor the proposed new entity alignment. We propose a diversity-aware alignment selection method to choose reliable entity alignment for each aligner. We also design a conflict resolution mechanism to resolve the alignment conflict when combining the new alignment of an aligner and that from its teacher. Besides, considering the influence of cycle-teaching order, we elaborately design a strategy to arrange the optimal order that can maximize the overall performance of multiple aligners. The cycle-teaching process can break the limitations of each model's learning capability and reduce the noise in new training data, leading to improved performance. Extensive experiments on benchmark datasets demonstrate the effectiveness of the proposed cycle-teaching framework, which significantly outperforms the state-of-the-art models when the training data is insufficient and the new entity alignment has much noise.
翻訳日:2022-03-15 13:20:26 公開日:2022-03-12
# ELLE: 新興データのための効率的な生涯事前トレーニング

ELLE: Efficient Lifelong Pre-training for Emerging Data ( http://arxiv.org/abs/2203.06311v1 )

ライセンス: Link先を確認
Yujia Qin, Jiajie Zhang, Yankai Lin, Zhiyuan Liu, Peng Li, Maosong Sun, Jie Zhou(参考訳) 現在の訓練済み言語モデル(PLM)は、静的なデータでトレーニングされるが、現実のシナリオでは、様々なソースのストリーミングデータが継続的に成長する可能性がある。 このためにplmは、すべてのソースからの情報を生涯にわたって統合する必要がある。 この目標は、既存のすべてのデータに対する徹底的な事前トレーニングによって達成できるが、計算コストが高いことが知られている。 そこで本稿では,新興データに対する生涯学習の効率化を目的としたelleを提案する。 具体的には,(1)既存のPLMの幅と深さを柔軟に拡大して知識獲得の効率を向上する機能保持モデル展開と,(2)事前学習時に学習した多元的知識を混乱させ,下流タスクに適切な知識を刺激する事前学習ドメインプロンプトから構成される。 ELLEをBERTとGPTの5領域からのデータストリーミングで実験する。 その結果,ELLEは学習前学習効率と下流学習性能の両方において,生涯学習ベースラインよりも優れていた。 コードはhttps://github.com/t hunlp/ELLEで公開されている。

Current pre-trained language models (PLM) are typically trained with static data, ignoring that in real-world scenarios, streaming data of various sources may continuously grow. This requires PLMs to integrate the information from all the sources in a lifelong manner. Although this goal could be achieved by exhaustive pre-training on all the existing data, such a process is known to be computationally expensive. To this end, we propose ELLE, aiming at efficient lifelong pre-training for emerging data. Specifically, ELLE consists of (1) function preserved model expansion, which flexibly expands an existing PLM's width and depth to improve the efficiency of knowledge acquisition; and (2) pre-trained domain prompts, which disentangle the versatile knowledge learned during pre-training and stimulate the proper knowledge for downstream tasks. We experiment ELLE with streaming data from 5 domains on BERT and GPT. The results show the superiority of ELLE over various lifelong learning baselines in both pre-training efficiency and downstream performances. The codes are publicly available at https://github.com/t hunlp/ELLE.
翻訳日:2022-03-15 13:20:02 公開日:2022-03-12
# 公共データセットに応用したコンピュータビジョンによる駐車場管理に関するシステムレビュー

A Systematic Review on Computer Vision-Based Parking Lot Management Applied on Public Datasets ( http://arxiv.org/abs/2203.06463v1 )

ライセンス: Link先を確認
Paulo Ricardo Lisboa de Almeida, Jeovane Hon\'orio Alves, Rafael Stubs Parpinelli and Jean Paul Barddal(参考訳) コンピュータビジョンに基づく駐車場管理手法は,その柔軟性と費用対効果から広く研究されてきた。 このような手法を評価するために、著者は一般に利用可能な駐車場画像データセットを使用することが多い。 本研究では,パーキングロット管理のためのコンピュータビジョンベースの手法をテストするために特別に開発されたロバストな画像データセットを調査し,比較し,このようなデータセットを用いた既存作品の体系的かつ包括的なレビューを行った。 文献レビューは、データセット非依存のアプローチや駐車スペースの位置の自律的検出に適した方法など、さらなる研究を必要とする関連するギャップを特定した。 また,連続画像にまたがる同一車両の存在など,いくつかの重要な要因が多くの研究で無視されている点に気付き,非現実的な評価プロトコルが作成されている。 さらに,データ分析の結果,夜間や雪など,より多様な条件下で撮影された映像や映像の入手など,新しいベンチマークの開発に必要となる特定の特徴が組み込まれていないことが明らかとなった。

Computer vision-based parking lot management methods have been extensively researched upon owing to their flexibility and cost-effectiveness. To evaluate such methods authors often employ publicly available parking lot image datasets. In this study, we surveyed and compared robust publicly available image datasets specifically crafted to test computer vision-based methods for parking lot management approaches and consequently present a systematic and comprehensive review of existing works that employ such datasets. The literature review identified relevant gaps that require further research, such as the requirement of dataset-independent approaches and methods suitable for autonomous detection of position of parking spaces. In addition, we have noticed that several important factors such as the presence of the same cars across consecutive images, have been neglected in most studies, thereby rendering unrealistic assessment protocols. Furthermore, the analysis of the datasets also revealed that certain features that should be present when developing new benchmarks, such as the availability of video sequences and images taken in more diverse conditions, including nighttime and snow, have not been incorporated.
翻訳日:2022-03-15 13:02:36 公開日:2022-03-12
# 複素ネットワークの深い表現に対する幾何学的および位相的推論

Geometric and Topological Inference for Deep Representations of Complex Networks ( http://arxiv.org/abs/2203.05488v2 )

ライセンス: Link先を確認
Baihan Lin(参考訳) 複雑なネットワークの深い表現を理解することは、インターネット時代に解釈可能で信頼できる機械学習アプリケーションを構築するための重要なステップである。 ブラックボックスモデル(例えば人工または生物学的ニューラルネットワーク)の予測を近似するグローバルサロゲートモデルは通常、モデル解釈可能性に関する貴重な理論的洞察を提供するために使用される。 代理モデルが他のモデルでの表現をどの程度うまく説明できるかを評価するためには,モデル比較のための推論手法を開発する必要がある。 これまでの研究では、モデルと脳を、その表現的ジオメトリ(モデル層または皮質領域における入力パターンの表現間の距離の行列によって特徴づけられる)で比較してきた。 本研究では、トポロジと表現の幾何学を重視したより広範な統計のクラスの一部として、モデルと脳における表現の統計的記述を概説する。 トポロジカルサマリー統計は、トポロジカルデータ分析(tda)やその他のグラフベースの手法に基づいている。 我々は、モデル選択に使用する感度と特異性の観点からこれらの統計を評価し、異なるニューラルネットワークモデルを相互に関連付け、ブラックボックス表現を最も考慮すべき計算機構について推測することを目的としている。 これらの新しい手法により、脳とコンピュータ科学者は、脳とモデルによって学習された動的表現変換を可視化し、モデル比較統計推論を行うことができる。

Understanding the deep representations of complex networks is an important step of building interpretable and trustworthy machine learning applications in the age of internet. Global surrogate models that approximate the predictions of a black box model (e.g. an artificial or biological neural net) are usually used to provide valuable theoretical insights for the model interpretability. In order to evaluate how well a surrogate model can account for the representation in another model, we need to develop inference methods for model comparison. Previous studies have compared models and brains in terms of their representational geometries (characterized by the matrix of distances between representations of the input patterns in a model layer or cortical area). In this study, we propose to explore these summary statistical descriptions of representations in models and brains as part of a broader class of statistics that emphasize the topology as well as the geometry of representations. The topological summary statistics build on topological data analysis (TDA) and other graph-based methods. We evaluate these statistics in terms of the sensitivity and specificity that they afford when used for model selection, with the goal to relate different neural network models to each other and to make inferences about the computational mechanism that might best account for a black box representation. These new methods enable brain and computer scientists to visualize the dynamic representational transformations learned by brains and models, and to perform model-comparative statistical inference.
翻訳日:2022-03-15 11:24:05 公開日:2022-03-12
# SoftSNN: ソフトエラー下でのスパイクニューラルネットワーク加速器の低コストフォールトトレランス

SoftSNN: Low-Cost Fault Tolerance for Spiking Neural Network Accelerators under Soft Errors ( http://arxiv.org/abs/2203.05523v2 )

ライセンス: Link先を確認
Rachmad Vidya Wicaksana Putra, Muhammad Abdullah Hanif, Muhammad Shafique(参考訳) 特殊なハードウェアアクセラレータが設計され、スパイキングニューラルネットワーク(snn)の性能を最大化するために使用されている。 しかし、そのような加速器は、高エネルギー粒子衝突によって生じる過渡的断層(ソフトエラー)に弱いため、ハードウェア層でビットフリップとして現れる。 これらの誤差はSNN加速器の計算エンジンの重み値とニューロン操作を変化させ、誤った出力と精度の低下をもたらす。 しかし、SNNでは、計算エンジンにおけるソフトエラーの影響と各緩和技術が十分に研究されていない。 潜在的な解決策は、正しいアウトプットを保証するために冗長な実行(再実行)を採用することですが、大きなレイテンシとエネルギーオーバーヘッドをもたらします。 そこで本研究では,SNNアクセラレータの重みレジスタ(シナプス)とニューロンのソフトエラーを再実行することなく軽減し,低レイテンシとエネルギーオーバーヘッドで精度を維持する手法であるSoftSNNを提案する。 Our SoftSNN methodology employs the following key steps: (1) analyzing the SNN characteristics under soft errors to identify faulty weights and neuron operations, which are required for recognizing faulty SNN behavior; (2) a Bound-and-Protect technique that leverages this analysis to improve the SNN fault tolerance by bounding the weight values and protecting the neurons from faulty operations; and (3) devising lightweight hardware enhancements for the neural hardware accelerator to efficiently support the proposed technique. 実験の結果,高い故障率をもった900ニューロンネットワークの場合,SoftSNNは3%未満の精度低下を維持しつつ,それぞれ3倍,2.3倍の遅延とエネルギー削減を実現していることがわかった。

Specialized hardware accelerators have been designed and employed to maximize the performance efficiency of Spiking Neural Networks (SNNs). However, such accelerators are vulnerable to transient faults (i.e., soft errors), which occur due to high-energy particle strikes, and manifest as bit flips at the hardware layer. These errors can change the weight values and neuron operations in the compute engine of SNN accelerators, thereby leading to incorrect outputs and accuracy degradation. However, the impact of soft errors in the compute engine and the respective mitigation techniques have not been thoroughly studied yet for SNNs. A potential solution is employing redundant executions (re-execution) for ensuring correct outputs, but it leads to huge latency and energy overheads. Toward this, we propose SoftSNN, a novel methodology to mitigate soft errors in the weight registers (synapses) and neurons of SNN accelerators without re-execution, thereby maintaining the accuracy with low latency and energy overheads. Our SoftSNN methodology employs the following key steps: (1) analyzing the SNN characteristics under soft errors to identify faulty weights and neuron operations, which are required for recognizing faulty SNN behavior; (2) a Bound-and-Protect technique that leverages this analysis to improve the SNN fault tolerance by bounding the weight values and protecting the neurons from faulty operations; and (3) devising lightweight hardware enhancements for the neural hardware accelerator to efficiently support the proposed technique. The experimental results show that, for a 900-neuron network with even a high fault rate, our SoftSNN maintains the accuracy degradation below 3%, while reducing latency and energy by up to 3x and 2.3x respectively, as compared to the re-execution technique.
翻訳日:2022-03-15 11:23:43 公開日:2022-03-12