このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220331となっている論文です。

PDF登録状況(公開日: 20220331)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 生物にインスパイアされた設計のための生成予習変圧器 [全文訳有]

Generative Pre-Trained Transformers for Biologically Inspired Design ( http://arxiv.org/abs/2204.09714v1 )

ライセンス: CC BY 4.0
Qihao Zhu, Xinyu Zhang, Jianxi Luo(参考訳) 自然界の生物システムは環境に適応し生き残るために何百万年も進化してきた。 彼らが開発した多くの機能は、現代の産業における技術的な問題を解決するのにインスピレーションを与え、有益である。 これにより、バイオインスパイアド・デザイン(BID)と呼ばれる新しいデザイン・バイ・アナロジーが生まれる。 設計手法としてのBIDは有用であることが証明されているが、生物学と工学のギャップは設計者が効果的に適用するのを継続的に妨げている。 そこで我々は,このギャップを埋めるための計算手法として,人工知能(AI)の最近の進歩を探求する。 本稿では,事前学習型言語モデル(plm)に基づく生成的設計手法を提案する。 最新の生成前訓練トランスであるGPT-3がベースPLMとして使用されている。 問題空間表現のゆるさに応じて、3種類の設計概念生成器をPLMから同定し、微調整する。 マシン評価器は、生成されたBID概念内のドメイン間の相関を評価するために微調整される。 このアプローチは、自然にインスパイアされた軽量の空飛ぶ車の概念の生成と評価に微調整モデルを適用するケーススタディによってテストされる。 提案手法は,BIDの概念を優れた性能で生成できることを示す。

Biological systems in nature have evolved for millions of years to adapt and survive the environment. Many features they developed can be inspirational and beneficial for solving technical problems in modern industries. This leads to a novel form of design-by-analogy called bio-inspired design (BID). Although BID as a design method has been proven beneficial, the gap between biology and engineering continuously hinders designers from effectively applying the method. Therefore, we explore the recent advance of artificial intelligence (AI) for a computational approach to bridge the gap. This paper proposes a generative design approach based on the pre-trained language model (PLM) to automatically retrieve and map biological analogy and generate BID in the form of natural language. The latest generative pre-trained transformer, namely GPT-3, is used as the base PLM. Three types of design concept generators are identified and fine-tuned from the PLM according to the looseness of the problem space representation. Machine evaluators are also fine-tuned to assess the correlation between the domains within the generated BID concepts. The approach is then tested via a case study in which the fine-tuned models are applied to generate and evaluate light-weighted flying car concepts inspired by nature. The results show our approach can generate BID concepts with good performance.
翻訳日:2022-04-24 23:45:19 公開日:2022-03-31
# クロスデバイスフェデレーション学習における言語モデルサイズのスケーリング

Scaling Language Model Size in Cross-Device Federated Learning ( http://arxiv.org/abs/2204.09715v1 )

ライセンス: Link先を確認
Jae Hun Ro, Theresa Breiner, Lara McConnaughey, Mingqing Chen, Ananda Theertha Suresh, Shankar Kumar, Rajiv Mathews(参考訳) クロスデバイスフェデレーション学習のほとんどの研究は、サーバ-クライアント通信とオンデバイス計算のボトルネックのため、小さなモデルに焦点を当てている。 本研究では,これらのボトルネックを緩和するために様々な手法を活用し,クロスデバイスフェデレーション学習における大規模言語モデルのトレーニングを行う。 部分的モデルトレーニング、量子化、効率的な転送学習、通信効率の最適化といった体系的な応用により、文献でよく研究される小さなLSTMよりも小さいクライアント・サーバ間通信コストが$\sim10\times$11\%低いLSTMと同規模のLSTMと同じ難易度を実現する21ドルパラメータ変換器を訓練することができる。

Most studies in cross-device federated learning focus on small models, due to the server-client communication and on-device computation bottlenecks. In this work, we leverage various techniques for mitigating these bottlenecks to train larger language models in cross-device federated learning. With systematic applications of partial model training, quantization, efficient transfer learning, and communication-effici ent optimizers, we are able to train a $21$M parameter Transformer that achieves the same perplexity as that of a similarly sized LSTM with $\sim10\times$ smaller client-to-server communication cost and $11\%$ lower perplexity than smaller LSTMs commonly studied in literature.
翻訳日:2022-04-24 16:47:14 公開日:2022-03-31
# tropetwist: tropeベースの物語構造生成

TropeTwist: Trope-based Narrative Structure Generation ( http://arxiv.org/abs/2204.09672v1 )

ライセンス: Link先を確認
Alberto Alvarez, Jose Font(参考訳) ゲームは複雑で多面的なシステムであり、ヒーローと大きな悪い敵の対立や、克服すべき目標を追求するなど、共通の要素や基礎となる物語を共有する。 しかしながら、これらの要素の識別と記述は、特定の特性やプレイヤーが物語にどのように遭遇するかによって異なるため、非自明である。 同様に、物語の生成もエンコーディング、解釈、分析、評価において困難を伴う。 そこで本研究では,ゲーム内の物語構造をより抽象的かつ汎用的なレベルで記述し,ゲームの物語構造とその生成を相互に関連付けたトロペトウィスト(tropetwist)システムであるナラティブグラフ(narrative graphs)を提案する。 このシステムを示すために、3つの異なるゲームの物語構造を示す。 我々はMAP-Elitesを用いて,これら3つの手作りの物語構造をターゲットとして,グラフ文法として符号化された新しい品質多元グラフを作成し,評価する。 手作りの物語グラフと生成された物語グラフは、進化を通じて改善されたコヒーレンスと面白さに基づいて評価される。

Games are complex, multi-faceted systems that share common elements and underlying narratives, such as the conflict between a hero and a big bad enemy or pursuing some goal that requires overcoming challenges. However, identifying and describing these elements together is non-trivial as they might differ in certain properties and how players might encounter the narratives. Likewise, generating narratives also pose difficulties when encoding, interpreting, analyzing, and evaluating them. To address this, we present TropeTwist, a trope-based system that can describe narrative structures in games in a more abstract and generic level, allowing the definition of games' narrative structures and their generation using interconnected tropes, called narrative graphs. To demonstrate the system, we represent the narrative structure of three different games. We use MAP-Elites to generate and evaluate novel quality-diverse narrative graphs encoded as graph grammars, using these three hand-made narrative structures as targets. Both hand-made and generated narrative graphs are evaluated based on their coherence and interestingness, which are improved through evolution.
翻訳日:2022-04-24 16:44:01 公開日:2022-03-31
# (参考訳) プライバシー保全型ディープラーニングモデルのためのピクセルベース暗号化法 [全文訳有]

A Pixel-based Encryption Method for Privacy-Preserving Deep Learning Models ( http://arxiv.org/abs/2203.16780v1 )

ライセンス: CC BY 4.0
Ijaz Ahmad and Seokjoo Shin(参考訳) 近年,プライバシ保護型ディープラーニング(DL)ベースのアプリケーションにおいて,ピクセルベースの知覚アルゴリズムが成功している。 しかし、それらのセキュリティは、選択された平文攻撃を示すことで、その後の作業で破壊されている。 本稿では,効率的な画素ベース知覚暗号法を提案する。 この方法は、原画像の固有の特性を保ちながら、必要なレベルのセキュリティを提供する。 これにより、暗号化ドメイン内のディープラーニング(DL)アプリケーションを可能にする。 この方法は、シャオティックマップによって生成される(既存の方法で使用される単一の値とは対照的に)シーケンスで画素値がXORされる置換である。 我々はロジスティックマップを計算要件の低さに利用してきた。 さらに、ロジスティックマップのために効率の悪さを補うために、第2のキーを使ってシーケンスをシャッフルする。 提案手法を,DLモデルの暗号化効率と分類精度の観点から比較した。 提案手法をCIFARデータセットで検証した。 解析の結果,暗号画像上で分類を行う場合,既存の手法の精度は保たれるが,セキュリティは向上することがわかった。

In the recent years, pixel-based perceptual algorithms have been successfully applied for privacy-preserving deep learning (DL) based applications. However, their security has been broken in subsequent works by demonstrating a chosen-plaintext attack. In this paper, we propose an efficient pixel-based perceptual encryption method. The method provides a necessary level of security while preserving the intrinsic properties of the original image. Thereby, can enable deep learning (DL) applications in the encryption domain. The method is substitution based where pixel values are XORed with a sequence (as opposed to a single value used in the existing methods) generated by a chaotic map. We have used logistic maps for their low computational requirements. In addition, to compensate for any inefficiency because of the logistic maps, we use a second key to shuffle the sequence. We have compared the proposed method in terms of encryption efficiency and classification accuracy of the DL models on them. We have validated the proposed method with CIFAR datasets. The analysis shows that when classification is performed on the cipher images, the model preserves accuracy of the existing methods while provides better security.
翻訳日:2022-04-10 11:53:02 公開日:2022-03-31
# グリッド正規化による文書画像のデワープ再検討

Revisiting Document Image Dewarping by Grid Regularization ( http://arxiv.org/abs/2203.16850v1 )

ライセンス: Link先を確認
Xiangwei Jiang, Rujiao Long, Nan Xue, Zhibo Yang, Cong Yao, Gui-Song Xia(参考訳) 本稿では,文書デジタル化のための文書画像の幾何学的歪みを取り除くことを目的とした文書画像デワープの問題に対処する。 入力と出力の間の光学的流れ場を近似する優れたニューラルネットワークを設計する代わりに、制約のある最適化の観点からテキスト線と文書境界を考慮に入れ、最良の可読性を追求する。 特に,提案手法では,まずテキストラインの境界点と画素を学習し,次に水平方向と垂直方向の境界線とテキスト線をデワープ後に保持し,新しいグリッド正規化方式を導入するという最も単純な観察を行う。 デワーピングのための最終フォワードマッピングを得るため,提案するグリッド正則化による最適化問題を解く。 提案手法は,利用可能なDocUNetベンチマーク上で最高の画質を維持しつつ,読みやすさ(キャラクタエラー率と編集距離の測定値)において先行技術よりも優れた性能を示すことを示す。

This paper addresses the problem of document image dewarping, which aims at eliminating the geometric distortion in document images for document digitization. Instead of designing a better neural network to approximate the optical flow fields between the inputs and outputs, we pursue the best readability by taking the text lines and the document boundaries into account from a constrained optimization perspective. Specifically, our proposed method first learns the boundary points and the pixels in the text lines and then follows the most simple observation that the boundaries and text lines in both horizontal and vertical directions should be kept after dewarping to introduce a novel grid regularization scheme. To obtain the final forward mapping for dewarping, we solve an optimization problem with our proposed grid regularization. The experiments comprehensively demonstrate that our proposed approach outperforms the prior arts by large margins in terms of readability (with the metrics of Character Errors Rate and the Edit Distance) while maintaining the best image quality on the publicly-available DocUNet benchmark.
翻訳日:2022-04-10 11:14:00 公開日:2022-03-31
# テキストからの対話情報のための事前学習言語モデルの活用

Leveraging pre-trained language models for conversational information seeking from text ( http://arxiv.org/abs/2204.03542v1 )

ライセンス: Link先を確認
Patrizio Bellan, Mauro Dragoni and Chiara Ghidini(参考訳) 自然言語処理の最近の進歩、特に、非常に大規模な事前訓練された言語表現モデルの構築は、会話情報探索(CIS)システムの構築に新たな視点を開いている。 本稿では,テキスト内学習と事前学習言語表現モデルを用いて,プロセス記述文書からの情報抽出の問題に,段階的な質問と回答指向の手法で対処する。 特に,GPT-3(Generative Pre-trained Transformer 3)モデルと,概念定義を注入する2つのコンテキスト内学習カスタマイズと,少数のショットラーニング方式による限られたサンプル数について検討する。 この結果は、ディープラーニングベースのNLP技術であるBPM分野の"トレーニングデータチャレンジ"に対処するために、アプローチの可能性と、コンテキスト内学習のカスタマイズの有用性を強調します。 また、さらなるトレーニングを考案する必要がある制御フローの関係によって生じる課題についても強調する。

Recent advances in Natural Language Processing, and in particular on the construction of very large pre-trained language representation models, is opening up new perspectives on the construction of conversational information seeking (CIS) systems. In this paper we investigate the usage of in-context learning and pre-trained language representation models to address the problem of information extraction from process description documents, in an incremental question and answering oriented fashion. In particular we investigate the usage of the native GPT-3 (Generative Pre-trained Transformer 3) model, together with two in-context learning customizations that inject conceptual definitions and a limited number of samples in a few shot-learning fashion. The results highlight the potential of the approach and the usefulness of the in-context learning customizations, which can substantially contribute to address the "training data challenge" of deep learning based NLP techniques the BPM field. It also highlight the challenge posed by control flow relations for which further training needs to be devised.
翻訳日:2022-04-10 10:36:53 公開日:2022-03-31
# (参考訳) Cria\c{c}\~ao e aplica\c{c}\~ao de ferramenta para auxiliar no ensino de algoritmos e programa\c{c}\~ao de computadores [全文訳有]

Cria\c{c}\~ao e aplica\c{c}\~ao de ferramenta para auxiliar no ensino de algoritmos e programa\c{c}\~ao de computadores ( http://arxiv.org/abs/2204.01468v1 )

ライセンス: CC BY-SA 4.0
Afonso Henriques Fontes Neto Segundo, Joel Sotero da Cunha Neto, Maria Daniela Santabaia Cavalcanti, Paulo Cirillo Souza Barbosa, Raul Fontenele Santana(参考訳) プログラミングに関する知識は、将来の専門家が必要とする知識マトリックスの一部である。 本研究の目的は,フォータレーザ大学のアルゴリズム・プログラミング科目におけるモニタリングプログラムで開発された教育ツールの開発を報告することである。 このツールは、本で得られた知識と、生徒に近い言語を組み合わせることで、提案されているビデオレッスンとエクササイズと、インターネットで利用可能なすべてのコンテンツとを組み合わせる。 予備結果は肯定的であり、学生はこの新しいアプローチを承認し、規律におけるより良いパフォーマンスに寄与できると信じた。

Knowledge about programming is part of the knowledge matrix that will be required of the professionals of the future. Based on this, this work aims to report the development of a teaching tool developed during the monitoring program of the Algorithm and Computer Programming discipline of the University of Fortaleza. The tool combines the knowledge acquired in the books, with a language closer to the students, using video lessons and exercises proposed, with all the content available on the internet. The preliminary results were positive, with the students approving this new approach and believing that it could contribute to a better performance in the discipline.
翻訳日:2022-04-08 08:26:06 公開日:2022-03-31
# (参考訳) 教師なしクラスタリングを用いた遺伝子変異予測のためのディープラーニングモデル最適化

Optimize Deep Learning Models for Prediction of Gene Mutations Using Unsupervised Clustering ( http://arxiv.org/abs/2204.01593v1 )

ライセンス: CC BY 4.0
Zihan Chen, Xingyu Li, Miaomiao Yang, Hong Zhang, Xu Steven Xu(参考訳) 深層学習は、全スライディングデジタル病理画像(WSI)の解析と解釈において主要な方法論選択となっている。 一般的に腫瘍領域は最も予測的な情報を持っていると考えられている。 本稿では,教師なしクラスタリングに基づくマルチインスタンス学習を提案し,癌ゲノムアトラス(TCGA)研究(CRC,LUAD,HNSCC)における3つのがんタイプからのWSIを用いた遺伝子変異予測のためのディープラーニングモデルを構築した。 画像パッチの教師なしクラスタリングは, 腫瘍領域のみに基づく画像パッチとモデルを選択することなく, WSI法と比較して, 予測パッチを識別し, 予測情報の欠如を排除し, 癌3種類の遺伝子変異の予測を改善することができることを示した。 さらに,提案アルゴリズムは,教師なしクラスタリングを利用してモデル予測を支援するベースラインアルゴリズムを2つ最近発表した。 突然変異予測のための教師なしクラスタリングに基づくアプローチは、解決された確率スコアを通して特定の遺伝子の突然変異に関連する空間領域を同定し、腫瘍微小環境における予測された遺伝子型の不均一性を強調する。 最後に, wsisの腫瘍領域の選択が遺伝子変異予測のためのパッチを特定する最善の方法とは限らないこと, また, 腫瘍マイクロ環境における他の組織タイプは, 腫瘍組織よりも遺伝子変異の予測能力が向上する可能性が示唆された。

Deep learning has become the mainstream methodological choice for analyzing and interpreting whole-slide digital pathology images (WSIs). It is commonly assumed that tumor regions carry most predictive information. In this paper, we proposed an unsupervised clustering-based multiple-instance learning, and apply our method to develop deep-learning models for prediction of gene mutations using WSIs from three cancer types in The Cancer Genome Atlas (TCGA) studies (CRC, LUAD, and HNSCC). We showed that unsupervised clustering of image patches could help identify predictive patches, exclude patches lack of predictive information, and therefore improve prediction on gene mutations in all three different cancer types, compared with the WSI based method without selection of image patches and models based on only tumor regions. Additionally, our proposed algorithm outperformed two recently published baseline algorithms leveraging unsupervised clustering to assist model prediction. The unsupervised-cluster ing-based approach for mutation prediction allows identification of the spatial regions related to mutation of a specific gene via the resolved probability scores, highlighting the heterogeneity of a predicted genotype in the tumor microenvironment. Finally, our study also demonstrated that selection of tumor regions of WSIs is not always the best way to identify patches for prediction of gene mutations, and other tissue types in the tumor micro-environment may provide better prediction ability for gene mutations than tumor tissues.
翻訳日:2022-04-08 08:02:16 公開日:2022-03-31
# (参考訳) ニューラルネットワークを用いたT2MRIにおけるユニバーサルリンパ節検出 [全文訳有]

Universal Lymph Node Detection in T2 MRI using Neural Networks ( http://arxiv.org/abs/2204.00622v1 )

ライセンス: CC BY 4.0
Tejas Sudharshan Mathai, Sungwon Lee, Thomas C. Shen, Zhiyong Lu and Ronald M. Summers(参考訳) 目的:T2 Magnetic Resonance Imaging (MRI) における転移を疑う腹部リンパ節の同定は, 増殖性疾患の進行に重要である。 LN検出の以前の研究は、単一のMRスライスで身体の特定の解剖学的領域(骨盤、直腸)に限られていた。 したがって,フルT2MRIボリュームにおけるLN検出の普遍的手法の開発が望まれる。 方法:本研究では,ニューラルネットワークを用いたボリュームT2 MRIの腹部LNを普遍的に同定するCADパイプラインを提案する。 まず,LNを検出するために,高速RCNN,HNEM(Hard Negative Example Mining),FCOS,FoveaBo x,VFNet,検出変換器(DETR)などのニューラルネットワークモデルを訓練した。 次に,適応トレーニングサンプル選択(ATSS)を用いた最先端(SOTA)VFNetモデルが,HNEMを用いた高速RCNNより優れていることを示す。 最後に、45%のmapしきい値を超えたモデルをアンサンブルした。 VFNetモデルとワンステージモデルアンサンブルはCADパイプラインで相互に使用できることがわかった。 結果:122回のT2 MRI実験の結果,VFNetは51.1%のmAP,78.7%のリコールを4つの偽陽性(FP)で達成し,一方,1段モデルのアンサンブルは52.3%,78.7%の感度を4FPで達成した。 結論:我々の貢献は,T2MRIボリューム中のLNを検出するCADパイプラインであり,現在のSOTA法よりも$\sim$14の感度向上を実現している(4FPでは78.7%,5FPでは64.6%)。

Purpose: Identification of abdominal Lymph Nodes (LN) that are suspicious for metastasis in T2 Magnetic Resonance Imaging (MRI) scans is critical for staging of lymphoproliferative diseases. Prior work on LN detection has been limited to specific anatomical regions of the body (pelvis, rectum) in single MR slices. Therefore, the development of a universal approach to detect LN in full T2 MRI volumes is highly desirable. Methods: In this study, a Computer Aided Detection (CAD) pipeline to universally identify abdominal LN in volumetric T2 MRI using neural networks is proposed. First, we trained various neural network models for detecting LN: Faster RCNN with and without Hard Negative Example Mining (HNEM), FCOS, FoveaBox, VFNet, and Detection Transformer (DETR). Next, we show that the state-of-the-art (SOTA) VFNet model with Adaptive Training Sample Selection (ATSS) outperforms Faster RCNN with HNEM. Finally, we ensembled models that surpassed a 45% mAP threshold. We found that the VFNet model and one-stage model ensemble can be interchangeably used in the CAD pipeline. Results: Experiments on 122 test T2 MRI volumes revealed that VFNet achieved a 51.1% mAP and 78.7% recall at 4 false positives (FP) per volume, while the one-stage model ensemble achieved a mAP of 52.3% and sensitivity of 78.7% at 4FP. Conclusion: Our contribution is a CAD pipeline that detects LN in T2 MRI volumes, resulting in a sensitivity improvement of $\sim$14 points over the current SOTA method for LN detection (sensitivity of 78.7% at 4 FP vs. 64.6% at 5 FP per volume).
翻訳日:2022-04-08 08:01:02 公開日:2022-03-31
# (参考訳) 高周波応用におけるスペクトル充填の深層学習 [全文訳有]

Deep Learning for Spectral Filling in Radio Frequency Applications ( http://arxiv.org/abs/2204.01536v1 )

ライセンス: CC BY 4.0
Matthew Setzler, Elizabeth Coda, Jeremiah Rounds, Michael Vann, and Michael Girard(参考訳) モノのインターネット(IoT)の普及により、無線周波数(RF)チャネルは、ユニークで多様な通信ニーズを持つ新しい種類のデバイスで混雑してきている。 これは現代のデジタル通信において複雑な課題を生じさせ、技術革新の展開を要求する。 (i)限られた帯域幅環境で容量(ビットレート)を最適化する。 (II)既にデプロイ済みのRFプロトコルと協調して統合し、 (iii)現代のデジタル通信における需要の変化に適応する。 本稿では,深層ニューラルネットワークをスペクトル充填に適用する手法を提案する。 予め確立された変調方式でデジタルメッセージを伝送するRFチャネルが与えられると、固定変調信号(すなわち干渉することなく)を「周り」に付加する形で、追加情報を送るための新しい変調スキームを自動的に学習する。 これにより、帯域幅を増やすことなく、効果的にチャネル容量を増やすことができる。 さらに,メッセージの存在がサードパーティのリスナには検出できないような,元の変調によく似た信号を生成できることを示す。 本手法の有効性を実証する3つの計算実験を行い,最近のrf応用における結果の意義について考察した。

Due to the Internet of Things (IoT) proliferation, Radio Frequency (RF) channels are increasingly congested with new kinds of devices, which carry unique and diverse communication needs. This poses complex challenges in modern digital communications, and calls for the development of technological innovations that (i) optimize capacity (bitrate) in limited bandwidth environments, (ii) integrate cooperatively with already-deployed RF protocols, and (iii) are adaptive to the ever-changing demands in modern digital communications. In this paper we present methods for applying deep neural networks for spectral filling. Given an RF channel transmitting digital messages with a pre-established modulation scheme, we automatically learn novel modulation schemes for sending extra information, in the form of additional messages, "around" the fixed-modulation signals (i.e., without interfering with them). In so doing, we effectively increase channel capacity without increasing bandwidth. We further demonstrate the ability to generate signals that closely resemble the original modulations, such that the presence of extra messages is undetectable to third-party listeners. We present three computational experiments demonstrating the efficacy of our methods, and conclude by discussing the implications of our results for modern RF applications.
翻訳日:2022-04-08 07:46:57 公開日:2022-03-31
# 画像統計の深部モデリングによるベイズ画像の超解法

Bayesian Image Super-Resolution with Deep Modeling of Image Statistics ( http://arxiv.org/abs/2204.00623v1 )

ライセンス: Link先を確認
Shangqi Gao and Xiahai Zhuang(参考訳) 画像先行データのモデリングは画像の超解像に有用であるが,深層学習手法の大規模研究からはほとんど注目されていない。 本研究では,自然画像の統計を,滑らかさとスパーシティ優先の組み合わせでモデル化するベイズ画像復元フレームワークを提案する。 具体的には,まず,理想像を滑らかさ成分とスパーシティ残差の和として捉え,ボケ,ダウンスケーリング,ノイズ破壊を含む実像劣化をモデル化する。 そこで我々は,後方推定のための変分ベイズ的手法を開発した。 最後に,深層ニューラルネットワークを用いた単一画像超解像(sisr)のための変分法を実装し,教師なし学習戦略を提案する。 3つの画像復元タスク, 理想SISR, 現実SISR, 実世界のSISRの実験により, 本手法は様々なノイズレベルや劣化カーネルに対して優れたモデル一般化性を有し, 教師なしSISRに有効であることを示す。 コードと結果のモデルは \url{https://zmiclab.gith ub.io/projects.html} でリリースされる。

Modeling statistics of image priors is useful for image super-resolution, but little attention has been paid from the massive works of deep learning-based methods. In this work, we propose a Bayesian image restoration framework, where natural image statistics are modeled with the combination of smoothness and sparsity priors. Concretely, firstly we consider an ideal image as the sum of a smoothness component and a sparsity residual, and model real image degradation including blurring, downscaling, and noise corruption. Then, we develop a variational Bayesian approach to infer their posteriors. Finally, we implement the variational approach for single image super-resolution (SISR) using deep neural networks, and propose an unsupervised training strategy. The experiments on three image restoration tasks, \textit{i.e.,} ideal SISR, realistic SISR, and real-world SISR, demonstrate that our method has superior model generalizability against varying noise levels and degradation kernels and is effective in unsupervised SISR. The code and resulting models are released via \url{https://zmiclab.gith ub.io/projects.html}.
翻訳日:2022-04-05 14:10:24 公開日:2022-03-31
# cogngen:超次元予測処理認知アーキテクチャの核の構築

CogNGen: Constructing the Kernel of a Hyperdimensional Predictive Processing Cognitive Architecture ( http://arxiv.org/abs/2204.00619v1 )

ライセンス: Link先を確認
Alexander Ororbia, M. Alex Kelly(参考訳) 本稿では,(1)ニューラルジェネレーション・コーディング(ngc)として知られる予測処理の変種と,(2)超次元・ベクトル・シンボリックな人間の記憶モデルを組み合わせた新しい認知的アーキテクチャを提案する。 私たちはACT-R、Soar、Leabra、Spun/Nengoといった認知アーキテクチャからインスピレーションを得ています。 我々の認知アーキテクチャであるCOGnitive Neural GENerative System(CogNGen)は、これらのアーキテクチャと広く一致しているが、ACT-Rの高レベルな人間の認知の象徴的な記述と、スパンの低レベルな神経生物学的記述との間には、ある程度の詳細がある。 cogngenは、さまざまなタスクから継続的に学び、既存の認知アーキテクチャでできることよりも大きなスケールで人間のパフォーマンスをモデル化するエージェントを開発するための基礎を作った。 我々は, 長期記憶, 単回学習, 転校学習, 計画, その他の高次認知能力を維持しつつ, 現代の機械学習技術の力を持つ認知的アーキテクチャを開発することを目的とする。 我々は,短期記憶と計画の検証を行う迷路を含む一連の迷路学習タスクにおいて,CogNGenをテストし,ベクトルシンボル型メモリモデルの追加により,迷路タスクを習得するNGC強化学習モデルの能力が向上することを発見した。 今後の作業には、より多くのタスクでCogNGenをテストすることや、超次元メモリモデルを生涯学習に効率的にスケールするための方法を模索することが含まれる。

We present a new cognitive architecture that combines two neurobiologically plausible, computational models: (1) a variant of predictive processing known as neural generative coding (NGC) and (2) hyperdimensional, vector-symbolic models of human memory. We draw inspiration from well-known cognitive architectures such as ACT-R, Soar, Leabra, and Spaun/Nengo. Our cognitive architecture, the COGnitive Neural GENerative system (CogNGen), is in broad agreement with these architectures, but provides a level of detail between ACT-R's high-level, symbolic description of human cognition and Spaun's low-level neurobiological description. CogNGen creates the groundwork for developing agents that learn continually from diverse tasks and model human performance at larger scales than what is possible with existent cognitive architectures. We aim to develop a cognitive architecture that has the power of modern machine learning techniques while retaining long-term memory, single-trial learning, transfer-learning, planning, and other capacities associated with high-level cognition. We test CogNGen on a set of maze-learning tasks, including mazes that test short-term memory and planning, and find that the addition of vector-symbolic models of memory improves the ability of the NGC reinforcement learning model to master the maze task. Future work includes testing CogNGen on more tasks and exploring methods for efficiently scaling hyperdimensional memory models to lifetime learning.
翻訳日:2022-04-05 13:35:37 公開日:2022-03-31
# (参考訳) SELFIESと分子文字列表現の将来

SELFIES and the future of molecular string representations ( http://arxiv.org/abs/2204.00056v1 )

ライセンス: CC BY 4.0
Mario Krenn, Qianxiang Ai, Senja Barthel, Nessa Carson, Angelo Frei, Nathan C. Frey, Pascal Friederich, Th\'eophile Gaudin, Alberto Alexander Gayle, Kevin Maik Jablonka, Rafael F. Lameiro, Dominik Lemm, Alston Lo, Seyed Mohamad Moosavi, Jos\'e Manuel N\'apoles-Duarte, AkshatKumar Nigam, Robert Pollice, Kohulan Rajan, Ulrich Schatzschneider, Philippe Schwaller, Marta Skreta, Berend Smit, Felix Strieth-Kalthoff, Chong Sun, Gary Tom, Guido Falk von Rudorff, Andrew Wang, Andrew White, Adamo Young, Rose Yu, Al\'an Aspuru-Guzik(参考訳) 人工知能(AI)と機械学習(ML)は、化学や材料科学における課題への幅広い応用のために人気が高まっている。 例えば、性質の予測、新しい反応経路の発見、新しい分子の設計などである。 マシンは、これらのタスクごとに、化学言語でフルーエントに読み書きする必要がある。 文字列は分子グラフを表現する一般的なツールであり、最も一般的な分子文字列表現であるSMILESは1980年代後半から化学情報学を駆使している。 しかし、化学におけるAIとMLの文脈では、SMILESにはいくつかの欠点がある。 この問題を解決するために、分子のための新しい言語が2020年に導入され、100\%の堅牢性を保証する: SELFIES (SELF-referencIng Embedded Strings)。 SELFIESはその後、化学における多くの新しい応用を可能にした。 この写本では, 将来を見据えて, 分子ひも表現とそれらの機会と課題について論じる。 我々は16の具体的な将来計画を提案する。 これらには、新しい化学領域への拡張、AIと堅牢な言語とのインターフェースにおけるエキサイティングな質問、人間と機械の両方の解釈可能性が含まれる。 これらの提案が、化学と材料科学におけるAIの未来に向けて、分子文字列表現の可能性を最大限に活用する、いくつかのフォローアップ作業を促すことを期待している。

Artificial intelligence (AI) and machine learning (ML) are expanding in popularity for broad applications to challenging tasks in chemistry and materials science. Examples include the prediction of properties, the discovery of new reaction pathways, or the design of new molecules. The machine needs to read and write fluently in a chemical language for each of these tasks. Strings are a common tool to represent molecular graphs, and the most popular molecular string representation, SMILES, has powered cheminformatics since the late 1980s. However, in the context of AI and ML in chemistry, SMILES has several shortcomings -- most pertinently, most combinations of symbols lead to invalid results with no valid chemical interpretation. To overcome this issue, a new language for molecules was introduced in 2020 that guarantees 100\% robustness: SELFIES (SELF-referencIng Embedded Strings). SELFIES has since simplified and enabled numerous new applications in chemistry. In this manuscript, we look to the future and discuss molecular string representations, along with their respective opportunities and challenges. We propose 16 concrete Future Projects for robust molecular representations. These involve the extension toward new chemical domains, exciting questions at the interface of AI and robust languages and interpretability for both humans and machines. We hope that these proposals will inspire several follow-up works exploiting the full potential of molecular string representations for the future of AI in chemistry and materials science.
翻訳日:2022-04-05 02:58:30 公開日:2022-03-31
# (参考訳) 脳MRIデータと深部畳み込みニューラルネットワークを用いたアルツハイマー病の自動分類 [全文訳有]

Automatic Classification of Alzheimer's Disease using brain MRI data and deep Convolutional Neural Networks ( http://arxiv.org/abs/2204.00068v1 )

ライセンス: CC BY 4.0
Zahraa Sh. Aaraji, Hawraa H. Abbas(参考訳) アルツハイマー病(英: Alzheimer's disease、AD)は、世界の公衆衛生問題の一つ。 この疾患は、主に記憶喪失と認知低下を伴う高齢者に高い頻度で発症する。 広告検出は、多くの著者が神経画像や他の臨床データを利用した多数のコンピュータ診断システムを開発した困難な課題である。 MRIスキャンは高強度の視認性を提供し、これらのスキャンは最も広く使われている脳画像技術である。 近年、深層学習は医用画像分析で主要な成功を収めている。 しかし、脳MRI分類にディープラーニング技術を適用するための研究は比較的少ない。 本稿では,脳MRI画像とセグメント画像を用いたディープラーニングアーキテクチャの構築について検討する。 分割画像の背景にあるアイデアは、画像分割ステップがディープラーニングの分類に与える影響を調査する。 画像処理は、mriスキャンを強化する前処理と、脳組織をセグメンテーションするセグメンテーション法からなる後処理からなるパイプラインを示した。 その結果,4つの異なるアーキテクチャにおけるAD対CN(認知正規化)のバイナリ分類において,処理された画像の精度が向上した。 ResNetアーキテクチャは他のアーキテクチャの中で最も高い予測精度(元の脳画像では90.83%、処理された画像では93.50%)を得た。

Alzheimer's disease (AD) is one of the most common public health issues the world is facing today. This disease has a high prevalence primarily in the elderly accompanying memory loss and cognitive decline. AD detection is a challenging task which many authors have developed numerous computerized automatic diagnosis systems utilizing neuroimaging and other clinical data. MRI scans provide high-intensity visible features, making these scans the most widely used brain imaging technique. In recent years deep learning has achieved leading success in medical image analysis. But a relatively little investigation has been done to apply deep learning techniques for the brain MRI classification. This paper explores the construction of several deep learning architectures evaluated on brain MRI images and segmented images. The idea behind segmented images investigates the influence of image segmentation step on deep learning classification. The image processing presented a pipeline consisting of pre-processing to enhance the MRI scans and post-processing consisting of a segmentation method for segmenting the brain tissues. The results show that the processed images achieved a better accuracy in the binary classification of AD vs. CN (Cognitively Normal) across four different architectures. ResNet architecture resulted in the highest prediction accuracy amongst the other architectures (90.83% for the original brain images and 93.50% for the processed images).
翻訳日:2022-04-05 02:57:21 公開日:2022-03-31
# (参考訳) 変分形式による効率的な最大符号化率の低減

Efficient Maximal Coding Rate Reduction by Variational Forms ( http://arxiv.org/abs/2204.00077v1 )

ライセンス: CC BY 4.0
Christina Baek, Ziyang Wu, Kwan Ho Ryan Chan, Tianjiao Ding, Yi Ma, Benjamin D. Haeffele(参考訳) 最大符号化速度削減(MCR$^2$)の原理は,高次元データに固有の識別的低次元構造を学習し,クロスエントロピー最小化のような標準的な手法よりも堅牢なトレーニングを可能にするための訓練目標として提案されている。 しかし、mcr$^2$トレーニングで示された利点にもかかわらず、mcr$^2$は、クラス数に線形に成長するかなりの数のログ決定項を評価し、区別する必要があるため、かなりの計算コストに苦しんでいる。 行列のスペクトル関数の変動形式を利用して、MCR$^2$の目的をトレーニング精度を損なうことなく大幅にスケールできる形式に再構成する。 画像分類実験により,提案した定式化は,MCR$^2$目標を直接最適化するよりも大幅に高速化され,高い品質の学習表現が得られることが示された。 さらに,本手法は,システム同定や正規化フローモデルなど,対数決定型の計算を必要とする他のモデルにも依存する可能性がある。

The principle of Maximal Coding Rate Reduction (MCR$^2$) has recently been proposed as a training objective for learning discriminative low-dimensional structures intrinsic to high-dimensional data to allow for more robust training than standard approaches, such as cross-entropy minimization. However, despite the advantages that have been shown for MCR$^2$ training, MCR$^2$ suffers from a significant computational cost due to the need to evaluate and differentiate a significant number of log-determinant terms that grows linearly with the number of classes. By taking advantage of variational forms of spectral functions of a matrix, we reformulate the MCR$^2$ objective to a form that can scale significantly without compromising training accuracy. Experiments in image classification demonstrate that our proposed formulation results in a significant speed up over optimizing the original MCR$^2$ objective directly and often results in higher quality learned representations. Further, our approach may be of independent interest in other models that require computation of log-determinant forms, such as in system identification or normalizing flow models.
翻訳日:2022-04-05 02:39:06 公開日:2022-03-31
# (参考訳) 木モデルによるスケーラブルなホワイトボックス攻撃 [全文訳有]

Scalable Whitebox Attacks on Tree-based Models ( http://arxiv.org/abs/2204.00103v1 )

ライセンス: CC BY-SA 4.0
Giuseppe Castiglione, Gavin Ding, Masoud Hashemi, Christopher Srinivasa, Ga Wu(参考訳) 敵対的堅牢性は、機械学習モデルの信頼性を保証する上で不可欠な安全基準の1つである。 過去10年間に様々な対向ロバストネステスト手法が導入されたが、そのほとんどは木組み木のような非微分モデルと互換性がないことに注意する。 樹木のアンサンブルは産業で広く使われているため、敵対的堅牢性研究と実践的応用の間に重要なギャップが明らかになる。 本稿では,ツリーアンサンブルモデルに対する新しいホワイトボックス逆ロバスト性テスト手法を提案する。 具体的には, 温度制御型sgmoid関数により木列を滑らかにし, 勾配降下に基づく逆攻撃を可能にした。 サンプリングとログデリバティブのトリックを活用することで、提案手法は以前管理不能だったタスクのテストまでスケールアップできる。 複数のパブリックデータセット(および対応するモデル)に対するランダム摂動とブラックボックスアプローチの両方に対するアプローチを比較する。 提案手法が有効であることを示す。 1) 木組モデルの逆方向の脆弱性を, 試験に計算圧力を発生させることなく明らかにし, 2) 各種試験基準を満たすために, 探索性能と時間複雑性を柔軟にバランスさせる。

Adversarial robustness is one of the essential safety criteria for guaranteeing the reliability of machine learning models. While various adversarial robustness testing approaches were introduced in the last decade, we note that most of them are incompatible with non-differentiable models such as tree ensembles. Since tree ensembles are widely used in industry, this reveals a crucial gap between adversarial robustness research and practical applications. This paper proposes a novel whitebox adversarial robustness testing approach for tree ensemble models. Concretely, the proposed approach smooths the tree ensembles through temperature controlled sigmoid functions, which enables gradient descent-based adversarial attacks. By leveraging sampling and the log-derivative trick, the proposed approach can scale up to testing tasks that were previously unmanageable. We compare the approach against both random perturbations and blackbox approaches on multiple public datasets (and corresponding models). Our results show that the proposed method can 1) successfully reveal the adversarial vulnerability of tree ensemble models without causing computational pressure for testing and 2) flexibly balance the search performance and time complexity to meet various testing criteria.
翻訳日:2022-04-05 02:38:07 公開日:2022-03-31
# (参考訳) 点雲におけるロバスト3次元物体検出法の検討 [全文訳有]

A Survey of Robust 3D Object Detection Methods in Point Clouds ( http://arxiv.org/abs/2204.00106v1 )

ライセンス: CC BY 4.0
Walter Zimmer, Emec Ercelik, Xingcheng Zhou, Xavier Jair Diaz Ortiz and Alois Knoll(参考訳) この研究の目的は、最先端のLiDARベースの3Dオブジェクト検出方法、データセット、課題をレビューすることである。 本稿では,新しいデータ拡張手法,サンプリング戦略,アクティベーション機能,アテンション機構,正規化手法について述べる。 さらに,最近導入された正規化手法,学習率スケジュール,損失関数を列挙する。 さらに、新しい自動運転データセット10の利点と制限についても取り上げる。 我々は,kitti,nuscene,waymo データセット上の新しい3次元物体検出器を評価し,その精度,速度,ロバスト性を示す。 最後に、LiDARポイントクラウドにおける3Dオブジェクト検出の現在の課題について述べ、いくつかのオープンな問題をリストアップする。

The purpose of this work is to review the state-of-the-art LiDAR-based 3D object detection methods, datasets, and challenges. We describe novel data augmentation methods, sampling strategies, activation functions, attention mechanisms, and regularization methods. Furthermore, we list recently introduced normalization methods, learning rate schedules and loss functions. Moreover, we also cover advantages and limitations of 10 novel autonomous driving datasets. We evaluate novel 3D object detectors on the KITTI, nuScenes, and Waymo dataset and show their accuracy, speed, and robustness. Finally, we mention the current challenges in 3D object detection in LiDAR point clouds and list some open issues.
翻訳日:2022-04-05 02:26:24 公開日:2022-03-31
# (参考訳) 強化学習を用いた変形可能な線形物体追従のための視覚触覚マルチモーダル [全文訳有]

Visual-Tactile Multimodality for Following Deformable Linear Objects Using Reinforcement Learning ( http://arxiv.org/abs/2204.00117v1 )

ライセンス: CC BY 4.0
Leszek Pecyna, Siyuan Dong, Shan Luo(参考訳) 変形可能な物体の操作はロボットにとって難しい課題である。 視覚はオクルージョンの対象となりうるが、触覚入力はタスクに有用なグローバルな情報をキャプチャできない。 本稿では,視覚入力と触覚入力を併用して,変形可能な線形物体を追従するタスクを初めて完了させる課題について検討する。 本研究では,視覚触覚融合を用いて,異なる感覚モーダルを用いた強化学習エージェントを作成し,その動作がどのように促進されるかを検討する。 そこで我々は,変形可能な線形オブジェクトをマルチモーダル入力で操作するシミュレーションのベンチマークを開発した。 エージェントのポリシーは、例えば、生のセンシング信号の代わりに、視覚と触覚の両方の観点からオブジェクトのポーズを蒸留情報を使用し、実際の環境へ直接転送することができる。 このようにして,知覚システムと学習制御方針を分離する。 広汎な実験により、視覚と触覚の両方の入力がプロプレセプションと共に、最大92%のケースでタスクを完了できることが示され、一方の信号が与えられた場合の77%に対して、エージェントは最大92%のケースでタスクを完了できることがわかった。 この結果は,触覚センサの設計や変形可能な物体の操作に有用な知見を提供する。

Manipulation of deformable objects is a challenging task for a robot. It will be problematic to use a single sensory input to track the behaviour of such objects: vision can be subjected to occlusions, whereas tactile inputs cannot capture the global information that is useful for the task. In this paper, we study the problem of using vision and tactile inputs together to complete the task of following deformable linear objects, for the first time. We create a Reinforcement Learning agent using different sensing modalities and investigate how its behaviour can be boosted using visual-tactile fusion, compared to using a single sensing modality. To this end, we developed a benchmark in simulation for manipulating the deformable linear objects using multimodal sensing inputs. The policy of the agent uses distilled information, e.g., the pose of the object in both visual and tactile perspectives, instead of the raw sensing signals, so that it can be directly transferred to real environments. In this way, we disentangle the perception system and the learned control policy. Our extensive experiments show that the use of both vision and tactile inputs, together with proprioception, allows the agent to complete the task in up to 92% of cases, compared to 77% when only one of the signals is given. Our results can provide valuable insights for the future design of tactile sensors and for deformable objects manipulation.
翻訳日:2022-04-05 02:03:29 公開日:2022-03-31
# (参考訳) 安定化リカレント平衡ネットワークコントローラの合成 [全文訳有]

Synthesis of Stabilizing Recurrent Equilibrium Network Controllers ( http://arxiv.org/abs/2204.00122v1 )

ライセンス: CC BY 4.0
Neelay Junnarkar, He Yin, Fangda Gu, Murat Arcak, Peter Seiler(参考訳) 本稿では、リカレントニューラルネットワークの一般化であるリカレント平衡ネットワークに基づく非線形動的コントローラのパラメータ化を提案する。 制御器がセクター有界非線形性を持つ部分観測力学系の指数的安定性を保証するパラメータ化に関する制約を導出する。 最後に,任意の構造で報奨関数を最大化するために,投影されたポリシー勾配法を用いてこの制御器を合成する手法を提案する。 射影ステップは凸最適化問題の解を含む。 ニューラルネットワークをモデルとした植物を含む非線形プラントの制御のシミュレーション例を用いて,提案手法を実証した。

We propose a parameterization of a nonlinear dynamic controller based on the recurrent equilibrium network, a generalization of the recurrent neural network. We derive constraints on the parameterization under which the controller guarantees exponential stability of a partially observed dynamical system with sector-bounded nonlinearities. Finally, we present a method to synthesize this controller using projected policy gradient methods to maximize a reward function with arbitrary structure. The projection step involves the solution of convex optimization problems. We demonstrate the proposed method with simulated examples of controlling nonlinear plants, including plants modeled with neural networks.
翻訳日:2022-04-05 01:49:12 公開日:2022-03-31
# (参考訳) 領域適応を用いた道路側LiDAR内リアルタイム・ロバスト3次元物体検出 [全文訳有]

Real-Time and Robust 3D Object Detection Within Road-Side LiDARs Using Domain Adaptation ( http://arxiv.org/abs/2204.00132v1 )

ライセンス: CC BY 4.0
Walter Zimmer, Marcus Grabler and Alois Knoll(参考訳) 本研究は,インフラLiDARを用いた3次元オブジェクト検出の領域適応における課題を解決することを目的とする。 インフラベースLiDARの車両をリアルタイムで検出できるモデルDASE-ProPillarsを設計する。 我々のモデルは、3D検出性能を改善するために追加モジュールを備えたベースラインモデルとしてPointPillarsを使用します。 DASE-ProPillarsにおける提案するモジュールの有効性を証明するため,Regensburg Nextプロジェクトで開発されたオープンソースのA9-Datasetと半合成インフラストラクチャデータセットという,2つのデータセット上でモデルをトレーニングし,評価する。 dase-propillars検出器の各モジュールについて,本モデルが実a9テストセットと半合成a9テストセットのse-propillarsベースラインを上回り,45hz (22ms) の推論速度を維持していることを示す実験を行った。 半合成A9データセットから半合成データセットへのドメイン適応を、転送学習を適用して、40のリコール位置を用いた目標テストセットのCarクラスで93.49%の3D mAP@0.25を達成する。

This work aims to address the challenges in domain adaptation of 3D object detection using infrastructure LiDARs. We design a model DASE-ProPillars that can detect vehicles in infrastructure-based LiDARs in real-time. Our model uses PointPillars as the baseline model with additional modules to improve the 3D detection performance. To prove the effectiveness of our proposed modules in DASE-ProPillars, we train and evaluate the model on two datasets, the open source A9-Dataset and a semi-synthetic infrastructure dataset created within the Regensburg Next project. We do several sets of experiments for each module in the DASE-ProPillars detector that show that our model outperforms the SE-ProPillars baseline on the real A9 test set and a semi-synthetic A9 test set, while maintaining an inference speed of 45 Hz (22 ms). We apply domain adaptation from the semi-synthetic A9-Dataset to the semi-synthetic dataset from the Regensburg Next project by applying transfer learning and achieve a 3D mAP@0.25 of 93.49% on the Car class of the target test set using 40 recall positions.
翻訳日:2022-04-05 01:27:35 公開日:2022-03-31
# UGCゲーム映像の知覚品質評価

Perceptual Quality Assessment of UGC Gaming Videos ( http://arxiv.org/abs/2204.00128v1 )

ライセンス: Link先を確認
Xiangxu Yu, Zhengzhong Tu, Neil Birkbeck, Yilin Wang, Balu Adsumilli and Alan C. Bovik(参考訳) 近年、ビデオゲーム産業の活発な発展に伴い、youtubeのような主要ビデオサイトにおけるゲームビデオの割合は劇的に増加している。 しかし、ゲームビデオの自動品質予測に関する研究は、特に「ユーザー生成コンテンツ」(ugc)のカテゴリーに属するものについては、比較的少ない。 現在の一般的なビデオ品質評価(VQA)モデルは、この種のゲームビデオではうまく機能しないため、UGCゲームビデオで成功するように設計された新しいVQAモデルを作成し、GAME-VQP(Gaming Video Quality Predictor)と呼ぶ。 GAME-VQPは、修正された自然シーン統計モデルに基づいてデザインされた特徴と、畳み込みニューラルネットワークによって学習されたゲーム固有の特徴に基づいて、ゲームビデオのユニークな統計特性を予測することに成功した。 LIVE-YT-Gamingと呼ばれる非常に最近の大規模UGCゲームビデオデータベース上でのGAME-VQPの性能について検討し、ゲームビデオ用に設計されたVQAモデルだけでなく、他の主流の一般的なVQAモデルよりも優れていることを発見した。 新しいモデルは、紙が受理された後に公表される。

In recent years, with the vigorous development of the video game industry, the proportion of gaming videos on major video websites like YouTube has dramatically increased. However, relatively little research has been done on the automatic quality prediction of gaming videos, especially on those that fall in the category of "User-Generated-Conte nt" (UGC). Since current leading general-purpose Video Quality Assessment (VQA) models do not perform well on this type of gaming videos, we have created a new VQA model specifically designed to succeed on UGC gaming videos, which we call the Gaming Video Quality Predictor (GAME-VQP). GAME-VQP successfully predicts the unique statistical characteristics of gaming videos by drawing upon features designed under modified natural scene statistics models, combined with gaming specific features learned by a Convolution Neural Network. We study the performance of GAME-VQP on a very recent large UGC gaming video database called LIVE-YT-Gaming, and find that it both outperforms other mainstream general VQA models as well as VQA models specifically designed for gaming videos. The new model will be made public after paper being accepted.
翻訳日:2022-04-04 15:25:05 公開日:2022-03-31
# 流体ロボットハンドオーバのモデル予測制御

Model Predictive Control for Fluid Human-to-Robot Handovers ( http://arxiv.org/abs/2204.00134v1 )

ライセンス: Link先を確認
Wei Yang, Balakumar Sundaralingam, Chris Paxton, Iretiayo Akinola, Yu-Wei Chao, Maya Cakmak, Dieter Fox(参考訳) 人間-ロボットのハンドオーバは、人間-ロボットのインタラクションとコラボレーションにおいて、基本的な課題である。 近年,学習型把持生成器を用いた未知物体のヒューマン・ロボットハンドオーバにおける著しい進歩がみられた。 しかし、人間から物体を取り出すためのスムーズな動きをいかに応答的に生み出すかはまだ未解決の問題だ。 具体的には、人間の快適性を考慮に入れた計画運動は、以前のほとんどの作業において、人間とロボットのハンドオーバプロセスの一部ではない。 本稿では,知覚と複雑な領域固有の制約を最適化問題に統合した効率的なモデル予測制御(mpc)フレームワークにより,滑らかな動きを生成することを提案する。 ロボットのマニピュラビリティを最大化する候補把持を選択できる学習ベースの把持到達可能性モデルを導入し,これらの制約を満たす自由度を高める。 最後に、ノイズデータから接触事象を検出するニューラルネットワーク力/トルク分類器を統合する。 複数ユーザ(N=4)の多種多様なオブジェクトに対して人間とロボットのハンドオーバ実験を行い,各モジュールの系統的評価を行った。 本研究は,mpcアプローチがベースラインシステムよりも大きなマージンで好まれていることを示す。 結果とビデオはhttps://sites.google .com/nvidia.com/mpc- for-handover.comで見ることができる。

Human-robot handover is a fundamental yet challenging task in human-robot interaction and collaboration. Recently, remarkable progressions have been made in human-to-robot handovers of unknown objects by using learning-based grasp generators. However, how to responsively generate smooth motions to take an object from a human is still an open question. Specifically, planning motions that take human comfort into account is not a part of the human-robot handover process in most prior works. In this paper, we propose to generate smooth motions via an efficient model-predictive control (MPC) framework that integrates perception and complex domain-specific constraints into the optimization problem. We introduce a learning-based grasp reachability model to select candidate grasps which maximize the robot's manipulability, giving it more freedom to satisfy these constraints. Finally, we integrate a neural net force/torque classifier that detects contact events from noisy data. We conducted human-to-robot handover experiments on a diverse set of objects with several users (N=4) and performed a systematic evaluation of each module. The study shows that the users preferred our MPC approach over the baseline system by a large margin. More results and videos are available at https://sites.google .com/nvidia.com/mpc- for-handover.
翻訳日:2022-04-04 15:24:43 公開日:2022-03-31
# パラメータ推定に対する二段階アプローチに関する統計的決定論的考察

A Statistical Decision-Theoretical Perspective on the Two-Stage Approach to Parameter Estimation ( http://arxiv.org/abs/2204.00036v1 )

ライセンス: Link先を確認
Braghadeesh Lakshminarayanan, Cristian R. Rojas(参考訳) システム同定と統計学における最も重要な問題の1つは、与えられたモデルの未知のパラメータを推定する方法である。 最適化法と経験的最小化(em)のような特別な手順は、度数関数を計算できる場合に使用できる。 パラメトリックモデルからしかシミュレートできないが、可能性の評価が困難または不可能である状況では、信頼性の高いパラメトリック推定を得るために、二段法(ts)と呼ばれる手法を適用することができる。 残念ながら、現在、tsの理論的正当性が欠如している。 本稿では,統計的決定理論に基づくTSの導出を提案し,ベイズ推定とミニマックス推定に繋がる。 また,データ分位数を第1ステップとして計算し,線形関数を第2段として用いることで,独立分布と同一分布のサンプルモデルへのtsアプローチの適用方法を示す。 提案手法は数値シミュレーションにより示される。

One of the most important problems in system identification and statistics is how to estimate the unknown parameters of a given model. Optimization methods and specialized procedures, such as Empirical Minimization (EM) can be used in case the likelihood function can be computed. For situations where one can only simulate from a parametric model, but the likelihood is difficult or impossible to evaluate, a technique known as the Two-Stage (TS) Approach can be applied to obtain reliable parametric estimates. Unfortunately, there is currently a lack of theoretical justification for TS. In this paper, we propose a statistical decision-theoretical derivation of TS, which leads to Bayesian and Minimax estimators. We also show how to apply the TS approach on models for independent and identically distributed samples, by computing quantiles of the data as a first step, and using a linear function as the second stage. The proposed method is illustrated via numerical simulations.
翻訳日:2022-04-04 15:22:09 公開日:2022-03-31
# データサンプリングは依存データに対するオンラインSGDの複雑さに影響を与える

Data Sampling Affects the Complexity of Online SGD over Dependent Data ( http://arxiv.org/abs/2204.00006v1 )

ライセンス: Link先を確認
Shaocong Ma, Ziyi Chen, Yi Zhou, Kaiyi Ji, Yingbin Liang(参考訳) 従来の機械学習アプリケーションは、データサンプルが独立して、同一に分散されていると仮定する。 しかし、実践的なシナリオは、しばしば、確率的最適化プロセスに大きく偏り、学習の収束を遅らせることで知られる、高度に依存したデータサンプルを生成するデータ生成プロセスを含む。 本稿では,オンライン確率勾配降下 (sgd) の高度依存データに対するサンプル複雑性に異なる確率的データサンプリング方式がどのように影響するかに関する基礎研究を行う。 具体的には、データ依存の$\phi$-mixingモデルを用いて、適切な周期データサブサンプリングを伴うオンラインsgdが、データ依存レベルの全スペクトルにおいて、標準オンラインsgdよりもサンプル複雑性が向上することを示す。 興味深いことに、データサンプルのサブサンプリングさえも、高度に依存したデータに対するオンラインSGDの収束を加速することができる。 さらに,ミニバッチサンプリングによるオンラインsgdは,高度に依存するデータに対する定期的なデータサブサンプリングにより,オンラインsgdよりもサンプルの複雑さが大幅に向上することを示す。 数値実験は我々の理論結果を検証する。

Conventional machine learning applications typically assume that data samples are independently and identically distributed (i.i.d.). However, practical scenarios often involve a data-generating process that produces highly dependent data samples, which are known to heavily bias the stochastic optimization process and slow down the convergence of learning. In this paper, we conduct a fundamental study on how different stochastic data sampling schemes affect the sample complexity of online stochastic gradient descent (SGD) over highly dependent data. Specifically, with a $\phi$-mixing model of data dependence, we show that online SGD with proper periodic data-subsampling achieves an improved sample complexity over the standard online SGD in the full spectrum of the data dependence level. Interestingly, even subsampling a subset of data samples can accelerate the convergence of online SGD over highly dependent data. Moreover, we show that online SGD with mini-batch sampling can further substantially improve the sample complexity over online SGD with periodic data-subsampling over highly dependent data. Numerical experiments validate our theoretical results.
翻訳日:2022-04-04 15:21:45 公開日:2022-03-31
# ニューロンアトリビューションに基づく攻撃による対向移動性の改善

Improving Adversarial Transferability via Neuron Attribution-Based Attacks ( http://arxiv.org/abs/2204.00008v1 )

ライセンス: Link先を確認
Jianping Zhang, Weibin Wu, Jen-tse Huang, Yizhan Huang, Wenxuan Wang, Yuxin Su, Michael R. Lyu(参考訳) ディープニューラルネットワーク(DNN)は、敵の例に弱いことが知られている。 したがって、セキュリティに敏感なアプリケーションにおいて、DNNの欠陥を事前に識別するために効果的な攻撃アルゴリズムを考案することが不可欠である。 対象モデルの特色が不明なブラックボックス設定に効果的に取り組むため、特徴レベル転送ベースアタックは、局所モデルの中間特徴出力を汚染し、製造した対向サンプルを直接使用してターゲットモデルを攻撃する。 特徴の伝達性のため、機能レベルの攻撃は、より伝達可能な敵のサンプルを合成する可能性を示している。 しかし、既存の特徴レベル攻撃は一般的に不正確なニューロンの重要度推定を採用しており、伝達性が低下する。 このような落とし穴を克服するために,我々はより正確なニューロン重要度推定による特徴レベル攻撃を行う神経属性ベースアタック(NAA)を提案する。 具体的には、まずモデル出力を中間層の各ニューロンに完全に属性付けする。 次に、計算オーバーヘッドを大幅に削減するために、ニューロン帰属の近似スキームを導出する。 最後に、ニューロンの属性結果に基づいて重み付けを行い、特徴レベルの攻撃を開始する。 広範な実験により、最先端ベンチマークに対する我々のアプローチの優位性が確認された。

Deep neural networks (DNNs) are known to be vulnerable to adversarial examples. It is thus imperative to devise effective attack algorithms to identify the deficiencies of DNNs beforehand in security-sensitive applications. To efficiently tackle the black-box setting where the target model's particulars are unknown, feature-level transfer-based attacks propose to contaminate the intermediate feature outputs of local models, and then directly employ the crafted adversarial samples to attack the target model. Due to the transferability of features, feature-level attacks have shown promise in synthesizing more transferable adversarial samples. However, existing feature-level attacks generally employ inaccurate neuron importance estimations, which deteriorates their transferability. To overcome such pitfalls, in this paper, we propose the Neuron Attribution-based Attack (NAA), which conducts feature-level attacks with more accurate neuron importance estimations. Specifically, we first completely attribute a model's output to each neuron in a middle layer. We then derive an approximation scheme of neuron attribution to tremendously reduce the computation overhead. Finally, we weight neurons based on their attribution results and launch feature-level attacks. Extensive experiments confirm the superiority of our approach to the state-of-the-art benchmarks.
翻訳日:2022-04-04 15:19:51 公開日:2022-03-31
# rfphen2gen:脳画像表現型と遺伝子型に関する機械学習による研究

rfPhen2Gen: A machine learning based association study of brain imaging phenotypes to genotypes ( http://arxiv.org/abs/2204.00067v1 )

ライセンス: Link先を確認
Muhammad Ammar Malik, Alexander S. Lundervold and Tom Michoel(参考訳) イメージング遺伝研究は、遺伝的変異と定量的特徴の関連を見つけることを目的としている。 従来のゲノムワイド・アソシエーション研究(GWAS)は単変量統計検査に基づいているが、複数の形質が一緒に分析されると、多重テストの問題に悩まされ、特徴間の相関を考慮しない。 多形質gwasの別のアプローチは、多変量回帰モデルを適用して複数の形質から同時に遺伝子型を予測することによって、遺伝子型と形質の間の機能的関係を逆転させることである。 しかし、現在のリバースジェノタイプ予測アプローチは主に線形モデルに基づいている。 そこで我々は,ランダム森林回帰(RFR)を画像QTからSNPを予測し,生物学的関連性を見極める方法として評価した。 56個の脳画像QTを用いて518,484個のSNPを予測する機械学習モデルを学習した。 遺伝子型回帰誤差は遺伝子型分類精度よりもp値の置換の指標として優れている。 アルツハイマー病(AD)リスク遺伝子APOEのSNPは、ラッソやランダムな森林ではRMSEが低かったが、隆起性は認められなかった。 さらに、ランダム・フォレストは線形モデルによって優先順位付けされなかったが、脳関連疾患と関連があることが知られている追加のSNPを同定した。 特徴選択は、海馬や扁桃体のようなADに関連するよく知られた脳領域を、最も重要なSNPの重要な予測因子として同定した。 以上の結果から,無作為林のような非線形手法は,従来の線形多変量GWAS法と比較して,表現型・遺伝子型関連性にさらなる洞察を与える可能性が示唆された。

Imaging genetic studies aim to find associations between genetic variants and imaging quantitative traits. Traditional genome-wide association studies (GWAS) are based on univariate statistical tests, but when multiple traits are analyzed together they suffer from a multiple-testing problem and from not taking into account correlations among the traits. An alternative approach to multi-trait GWAS is to reverse the functional relation between genotypes and traits, by fitting a multivariate regression model to predict genotypes from multiple traits simultaneously. However, current reverse genotype prediction approaches are mostly based on linear models. Here, we evaluated random forest regression (RFR) as a method to predict SNPs from imaging QTs and identify biologically relevant associations. We learned machine learning models to predict 518,484 SNPs using 56 brain imaging QTs. We observed that genotype regression error is a better indicator of permutation p-value significance than genotype classification accuracy. SNPs within the known Alzheimer disease (AD) risk gene APOE had lowest RMSE for lasso and random forest, but not ridge regression. Moreover, random forests identified additional SNPs that were not prioritized by the linear models but are known to be associated with brain-related disorders. Feature selection identified well-known brain regions associated with AD,like the hippocampus and amygdala, as important predictors of the most significant SNPs. In summary, our results indicate that non-linear methods like random forests may offer additional insights into phenotype-genotype associations compared to traditional linear multi-variate GWAS methods.
翻訳日:2022-04-04 15:19:33 公開日:2022-03-31
# 歴史バランスシートデータのデジタル化 - 実践者のガイド

Digitizing Historical Balance Sheet Data: A Practitioner's Guide ( http://arxiv.org/abs/2204.00052v1 )

ライセンス: Link先を確認
Sergio Correia, Stephan Luck(参考訳) 本稿では,光学式文字認識(OCR)エンジンを前処理と後処理で拡張することにより,大規模歴史的マイクロデータをデジタル化する方法について述べる。 近年、機械学習の改善によりOCRソフトウェアは劇的に改善されているが、市販のOCRアプリケーションは依然として高いエラー率を示しており、構造化情報の正確な抽出には限界がある。 しかし、追加の手法でOCRを補完することは、成功率を劇的に向上させ、経済史家にとって強力で費用効率のよいツールとなる。 本稿ではこれらの方法を紹介し,なぜ有用かを説明する。 2つの大きなバランスシートデータセットに適用し、これらのメソッドを統一フレームワークに含むpythonパッケージである"quipucamayoc"を導入する。

This paper discusses how to successfully digitize large-scale historical micro-data by augmenting optical character recognition (OCR) engines with pre- and post-processing methods. Although OCR software has improved dramatically in recent years due to improvements in machine learning, off-the-shelf OCR applications still present high error rates which limits their applications for accurate extraction of structured information. Complementing OCR with additional methods can however dramatically increase its success rate, making it a powerful and cost-efficient tool for economic historians. This paper showcases these methods and explains why they are useful. We apply them against two large balance sheet datasets and introduce "quipucamayoc", a Python package containing these methods in a unified framework.
翻訳日:2022-04-04 15:18:13 公開日:2022-03-31
# 1次元CNNに基づく階層次元の低減による音響シーンの分類

1-D CNN based Acoustic Scene Classification via Reducing Layer-wise Dimensionality ( http://arxiv.org/abs/2204.00555v1 )

ライセンス: Link先を確認
Arshdeep Singh(参考訳) 本稿では,音響シーン分類(asc)の時間周波数表現に代替的な表現枠組みを提案する。 生音声信号は、各種中間層を用いて予め訓練された畳み込みニューラルネットワーク(CNN)を用いて表現される。 この研究は、中間層から得られた表現が本質的に低次元にあると仮定する。 低次元の埋め込みを得るため,主成分分析を行い,いくつかの主成分が重要であることを解析した。 しかし、重要なコンポーネントの適切な数は不明である。 これを解決するために、下位部分空間を近似する自動辞書学習フレームワークを利用する。 さらに、各中間層で学習した階層情報を取り込むアンサンブルフレームワークにおいて、低次元埋め込みを遅融合で集約する。 実験は、トレーニング済みの1-D CNNであるSoundNet上で、公開されているDCASE 2017と2018のASCデータセットで実施される。 実験により,より深い層では,他の層よりも圧縮比が高いことがわかった。 異なるデータセット間で70%の圧縮比で、その性能は次元削減を行わずに得られるものに近い。 提案手法は時間周波数表現に基づく手法よりも優れている。

This paper presents an alternate representation framework to commonly used time-frequency representation for acoustic scene classification (ASC). A raw audio signal is represented using a pre-trained convolutional neural network (CNN) using its various intermediate layers. The study assumes that the representations obtained from the intermediate layers lie in low-dimensions intrinsically. To obtain low-dimensional embeddings, principal component analysis is performed, and the study analyzes that only a few principal components are significant. However, the appropriate number of significant components are not known. To address this, an automatic dictionary learning framework is utilized that approximates the underlying subspace. Further, the low-dimensional embeddings are aggregated in a late-fusion manner in the ensemble framework to incorporate hierarchical information learned at various intermediate layers. The experimental evaluation is performed on publicly available DCASE 2017 and 2018 ASC datasets on a pre-trained 1-D CNN, SoundNet. Empirically, it is observed that deeper layers show more compression ratio than others. At 70% compression ratio across different datasets, the performance is similar to that obtained without performing any dimensionality reduction. The proposed framework outperforms the time-frequency representation based methods.
翻訳日:2022-04-04 15:15:20 公開日:2022-03-31
# TransGeo: クロスビュー画像のジオローカライゼーションに必要なトランスフォーマー

TransGeo: Transformer Is All You Need for Cross-view Image Geo-localization ( http://arxiv.org/abs/2204.00097v1 )

ライセンス: Link先を確認
Sijie Zhu, Mubarak Shah, Chen Chen(参考訳) クロスビュー画像の地理的局所化のための支配的なcnnベースの手法は極性変換に依存し、大域相関のモデル化に失敗する。 本稿では,これらの制約に異なる視点から対処する純粋トランスフォーマーベースアプローチ(TransGeo)を提案する。 TransGeoは、グローバルな情報モデリングと明示的な位置情報エンコーディングに関連するトランスフォーマーの強みをフル活用する。 我々はさらに、トランス入力の柔軟性を活用し、注意誘導型非一様収穫法を提案し、非形式的な画像パッチを性能低下により除去し、計算コストを低減させる。 保存された計算は、情報パッチのみの分解能を向上させるために再配置することができ、追加の計算コストなしで性能が向上する。 この"attend and zoom-in"戦略は、画像観察時の人間の行動と非常によく似ている。 注目すべきは、TransGeoが都市と農村の両方のデータセットで最先端の結果を達成することだ。 極性変換には依存せず、cnnベースの方法よりも高速に推論する。 コードはhttps://github.com/J eff-Zilence/TransGeo 2022で公開されている。

The dominant CNN-based methods for cross-view image geo-localization rely on polar transform and fail to model global correlation. We propose a pure transformer-based approach (TransGeo) to address these limitations from a different perspective. TransGeo takes full advantage of the strengths of transformer related to global information modeling and explicit position information encoding. We further leverage the flexibility of transformer input and propose an attention-guided non-uniform cropping method, so that uninformative image patches are removed with negligible drop on performance to reduce computation cost. The saved computation can be reallocated to increase resolution only for informative patches, resulting in performance improvement with no additional computation cost. This "attend and zoom-in" strategy is highly similar to human behavior when observing images. Remarkably, TransGeo achieves state-of-the-art results on both urban and rural datasets, with significantly less computation cost than CNN-based methods. It does not rely on polar transform and infers faster than CNN-based methods. Code is available at https://github.com/J eff-Zilence/TransGeo 2022.
翻訳日:2022-04-04 14:46:45 公開日:2022-03-31
# gala: 合成のための幾何・光認識オブジェクト探索に向けて

GALA: Toward Geometry-and-Lightin g-Aware Object Search for Compositing ( http://arxiv.org/abs/2204.00125v1 )

ライセンス: Link先を確認
Sijie Zhu, Zhe Lin, Scott Cohen, Jason Kuen, Zhifei Zhang, Chen Chen(参考訳) Compositing-Aware Object Searchは、背景画像とクエリ境界ボックスが与えられた場合に最も互換性のあるオブジェクトを見つけることを目的としている。 以前の研究では、前景オブジェクトと背景の互換性を学習することに重点を置いていたが、大規模データ、すなわち幾何学と照明から重要な要素を学ばなかった。 そこで本稿では,幾何の識別モデルとオープンワールド画像合成のための照明互換性を備えた汎用フォアグラウンドオブジェクト探索法であるgala(geometry-and-li ghting-aware)を提案する。 注目すべきは、CAISデータセットの最先端の結果を達成し、PixabayやOpen Imagesといった大規模なオープンワールドデータセットをうまく一般化することだ。 さらに,入力バウンディングボックスを使わずに背景画像のみを提供する非ボックスシナリオを効果的に処理できる。 webデモ(補足資料参照)は、前景オブジェクトの合成・認識探索と自動位置・スケール予測の応用例を示すために構築されている。

Compositing-aware object search aims to find the most compatible objects for compositing given a background image and a query bounding box. Previous works focus on learning compatibility between the foreground object and background, but fail to learn other important factors from large-scale data, i.e. geometry and lighting. To move a step further, this paper proposes GALA (Geometry-and-Lighti ng-Aware), a generic foreground object search method with discriminative modeling on geometry and lighting compatibility for open-world image compositing. Remarkably, it achieves state-of-the-art results on the CAIS dataset and generalizes well on large-scale open-world datasets, i.e. Pixabay and Open Images. In addition, our method can effectively handle non-box scenarios, where users only provide background images without any input bounding box. A web demo (see supplementary materials) is built to showcase applications of the proposed method for compositing-aware search and automatic location/scale prediction for the foreground object.
翻訳日:2022-04-04 14:46:26 公開日:2022-03-31
# simpo: 同時予測と最適化

SimPO: Simultaneous Prediction and Optimization ( http://arxiv.org/abs/2204.00062v1 )

ライセンス: Link先を確認
Bing Zhang, Yuya Jeremy Ong, Taiga Nakamura(参考訳) 多くの機械学習(ML)モデルは、意思決定プロセスの重要なコンポーネントの一部として、より大きなシステムのコンテキストに統合されます。 具体的には、最適化モデルとして利用される入力値のパラメータを分離プロセスとして推定するために予測モデルがしばしば用いられる。 伝統的に、予測モデルはまず構築され、次にモデル出力を使用して決定値を別々に生成する。 しかし、最適化プロセスとは独立に訓練された予測値が準最適解を生成することはしばしばある。 本稿では,同時予測最適化(SimPO)フレームワークの定式化を提案する。 このフレームワークは、決定駆動型予測MLモデルの重み付け損失と、勾配に基づく手法で直接エンドツーエンドに最適化された最適化対象関数を併用する。

Many machine learning (ML) models are integrated within the context of a larger system as part of a key component for decision making processes. Concretely, predictive models are often employed in estimating the parameters for the input values that are utilized for optimization models as isolated processes. Traditionally, the predictive models are built first, then the model outputs are used to generate decision values separately. However, it is often the case that the prediction values that are trained independently of the optimization process produce sub-optimal solutions. In this paper, we propose a formulation for the Simultaneous Prediction and Optimization (SimPO) framework. This framework introduces the use of a joint weighted loss of a decision-driven predictive ML model and an optimization objective function, which is optimized end-to-end directly through gradient-based methods.
翻訳日:2022-04-04 14:39:40 公開日:2022-03-31
# 教師・学生の枠組みを用いたデータ強化言語間合成

Data-augmented cross-lingual synthesis in a teacher-student framework ( http://arxiv.org/abs/2204.00061v1 )

ライセンス: Link先を確認
Marcel de Korte, Jaebok Kim, Aki Kunikoshi, Adaeze Adigwe, Esther Klabbers(参考訳) 言語間合成は、話者が他の言語で流麗な合成音声を生成するタスクとして定義することができる。 これは難しい課題であり、結果の音声は自然さの低下、アクセント付き音声、および/または本質的な音声特性の喪失に悩まされる。 これまでの研究では、多くのモデルはこれらの言語横断的な側面でうまく機能するほど一般化能力が不十分であることを示している。 これらの一般化問題を克服するために,教師-学生パラダイムを言語間合成に適用することを提案する。 教師モデルでは教師の強制データを生成するのが一般的であるが,本研究では,教師モデルを用いて未熟な話者-言語ペアの拡張データを生成することを提案する。 教師が強制したデータに含まれる自然性や韻律的変動を維持しながら、教師の個人性を拡張データから学習する学生モデルのトレーニングに、両方のデータセットが使用される。 教師の強制力と拡張データの分離をより容易にするために,学生モデルの修正がいくつか提案されている。 その結果,提案手法は,高い自然性と韻律変動を維持しつつ,音声中の話者特性の保持を改善していることがわかった。

Cross-lingual synthesis can be defined as the task of letting a speaker generate fluent synthetic speech in another language. This is a challenging task, and resulting speech can suffer from reduced naturalness, accented speech, and/or loss of essential voice characteristics. Previous research shows that many models appear to have insufficient generalization capabilities to perform well on every of these cross-lingual aspects. To overcome these generalization problems, we propose to apply the teacher-student paradigm to cross-lingual synthesis. While a teacher model is commonly used to produce teacher forced data, we propose to also use it to produce augmented data of unseen speaker-language pairs, where the aim is to retain essential speaker characteristics. Both sets of data are then used for student model training, which is trained to retain the naturalness and prosodic variation present in the teacher forced data, while learning the speaker identity from the augmented data. Some modifications to the student model are proposed to make the separation of teacher forced and augmented data more straightforward. Results show that the proposed approach improves the retention of speaker characteristics in the speech, while managing to retain high levels of naturalness and prosodic variation.
翻訳日:2022-04-04 14:34:35 公開日:2022-03-31
# 留意を伴う能動的学習の効率化

Efficient Active Learning with Abstention ( http://arxiv.org/abs/2204.00043v1 )

ライセンス: Link先を確認
Yinglun Zhu, Robert Nowak(参考訳) アクティブラーニングの目標は、より少ないラベルを使用して、受動的学習によって達成可能なのと同じ精度を達成することである。 ラベル複雑性の指数的節約は、非常に特殊な場合において確実に保証されるが、基本的な下限は、一般的にそのような改善は不可能であることを示している。 これは、アクティブラーニングの代替目標を検討する必要があることを示唆している。 禁断で学ぶことはそのような方法の一つだ。 この設定では、アクティブラーニングアルゴリズムは、特定のケースでは予測を控え、$\frac{1}{2}$よりわずかに小さいエラーを引き起こす可能性がある。 計算効率のよい能動学習アルゴリズムを開発した。 さらに、アルゴリズムはハードな例(真のラベル分布が公正なコインに近い場合)のみを許容することが保証されている。 吸収するオプションは、吸収できない受動的学習アルゴリズムやアクティブ学習と比較して、分布に仮定がなく指数関数的因子によってラベルの複雑さを減少させる。 このアルゴリズムの重要な特徴は、アクティブな学習でしばしば見られる望ましくない「ノイズ探索」行動を避けることである。 また,ラベルの複雑さを一定にし,モデルの誤特定に対処する拡張についても検討する。

The goal of active learning is to achieve the same accuracy achievable by passive learning, while using much fewer labels. Exponential savings in label complexity are provably guaranteed in very special cases, but fundamental lower bounds show that such improvements are impossible in general. This suggests a need to explore alternative goals for active learning. Learning with abstention is one such alternative. In this setting, the active learning algorithm may abstain from prediction in certain cases and incur an error that is marginally smaller than $\frac{1}{2}$. We develop the first computationally efficient active learning algorithm with abstention. Furthermore, the algorithm is guaranteed to only abstain on hard examples (where the true label distribution is close to a fair coin), a novel property we term "proper abstention" that also leads to a host of other desirable characteristics. The option to abstain reduces the label complexity by an exponential factor, with no assumptions on the distribution, relative to passive learning algorithms and/or active learning that are not allowed to abstain. A key feature of the algorithm is that it avoids the undesirable "noise-seeking" behavior often seen in active learning. We also explore extensions that achieve constant label complexity and deal with model misspecification.
翻訳日:2022-04-04 13:55:32 公開日:2022-03-31
# VFDS:効率的な人的活動認識のためのベイズニューラルネットワークにおける変動予測動的選択

VFDS: Variational Foresight Dynamic Selection in Bayesian Neural Networks for Efficient Human Activity Recognition ( http://arxiv.org/abs/2204.00130v1 )

ライセンス: Link先を確認
Randy Ardywibowo, Shahin Boluki, Zhangyang Wang, Bobak Mortazavi, Shuai Huang, Xiaoning Qian(参考訳) 多くの機械学習タスクでは、様々なコストで予測能力の異なる入力特徴が取得される。 パフォーマンスコストのトレードオフを最適化するために、プリオリを観察する機能を選択する。 しかし、以前の観測による文脈の変化を考えると、選択する予測特徴のサブセットは動的に変化する可能性がある。 そこで我々は,FDS (Foresight dynamic selection) という課題に直面している: パフォーマンスコストのトレードオフ全体に対して,次にどの機能を観測するかを決定するための動的で軽量なポリシーを見つけること。 本稿では,fdsに取り組むために,変分フォアテア動的選択(vfds)のベイズ学習フレームワークを提案する。 VFDSは、モデルパフォーマンスと機能コストのトレードオフを特徴付ける変分ベイズ目標を最適化することで、観測する次の機能サブセットを選択するポリシーを学習する。 中心となるのは、以前の観測に依存するバイナリゲート上の暗黙の変動分布であり、観測する機能の次のサブセットを選択する。 本稿では,パフォーマンスコストのトレードオフが重要となるヒューマンアクティビティ認識(HAR)タスクに,VFDSを適用した。 以上の結果から,VFDSは,HARの精度を維持したり改善したりしながら,センサコストの削減を図っている。 さらに、VFDSが動的に選択する特徴は解釈可能で、異なるアクティビティタイプと関連付けられている。 コードをリリースします。

In many machine learning tasks, input features with varying degrees of predictive capability are acquired at varying costs. In order to optimize the performance-cost trade-off, one would select features to observe a priori. However, given the changing context with previous observations, the subset of predictive features to select may change dynamically. Therefore, we face the challenging new problem of foresight dynamic selection (FDS): finding a dynamic and light-weight policy to decide which features to observe next, before actually observing them, for overall performance-cost trade-offs. To tackle FDS, this paper proposes a Bayesian learning framework of Variational Foresight Dynamic Selection (VFDS). VFDS learns a policy that selects the next feature subset to observe, by optimizing a variational Bayesian objective that characterizes the trade-off between model performance and feature cost. At its core is an implicit variational distribution on binary gates that are dependent on previous observations, which will select the next subset of features to observe. We apply VFDS on the Human Activity Recognition (HAR) task where the performance-cost trade-off is critical in its practice. Extensive results demonstrate that VFDS selects different features under changing contexts, notably saving sensory costs while maintaining or improving the HAR accuracy. Moreover, the features that VFDS dynamically select are shown to be interpretable and associated with the different activity types. We will release the code.
翻訳日:2022-04-04 13:55:11 公開日:2022-03-31
# 動的マルチモーダル核融合

Dynamic Multimodal Fusion ( http://arxiv.org/abs/2204.00102v1 )

ライセンス: Link先を確認
Zihui Xue, Radu Marculescu(参考訳) 深層マルチモーダル学習は近年大きな進歩を遂げている。 しかし、現在の融合アプローチは本質的に静的であり、異なるマルチモーダルデータの様々な計算要求を考慮せずに、同一の計算でマルチモーダル入力を処理し融合する。 本研究では,マルチモーダルデータを適応的に融合し,推論中にデータ依存のフォワードパスを生成する新しい手法であるdynamic multimodal fusion (dynmm)を提案する。 dynmmは、"簡単な"マルチモーダル入力(単一のモダリティと単純な融合技術だけで正しく予測できる)の冗長な計算を削減でき、全てのモダリティと複雑な融合操作を予測に取り入れることで、"ハード"サンプルの表現力を保持できる。 様々なマルチモーダルタスクの結果は、我々のアプローチの効率性と幅広い適用性を示している。 例えば、dynmmは計算コストを46.5%削減でき、cmu-moseiの感情分析では精度が損なわれる。 NYU深度データ上のRGB-Dセマンティックセマンティックセグメンテーションでは、DynMMは強いベースラインと比較すると、深さエンコーダを21%以上削減する+0.7% mIoUの改善を実現している。 これはダイナミックなマルチモーダルネットワーク設計への新しい方向を開き、幅広いマルチモーダルタスクに応用できると考えています。

Deep multimodal learning has achieved great progress in recent years. However, current fusion approaches are static in nature, i.e., they process and fuse multimodal inputs with identical computation, without accounting for diverse computational demands of different multimodal data. In this work, we propose dynamic multimodal fusion (DynMM), a new approach that adaptively fuses multimodal data and generates data-dependent forward paths during inference. DynMM can reduce redundant computations for "easy" multimodal inputs (that can be predicted correctly using only one modality or simple fusion techniques) and retain representation power for "hard" samples by adopting all modalities and complex fusion operations for prediction. Results on various multimodal tasks demonstrate the efficiency and wide applicability of our approach. For instance, DynMM can reduce the computation cost by 46.5% with a negligible accuracy loss on CMU-MOSEI sentiment analysis. For RGB-D semantic segmentation on NYU Depth data, DynMM achieves a +0.7% mIoU improvement with over 21% reductions for the depth encoder when compared with strong baselines. We believe this opens a novel direction towards dynamic multimodal network design, with applications to a wide range of multimodal tasks.
翻訳日:2022-04-04 13:52:03 公開日:2022-03-31
# AKF-SR:適応カルマンフィルタに基づく継承表現

AKF-SR: Adaptive Kalman Filtering-based Successor Representation ( http://arxiv.org/abs/2204.00049v1 )

ライセンス: Link先を確認
Parvin Malekzadeh, Mohammad Salimibeni, Ming Hou, Arash Mohammadi, Konstantinos N. Plataniotis(参考訳) 神経科学における最近の研究は、後継表現(SR)ベースのモデルが、モデルベースアルゴリズムと比較して計算コストの低いモデルフリーアルゴリズムよりもゴール位置や報酬関数の変化に適応できることを示唆している。 しかし、そのような表現が、動物が意思決定の不確実性を管理するのにどのように役立つかは分かっていない。 既存のsr学習法は推定srに関する不確かさを捉えていない。 この問題に対処するため,本稿では,適応カルマンフィルタに基づく逐次表現(AKF-SR)と呼ばれるカルマンフィルタに基づくSRフレームワークを提案する。 まず、カルマンフィルタと時間差分法の組み合わせであるカルマン時間差分法を用いて、AKF-SRフレームワーク内でSR学習手順をフィルタ問題にキャストし、SRの不確実性推定の恩恵を受けるとともに、深層ニューラルネットワークベースのアルゴリズムと比較して、モデルパラメータに対するメモリ要求と感度を低下させる。 次に, akf-srフレームワーク内で適応カルマンフィルタ法を適用し, フィルタの性能に影響を与える最も重要なパラメータとしてカルマンフィルタの測定ノイズ共分散と計測マッピング関数をチューニングする。 さらに、srの推定不確実性を利用して、より特定の値により多くの訪問につながる行動方針を形成するアクティブラーニング手法を提案し、その環境と相互作用しながら受信された報酬の観点でエージェントの全体的なパフォーマンスを向上させる。

Recent studies in neuroscience suggest that Successor Representation (SR)-based models provide adaptation to changes in the goal locations or reward function faster than model-free algorithms, together with lower computational cost compared to that of model-based algorithms. However, it is not known how such representation might help animals to manage uncertainty in their decision-making. Existing methods for SR learning do not capture uncertainty about the estimated SR. In order to address this issue, the paper presents a Kalman filter-based SR framework, referred to as Adaptive Kalman Filtering-based Successor Representation (AKF-SR). First, Kalman temporal difference approach, which is a combination of the Kalman filter and the temporal difference method, is used within the AKF-SR framework to cast the SR learning procedure into a filtering problem to benefit from the uncertainty estimation of the SR, and also decreases in memory requirement and sensitivity to model's parameters in comparison to deep neural network-based algorithms. An adaptive Kalman filtering approach is then applied within the proposed AKF-SR framework in order to tune the measurement noise covariance and measurement mapping function of Kalman filter as the most important parameters affecting the filter's performance. Moreover, an active learning method that exploits the estimated uncertainty of the SR to form the behaviour policy leading to more visits to less certain values is proposed to improve the overall performance of an agent in terms of received rewards while interacting with its environment.
翻訳日:2022-04-04 13:50:25 公開日:2022-03-31
# 真実の血清: 秘密を明らかにするための機械学習モデル

Truth Serum: Poisoning Machine Learning Models to Reveal Their Secrets ( http://arxiv.org/abs/2204.00032v1 )

ライセンス: Link先を確認
Florian Tram\`er and Reza Shokri and Ayrton San Joaquin and Hoang Le and Matthew Jagielski and Sanghyun Hong and Nicholas Carlini(参考訳) 機械学習モデルに対する新たな攻撃方法を紹介する。 トレーニングデータセットに毒を盛ることができる敵は、このデータセットでトレーニングされたモデルが、他の当事者に属するトレーニングポイントに関する重要なプライベートな詳細を漏洩させる可能性がある。 当社のアクティブ推論攻撃は、マシンラーニングトレーニングデータの完全性とプライバシをターゲットとした、2つの独立した作業ラインを接続します。 私たちの攻撃は、メンバーシップ推論、属性推論、データ抽出に効果的です。 例えば、ターゲットとする攻撃はトレーニングデータセットの0.1%を汚染し、推論攻撃のパフォーマンスを1~2桁向上させることができます。 さらに、トレーニングデータ(例えば50%)のかなりの部分を制御する敵は、他のユーザのプライベートなデータポイントの8倍の正確な推論を可能にする、ターゲット外の攻撃を起動することができる。 この結果から,機械学習のマルチパーティ計算プロトコルにおける暗号化プライバシ保証の関連性について疑念が持たれた。

We introduce a new class of attacks on machine learning models. We show that an adversary who can poison a training dataset can cause models trained on this dataset to leak significant private details of training points belonging to other parties. Our active inference attacks connect two independent lines of work targeting the integrity and privacy of machine learning training data. Our attacks are effective across membership inference, attribute inference, and data extraction. For example, our targeted attacks can poison <0.1% of the training dataset to boost the performance of inference attacks by 1 to 2 orders of magnitude. Further, an adversary who controls a significant fraction of the training data (e.g., 50%) can launch untargeted attacks that enable 8x more precise inference on all other users' otherwise-private data points. Our results cast doubts on the relevance of cryptographic privacy guarantees in multiparty computation protocols for machine learning, if parties can arbitrarily select their share of training data.
翻訳日:2022-04-04 13:48:37 公開日:2022-03-31
# u-netsと形態学的処理を用いたパノラマ歯科x線写真における歯列分割

Tooth Instance Segmentation on Panoramic Dental Radiographs Using U-Nets and Morphological Processing ( http://arxiv.org/abs/2204.00095v1 )

ライセンス: Link先を確認
Selahattin Serdar Helli, Andac Hamamci(参考訳) パノラマX線画像における自動歯のセグメンテーションは,歯学における画像解析の重要課題である。 本研究では,画像内のオブジェクトを分離したセグメンテーションマップを得るための後処理ステージを提案し,u-netネットワークを用いた歯のインスタンスセグメンテーションに適用する。 後処理は、二項化前のネットワークのシグモノイド出力に適用されるグレースケールのモルフォロジーおよびフィルタリング操作からなる。 ダイスオーバーラップスコア95.4〜0.3%は、全体の歯のセグメンテーションにおいて得られる。 提案したポストプロセッシング段階により, 歯数の平均誤差は6.15%, ポストプロセッシングのない誤差は26.81%に減少した。 私たちの知識では、セグメンテーションと歯の数え上げの両方のパフォーマンスが文学で最も高い。 さらに、これは105の画像からなる比較的小さなトレーニングデータセットを使用することで達成される。 本研究の目的は, 歯のインスタンスを分割することであるが, 細胞インスタンスの分離など他の領域の同様の問題にも適用可能である。

Automatic teeth segmentation in panoramic x-ray images is an important research subject of the image analysis in dentistry. In this study, we propose a post-processing stage to obtain a segmentation map in which the objects in the image are separated, and apply this technique to tooth instance segmentation with U-Net network. The post-processing consists of grayscale morphological and filtering operations, which are applied to the sigmoid output of the network before binarization. A dice overlap score of 95.4 - 0.3% is obtained in overall teeth segmentation. The proposed post-processing stages reduce the mean error of tooth count to 6.15%, whereas the error without post-processing is 26.81%. The performances of both segmentation and tooth counting are the highest in the literature, to our knowledge. Moreover, this is achieved by using a relatively small training dataset, which consists of 105 images. Although the aim in this study is to segment tooth instances, the presented method is applicable to similar problems in other domains, such as separating the cell instances
翻訳日:2022-04-04 13:46:31 公開日:2022-03-31
# SARデータの半教師付き分類のためのグラフベースアクティブラーニング

Graph-based Active Learning for Semi-supervised Classification of SAR Data ( http://arxiv.org/abs/2204.00005v1 )

ライセンス: Link先を確認
Kevin Miller, John Mauro, Jason Setiadi, Xoaquin Baca, Zhan Shi, Jeff Calder, Andrea L. Bertozzi(参考訳) 本稿では,アクティブ・ラーニング・フレームワークにおいて,グラフベース学習法とニューラルネットワーク法を組み合わせた合成開口レーダ(sar)データの分類手法を提案する。 機械学習におけるグラフベースの手法は、データから構築された類似性グラフに基づいている。 シーンからなる生画像からデータを構成する場合、余分な情報により分類作業が難しくなる。 近年,sar画像からパターンを抽出するための有望なフレームワークとしてニューラルネットワークが提案されている。 しかし、これらの方法は過度な適合を避けるために十分なトレーニングデータを必要とする。 同時に、このようなトレーニングデータは、自動目標認識(ATR)やSARデータなど、興味のあるアプリケーションでは利用できないことが多い。 我々は、畳み込みニューラルネットワーク変分自動符号化(CNNVAE)を用いて、SARデータを特徴空間に埋め込んで、埋め込みデータから類似性グラフを構築し、グラフに基づく半教師付き学習技術を適用する。 cnnvaeの機能埋め込みとグラフ構築はラベル付きデータを必要としないため、過剰フィッティングが減少し、低いラベルレートでグラフ学習の一般化性能が向上する。 さらに、この方法は、データラベル処理においてアクティブラーニングのためのヒューマン・イン・ザ・ループを組み込むのが容易である。 提案手法は,ATRの移動・静止目標獲得・認識(MSTAR)データセットにおいて,少ないラベル付きデータで有望な結果を示し,他の機械学習手法と比較する。

We present a novel method for classification of Synthetic Aperture Radar (SAR) data by combining ideas from graph-based learning and neural network methods within an active learning framework. Graph-based methods in machine learning are based on a similarity graph constructed from the data. When the data consists of raw images composed of scenes, extraneous information can make the classification task more difficult. In recent years, neural network methods have been shown to provide a promising framework for extracting patterns from SAR images. These methods, however, require ample training data to avoid overfitting. At the same time, such training data are often unavailable for applications of interest, such as automatic target recognition (ATR) and SAR data. We use a Convolutional Neural Network Variational Autoencoder (CNNVAE) to embed SAR data into a feature space, and then construct a similarity graph from the embedded data and apply graph-based semi-supervised learning techniques. The CNNVAE feature embedding and graph construction requires no labeled data, which reduces overfitting and improves the generalization performance of graph learning at low label rates. Furthermore, the method easily incorporates a human-in-the-loop for active learning in the data-labeling process. We present promising results and compare them to other standard machine learning methods on the Moving and Stationary Target Acquisition and Recognition (MSTAR) dataset for ATR with small amounts of labeled data.
翻訳日:2022-04-04 12:58:43 公開日:2022-03-31
# (参考訳) UNICON: 一様選択とコントラスト学習によるラベルノイズの燃焼

UNICON: Combating Label Noise Through Uniform Selection and Contrastive Learning ( http://arxiv.org/abs/2203.14542v2 )

ライセンス: CC BY 4.0
Nazmul Karim, Mamshad Nayeem Rizve, Nazanin Rahnavard, Ajmal Mian, Mubarak Shah(参考訳) 教師付きディープラーニングは、注釈付きデータの大規模なリポジトリを必要とするため、ラベルノイズは避けられない。 このようなノイズの多いデータのトレーニングは、ディープニューラルネットワークの一般化性能に悪影響を及ぼす。 ラベルノイズに対処するために、最新の最先端の手法では、データのクリーンなサブセットを選択するために、ある種のサンプル選択メカニズムを使用している。 次に、サンプルをラベル付けされていないデータとして扱う訓練に、既成の半教師付き学習法を用いる。 包括的分析の結果,従来の選択手法は比較的難易度の高いクラスからサンプルを選別しつつ,比較的難易度の高いクラスからサンプルを選別する。 これにより、選択されたクリーンセットにおけるクラス不均衡が生じ、高いラベルノイズ下での性能が低下する。 本研究では,高ラベル雑音に対して頑健な単純かつ効果的なサンプル選択法であるUNICONを提案する。 簡便でハードなサンプルの選択の不釣り合いに対処するために,確率的モデリングやハイパーパラメータチューニングを必要としないjensen-shannon divergenceに基づく一様選択機構を提案する。 我々は、雑音ラベルの記憶と戦うために、コントラスト学習による選択法を補完する。 複数のベンチマークデータセットに対する大規模な実験は、UNICONの有効性を示し、90%のノイズレートで現在のCIFAR100データセットよりも11.4%改善されている。 私たちのコードは公開されています

Supervised deep learning methods require a large repository of annotated data; hence, label noise is inevitable. Training with such noisy data negatively impacts the generalization performance of deep neural networks. To combat label noise, recent state-of-the-art methods employ some sort of sample selection mechanism to select a possibly clean subset of data. Next, an off-the-shelf semi-supervised learning method is used for training where rejected samples are treated as unlabeled data. Our comprehensive analysis shows that current selection methods disproportionately select samples from easy (fast learnable) classes while rejecting those from relatively harder ones. This creates class imbalance in the selected clean set and in turn, deteriorates performance under high label noise. In this work, we propose UNICON, a simple yet effective sample selection method which is robust to high label noise. To address the disproportionate selection of easy and hard samples, we introduce a Jensen-Shannon divergence based uniform selection mechanism which does not require any probabilistic modeling and hyperparameter tuning. We complement our selection method with contrastive learning to further combat the memorization of noisy labels. Extensive experimentation on multiple benchmark datasets demonstrates the effectiveness of UNICON; we obtain an 11.4% improvement over the current state-of-the-art on CIFAR100 dataset with a 90% noise rate. Our code is publicly available
翻訳日:2022-04-02 15:25:49 公開日:2022-03-31
# (参考訳) TraHGR:筋電図による手指ジェスチャー認識用トランス [全文訳有]

TraHGR: Transformer for Hand Gesture Recognition via ElectroMyography ( http://arxiv.org/abs/2203.16336v2 )

ライセンス: CC BY 4.0
Soheil Zabihi, Elahe Rahimian, Amir Asif, Arash Mohammadi(参考訳) 表面筋電図(sEMG)信号による深層学習に基づくハンドジェスチャ認識(HGR)は,近年,高度な筋電義歯の開発に有意な可能性を示唆している。 既存のディープラーニングアプローチは、通常、1つのモデルしか含まないため、シナリオを変える際に許容できる一般化性能をほとんど維持できない。 本稿では,ハイブリッドモデルとトランスフォーマの最近の進歩を活かして,この課題に取り組むことを目的とする。 言い換えると、我々はトランスフォーマーアーキテクチャに基づくハイブリッドフレームワークを提案し、これは比較的新しくて革新的なディープラーニングモデルである。 TraHGR(Transformer for Hand Gesture Recognition)と呼ばれる提案されたハイブリッドアーキテクチャは、2つの並列パスと、各モジュールの利点を統合し、異なるシナリオに対して堅牢性を提供する融合センターとして機能する線形レイヤで構成されている。 提案アーキテクチャであるTraHGRをDB2と呼ばれる2番目のNinaproデータセットに基づいて評価した。 DB2データセットのsEMG信号は、40人の健康ユーザから実生活環境で測定され、それぞれ49のジェスチャーを実行する。 我々は提案したTraHGRアーキテクチャのテストと検証のために広範囲な実験を行い、その達成可能な精度を、同じデータセット上で最近提案された5つ以上のHGR分類アルゴリズムと比較した。 また、提案したTraHGRアーキテクチャの結果を個々の経路と比較し、提案したハイブリッドアーキテクチャの識別能力を実証した。 提案するtrahgrアーキテクチャの認識精度は86.18%,88.91%,81.44% ,93.84%であり,それぞれ2.48%,5.12%,8.82%,4. 30%がdb2 (49ジェスチャ),db2-b (17ジェスチャ),db2-c (23ジェスチャ),db2-d (9ジェスチャ) である。

Deep learning-based Hand Gesture Recognition (HGR) via surface Electromyogram (sEMG) signals has recently shown significant potential for development of advanced myoelectric-controll ed prosthesis. Existing deep learning approaches, typically, include only one model as such can hardly maintain acceptable generalization performance in changing scenarios. In this paper, we aim to address this challenge by capitalizing on the recent advances of hybrid models and transformers. In other words, we propose a hybrid framework based on the transformer architecture, which is a relatively new and revolutionizing deep learning model. The proposed hybrid architecture, referred to as the Transformer for Hand Gesture Recognition (TraHGR), consists of two parallel paths followed by a linear layer that acts as a fusion center to integrate the advantage of each module and provide robustness over different scenarios. We evaluated the proposed architecture TraHGR based on the commonly used second Ninapro dataset, referred to as the DB2. The sEMG signals in the DB2 dataset are measured in the real-life conditions from 40 healthy users, each performing 49 gestures. We have conducted extensive set of experiments to test and validate the proposed TraHGR architecture, and have compared its achievable accuracy with more than five recently proposed HGR classification algorithms over the same dataset. We have also compared the results of the proposed TraHGR architecture with each individual path and demonstrated the distinguishing power of the proposed hybrid architecture. The recognition accuracies of the proposed TraHGR architecture are 86.18%, 88.91%, 81.44%, and 93.84%, which are 2.48%, 5.12%, 8.82%, and 4.30% higher than the state-ofthe-art performance for DB2 (49 gestures), DB2-B (17 gestures), DB2-C (23 gestures), and DB2-D (9 gestures), respectively.
翻訳日:2022-04-02 15:24:51 公開日:2022-03-31
# (参考訳) 事前学習された言語モデルが現実的知識をいかに捉えるか 因果関係に触発された分析 [全文訳有]

How Pre-trained Language Models Capture Factual Knowledge? A Causal-Inspired Analysis ( http://arxiv.org/abs/2203.16747v1 )

ライセンス: CC BY 4.0
Shaobo Li, Xiaoguang Li, Lifeng Shang, Zhenhua Dong, Chengjie Sun, Bingquan Liu, Zhenzhou Ji, Xin Jiang and Qun Liu(参考訳) 近年,PLM (Pre-trained Language Models) が取得した事実知識を調査する傾向にある。 多くの作品では、plmsが「ダンテはマスクで生まれた」といったクローゼスタイルのプロンプトで欠落した事実語を記入する能力を示している。 しかし、plmが結果を正しく生成する方法は、まだ謎のままである:効果的な手がかりやショートカットパターンに依存するか? 我々は, PLM が依存する単語レベルのパターンを定量的に評価し, 欠落した単語を生成する因果関係に基づく分析によって, この疑問に答えようとしている。 欠落した単語に典型的な3つの関連がある単語(知識依存、位置近接、高度に共起する単語)をチェックする。 分析の結果,(1) PLMは, 知識依存語よりも, 位置依存語と高い共起語により, 事実語をより多く生成し, 2) 知識依存語への依存は, 位置依存語と高い共起語よりも効果的であることがわかった。 したがって, PLMは, 不適切な関連性に依存するため, 事実知識を効果的に捉えない。

Recently, there has been a trend to investigate the factual knowledge captured by Pre-trained Language Models (PLMs). Many works show the PLMs' ability to fill in the missing factual words in cloze-style prompts such as "Dante was born in [MASK]." However, it is still a mystery how PLMs generate the results correctly: relying on effective clues or shortcut patterns? We try to answer this question by a causal-inspired analysis that quantitatively measures and evaluates the word-level patterns that PLMs depend on to generate the missing words. We check the words that have three typical associations with the missing words: knowledge-dependent, positionally close, and highly co-occurred. Our analysis shows: (1) PLMs generate the missing factual words more by the positionally close and highly co-occurred words than the knowledge-dependent words; (2) the dependence on the knowledge-dependent words is more effective than the positionally close and highly co-occurred words. Accordingly, we conclude that the PLMs capture the factual knowledge ineffectively because of depending on the inadequate associations.
翻訳日:2022-04-02 08:17:13 公開日:2022-03-31
# (参考訳) 確率的バックプロパゲーション:ビデオモデルの学習に有効な記憶戦略 [全文訳有]

Stochastic Backpropagation: A Memory Efficient Strategy for Training Video Models ( http://arxiv.org/abs/2203.16755v1 )

ライセンス: CC BY 4.0
Feng Cheng, Mingze Xu, Yuanjun Xiong, Hao Chen, Xinyu Li, Wei Li, Wei Xia(参考訳) 本稿では,ビデオ上でディープニューラルネットワークを学習するための,Stochastic Backpropagation (SBP) というメモリ効率向上手法を提案する。 バックプロパゲーションのための不完全な実行からの勾配は、ビデオの冗長性の高さに起因する最小限の精度損失でモデルを効果的に訓練できるという発見に基づいている。 SBPは全てのフォワードパスを保持するが、ランダムかつ独立にトレーニングステップごとに各ネットワークレイヤの後方パスを削除する。 これにより、調整可能なkeep-ratioで制御可能な後方パスに対応するアクティベーション値をキャッシュする必要がなくなることで、gpuメモリコストが削減される。 実験によると、sbpはビデオタスクの幅広いモデルに適用できるため、最大80.0%のgpuメモリ節約と10%のトレーニングスピードアップを実現し、1%未満の精度でアクション認識と時間的アクション検出を削減できる。

We propose a memory efficient method, named Stochastic Backpropagation (SBP), for training deep neural networks on videos. It is based on the finding that gradients from incomplete execution for backpropagation can still effectively train the models with minimal accuracy loss, which attributes to the high redundancy of video. SBP keeps all forward paths but randomly and independently removes the backward paths for each network layer in each training step. It reduces the GPU memory cost by eliminating the need to cache activation values corresponding to the dropped backward paths, whose amount can be controlled by an adjustable keep-ratio. Experiments show that SBP can be applied to a wide range of models for video tasks, leading to up to 80.0% GPU memory saving and 10% training speedup with less than 1% accuracy drop on action recognition and temporal action detection.
翻訳日:2022-04-02 08:01:22 公開日:2022-03-31
# (参考訳) カジュアルな6dof:360度カメラ搭載のフリービューポイントパノラマ [全文訳有]

Casual 6-DoF: free-viewpoint panorama using a handheld 360 camera ( http://arxiv.org/abs/2203.16756v1 )

ライセンス: CC BY 4.0
Rongsen Chen, Fang-Lue Zhang, Simon Finnie, Andrew Chalmers, Teahyun Rhee(参考訳) 6自由度(6-DoF)ビデオは、ユーザーが撮影シーンを広い視野で移動できるようにすることで、テレプレゼンスを提供する。 高度なカメラ設定を必要とする手法と比較して、フォトグラム法に基づく画像ベースのレンダリング手法は、どんなポーズでも撮影できるが、これはカジュアルなユーザーに適している。 しかし、既存の画像ベースのレンダリング手法は視点画像に基づいている。 6-DoFビューを再構築する際には、数百の画像をキャプチャする必要があることが多い。 従来の視点画像とは対照的に、360{\deg}画像は周囲のビュー全体を単一のショットでキャプチャするので、より高速な6-DoFビュー再構成プロセスを提供する。 本稿では,従来の360{\deg}カメラで捉えた360{\deg}パノラマの非構造コレクションを用いて,広帯域での6-DoF体験を実現する手法を提案する。 提案手法は,360{\deg}データキャプチャ,高品質な球面深度パノラマ生成のための新しい深度推定,高忠実度自由視点生成からなる。 本手法は,様々な環境から取得したデータを用いて,最先端の手法と比較した。 本手法は,テストシーンにおける視覚的品質とロバスト性を示す。

Six degrees-of-freedom (6-DoF) video provides telepresence by enabling users to move around in the captured scene with a wide field of regard. Compared to methods requiring sophisticated camera setups, the image-based rendering method based on photogrammetry can work with images captured with any poses, which is more suitable for casual users. However, existing image-based rendering methods are based on perspective images. When used to reconstruct 6-DoF views, it often requires capturing hundreds of images, making data capture a tedious and time-consuming process. In contrast to traditional perspective images, 360{\deg} images capture the entire surrounding view in a single shot, thus, providing a faster capturing process for 6-DoF view reconstruction. This paper presents a novel method to provide 6-DoF experiences over a wide area using an unstructured collection of 360{\deg} panoramas captured by a conventional 360{\deg} camera. Our method consists of 360{\deg} data capturing, novel depth estimation to produce a high-quality spherical depth panorama, and high-fidelity free-viewpoint generation. We compared our method against state-of-the-art methods, using data captured in various environments. Our method shows better visual quality and robustness in the tested scenes.
翻訳日:2022-04-02 07:45:32 公開日:2022-03-31
# (参考訳) MeMOT: メモリ付きマルチオブジェクト追跡 [全文訳有]

MeMOT: Multi-Object Tracking with Memory ( http://arxiv.org/abs/2203.16761v1 )

ライセンス: CC BY 4.0
Jiarui Cai, Mingze Xu, Wei Li, Yuanjun Xiong, Wei Xia, Zhuowen Tu, Stefano Soatto(参考訳) 本稿では,オブジェクト検出とデータアソシエーションを共通の枠組みで実行し,長時間にわたってオブジェクトをリンクするオンライントラッキングアルゴリズムを提案する。 これは、追跡されたオブジェクトのID埋め込みを格納するための大きな時空間メモリを保持し、必要に応じてメモリから有用な情報を参照および集約することにより実現される。 私たちのモデルはMeMOTと呼ばれ、トランスフォーマーベースの3つの主要モジュールで構成されています。 1) 現在のビデオフレームにおけるオブジェクト提案を生成する仮説生成 2)追跡対象毎のメモリからコア情報を抽出するメモリ符号化 3)マルチオブジェクト追跡のためのオブジェクト検出とデータ関連タスクを同時に解決するメモリデコーディング。 広く採用されているMOTベンチマークデータセットで評価すると、MeMOTは非常に競争力のあるパフォーマンスが観察される。

We propose an online tracking algorithm that performs the object detection and data association under a common framework, capable of linking objects after a long time span. This is realized by preserving a large spatio-temporal memory to store the identity embeddings of the tracked objects, and by adaptively referencing and aggregating useful information from the memory as needed. Our model, called MeMOT, consists of three main modules that are all Transformer-based: 1) Hypothesis Generation that produce object proposals in the current video frame; 2) Memory Encoding that extracts the core information from the memory for each tracked object; and 3) Memory Decoding that solves the object detection and data association tasks simultaneously for multi-object tracking. When evaluated on widely adopted MOT benchmark datasets, MeMOT observes very competitive performance.
翻訳日:2022-04-02 07:26:59 公開日:2022-03-31
# (参考訳) CREATE:中国のショートビデオ検索とタイトル生成のためのベンチマーク [全文訳有]

CREATE: A Benchmark for Chinese Short Video Retrieval and Title Generation ( http://arxiv.org/abs/2203.16763v1 )

ライセンス: CC BY 4.0
Ziqi Zhang, Yuxin Chen, Zongyang Ma, Zhongang Qi, Chunfeng Yuan, Bing Li, Ying Shan, Weiming Hu(参考訳) 従来のビデオキャプションは、主観的で魅力的な表現を欠いたビデオの実際のコンテンツを客観的に記述することを目的としており、実用シナリオを制限している。 ビデオタイトリングはこの目標を達成するためのものだが、適切なベンチマークがない。 本稿では,中国初の大規模ショートビデオ検索およびタイトル生成ベンチマークを作成し,中国におけるビデオ検索と動画検索における研究と応用を容易にすることを提案する。 CREATEは、高品質なラベル付き210Kデータセットと、2つの大規模3M/10M事前トレーニングデータセットで構成されており、51のカテゴリ、50K以上のタグ、537Kマニュアルの注釈付きタイトルとキャプション、10M以上のショートビデオを含んでいる。 本研究では,ビデオタグとgpt事前学習モデルを用いて,マルチモーダルアライメントと生成の目的を達成するために,ビデオ検索とビデオタイルタスクを組み合わせた新しいモデルalwigを提案する。 CREATEは、中国のショートビデオ分野におけるビデオタイトリングとビデオ検索の今後の研究と応用を促進するための新しい方向を開く。

Previous works of video captioning aim to objectively describe the video's actual content, which lacks subjective and attractive expression, limiting its practical application scenarios. Video titling is intended to achieve this goal, but there is a lack of a proper benchmark. In this paper, we propose to CREATE, the first large-scale Chinese shoRt vidEo retrievAl and Title gEneration benchmark, to facilitate research and application in video titling and video retrieval in Chinese. CREATE consists of a high-quality labeled 210K dataset and two large-scale 3M/10M pre-training datasets, covering 51 categories, 50K+ tags, 537K manually annotated titles and captions, and 10M+ short videos. Based on CREATE, we propose a novel model ALWIG which combines video retrieval and video titling tasks to achieve the purpose of multi-modal ALignment WIth Generation with the help of video tags and a GPT pre-trained model. CREATE opens new directions for facilitating future research and applications on video titling and video retrieval in the field of Chinese short videos.
翻訳日:2022-04-02 07:08:36 公開日:2022-03-31
# (参考訳) restr: トランスフォーマーを用いた畳み込みフリー参照画像セグメンテーション

ReSTR: Convolution-free Referring Image Segmentation Using Transformers ( http://arxiv.org/abs/2203.16768v1 )

ライセンス: CC BY-SA 4.0
Namyup Kim, Dongwon Kim, Cuiling Lan, Wenjun Zeng, Suha Kwak(参考訳) イメージセグメンテーションの参照は、ターゲットが事前に定義されたクラスではなく、自然言語で記述される高度なセグメンテーションタスクである。 このタスクの既存の手法の多くは畳み込みニューラルネットワークに大きく依存しているため、言語表現におけるエンティティ間の長距離依存関係の取得には困難であり、2つの異なるモード間の相互作用をモデル化するのに十分な柔軟性がない。 そこで本稿では,トランスフォーマーを用いた画像分割参照のための畳み込みフリーモデルとして,restrを提案する。 変換器エンコーダを通じて両方のモダリティの特徴を抽出するため、各モダリティ内のエンティティ間の長距離依存関係をキャプチャすることができる。 また、ReSTRは自己アテンションエンコーダによって2つのモードの特徴を融合させ、融合過程における2つのモード間の柔軟で適応的な相互作用を可能にする。 融合された機能はセグメンテーションモジュールに供給され、手元のイメージと言語表現に応じて適応的に動作する。 ReSTRは以前のすべての公開ベンチマークと比較され、既存のモデルよりも優れている。

Referring image segmentation is an advanced semantic segmentation task where target is not a predefined class but is described in natural language. Most of existing methods for this task rely heavily on convolutional neural networks, which however have trouble capturing long-range dependencies between entities in the language expression and are not flexible enough for modeling interactions between the two different modalities. To address these issues, we present the first convolution-free model for referring image segmentation using transformers, dubbed ReSTR. Since it extracts features of both modalities through transformer encoders, it can capture long-range dependencies between entities within each modality. Also, ReSTR fuses features of the two modalities by a self-attention encoder, which enables flexible and adaptive interactions between the two modalities in the fusion process. The fused features are fed to a segmentation module, which works adaptively according to the image and language expression in hand. ReSTR is evaluated and compared with previous work on all public benchmarks, where it outperforms all existing models.
翻訳日:2022-04-02 06:48:10 公開日:2022-03-31
# (参考訳) LAKe-Net: 指定キーポイントのローカライズによるトポロジ対応ポイントクラウドコンプリート [全文訳有]

LAKe-Net: Topology-Aware Point Cloud Completion by Localizing Aligned Keypoints ( http://arxiv.org/abs/2203.16771v1 )

ライセンス: CC BY 4.0
Junshu Tang, Zhijun Gong, Ran Yi, Yuan Xie, Lizhuang Ma(参考訳) 点雲の完成は、部分的観測から幾何学的および位相的形状を完備することを目的としている。 しかし、元の形状の幾らかのトポロジが欠落しており、既存の手法では、完全な形状の構造やトポロジ的な情報を予測することなく、完備点の位置を直接予測している。 そこで我々は,キーポイントの局所化による新しいトポロジ・アウェア・ポイント・クラウド補完モデル lake-net を提案し,新しいキーポイント・スケルトン形状予測手法を提案する。 具体的には, 3 つのステップを用いてトポロジーの欠落を完了させる。 1)キーポイントの定位。 非対称キーポイント検出器と完全キーポイント生成器を含む非対称キーポイントロケータは、完全および部分点雲から整列キーポイントをローカライズするために提案される。 理論的には、検出器はサブカテゴリ内のオブジェクトの整列キーポイントをキャプチャできる。 2)表面骨格生成。 新しいタイプの骨格であるSurface-skeletonは、幾何学的先行に基づくキーポイントから生成され、キーポイントから取得したトポロジ的情報を完全に表現し、局所的な詳細を回復する。 3) 形状のリファインメント。 本稿では,再帰的骨格支援リファインメントモジュールにマルチスケール表面骨格を投入し,完成プロセスを支援するリファインメントサブネットの設計を行う。 実験の結果,本手法はポイントクラウド完了時の最先端性能を実現する。

Point cloud completion aims at completing geometric and topological shapes from a partial observation. However, some topology of the original shape is missing, existing methods directly predict the location of complete points, without predicting structured and topological information of the complete shape, which leads to inferior performance. To better tackle the missing topology part, we propose LAKe-Net, a novel topology-aware point cloud completion model by localizing aligned keypoints, with a novel Keypoints-Skeleton-S hape prediction manner. Specifically, our method completes missing topology using three steps: 1) Aligned Keypoint Localization. An asymmetric keypoint locator, including an unsupervised multi-scale keypoint detector and a complete keypoint generator, is proposed for localizing aligned keypoints from complete and partial point clouds. We theoretically prove that the detector can capture aligned keypoints for objects within a sub-category. 2) Surface-skeleton Generation. A new type of skeleton, named Surface-skeleton, is generated from keypoints based on geometric priors to fully represent the topological information captured from keypoints and better recover the local details. 3) Shape Refinement. We design a refinement subnet where multi-scale surface-skeletons are fed into each recursive skeleton-assisted refinement module to assist the completion process. Experimental results show that our method achieves the state-of-the-art performance on point cloud completion.
翻訳日:2022-04-02 06:47:11 公開日:2022-03-31
# (参考訳) 音声処理タスクのための生成音声言語モデルに基づくプロンプトチューニングの探索 [全文訳有]

An Exploration of Prompt Tuning on Generative Spoken Language Model for Speech Processing Tasks ( http://arxiv.org/abs/2203.16773v1 )

ライセンス: CC BY 4.0
Kai-Wei Chang, Wei-Cheng Tseng, Shang-Wen Li, Hung-yi Lee(参考訳) 自己教師付き学習(SSL)モデルから学習した音声表現は、様々な音声処理タスクに有用であることが判明した。 しかし、SSL表現を利用するには、トレーニング済みのモデルを微調整するか、タスク固有のダウンストリームモデルと損失関数を設計する必要がある。 一方、自然言語処理(NLP)のプロンプトは、事前訓練された言語モデル(LM)を活用するための効率的で広く使われている手法である。 しかし、このようなパラダイムは言語コミュニティではほとんど研究されていない。 本稿では,生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの探索について報告する。 実験の結果, 学習可能なパラメータの少ない音声分類タスクにおいて, 微調整されたダウンストリームモデルに比べて, 適応性が向上した。 さらに,課題系列生成タスクにおける手法について検討する。 プロンプトチューニングもその可能性を示し,本論文ではその限界と可能性について論じる。

Speech representations learned from Self-supervised learning (SSL) models have been found beneficial for various speech processing tasks. However, utilizing SSL representations usually requires fine-tuning the pre-trained models or designing task-specific downstream models and loss functions, causing much memory usage and human labor. On the other hand, prompting in Natural Language Processing (NLP) is an efficient and widely used technique to leverage pre-trained language models (LMs). Nevertheless, such a paradigm is little studied in the speech community. We report in this paper the first exploration of the prompt tuning paradigm for speech processing tasks based on Generative Spoken Language Model (GSLM). Experiment results show that the prompt tuning technique achieves competitive performance in speech classification tasks with fewer trainable parameters than fine-tuning specialized downstream models. We further study the technique in challenging sequence generation tasks. Prompt tuning also demonstrates its potential, while the limitation and possible research directions are discussed in this paper.
翻訳日:2022-04-02 06:31:47 公開日:2022-03-31
# (参考訳) 注意に基づくリカレントニューラルネットワークを用いたソーシャルメディア上のバングラヘイト音声検出 [全文訳有]

Bangla hate speech detection on social media using attention-based recurrent neural network ( http://arxiv.org/abs/2203.16775v1 )

ライセンス: CC BY 4.0
Amit Kumar Das, Abdullah Al Asif, Anik Paul, and Md. Nur Hossain(参考訳) ヘイトスピーチは、テクノロジーの日常的利用を通じて急速に広まり、特にソーシャルメディア上でのあなたの意見や感情を否定的な側面で共有することで広まっている。 英語、ドイツ語、その他の言語のヘイトスピーチを検出するために多くの研究がなされているが、ベンガル語の文脈において非常に少ない研究がなされている。 対照的に、何百万人もの人々がベンガルのソーシャルメディアでコミュニケーションしている。 実施されている数少ない既存の作業は、正確性と解釈性の両方の改善が必要である。 この記事では、Facebookページ上のユーザのBengaliコメントを分類するために、NLPで人気のツールであるエンコーダデコーダベースの機械学習モデルを提案する。 7つの異なるカテゴリーのヘイトスピーチからなる7,425のBengaliコメントのデータセットを使用して、モデルのトレーニングと評価を行った。 コメントから局所的な特徴を抽出および符号化するために、1D畳み込み層が使用された。 最後に、ヘイトスピーチカテゴリの予測には、アテンションメカニズム、LSTM、GRUベースのデコーダが使用されている。 3つのエンコーダデコーダアルゴリズムのうち,注意に基づくデコーダが最も精度が高かった(77%)。

Hate speech has spread more rapidly through the daily use of technology and, most notably, by sharing your opinions or feelings on social media in a negative aspect. Although numerous works have been carried out in detecting hate speeches in English, German, and other languages, very few works have been carried out in the context of the Bengali language. In contrast, millions of people communicate on social media in Bengali. The few existing works that have been carried out need improvements in both accuracy and interpretability. This article proposed encoder decoder based machine learning model, a popular tool in NLP, to classify user's Bengali comments on Facebook pages. A dataset of 7,425 Bengali comments, consisting of seven distinct categories of hate speeches, was used to train and evaluate our model. For extracting and encoding local features from the comments, 1D convolutional layers were used. Finally, the attention mechanism, LSTM, and GRU based decoders have been used for predicting hate speech categories. Among the three encoder decoder algorithms, the attention-based decoder obtained the best accuracy (77%).
翻訳日:2022-04-02 06:18:31 公開日:2022-03-31
# (参考訳) トランスデューサに基づく音声認識のための言語モデル統合に関する実証的研究 [全文訳有]

An Empirical Study of Language Model Integration for Transducer based Speech Recognition ( http://arxiv.org/abs/2203.16776v1 )

ライセンス: CC BY 4.0
Huahuan Zheng, Keyu An, Zhijian Ou, Chen Huang, Ke Ding, Guanglu Wan(参考訳) RNN-Transducer(RNN-T )におけるテキストのみのデータと外部言語モデル(LM)の利用は困難である。 近年, 密度比 (DR) やILME (ILME) などの手法が開発され, 従来の浅層核融合 (SF) 法よりも優れている。 これらの手法の背後にある基本的な考え方は、外部のLMを統合するために、RNN-T後部は暗黙的に学習されたILMを先に減じるべきである。 近年の研究では、RNN-Tは低次の言語モデル情報しか学習していないことが示唆されているが、DR法はよく訓練されたILMを使用している。 本稿では,この設定が適切であり,dr法の性能を低下させる可能性があると仮定し,低次弱 ilm を dr に対して訓練することにより,低次密度比法 (lodr) を提案する。 LODR は全てのタスクにおいて SF を一貫して上回り、ほとんどのテストでは ILME に近く、DR よりも優れていることが示されている。

Utilizing text-only data with an external language model (LM) in end-to-end RNN-Transducer (RNN-T) for speech recognition is challenging. Recently, a class of methods such as density ratio (DR) and ILM estimation (ILME) have been developed, outperforming the classic shallow fusion (SF) method. The basic idea behind these methods is that RNN-T posterior should first subtract the implicitly learned ILM prior, in order to integrate the external LM. While recent studies suggest that RNN-T only learns some low-order language model information, the DR method uses a well-trained ILM. We hypothesize that this setting is appropriate and may deteriorate the performance of the DR method, and propose a low-order density ratio method (LODR) by training a low-order weak ILM for DR. Extensive empirical experiments are conducted on both in-domain and cross-domain scenarios on English LibriSpeech & Tedlium-2 and Chinese WenetSpeech & AISHELL-1 datasets. It is shown that LODR consistently outperforms SF in all tasks, while performing generally close to ILME and better than DR in most tests.
翻訳日:2022-04-02 06:06:52 公開日:2022-03-31
# (参考訳) POMDPベンチマークとしての深層強化学習のためのマスクアタリ [全文訳有]

Mask Atari for Deep Reinforcement Learning as POMDP Benchmarks ( http://arxiv.org/abs/2203.16777v1 )

ライセンス: CC BY 4.0
Yang Shao, Quan Kong, Tadayuki Matsumura, Taiki Fuji, Kiyoto Ito and Hiroyuki Mizuno(参考訳) 我々は,部分可観測マルコフ決定過程(pomdp)問題を解決するために,深層強化学習(drl)に基づく手法を用いた新しいベンチマークであるmask atariを提案する。 POMDP問題に対するシミュレーション環境を実現するため、特にPOMDPのアクティブ情報収集(AIG)設定において、ターゲットエージェントの観察領域として、制御可能、移動可能、学習可能なマスクを備えたAtari 2600ゲームに基づいてMask Atariを構築する。 Mask Atariは、まだ存在していないので、上記の問題に焦点を当てたメソッドを評価するための、挑戦的で効率的なベンチマークを提供する。 また、マスク操作は、エージェントのシミュレーション環境に人間の視覚システムの受容野を導入する試みであり、これは、評価がセンシング能力から偏っておらず、人間のベースラインと比較した場合の方法の認知性能に純粋に焦点を合わせていることを意味する。 我々はベンチマークの課題と特徴を説明し、Mask Atariでいくつかのベースラインを評価する。

We present Mask Atari, a new benchmark to help solve partially observable Markov decision process (POMDP) problems with Deep Reinforcement Learning (DRL)-based approaches. To achieve a simulation environment for the POMDP problems, Mask Atari is constructed based on Atari 2600 games with controllable, moveable, and learnable masks as the observation area for the target agent, especially with the active information gathering (AIG) setting in POMDPs. Given that one does not yet exist, Mask Atari provides a challenging, efficient benchmark for evaluating the methods that focus on the above problem. Moreover, the mask operation is a trial for introducing the receptive field in the human vision system into a simulation environment for an agent, which means the evaluations are not biased from the sensing ability and purely focus on the cognitive performance of the methods when compared with the human baseline. We describe the challenges and features of our benchmark and evaluate several baselines with Mask Atari.
翻訳日:2022-04-02 05:52:13 公開日:2022-03-31
# (参考訳) 等価学習による反射・回転対称性検出 [全文訳有]

Reflection and Rotation Symmetry Detection via Equivariant Learning ( http://arxiv.org/abs/2203.16787v1 )

ライセンス: CC BY 4.0
Ahyun Seo, Byungjin Kim, Suha Kwak, Minsu Cho(参考訳) 対称性を検出する本質的な挑戦は、対称性パターンの任意の向きから来ている;反射対称性は、回転対称性が回転したコピーと特定の向きと一致する間、特定の向きを持つ軸に対して自身をミラーする。 このような対称性パターンを画像から発見することは、画像の反射や回転と一貫して変化する同変特徴表現の恩恵を受ける。 本研究では,同変特徴写像を反射と回転の双面体群に対して活用する対称性検出のための群同変畳み込みネットワークを提案する。 提案するネットワークは、対等な層でエンドツーエンドに構築され、リフレクション軸や回転中心の空間マップを出力するように訓練されている。 また,反射・回転対称性検出のための既存のベンチマークの限界を緩和する新しいデータセットdendiを提案する。 実験により,LDRSおよびDENDIデータセットの対称性検出において,本手法が芸術の状態を達成できることが確認された。

The inherent challenge of detecting symmetries stems from arbitrary orientations of symmetry patterns; a reflection symmetry mirrors itself against an axis with a specific orientation while a rotation symmetry matches its rotated copy with a specific orientation. Discovering such symmetry patterns from an image thus benefits from an equivariant feature representation, which varies consistently with reflection and rotation of the image. In this work, we introduce a group-equivariant convolutional network for symmetry detection, dubbed EquiSym, which leverages equivariant feature maps with respect to a dihedral group of reflection and rotation. The proposed network is built end-to-end with dihedrally-equivaria nt layers and trained to output a spatial map for reflection axes or rotation centers. We also present a new dataset, DENse and DIverse symmetry (DENDI), which mitigates limitations of existing benchmarks for reflection and rotation symmetry detection. Experiments show that our method achieves the state of the arts in symmetry detection on LDRS and DENDI datasets.
翻訳日:2022-04-02 05:41:14 公開日:2022-03-31
# (参考訳) esgbert: 企業環境、社会的、ガバナンスのプラクティスに関連する分類タスクを支援する言語モデル [全文訳有]

ESGBERT: Language Model to Help with Classification Tasks Related to Companies Environmental, Social, and Governance Practices ( http://arxiv.org/abs/2203.16788v1 )

ライセンス: CC BY 4.0
Srishti Mehra, Robert Louka, Yixun Zhang(参考訳) 環境・社会・ガバナンス(ESG)は、物質的リスクや成長の機会を特定するための分析の一環として、投資家の関心を惹きつける非金融的要因である。 このような注目のいくつかは、今やこれまで以上に認識されているクライアントが、自身の資金の管理と投資を責任を持って要求していることも引き起こしている。 ESGへの関心が高まるにつれ、投資家はESG情報にアクセスできる必要がある。 レポートや開示,プレスリリース,10-Q の提出などにおいて,多くがテキスト形式であるため,ESG テキストの分類処理に高度な NLP 技術が必要であると考えられる。 本稿では、ESGドメイン固有の事前学習モデルが、そのようなモデルの構築と研究に役立つと仮定する。 本研究では,ESG 仕様テキストを用いて事前訓練した BERT の重み付けを微調整し,さらに分類タスクのためのモデルを微調整することによって,これを行う方法を検討した。 環境特化タスクにおいて,元のBERTやベースラインモデルよりも精度が向上した。

Environmental, Social, and Governance (ESG) are non-financial factors that are garnering attention from investors as they increasingly look to apply these as part of their analysis to identify material risks and growth opportunities. Some of this attention is also driven by clients who, now more aware than ever, are demanding for their money to be managed and invested responsibly. As the interest in ESG grows, so does the need for investors to have access to consumable ESG information. Since most of it is in text form in reports, disclosures, press releases, and 10-Q filings, we see a need for sophisticated NLP techniques for classification tasks for ESG text. We hypothesize that an ESG domain-specific pre-trained model will help with such and study building of the same in this paper. We explored doing this by fine-tuning BERTs pre-trained weights using ESG specific text and then further fine-tuning the model for a classification task. We were able to achieve accuracy better than the original BERT and baseline models in environment-specific classification tasks.
翻訳日:2022-04-02 05:26:08 公開日:2022-03-31
# (参考訳) 物理が機械学習に出会うとき:物理に変形した機械学習に関する調査 [全文訳有]

When Physics Meets Machine Learning: A Survey of Physics-Informed Machine Learning ( http://arxiv.org/abs/2203.16797v1 )

ライセンス: CC BY 4.0
Chuizheng Meng, Sungyong Seo, Defu Cao, Sam Griesemer, Yan Liu(参考訳) 物理インフォームド機械学習(PIML)は、自然現象の高度な抽象化である物理学の先行知識と、データ駆動機械学習モデルとの組み合わせを、トレーニングデータの不足を軽減し、モデルの一般化可能性を高め、結果の物理的妥当性を確保する効果的な方法として現れている。 本稿では,PIMLにおける最近の研究を多数調査し,(1)PIMLの動機,(2)PIMLにおける物理知識,(3)PIMLにおける物理知識統合の方法の3つの側面から要約する。 また、PIMLにおける現在の課題とそれに対応する研究機会についても論じる。

Physics-informed machine learning (PIML), referring to the combination of prior knowledge of physics, which is the high level abstraction of natural phenomenons and human behaviours in the long history, with data-driven machine learning models, has emerged as an effective way to mitigate the shortage of training data, to increase models' generalizability and to ensure the physical plausibility of results. In this paper, we survey an abundant number of recent works in PIML and summarize them from three aspects: (1) motivations of PIML, (2) physics knowledge in PIML, (3) methods of physics knowledge integration in PIML. We also discuss current challenges and corresponding research opportunities in PIML.
翻訳日:2022-04-02 05:19:06 公開日:2022-03-31
# (参考訳) BRIO:抽象要約に秩序をもたらす [全文訳有]

BRIO: Bringing Order to Abstractive Summarization ( http://arxiv.org/abs/2203.16804v1 )

ライセンス: CC BY 4.0
Yixin Liu, Pengfei Liu, Dragomir Radev, Graham Neubig(参考訳) 抽象要約モデルは、理想モデルがすべての確率質量を基準要約に割り当てる決定論的(一点)目標分布を仮定した最大確率推定を用いて一般的に訓練される。 この仮定は、モデルが参照の要約から逸脱した複数のシステム生成(候補)要約を比較する必要がある推論中にパフォーマンスが低下する可能性がある。 この問題に対処するために,非決定論的分布を前提とした新たなトレーニングパラダイムを提案する。 提案手法は, CNN/DailyMail (47.78 ROUGE-1) と XSum (49.07 ROUGE-1) のデータセット上で, 最新の結果が得られる。 さらに,本モデルでは,その品質レベルとより相関した候補要約の確率を推定できることを示した。

Abstractive summarization models are commonly trained using maximum likelihood estimation, which assumes a deterministic (one-point) target distribution in which an ideal model will assign all the probability mass to the reference summary. This assumption may lead to performance degradation during inference, where the model needs to compare several system-generated (candidate) summaries that have deviated from the reference summary. To address this problem, we propose a novel training paradigm which assumes a non-deterministic distribution so that different candidate summaries are assigned probability mass according to their quality. Our method achieves a new state-of-the-art result on the CNN/DailyMail (47.78 ROUGE-1) and XSum (49.07 ROUGE-1) datasets. Further analysis also shows that our model can estimate probabilities of candidate summaries that are more correlated with their level of quality.
翻訳日:2022-04-02 04:43:16 公開日:2022-03-31
# (参考訳) 低資源音声認識のための強制アライメントと言語間事前学習モデルに対するテキスト対音声擬似ラベルの有効性 [全文訳有]

Effectiveness of text to speech pseudo labels for forced alignment and cross lingual pretrained models for low resource speech recognition ( http://arxiv.org/abs/2203.16823v1 )

ライセンス: CC BY 4.0
Anirudh Gupta, Rishabh Gaur, Ankur Dhuriya, Harveen Singh Chadha, Neeraj Chhimwal, Priyanshi Shah, Vivek Raghavan(参考訳) 近年、エンド・ツー・エンド(e2e)自動音声認識(asr)システムは十分な資源を与えられた有望な結果を得ている。 ラベル付きデータがあまりない言語でも、大量の高リソース言語を事前訓練し、低リソース言語を微調整することで、最先端のE2E ASRシステムを開発することができる。 多くの低リソース言語にとって、ラベリングされたデータはオープンドメインでは利用できないため、現在のアプローチはまだ難しい。 本稿では,テキストから音声への擬似ラベルを強制アライメントに用いることで,Maithili,Bhojpuri,D ogriのラベル付きデータを作成する手法を提案する。 生成されたデータは品質を検査され、さらにトランスフォーマーベースのwav2vec 2.0 asrモデルのトレーニングに使用された。 すべてのデータとモデルはオープンドメインで利用できる。

In the recent years end to end (E2E) automatic speech recognition (ASR) systems have achieved promising results given sufficient resources. Even for languages where not a lot of labelled data is available, state of the art E2E ASR systems can be developed by pretraining on huge amounts of high resource languages and finetune on low resource languages. For a lot of low resource languages the current approaches are still challenging, since in many cases labelled data is not available in open domain. In this paper we present an approach to create labelled data for Maithili, Bhojpuri and Dogri by utilising pseudo labels from text to speech for forced alignment. The created data was inspected for quality and then further used to train a transformer based wav2vec 2.0 ASR model. All data and models are available in open domain.
翻訳日:2022-04-02 04:23:22 公開日:2022-03-31
# (参考訳) indic-punct:indic言語の自動句読点復元と逆テキスト正規化フレームワーク [全文訳有]

indic-punct: An automatic punctuation restoration and inverse text normalization framework for Indic languages ( http://arxiv.org/abs/2203.16825v1 )

ライセンス: CC BY 4.0
Anirudh Gupta, Neeraj Chhimwal, Ankur Dhuriya, Rishabh Gaur, Priyanshi Shah, Harveen Singh Chadha, Vivek Raghavan(参考訳) 自動音声認識(ASR)は、どの句読点も欠落する時間の大半を占めるテキストを生成する。 句読性の欠如は可読性に影響を与える。 また、感情分析や機械翻訳などの低ストリームNLPタスクは、句読点や文境界情報を持つことで大きな恩恵を受ける。 IndicBERTモデルを用いたテキストの自動句読取手法を提案する。 逆テキスト正規化は手書き有限状態トランスデューサ(WFST)文法によって行われる。 我々は、ヒンディー語、タミル語、テルグ語、カンナダ語、グジャラーティ語、マラティ語、オディア語、ベンガル語、アッサム語、マラヤラム語、パンジャビ語などの11の言語でこのツールを開発した。 すべてのコードとデータは公開されています。 利用可能

Automatic Speech Recognition (ASR) generates text which is most of the times devoid of any punctuation. Absence of punctuation is text can affect readability. Also, down stream NLP tasks such as sentiment analysis, machine translation, greatly benefit by having punctuation and sentence boundary information. We present an approach for automatic punctuation of text using a pretrained IndicBERT model. Inverse text normalization is done by hand writing weighted finite state transducer (WFST) grammars. We have developed this tool for 11 Indic languages namely Hindi, Tamil, Telugu, Kannada, Gujarati, Marathi, Odia, Bengali, Assamese, Malayalam and Punjabi. All code and data is publicly. available
翻訳日:2022-04-02 04:17:40 公開日:2022-03-31
# (参考訳) 多人数会議における話者属性自動音声認識の比較検討 [全文訳有]

A Comparative Study on Speaker-attributed Automatic Speech Recognition in Multi-party Meetings ( http://arxiv.org/abs/2203.16834v1 )

ライセンス: CC BY-SA 4.0
Fan Yu, Zhihao Du, Shiliang Zhang, Yuxiao Lin, Lei Xie(参考訳) 本稿では,多人数会議シナリオにおける話者適応型自動音声認識(SA-ASR)の比較研究を行う。 特に,本研究では3つのアプローチが評価されている。 最初のアプローチであるFD-SOTは、話者を識別するフレームレベルのダイアリゼーションモデルと、発話を認識するマルチストーカーASRで構成されている。 ダイアリゼーション結果と認識仮説とを整列させて話者対応転写を得る。 しかし、このようなアライメント戦略はモジュラー独立性によって誤ったタイムスタンプに陥り、モデルの性能を著しく阻害する可能性がある。 そこで本研究では,単語レベルのダイアリゼーションモデルを導入することでアライメントエラーに対処するための第2の手法であるwd-sotを提案する。 さらにアライメント問題を緩和するために,ターゲット話者分離モジュールとASRモジュールを共同で訓練する第3のアプローチTS-ASRを提案する。 各SA-ASR手法について,実会議シナリオコーパス(AliMeeting)を用いた実験結果から,平均話者依存型文字誤り率(SD-CER)を10.7%削減できることが判明した。 さらに、TS-ASRアプローチはFD-SOTアプローチよりも優れ、16.5%の相対的なSD-CER削減をもたらす。

In this paper, we conduct a comparative study on speaker-attributed automatic speech recognition (SA-ASR) in the multi-party meeting scenario, a topic with increasing attention in meeting rich transcription. Specifically, three approaches are evaluated in this study. The first approach, FD-SOT, consists of a frame-level diarization model to identify speakers and a multi-talker ASR to recognize utterances. The speaker-attributed transcriptions are obtained by aligning the diarization results and recognized hypotheses. However, such an alignment strategy may suffer from erroneous timestamps due to the modular independence, severely hindering the model performance. Therefore, we propose the second approach, WD-SOT, to address alignment errors by introducing a word-level diarization model, which can get rid of such timestamp alignment dependency. To further mitigate the alignment issues, we propose the third approach, TS-ASR, which trains a target-speaker separation module and an ASR module jointly. By comparing various strategies for each SA-ASR approach, experimental results on a real meeting scenario corpus, AliMeeting, reveal that the WD-SOT approach achieves 10.7% relative reduction on averaged speaker-dependent character error rate (SD-CER), compared with the FD-SOT approach. In addition, the TS-ASR approach also outperforms the FD-SOT approach and brings 16.5% relative average SD-CER reduction.
翻訳日:2022-04-02 04:12:20 公開日:2022-03-31
# (参考訳) JETS: エンドツーエンド音声のためのFastSpeech2とHiFi-GANの共同トレーニング [全文訳有]

JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text to Speech ( http://arxiv.org/abs/2203.16852v1 )

ライセンス: CC BY 4.0
Dan Lim, Sunghee Jung, Eesung Kim(参考訳) ニューラルテキスト音声(TTS)では、2段階のシステムまたは個別に学習されたモデルのカスケードが人間の音声に近い合成品質を示している。 例えば、fastspeech2は入力テキストをメルスペクトログラムに変換し、それからhifi-ganはメルスペクトログラムから生の波形を生成し、それぞれ音響特徴生成器とニューラルネットワークボコーダと呼ばれる。 しかし、最適なパフォーマンスのために微調整と正確な音声テキストアライメントを必要とするという点で、トレーニングパイプラインは少々面倒である。 本研究では、簡易な学習パイプラインを持つエンドツーエンドのテキスト音声合成(E2E-TTS)モデルを提案する。 具体的には,アライメントモジュールを用いたFastSpeech2とHiFi-GANを併用したモデルを提案する。 トレーニングと推論の間に音響的特徴のミスマッチがないため、微調整は不要である。 さらに,共同学習フレームワークでは,アライメント学習目標を採用し,外部音声テキストアライメントツールへの依存を解消する。 LJSpeech corpus の実験により,提案モデルが一般公開されていること,主観評価(MOS)に基づくESPNet2-TTSの最先端実装,およびいくつかの客観的評価に優れた結果が得られた。

In neural text-to-speech (TTS), two-stage system or a cascade of separately learned models have shown synthesis quality close to human speech. For example, FastSpeech2 transforms an input text to a mel-spectrogram and then HiFi-GAN generates a raw waveform from a mel-spectogram where they are called an acoustic feature generator and a neural vocoder respectively. However, their training pipeline is somewhat cumbersome in that it requires a fine-tuning and an accurate speech-text alignment for optimal performance. In this work, we present end-to-end text-to-speech (E2E-TTS) model which has a simplified training pipeline and outperforms a cascade of separately learned models. Specifically, our proposed model is jointly trained FastSpeech2 and HiFi-GAN with an alignment module. Since there is no acoustic feature mismatch between training and inference, it does not requires fine-tuning. Furthermore, we remove dependency on an external speech-text alignment tool by adopting an alignment learning objective in our joint training framework. Experiments on LJSpeech corpus shows that the proposed model outperforms publicly available, state-of-the-art implementations of ESPNet2-TTS on subjective evaluation (MOS) and some objective evaluations.
翻訳日:2022-04-02 03:58:21 公開日:2022-03-31
# (参考訳) 音声映像解析におけるモダリティバイアスの検討 [全文訳有]

Investigating Modality Bias in Audio Visual Video Parsing ( http://arxiv.org/abs/2203.16860v1 )

ライセンス: CC BY 4.0
Piyush Singh Pasi, Shubham Nemani, Preethi Jyothi, Ganesh Ramakrishnan(参考訳) 我々は,時間境界を持つ音声と映像のイベントラベルを検出するavvp(audio-visual video parsing)問題に焦点を当てた。 このタスクは、各ビデオのラベルの袋として利用可能なイベントラベルだけで、弱く管理されているため、特に難しい。 AVVPの既存の最先端モデルでは、ハイブリットアテンションネットワーク(HAN)を使用して、オーディオと視覚の両方のモダリティのクロスモーダルな特徴を生成する。 既存のHANアーキテクチャでは,予測中にモダリティが完全に無視されるため,モダリティバイアスの詳細な解析を行う。 また,既存のHANモデルと比較して,セグメントレベルおよびイベントレベルの視覚的・音声的イベントに対して,Fスコアが約2%と1.6%の絶対的な増加をもたらす機能アグリゲーションのバリエーションを提案する。

We focus on the audio-visual video parsing (AVVP) problem that involves detecting audio and visual event labels with temporal boundaries. The task is especially challenging since it is weakly supervised with only event labels available as a bag of labels for each video. An existing state-of-the-art model for AVVP uses a hybrid attention network (HAN) to generate cross-modal features for both audio and visual modalities, and an attentive pooling module that aggregates predicted audio and visual segment-level event probabilities to yield video-level event probabilities. We provide a detailed analysis of modality bias in the existing HAN architecture, where a modality is completely ignored during prediction. We also propose a variant of feature aggregation in HAN that leads to an absolute gain in F-scores of about 2% and 1.6% for visual and audio-visual events at both segment-level and event-level, in comparison to the existing HAN model.
翻訳日:2022-04-02 03:44:06 公開日:2022-03-31
# (参考訳) プロセスメモリを用いたランサムウェア検出 [全文訳有]

Ransomware Detection using Process Memory ( http://arxiv.org/abs/2203.16871v1 )

ライセンス: CC BY 4.0
Avinash Singh, Richard Adeyemi Ikuesan, and Hein Venter(参考訳) 近年ではランサムウェア攻撃が著しく増加し、重要なシステムや事業運営に大きな損害を与えている。 攻撃者は、検出メカニズムをバイパスする革新的な方法を見つけようとしている。 しかし、ほとんどの研究はAIの一般的な特徴を要約し、ランサムウェアの動作が常にバイパス検出と異なるため、多くの偽陽性を引き起こす。 ランサムウェアのキーとなる特徴に焦点を合わせることは、研究者がランサムウェア自体の内部動作と主要な機能に導くために不可欠である。 プロセスメモリにおけるアクセス権限を利用することで、ランサムウェアの主機能をより簡単かつ正確に検出することができる。 さらに、ランサムウェアファミリーの新しい署名と指紋を識別して、新規ランサムウェア攻撃を正しく分類することができる。 現在の研究では、実行ファイルの動作の異なるメモリ領域のプロセスメモリアクセス特権を使用して、深刻な害が発生する前にその意図を迅速に決定している。 この目的を達成するために、いくつかの有名な機械学習アルゴリズムが81.38から96.28パーセントの精度で研究された。 そこで本研究では,プロセスメモリをランサムウェアの検出機構として活用する可能性を確認した。

Ransomware attacks have increased significantly in recent years, causing great destruction and damage to critical systems and business operations. Attackers are unfailingly finding innovative ways to bypass detection mechanisms, whichencouraged the adoption of artificial intelligence. However, most research summarizes the general features of AI and induces many false positives, as the behavior of ransomware constantly differs to bypass detection. Focusing on the key indicating features of ransomware becomes vital as this guides the investigator to the inner workings and main function of ransomware itself. By utilizing access privileges in process memory, the main function of the ransomware can be detected more easily and accurately. Furthermore, new signatures and fingerprints of ransomware families can be identified to classify novel ransomware attacks correctly. The current research used the process memory access privileges of the different memory regions of the behavior of an executable to quickly determine its intent before serious harm can occur. To achieve this aim, several well-known machine learning algorithms were explored with an accuracy range of 81.38 to 96.28 percents. The study thus confirms the feasibility of utilizing process memory as a detection mechanism for ransomware.
翻訳日:2022-04-02 03:33:07 公開日:2022-03-31
# (参考訳) ジャンプを伴う確率力学系における最も可能性の高い遷移経路の最適制御法 [全文訳有]

An Optimal Control Method to Compute the Most Likely Transition Path for Stochastic Dynamical Systems with Jumps ( http://arxiv.org/abs/2203.16874v1 )

ライセンス: CC BY 4.0
Wei Wei, Xiaoli Chen, Ting Gao and Jinqiao Duan(参考訳) 多くの複雑な実世界現象は突然、断続的、あるいは跳躍的な振る舞いを示し、非ガウス的l\'evy雑音下での確率微分方程式によって記述されるのにより適している。 これらの複雑な現象のうち、準安定状態間の遷移経路は、これらの稀な事象が特定のシナリオで大きな影響を与える可能性があるため、最も重要なものである。 大きな偏差原理に基づいて、最も可能性の高い遷移経路は、2つの点を結ぶ経路上の速度関数の最小化として扱うことができる。 非ガウス的L''evyノイズの下で確率力学系の最も可能性の高い遷移経路を計算することの課題の1つは、関連する速度関数が経路によって明示的に表現できないことである。 このため,最適状態を求める最適制御問題を最も可能性の高い遷移経路として定式化する。 次に、この問題を解決するニューラルネットワーク手法を開発する。 ガウス的および非ガウス的事例についていくつかの実験を行った。

Many complex real world phenomena exhibit abrupt, intermittent or jumping behaviors, which are more suitable to be described by stochastic differential equations under non-Gaussian L\'evy noise. Among these complex phenomena, the most likely transition paths between metastable states are important since these rare events may have high impact in certain scenarios. Based on the large deviation principle, the most likely transition path could be treated as the minimizer of the rate function upon paths that connect two points. One of the challenges to calculate the most likely transition path for stochastic dynamical systems under non-Gaussian L\'evy noise is that the associated rate function can not be explicitly expressed by paths. For this reason, we formulate an optimal control problem to obtain the optimal state as the most likely transition path. We then develop a neural network method to solve this issue. Several experiments are investigated for both Gaussian and non-Gaussian cases.
翻訳日:2022-04-02 03:21:00 公開日:2022-03-31
# (参考訳) カルストロジー領域における単語埋め込みによる特殊形容詞へのバイリンガルアプローチ [全文訳有]

A bilingual approach to specialised adjectives through word embeddings in the karstology domain ( http://arxiv.org/abs/2203.16885v1 )

ライセンス: CC BY 4.0
Larisa Gr\v{c}i\'c Simeunovi\'c, Matej Martinc, \v{S}pela Vintar(参考訳) 単語埋め込みを用いた特定の意味関係を表現する形容詞の抽出実験を行う。 実験の結果は徹底的に分析され、形式的または意味的な類似性を示す形容詞のグループに分類される。 実験と分析は、カルストロジーの分野における英語とクロアチア語で、用語体系プロジェクトで開発されたデータセットと手法を用いて行われる。 記事の主な貢献は2つある: 第一に、用語学に関連する意味論的関連語を抽出する新しくて有望な方法を提案し、第二に、出力の詳細な評価を提供することにより、一方のドメイン固有の意味構造と他方の単語埋め込みによって抽出された類似性のタイプをよりよく理解できるようにする。

We present an experiment in extracting adjectives which express a specific semantic relation using word embeddings. The results of the experiment are then thoroughly analysed and categorised into groups of adjectives exhibiting formal or semantic similarity. The experiment and analysis are performed for English and Croatian in the domain of karstology using data sets and methods developed in the TermFrame project. The main original contributions of the article are twofold: firstly, proposing a new and promising method of extracting semantically related words relevant for terminology, and secondly, providing a detailed evaluation of the output so that we gain a better understanding of the domain-specific semantic structures on the one hand and the types of similarities extracted by word embeddings on the other.
翻訳日:2022-04-02 03:07:30 公開日:2022-03-31
# (参考訳) グラフ畳み込みニューラルネットワークにおける相互情報推定 [全文訳有]

Mutual information estimation for graph convolutional neural networks ( http://arxiv.org/abs/2203.16887v1 )

ライセンス: CC BY 4.0
Marius C. Landverk and Signe Riemer-S{\o}rensen(参考訳) モデルパフォーマンスの測定は、ディープラーニング実践者にとって重要な問題です。 しかし、特定のアーキテクチャが与えられたデータセットに対して優れた予測精度を達成した理由を説明する能力に欠けることが多い。 検証精度は、しばしば、ネットワークが不適切なデータにどの程度一般化するかを定量化するパフォーマンスヒューリスティックとして使用されるが、モデル内の情報フローについては何も捉えない。 相互情報は、ディープラーニングモデルの内部表現の質の尺度として利用することができ、情報プレーンは、モデルがデータの利用可能な情報を利用するかどうかについての洞察を提供することができる。 情報プレーンは、これまで完全に接続されたニューラルネットワークと畳み込みアーキテクチャのために研究されてきた。 本稿では,ネットワークの内部表現を学習中に追跡するためのアーキテクチャに依存しない手法を提案する。 この方法は、引用データに取り付けられたグラフベースのニューラルネットワークに例示される。 グラフベースのアーキテクチャで導入された帰納的バイアスが、完全接続されたニューラルネットワークに対する相互情報プレーンをどのように変化させるかを比較する。

Measuring model performance is a key issue for deep learning practitioners. However, we often lack the ability to explain why a specific architecture attains superior predictive accuracy for a given data set. Often, validation accuracy is used as a performance heuristic quantifying how well a network generalizes to unseen data, but it does not capture anything about the information flow in the model. Mutual information can be used as a measure of the quality of internal representations in deep learning models, and the information plane may provide insights into whether the model exploits the available information in the data. The information plane has previously been explored for fully connected neural networks and convolutional architectures. We present an architecture-agnosti c method for tracking a network's internal representations during training, which are then used to create the mutual information plane. The method is exemplified for graph-based neural networks fitted on citation data. We compare how the inductive bias introduced in graph-based architectures changes the mutual information plane relative to a fully connected neural network.
翻訳日:2022-04-02 02:51:38 公開日:2022-03-31
# (参考訳) 意味画像合成のための意味形状適応特徴変調

Semantic-shape Adaptive Feature Modulation for Semantic Image Synthesis ( http://arxiv.org/abs/2203.16898v1 )

ライセンス: CC BY 4.0
Zhengyao Lv, Xiaoming Li, Zhenxing Niu, Bing Cao, Wangmeng Zuo(参考訳) 近年, セマンティック画像合成の進歩が目覚ましいが, より詳細な写真リアル画像の合成はいまだに困難である。 以前の手法では、イメージのオブジェクトレベルのレイアウトをキャプチャする、与えられたセマンティックマップの活用に重点を置いていた。 明らかに、細かい部分レベルのセマンティクスレイアウトは、オブジェクトの詳細生成に効果があり、オブジェクトの形状から概ね推測することができる。 そこで,各画素の位置特徴をspd(shape-aware position descriptor)として表現し,オブジェクト形状をspd特徴に明示的にエンコードする。 さらに, セマンティック形状の適応的特徴変調(SAFM)ブロックを提案し, 与えられたセマンティックマップと位置特徴を組み合わせた適応的特徴量を生成する。 広範囲な実験により、提案したSPDとSAFMは、豊富な詳細でオブジェクトの生成を著しく改善することが示された。 さらに, 定量的, 定性的評価の観点から, SOTA法に対して良好な評価を行う。 ソースコードとモデルはhttps://github.com/c szy98/safmで入手できる。

Recent years have witnessed substantial progress in semantic image synthesis, it is still challenging in synthesizing photo-realistic images with rich details. Most previous methods focus on exploiting the given semantic map, which just captures an object-level layout for an image. Obviously, a fine-grained part-level semantic layout will benefit object details generation, and it can be roughly inferred from an object's shape. In order to exploit the part-level layouts, we propose a Shape-aware Position Descriptor (SPD) to describe each pixel's positional feature, where object shape is explicitly encoded into the SPD feature. Furthermore, a Semantic-shape Adaptive Feature Modulation (SAFM) block is proposed to combine the given semantic map and our positional features to produce adaptively modulated features. Extensive experiments demonstrate that the proposed SPD and SAFM significantly improve the generation of objects with rich details. Moreover, our method performs favorably against the SOTA methods in terms of quantitative and qualitative evaluation. The source code and model are available at https://github.com/c szy98/SAFM.
翻訳日:2022-04-02 02:42:26 公開日:2022-03-31
# (参考訳) コンピュータビジョンを用いた運転モニタリングによる公共街灯画像のデータセット [全文訳有]

A Dataset of Images of Public Streetlights with Operational Monitoring using Computer Vision Techniques ( http://arxiv.org/abs/2203.16915v1 )

ライセンス: CC BY 4.0
Ioannis Mavromatis and Aleksandar Stanoev and Pietro Carnelli and Yichao Jin and Mahesh Sooriyabandara and Aftab Khan(参考訳) 街路灯画像のデータセットが提示される。 私たちのデータセットは、英国のサウスグロスターシャーに設置された140のUMBRELLAノードから撮影された$\sim350\textrm{k}$イメージで構成されています。 各UMBRELLAノードは、街灯柱の極に設置され、空に向かって上向きに向いたRaspberry Pi Camera Module v1と街灯灯電球を備える。 各ノードは、毎日24時間、時間間隔で画像を収集する。 データ収集期間は6ヶ月である。

A dataset of street light images is presented. Our dataset consists of $\sim350\textrm{k}$ images, taken from 140 UMBRELLA nodes installed in the South Gloucestershire region in the UK. Each UMBRELLA node is installed on the pole of a lamppost and is equipped with a Raspberry Pi Camera Module v1 facing upwards towards the sky and lamppost light bulb. Each node collects an image at hourly intervals for 24h every day. The data collection spans for a period of six months.
翻訳日:2022-04-02 02:41:22 公開日:2022-03-31
# (参考訳) Aplica\c{c}\~ao de ros como ferramenta de ensino de rob\'otica / using ros as a robotics teaching tool [全文訳有]

Aplica\c{c}\~ao de ros como ferramenta de ensino a rob\'otica / using ros as a robotics teaching tool ( http://arxiv.org/abs/2203.16923v1 )

ライセンス: CC BY-SA 4.0
Daniel Maia Evangelista, Pedro Benevides Cavalcante, Afonso Henriques Fontes Neto Segundo(参考訳) ロボットマニピュレータの研究は、制御エンジニアの訓練コースの一部である産業ロボティクスクラスの主要な目標である。 特定の教育機器のコストが高いため、ロボット工学の分野での学術的実践やプロジェクトの準備が困難である。 実践的な授業とプロジェクト開発は,技術者養成において非常に重要であり,学生の実践体験を提供するためにシミュレーションソフトウェアを使用することが提案されている。 本稿では,ロボットアームを開発し,前方および逆運動学の機能を実装するツールとして,ロボット操作システム(ROS)の利用を明らかにすることを目的とする。 このような開発は、ロボティクス分野における学生の興味と学習を高め、その分野の研究領域を拡大するための教育ツールとして用いられる。

The study of robotic manipulators is the main goal of Industrial Robotics Class, part of Control Engineers training course. There is a difficulty in preparing academic practices and projects in the area of robotics due to the high cost of specific educational equipment. The practical classes and the development of projects are very important for engineers training, it is proposed to use simulation software in order to provide practical experience for the students of the discipline. In this context, the present article aims to expose the use of the Robot Operation System (ROS) as a tool to develop a robotic arm and implement the functionality of forward and inverse kinematics. Such development could be used as an educational tool to increase the interest and learning of students in the robotics discipline and to expand research areas for the discipline.
翻訳日:2022-04-02 02:34:21 公開日:2022-03-31
# (参考訳) 疎データ設定のためのドメイン適応: Bert を使わないことで得られるものは何か? [全文訳有]

Domain Adaptation for Sparse-Data Settings: What Do We Gain by Not Using Bert? ( http://arxiv.org/abs/2203.16926v1 )

ライセンス: CC BY 4.0
Marina Sedinkina, Martin Schmitt, Hinrich Sch\"utze(参考訳) NLPの実践的な成功は、トレーニングデータの可用性に依存する。 しかし、実際のシナリオでは、多くのアプリケーションドメインが制限され、特定されているため、トレーニングデータはほとんどない。 本研究では,この問題を解決するための異なる手法を比較し,特定のドメインで利用可能なラベル付きトレーニングデータが少ない場合に,NLPアプリケーションを構築するためのガイドラインを提供する。 事前訓練された言語モデルによる伝達学習は、タスク間で他の方法よりも優れるが、計算労力が大幅に削減される一方で、代替手段はそれほど悪くはない。 我々は、最大175Kの速度でトレーニングでき、1つのGPUを必要としないモデルを含む、いくつかの代替案のパフォーマンストレードオフについて検討する。

The practical success of much of NLP depends on the availability of training data. However, in real-world scenarios, training data is often scarce, not least because many application domains are restricted and specific. In this work, we compare different methods to handle this problem and provide guidelines for building NLP applications when there is only a small amount of labeled training data available for a specific domain. While transfer learning with pre-trained language models outperforms other methods across tasks, alternatives do not perform much worse while requiring much less computational effort, thus significantly reducing monetary and environmental cost. We examine the performance tradeoffs of several such alternatives, including models that can be trained up to 175K times faster and do not require a single GPU.
翻訳日:2022-04-02 02:17:20 公開日:2022-03-31
# (参考訳) コンピュータ支援プロジェクトとロボティクスとマイクロコントローラの学際性を考慮したロボットマニピュレータのキネマティクス開発とモデリングへのPBLの適用 [全文訳有]

Applying PBL in the Development and Modeling of kinematics for Robotic Manipulators with Interdisciplinarity between Computer-Assisted Project, Robotics, and Microcontrollers ( http://arxiv.org/abs/2203.16927v1 )

ライセンス: CC BY-SA 4.0
Afonso Henriques Fontes Neto Segundo, Joel Sotero da Cunha Neto, Paulo Cirillo Souza Barbosa, Raul Fontenele Santana(参考訳) Considering the difficulty of students in calculating the direct and inverse kinematics of a robotic manipulator using only conventional tools of a classroom, this article proposes the application of Project Based Learning (ABP) through the design, development, mathematical modeling of a robotic manipulator as an integrative project of the disciplines of Industrial Robotics, Microcontrollers and Computer Assisted Design with students of the Control and Automation Engineering of the University of Fortaleza. 一度設計され機械化された後、マニピュレータアームはマイクロ制御プロトタイピングボードに接続されたサーボモーターを使って組み立てられ、その運動量を計算する。 最後に,学習者や学生の視力に関する規律を学ぶために,このプロジェクトがもたらした成果を紹介する。

Considering the difficulty of students in calculating the direct and inverse kinematics of a robotic manipulator using only conventional tools of a classroom, this article proposes the application of Project Based Learning (ABP) through the design, development, mathematical modeling of a robotic manipulator as an integrative project of the disciplines of Industrial Robotics, Microcontrollers and Computer Assisted Design with students of the Control and Automation Engineering of the University of Fortaleza. Once designed and machined, the manipulator arm was assembled using servo motors connected to a microcontroled prototyping board, to then have its kinematics calculated. At the end are presented the results that the project has brought to the learning of the disciplines on the optics of the tutor and students.
翻訳日:2022-04-02 02:03:10 公開日:2022-03-31
# (参考訳) 非線形特徴写像を用いた数例からの学習 [全文訳有]

Learning from few examples with nonlinear feature maps ( http://arxiv.org/abs/2203.16935v1 )

ライセンス: CC BY 4.0
Ivan Y. Tyukin, Oliver Sutton, Alexander N. Gorban(参考訳) 本研究では,データ分類の問題として,少数のデータポイントからなるトレーニング事例の数を考察した。 この現象を調査し,aiモデルの特徴空間の次元性,データ分布の非退化性,モデルの一般化能力との関係を明らかにする。 本解析の主な推進力は、元のデータを高次元およびおそらく無限次元空間にマッピングする非線形特徴変換がモデルの一般化能力に与える影響である。 適切な仮定に従えば,変換データの内在的な次元と,少数のプレゼンテーションからうまく学習できる確率との間に新たな関係が確立される。

In this work we consider the problem of data classification in post-classical settings were the number of training examples consists of mere few data points. We explore the phenomenon and reveal key relationships between dimensionality of AI model's feature space, non-degeneracy of data distributions, and the model's generalisation capabilities. The main thrust of our present analysis is on the influence of nonlinear feature transformations mapping original data into higher- and possibly infinite-dimensional spaces on the resulting model's generalisation capabilities. Subject to appropriate assumptions, we establish new relationships between intrinsic dimensions of the transformed data and the probabilities to learn successfully from few presentations.
翻訳日:2022-04-02 01:45:53 公開日:2022-03-31
# (参考訳) HiFi-VC:高品質のASRベースの音声変換 [全文訳有]

HiFi-VC: High Quality ASR-Based Voice Conversion ( http://arxiv.org/abs/2203.16937v1 )

ライセンス: CC BY 4.0
A. Kashkin, I. Karpukhin, S. Shishkin(参考訳) 音声変換(VC)の目的は、テキストと韻律をそのまま保ちながら、入力音声を対象話者の声に合わせることである。 VCは通常、エンターテイメントや音声支援システムで使われ、音声データ生成や拡張にも使われる。 モデルトレーニング中に見つからない声を発生させることのできる、あらゆる対物VCシステムの開発は、研究者と業界の両方にとって特に関心がある。 最近の進歩にもかかわらず、あらゆる変換品質は自然言語に劣っている。 本研究では,新たな音声変換パイプラインを提案する。 提案手法では,自動音声認識(ASR)機能,ピッチ追跡,最先端波形予測モデルを用いる。 複数の主観的・客観的評価により,本手法は声質,類似性,一貫性の点で,現代のベースラインを上回っている。

The goal of voice conversion (VC) is to convert input voice to match the target speaker's voice while keeping text and prosody intact. VC is usually used in entertainment and speaking-aid systems, as well as applied for speech data generation and augmentation. The development of any-to-any VC systems, which are capable of generating voices unseen during model training, is of particular interest to both researchers and the industry. Despite recent progress, any-to-any conversion quality is still inferior to natural speech. In this work, we propose a new any-to-any voice conversion pipeline. Our approach uses automated speech recognition (ASR) features, pitch tracking, and a state-of-the-art waveform prediction model. According to multiple subjective and objective evaluations, our method outperforms modern baselines in terms of voice quality, similarity and consistency.
翻訳日:2022-04-02 01:14:49 公開日:2022-03-31
# (参考訳) ハイパーグラフと非指向グラフの等価性によるハイパーグラフ畳み込みネットワーク

Hypergraph Convolutional Networks via Equivalency between Hypergraphs and Undirected Graphs ( http://arxiv.org/abs/2203.16939v1 )

ライセンス: CC BY 4.0
Jiying Zhang, Fuyang Li, Xi Xiao, Tingyang Xu, Yu Rong, Junzhou Huang and Yatao Bian(参考訳) 複雑な関係をモデリングするための強力なツールとして、ハイパーグラフがグラフ学習コミュニティから人気を集めている。 しかし、深層ハイパーグラフ学習で一般的に使用されるフレームワークは、よりモデリング能力のある \textit{edge-dependent vertex weights} (edvws) のハイパーグラフを考慮せずに、 \textit{edge-independent vertex weights}(eivws) のハイパーグラフに焦点を当てている。 そこで本稿では,edvwおよびeivwハイパーグラフを処理可能な汎用学習フレームワークであるgeneral hypergraph spectral convolution(ghsc)を提案する。 この枠組みでは、与えられた無向GCNNのグラフラプラシアンを、単純無向グラフと定義した一般化ハイパーグラフを同一視することにより、ランダムウォークの観点から頂点重み情報を含む統一ハイパーグラフラプラシアンに置き換える。 社会的ネットワーク分析,視覚的客観的分類,タンパク質学習など,様々な分野の広範囲にわたる実験により,提案手法が最先端のパフォーマンスを達成できることが実証された。

As a powerful tool for modeling complex relationships, hypergraphs are gaining popularity from the graph learning community. However, commonly used frameworks in deep hypergraph learning focus on hypergraphs with \textit{edge-independent vertex weights}(EIVWs), without considering hypergraphs with \textit{edge-dependent vertex weights} (EDVWs) that have more modeling power. To compensate for this, in this paper, we present General Hypergraph Spectral Convolution(GHSC), a general learning framework that not only can handle EDVW and EIVW hypergraphs, but more importantly, enables theoretically explicitly utilizing the existing powerful Graph Convolutional Neural Networks (GCNNs) such that largely ease the design of Hypergraph Neural Networks. In this framework, the graph Laplacian of the given undirected GCNNs is replaced with a unified hypergraph Laplacian that incorporates vertex weight information from a random walk perspective by equating our defined generalized hypergraphs with simple undirected graphs. Extensive experiments from various domains including social network analysis, visual objective classification, protein learning demonstrate that the proposed framework can achieve state-of-the-art performance.
翻訳日:2022-04-02 01:03:35 公開日:2022-03-31
# (参考訳) レイノルズ応力テンソルの発散によるRANSモデルの閉鎖に対するデータ駆動的アプローチ [全文訳有]

A data-driven approach for the closure of RANS models by the divergence of the Reynolds Stress Tensor ( http://arxiv.org/abs/2203.16944v1 )

ライセンス: CC BY 4.0
Stefano Berrone and Davide Oberto(参考訳) 本稿では,RANS方程式の精度を向上する新しいデータ駆動モデルを提案する。 これはニューラルネットワーク(nn)を介してレイノルズ応力テンソル(rst)の発散の直接近似に基づいている。 この選択は RANS 方程式における RST の発散によって引き起こされる。 さらに、このデータ駆動アプローチが訓練されると、方程式を閉じるために乱流モデルを実行する必要はない。 最後に、函数のよい近似が必ずしもその微分のよい近似であるとは限らないことはよく知られている。 提案したネットワークのアーキテクチャと入力は、RSTの発散のベクトル基底展開を求めることにより、ガリレオと座標フレームの回転不変性の両方を保証する。 従来の乱流モデルと比較して,提案手法の利点を示すために2つのよく知られた試験ケースが用いられている。

In the present paper a new data-driven model to close and increase accuracy of RANS equations is proposed. It is based on the direct approximation of the divergence of the Reynolds Stress Tensor (RST) through a Neural Network (NN). This choice is driven by the presence of the divergence of RST in the RANS equations. Furthermore, once this data-driven approach is trained, there is no need to run any turbulence model to close the equations. Finally, it is well known that a good approximation of a function it is not necessarily a good approximation of its derivative. The architecture and inputs choices of the proposed network guarantee both Galilean and coordinates-frame rotation invariances by looking to a vector basis expansion of the divergence of the RST. Two well-known test cases are used to show advantages of the proposed method compared to classic turbulence models.
翻訳日:2022-04-02 01:02:02 公開日:2022-03-31
# (参考訳) 自己教師型コントラスト学習による屋外視覚位置のセマンティック・ポース検証 [全文訳有]

Semantic Pose Verification for Outdoor Visual Localization with Self-supervised Contrastive Learning ( http://arxiv.org/abs/2203.16945v1 )

ライセンス: CC BY 4.0
Semih Orhan, Jose J. Guerrero, Yalin Bastanlar(参考訳) 都市規模の視覚的ローカライズシステムは、照明条件の変更やクエリとデータベースイメージの季節的変化など、長期的な外観変化を克服しなければならない。 このような変化に対してセマンティックコンテンツはより堅牢であるため、視覚的ローカライゼーションを改善するためにセマンティック情報を利用する。 このシナリオでは、データベースはパノラマ画像(googleストリートビューなど)から生成されたグノモニックビューからなり、クエリ画像は標準のフィールドオブビューカメラで異なるタイミングで収集される。 ローカライゼーションを改善するために,カメラの位置や視点が正確に一致しないため,クエリとデータベース画像のセマンティックな類似性を確認する。 類似性を学ぶために,semantically segmented imagesのデータセット上でコントラスト学習を行い,自己教師付きでcnnを訓練することを提案する。 実験により, この意味的類似度推定手法は画素レベルでの類似度を測定するよりも有効であることがわかった。 最後に,その意味的類似度スコアを用いて,最先端の視覚的ローカライゼーション手法によって得られた検索を検証し,コントラスト学習に基づくポーズ検証が,2%の改善に対応するトップ1リコール値を0.90に向上させることを示した。

Any city-scale visual localization system has to overcome long-term appearance changes, such as varying illumination conditions or seasonal changes between query and database images. Since semantic content is more robust to such changes, we exploit semantic information to improve visual localization. In our scenario, the database consists of gnomonic views generated from panoramic images (e.g. Google Street View) and query images are collected with a standard field-of-view camera at a different time. To improve localization, we check the semantic similarity between query and database images, which is not trivial since the position and viewpoint of the cameras do not exactly match. To learn similarity, we propose training a CNN in a self-supervised fashion with contrastive learning on a dataset of semantically segmented images. With experiments we showed that this semantic similarity estimation approach works better than measuring the similarity at pixel-level. Finally, we used the semantic similarity scores to verify the retrievals obtained by a state-of-the-art visual localization method and observed that contrastive learning-based pose verification increases top-1 recall value to 0.90 which corresponds to a 2% improvement.
翻訳日:2022-04-02 00:39:59 公開日:2022-03-31
# (参考訳) リモートセンシング画像分類のためのマルチモーダル核融合トランス [全文訳有]

Multimodal Fusion Transformer for Remote Sensing Image Classification ( http://arxiv.org/abs/2203.16952v1 )

ライセンス: CC BY 4.0
Swalpa Kumar Roy, Ankur Deria, Danfeng Hong, Behnood Rasti, Antonio Plaza, Jocelyn Chanussot(参考訳) vision transformer (vit) は畳み込みニューラルネットワーク (cnns) と比較して有望な性能を持つため、画像分類タスクにおいてトレンドとなっている。 その結果、多くの研究者が高スペクトル画像(HSI)分類タスクにViTモデルを組み込もうとしたが、良好な性能は得られなかった。 本稿では,hsiに加え,他のマルチモーダルデータ源を利用したhsi土地被覆分類のためのマルチモーダル核融合トランス(mft)ネットワークを提案する。 従来の機能融合技術を使う代わりに、他のマルチモーダルデータはトランスフォーマーエンコーダの外部分類(cls)トークンとして使われ、より良い一般化を達成するのに役立つ。 ViTや他の類似の変換器モデルは、ランダムに初期化された外部分類トークン {and fail to generalize well} を使用する。 しかし、光検出・測光(LiDAR)などの他のマルチモーダルデータ源から派生した特徴埋め込みを使用することで、CLSを用いてこれらのモデルを改善することができる。 トークン化の概念は、私たちの研究でCLSとHSIパッチトークンの生成に使われています。 また,HSIトークンとCLS(LiDAR)トークン間の情報交換を改善するための新しい注意機構を導入する。 ヒューストン大学、トレント大学、南ミシシッピ州ガルフパーク大学(MUUFL)、アウクスブルク大学など、広く使われているベンチマークデータセットで大規模な実験が行われている。 その結果,提案したMTTモデルと他の最先端トランスモデル,古典的CNNモデル,および従来の分類器との比較を行った。 提案モデルによる優れた性能は、外部分類トークンとしてマルチモーダル情報を使用することによるものである。

Vision transformer (ViT) has been trending in image classification tasks due to its promising performance when compared to convolutional neural networks (CNNs). As a result, many researchers have tried to incorporate ViT models in hyperspectral image (HSI) classification tasks, but without achieving satisfactory performance. To this paper, we introduce a new multimodal fusion transformer (MFT) network for HSI land-cover classification, which utilizes other sources of multimodal data in addition to HSI. Instead of using conventional feature fusion techniques, other multimodal data are used as an external classification (CLS) token in the transformer encoder, which helps achieving better generalization. ViT and other similar transformer models use a randomly initialized external classification token {and fail to generalize well}. However, the use of a feature embedding derived from other sources of multimodal data, such as light detection and ranging (LiDAR), offers the potential to improve those models by means of a CLS. The concept of tokenization is used in our work to generate CLS and HSI patch tokens, helping to learn key features in a reduced feature space. We also introduce a new attention mechanism for improving the exchange of information between HSI tokens and the CLS (e.g., LiDAR) token. Extensive experiments are carried out on widely used and benchmark datasets i.e., the University of Houston, Trento, University of Southern Mississippi Gulfpark (MUUFL), and Augsburg. In the results section, we compare the proposed MFT model with other state-of-the-art transformer models, classical CNN models, as well as conventional classifiers. The superior performance achieved by the proposed model is due to the use of multimodal information as external classification tokens.
翻訳日:2022-04-02 00:26:48 公開日:2022-03-31
# (参考訳) PADA:自己教師付き音声表現のためのドメイン適応処理 [全文訳有]

PADA: Pruning Assisted Domain Adaptation for Self-Supervised Speech Representations ( http://arxiv.org/abs/2203.16965v1 )

ライセンス: CC BY 4.0
Lodagala V S V Durga Prasad and Sreyan Ghosh and S. Umesh(参考訳) 自己教師付き音声表現学習(ssl)モデルは下流の様々なタスクをこなすが、これらのモデルはラベルのないデータが起源となる領域に過剰に適合することが観察されている。 この問題を軽減するために,大量のドメイン外データに基づいて事前訓練されたモデルからPAD(Pruning Assisted Domain Adaptation)と余剰重量をゼロにする手法を提案する。 直感的には、ターゲットドメインのASR微調整のためのスペースを作るのに役立つ。 冗長な重みは、この作業の一部として詳細に議論された様々な刈り取り戦略を通じて特定することができる。 具体的には,最近発見されたタスク非依存型およびタスク認識型プルーニングがPADに与える影響を調査し,後者に基づいた新たなプルーニングパラダイムを提案する。 CD-TAWは、十分に調整されたOODモデルから初期プルーニングマスクを取得し、論文で論じるプルーニング戦略の他の部分と大きく異なる。 提案するCD-TAW法は,言語モデル(LM)復号化を伴わないSwitchboardデータの2時間サブセットを微調整することにより,ベースラインよりも20.6%の相対的なWER改善を実現する。 さらに,提案手法の重要な設計選択を強調するために,詳細な分析を行った。

While self-supervised speech representation learning (SSL) models serve a variety of downstream tasks, these models have been observed to overfit to the domain from which the unlabelled data originates. To alleviate this issue, we propose PADA (Pruning Assisted Domain Adaptation) and zero out redundant weights from models pre-trained on large amounts of out-of-domain (OOD) data. Intuitively, this helps to make space for the target-domain ASR finetuning. The redundant weights can be identified through various pruning strategies which have been discussed in detail as a part of this work. Specifically, we investigate the effect of the recently discovered Task-Agnostic and Task-Aware pruning on PADA and propose a new pruning paradigm based on the latter, which we call Cross-Domain Task-Aware Pruning (CD-TAW). CD-TAW obtains the initial pruning mask from a well fine-tuned OOD model, which makes it starkly different from the rest of the pruning strategies discussed in the paper. Our proposed CD-TAW methodology achieves up to 20.6% relative WER improvement over our baseline when fine-tuned on a 2-hour subset of Switchboard data without language model (LM) decoding. Furthermore, we conduct a detailed analysis to highlight the key design choices of our proposed method.
翻訳日:2022-04-01 23:54:33 公開日:2022-03-31
# (参考訳) 自己教師付き事前学習表現の有用性に影響を及ぼす要因の分析 [全文訳有]

Analyzing the factors affecting usefulness of Self-Supervised Pre-trained Representations for Speech Recognition ( http://arxiv.org/abs/2203.16973v1 )

ライセンス: CC BY 4.0
Lodagala V S V Durga Prasad and Ashish Seth and Sreyan Ghosh and S. Umesh(参考訳) 高レベルの音声表現を学習するための自己教師付き学習(SSL)は、低リソース環境で自動音声認識(ASR)システムを構築するための一般的なアプローチである。 しかし、文献では、SSL事前トレーニングに活用できる同一のドメインや言語に対して、かなりの量のラベルのないデータが利用できるという仮定が一般的であり、現実の環境では実現不可能であることを認めている。 本稿では,この間欠的なgram vaani asrチャレンジの一環として,openstream pre-training sslデータのドメイン,言語,データセットサイズ,その他の側面が,最終パフォーマンスの低リソースダウンストリームasrタスクに与える影響について検討する。 また、SSLを用いてトレーニングされたモデルが持つ事前知識の効果を研究するために、継続した事前学習パラダイムを構築した。 大規模な実験と研究により、ASRシステムの性能はSSL事前トレーニングに使用されるデータに影響を受けやすいことが明らかとなった。 彼らのパフォーマンスは、事前トレーニングデータの類似性とボリュームの増加によって向上する。 我々の研究は、低リソース環境でのより良いASRシステムの構築と、SSLベースの音声システムのための事前学習の一般化に向けたステアリサーチにおいて、音声コミュニティに役立ちます。

Self-supervised learning (SSL) to learn high-level speech representations has been a popular approach to building Automatic Speech Recognition (ASR) systems in low-resource settings. However, the common assumption made in literature is that a considerable amount of unlabeled data is available for the same domain or language that can be leveraged for SSL pre-training, which we acknowledge is not feasible in a real-world setting. In this paper, as part of the Interspeech Gram Vaani ASR challenge, we try to study the effect of domain, language, dataset size, and other aspects of our upstream pre-training SSL data on the final performance low-resource downstream ASR task. We also build on the continued pre-training paradigm to study the effect of prior knowledge possessed by models trained using SSL. Extensive experiments and studies reveal that the performance of ASR systems is susceptible to the data used for SSL pre-training. Their performance improves with an increase in similarity and volume of pre-training data. We believe our work will be helpful to the speech community in building better ASR systems in low-resource settings and steer research towards improving generalization in SSL-based pre-training for speech systems.
翻訳日:2022-04-01 23:40:37 公開日:2022-03-31
# (参考訳) ゼロショット量子化は教師に近づいた

It's All In the Teacher: Zero-Shot Quantization Brought Closer to the Teacher ( http://arxiv.org/abs/2203.17008v1 )

ライセンス: CC BY 4.0
Kanghyun Choi, Hye Yoon Lee, Deokki Hong, Joonsang Yu, Noseong Park, Youngsok Kim, Jinho Lee(参考訳) モデル量子化はディープニューラルネットワークのリソース要求を大幅に削減する有望な方法であると考えられている。 量子化誤差によって生じる性能低下に対処するため、トレーニングデータを用いて量子化ネットワークを微調整する手法が一般的である。 しかし、現実の環境では、そのような方法は、セキュリティ、プライバシー、機密性の懸念のためにトレーニングデータが利用できないため、しばしば実現不可能である。 ゼロショット量子化は、通常、全精度教師ネットワークの重みから情報を取り、量子化されたネットワークのパフォーマンス低下を補償することで、このような問題に対処する。 本稿では,最先端ゼロショット量子化手法の損失面を最初に解析し,いくつかの知見を提供する。 通常の知識蒸留問題とは対照的に、ゼロショット量子化はしばしば苦しむ 1)複数の損失項をまとめて最適化することの難しさ 2) 合成試料の使用による一般化能力の低下。 さらに,多くの重みが量子化ネットワークのトレーニング中に丸めしきい値を超えない場合,性能向上のために必要となる場合も観察できる。 この観測に基づいて、上記の2つの問題に対処する、ゼロショット量子化のための単純かつ強力な手法であるAITを提案する。 一 クロスエントロピー損失のみで、かつ、KL距離損失を用いること。 二 一定の重量が丸い閾値を越えた後に適切に更新されることを保証するため、勾配を操作すること。 実験により、AITは既存の多くの手法の性能を大きなマージンで上回り、この分野における最先端の総合的な地位を引き継いだ。

Model quantization is considered as a promising method to greatly reduce the resource requirements of deep neural networks. To deal with the performance drop induced by quantization errors, a popular method is to use training data to fine-tune quantized networks. In real-world environments, however, such a method is frequently infeasible because training data is unavailable due to security, privacy, or confidentiality concerns. Zero-shot quantization addresses such problems, usually by taking information from the weights of a full-precision teacher network to compensate the performance drop of the quantized networks. In this paper, we first analyze the loss surface of state-of-the-art zero-shot quantization techniques and provide several findings. In contrast to usual knowledge distillation problems, zero-shot quantization often suffers from 1) the difficulty of optimizing multiple loss terms together, and 2) the poor generalization capability due to the use of synthetic samples. Furthermore, we observe that many weights fail to cross the rounding threshold during training the quantized networks even when it is necessary to do so for better performance. Based on the observations, we propose AIT, a simple yet powerful technique for zero-shot quantization, which addresses the aforementioned two problems in the following way: AIT i) uses a KL distance loss only without a cross-entropy loss, and ii) manipulates gradients to guarantee that a certain portion of weights are properly updated after crossing the rounding thresholds. Experiments show that AIT outperforms the performance of many existing methods by a great margin, taking over the overall state-of-the-art position in the field.
翻訳日:2022-04-01 23:26:40 公開日:2022-03-31
# (参考訳) COVID-19検出のための時間指向放送ResNet [全文訳有]

A Temporal-oriented Broadcast ResNet for COVID-19 Detection ( http://arxiv.org/abs/2203.17012v1 )

ライセンス: CC BY 4.0
Xin Jing, Shuo Liu, Emilia Parada-Cabaleiro, Andreas Triantafyllopoulos, Meishu Song, Zijiang Yang, Bj\"orn W. Schuller(参考訳) 呼吸やせきなどの音声信号からcovid-19を検出することは、ウイルスの感染を減らすための迅速かつ効率的な事前検査方法として使用できる。 時間系列のモデリングにおけるディープラーニングネットワークの有望な結果と、急速に新型コロナウイルスの感染を識別するためのアプリケーションは、計算量が少なくなければならないため、モデルサイズを小さくして効率的な計算と高精度を実現する、時間指向のブロードキャスト残差学習手法を提案する。 The EfficientNet architecture, our novel network, called Temporal-oriented ResNet~(TorNet) consists of a broadcast learning block, which is the Alternating Broadcast (AB) Block which includes several Broadcast Residual Blocks (BC ResBlocks) and a convolution layer。 ABブロックでは、一般的に時間情報をモデル化するために使用されるリカレントニューラルネットワーク~(RNN)よりもはるかに少ない計算で、有用な音声時間的特徴と高レベルの埋め込みが得られる。 TorNetは、InterPSEECH 2021 Computational Paralinguistics Challenge COVID-19 cough Sub-Challengeで72.2%のUnweighted Average Recall(UAR)を達成した。

Detecting COVID-19 from audio signals, such as breathing and coughing, can be used as a fast and efficient pre-testing method to reduce the virus transmission. Due to the promising results of deep learning networks in modelling time sequences, and since applications to rapidly identify COVID in-the-wild should require low computational effort, we present a temporal-oriented broadcasting residual learning method that achieves efficient computation and high accuracy with a small model size. Based on the EfficientNet architecture, our novel network, named Temporal-oriented ResNet~(TorNet), constitutes of a broadcasting learning block, i.e. the Alternating Broadcast (AB) Block, which contains several Broadcast Residual Blocks (BC ResBlocks) and a convolution layer. With the AB Block, the network obtains useful audio-temporal features and higher level embeddings effectively with much less computation than Recurrent Neural Networks~(RNNs), typically used to model temporal information. TorNet achieves 72.2% Unweighted Average Recall (UAR) on the INTERPSEECH 2021 Computational Paralinguistics Challenge COVID-19 cough Sub-Challenge, by this showing competitive results with a higher computational efficiency than other state-of-the-art alternatives.
翻訳日:2022-04-01 23:25:34 公開日:2022-03-31
# (参考訳) 経時的学習による内視鏡的鏡像の描出とその画像対応に及ぼす影響 [全文訳有]

A Temporal Learning Approach to Inpainting Endoscopic Specularities and Its effect on Image Correspondence ( http://arxiv.org/abs/2203.17013v1 )

ライセンス: CC BY 4.0
Rema Daher, Francisco Vasconcelos, Danail Stoyanov(参考訳) ビデオストリームは、広範囲の手順で、最小侵襲の手術と診断手順をガイドするために利用されており、自動分析のために多くのコンピュータ支援技術が開発されている。 これらのアプローチは、病変検出、機器ナビゲーション、解剖学的3d形状モデリングなどの追加情報を提供することができる。 しかし、これらのパターンを認識するために必要な画像特徴は、スペクトルハイライト反射のような不規則な光パターンが存在するため、必ずしも確実に検出されない。 本稿では,機械学習を用いて内視鏡的映像のハイライトを除去することを目的とする。 本研究では,時間的生成逆数ネットワーク(GAN)を用いて,その外観を空間的に推定し,同じ場所に存在しないフレームから隠された解剖を特徴付ける。 これは、胃内視鏡(hyper-kvasir)のin-vivoデータを用いて、鏡像ハイライトの自動検出に依存する完全に教師なしの方法で達成される。 システム評価は、ネットワークの時間的および伝達的学習コンポーネントの重要性を描写したアブレーション研究を通じて、直接比較による従来の手法と、他の機械学習技術を大きく改善している。 また, 胃内視鏡検査, ブタ検診データ (SERV-CT, SCARED) を用いて, 術式や術式の違いによる全身性の評価を行った。 また,3次元再構成とカメラモーション推定の基盤となるコンピュータビジョンタスク,すなわち立体差,光フロー,スパース点特徴マッチングにおける本手法の有効性を評価する。 これらを定量的・定性的に評価し,新しい包括的分析において,これらの課題に対するスペキュラーハイライトの有意な効果を示した。

Video streams are utilised to guide minimally-invasive surgery and diagnostic procedures in a wide range of procedures, and many computer assisted techniques have been developed to automatically analyse them. These approaches can provide additional information to the surgeon such as lesion detection, instrument navigation, or anatomy 3D shape modeling. However, the necessary image features to recognise these patterns are not always reliably detected due to the presence of irregular light patterns such as specular highlight reflections. In this paper, we aim at removing specular highlights from endoscopic videos using machine learning. We propose using a temporal generative adversarial network (GAN) to inpaint the hidden anatomy under specularities, inferring its appearance spatially and from neighbouring frames where they are not present in the same location. This is achieved using in-vivo data of gastric endoscopy (Hyper-Kvasir) in a fully unsupervised manner that relies on automatic detection of specular highlights. System evaluations show significant improvements to traditional methods through direct comparison as well as other machine learning techniques through an ablation study that depicts the importance of the network's temporal and transfer learning components. The generalizability of our system to different surgical setups and procedures was also evaluated qualitatively on in-vivo data of gastric endoscopy and ex-vivo porcine data (SERV-CT, SCARED). We also assess the effect of our method in computer vision tasks that underpin 3D reconstruction and camera motion estimation, namely stereo disparity, optical flow, and sparse point feature matching. These are evaluated quantitatively and qualitatively and results show a positive effect of specular highlight inpainting on these tasks in a novel comprehensive analysis.
翻訳日:2022-04-01 23:11:14 公開日:2022-03-31
# (参考訳) DeepFry: ディープニューラルネットワークを用いた音声フライの同定 [全文訳有]

DeepFry: Identifying Vocal Fry Using Deep Neural Networks ( http://arxiv.org/abs/2203.17019v1 )

ライセンス: CC BY 4.0
Bronya R. Chernyak, Talia Ben Simon, Yael Segal, Jeremy Steffman, Eleanor Chodroff, Jennifer S. Cole, Joseph Keshet(参考訳) 声質フライ(Vocal fry)は、不規則な声門の開口と低ピッチを特徴とする声質を指す。 様々な言語で発生し、アメリカ英語で一般的であり、句の最終性を示すだけでなく、社会言語学的要因や影響を示すためにも用いられる。 不規則な周期性のため、creaky voiceは自動音声処理と認識システム、特にcreakが頻繁に使われる言語に挑戦している。 本稿では,流行った音声におけるき裂声検出のための深層学習モデルを提案する。 モデルはエンコーダと、一緒に訓練された分類器で構成される。 エンコーダは生波形を取得し、畳み込みニューラルネットワークを用いて表現を学習する。 分類器は、クレーキー音声、ヴォイシング、ピッチを検出するために訓練されたマルチヘッド完全接続ネットワークとして実装され、最後の2つはクレーク予測を洗練するために使用される。 このモデルは、アメリカの英語話者のスピーチに基づいて訓練され、訓練された音声学者によって注釈付けされた。 我々は,2つのエンコーダを用いてシステムの性能評価を行った。一方はタスクに適したもので,もう一方は最先端の教師なし表現に基づく。 結果から,本システムでは従来手法に比べてリコールとF1スコアが改善したことが示唆された。

Vocal fry or creaky voice refers to a voice quality characterized by irregular glottal opening and low pitch. It occurs in diverse languages and is prevalent in American English, where it is used not only to mark phrase finality, but also sociolinguistic factors and affect. Due to its irregular periodicity, creaky voice challenges automatic speech processing and recognition systems, particularly for languages where creak is frequently used. This paper proposes a deep learning model to detect creaky voice in fluent speech. The model is composed of an encoder and a classifier trained together. The encoder takes the raw waveform and learns a representation using a convolutional neural network. The classifier is implemented as a multi-headed fully-connected network trained to detect creaky voice, voicing, and pitch, where the last two are used to refine creak prediction. The model is trained and tested on speech of American English speakers, annotated for creak by trained phoneticians. We evaluated the performance of our system using two encoders: one is tailored for the task, and the other is based on a state-of-the-art unsupervised representation. Results suggest our best-performing system has improved recall and F1 scores compared to previous methods on unseen data.
翻訳日:2022-04-01 22:45:44 公開日:2022-03-31
# (参考訳) ロングテール物体検出のためのlogit正規化 [全文訳有]

Logit Normalization for Long-tail Object Detection ( http://arxiv.org/abs/2203.17020v1 )

ライセンス: CC BY 4.0
Liang Zhao, Yao Teng, Limin Wang(参考訳) 歪んだ分布を示す現実世界のデータは、既存の物体検出器に深刻な課題をもたらす。 さらに,検出器内の試料はトレーニングラベル分布をシフトさせるが,前景試料に対する背景の膨大な割合は前景分類に悪影響を及ぼす。 この問題を軽減するため,本稿では,バッチ正規化と同様の方法で,検出器の分類されたロジットを自己管理するシンプルな手法であるlognを提案する。 一般的に、当社のlognはトレーニングおよびチューニングフリー(追加のトレーニングとチューニングプロセスを必要としない)、モデルおよびラベル配布非依存(さまざまな種類の検出器とデータセットへの一般化)、プラグイン・アンド・プレイ(ベルやホイッスルのない直接アプリケーション)です。 LVISデータセットの大規模な実験は、様々な検出器とバックボーンを持つ最先端の手法よりもLogNの優れた性能を示す。 また、lognのさまざまな側面に関する詳細な研究も行っています。 ImageNet-LTのさらなる実験は、その競争性と一般化性を明らかにする。 私たちのlognは、ロングテールオブジェクト検出の強力なベースラインとなり、この分野における今後の研究に刺激を与えるものと期待されています。 コードとトレーニングされたモデルはhttps://github.com/M CG-NJU/LogN.comで公開される。

Real-world data exhibiting skewed distributions pose a serious challenge to existing object detectors. Moreover, the samplers in detectors lead to shifted training label distributions, while the tremendous proportion of background to foreground samples severely harms foreground classification. To mitigate these issues, in this paper, we propose Logit Normalization (LogN), a simple technique to self-calibrate the classified logits of detectors in a similar way to batch normalization. In general, our LogN is training- and tuning-free (i.e. require no extra training and tuning process), model- and label distribution-agnosti c (i.e. generalization to different kinds of detectors and datasets), and also plug-and-play (i.e. direct application without any bells and whistles). Extensive experiments on the LVIS dataset demonstrate superior performance of LogN to state-of-the-art methods with various detectors and backbones. We also provide in-depth studies on different aspects of our LogN. Further experiments on ImageNet-LT reveal its competitiveness and generalizability. Our LogN can serve as a strong baseline for long-tail object detection and is expected to inspire future research in this field. Code and trained models will be publicly available at https://github.com/M CG-NJU/LogN.
翻訳日:2022-04-01 22:35:05 公開日:2022-03-31
# (参考訳) 混合モデルに対するフラットトッピング確率密度関数

Flat-topped Probability Density Functions for Mixture Models ( http://arxiv.org/abs/2203.17027v1 )

ライセンス: CC BY 4.0
Osamu Fujita(参考訳) 本稿では, 分布モードにほぼ均一な連続的な確率密度関数 (PDF) について検討し, ベル形状から長方形に至るまで, 様々な分布形状に適応できることを示す。 計算的トラクタビリティの観点から、Fermi-Dirac あるいはロジスティック関数に基づくPDFは、その形状パラメータを推定する上で有利である。 p\left(\mathbf{x}\right)\propto\left[\cosh\left(\left[\left(\mathbf{x}-\mathbf{m}\right)^{\mathsf{t}}\boldsymbol{\sigma}^{-1}\left(\mathbf{x}-\mathbf{m}\right)\right]^{n/2}\right)+\cosh\left(r^{n}\right)\right]^{-1}$ ここで$\mathbf{x},\mathbf{m}\in\mathbb{r}^{n}$,$\boldsymbol{\sigma}$は$n\times n$ の正の行列であり、$0>$0 のパラメータである。 フラットトップのpdfは、機械学習における混合モデルのコンポーネントとして使用することで、適合性の良さを改善し、できるだけ簡単なモデルにすることができる。

This paper investigates probability density functions (PDFs) that are continuous everywhere, nearly uniform around the mode of distribution, and adaptable to a variety of distribution shapes ranging from bell-shaped to rectangular. From the viewpoint of computational tractability, the PDF based on the Fermi-Dirac or logistic function is advantageous in estimating its shape parameters. The most appropriate PDF for $n$-variate distribution is of the form: $p\left(\mathbf{x}\right)\propto\left[\cosh\left(\left[\left(\mathbf{x}-\mathbf{m}\right)^{\mathsf{T}}\boldsymbol{\Sigma}^{-1}\left(\mathbf{x}-\mathbf{m}\right)\right]^{n/2}\right)+\cosh\left(r^{n}\right)\right]^{-1}$ where $\mathbf{x},\mathbf{m}\in\mathbb{R}^{n}$, $\boldsymbol{\Sigma}$ is an $n\times n$ positive definite matrix, and $r>0$ is a shape parameter. The flat-topped PDFs can be used as a component of mixture models in machine learning to improve goodness of fit and make a model as simple as possible.
翻訳日:2022-04-01 22:14:55 公開日:2022-03-31
# (参考訳) 話者自動検証のための軽量対策モデルの訓練戦略 [全文訳有]

Training strategy for a lightweight countermeasure model for automatic speaker verification ( http://arxiv.org/abs/2203.17031v1 )

ライセンス: CC BY 4.0
Yen-Lun Liao, Xuanjun Chen, Chung-Che Wang, Jyh-Shing Roger Jang(参考訳) 自動話者照合(asv)システムをspoof攻撃から保護し、個人情報漏洩を防止するための対策(cm)モデルを開発した。 実用性とセキュリティ上の考慮に基づき、CMモデルは通常、クラウドベースのシステムよりも限られたコンピューティングリソースとストレージスペースを持つエッジデバイスにデプロイされる。 本研究は,asv用軽量cmモデルのトレーニング戦略を提案し,汎用endto-end (ge2e) プリトレーニングと逆行微調整による性能向上と,cmモデルのサイズ削減のための知識蒸留 (kd) の適用を提案する。 ASVspoof 2021 Logical Accessタスクのevalua-tionフェーズでは、軽量ResNetSEモデルがmin t-DCF 0.2695とEER 3.54%に達する。 教師モデルと比較して、軽量な生徒モデルはパラメータの22.5%と教師モデルの倍数と累積オペランドの21.1%しか使用していない。

The countermeasure (CM) model is developed to protect Automatic Speaker Verification (ASV) systems from spoof attacks and prevent resulting personal information leakage. Based on practicality and security considerations, the CM model is usually deployed on edge devices, which have more limited computing resources and storage space than cloud- based systems. This work proposes training strategies for a lightweight CM model for ASV, using generalized end- to-end (GE2E) pre-training and adversarial fine-tuning to improve performance, and applying knowledge distillation (KD) to reduce the size of the CM model. In the evalua- tion phase of the ASVspoof 2021 Logical Access task, the lightweight ResNetSE model reaches min t-DCF 0.2695 and EER 3.54%. Compared to the teacher model, the lightweight student model only uses 22.5% of parameters and 21.1% of multiply and accumulate operands of the teacher model.
翻訳日:2022-04-01 22:13:13 公開日:2022-03-31
# (参考訳) IITD-DBAI:擬似関連フィードバックとクエリ再構成によるマルチステージ検索 [全文訳有]

IITD-DBAI: Multi-Stage Retrieval with Pseudo-Relevance Feedback and Query Reformulation ( http://arxiv.org/abs/2203.17042v1 )

ライセンス: CC BY 4.0
Shivani Choudhary(参考訳) コンテキスト依存を解決することは、会話システムにおいて最も難しいタスクの1つです。 cast-2021への提案は,キーワードとコンテキストを後続の全てのターンに保存し,古典的情報検索手法を使用することを目的としている。 コーパスから可能な限り関連文書を引き出すことを目的としていた。 我々はCAsT-2021に2回の自動走行を行った。 我々の提案は、中央値モデルよりも平均的なNDCG@3パフォーマンスを実現した。

Resolving the contextual dependency is one of the most challenging tasks in the Conversational system. Our submission to CAsT-2021 aimed to preserve the key terms and the context in all subsequent turns and use classical Information retrieval methods. It was aimed to pull as relevant documents as possible from the corpus. We have participated in automatic track and submitted two runs in the CAsT-2021. Our submission has produced a mean NDCG@3 performance better than the median model.
翻訳日:2022-04-01 22:03:54 公開日:2022-03-31
# (参考訳) 認証機械学習:物理インフォームドニューラルネットワークの後方誤差推定 [全文訳有]

Certified machine learning: A posteriori error estimation for physics-informed neural networks ( http://arxiv.org/abs/2203.17055v1 )

ライセンス: CC BY 4.0
Birgit Hillebrecht, Benjamin Unger(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、物理システムに関する事前知識を学習フレームワークに導入するための一般的なアプローチである。 PINNは、より小さなトレーニングセットに対して堅牢であることが知られ、より良い一般化問題を導出し、より速くトレーニングすることができる。 本稿では,純粋にデータ駆動型ニューラルネットワークと比較してピンを使うことは,トレーニング性能に有利なだけでなく,近似解の品質に関する重要な情報を抽出することができることを示す。 PINNトレーニングの根底にある微分方程式が常微分方程式であると仮定すると、PINN予測誤差の厳密な上限を導出する。 この境界は、トレーニングフェーズに含まれない、真のソリューションに関する事前知識のない入力データに対しても適用される。 したがって, 後部誤差推定は, PINNの認証に不可欠なステップである。 本研究では, モデル予測制御のカテゴリに属する2つの学習玩具問題に対して, 誤差推定器を例示的に適用し, 導出結果の実用性を示す。

Physics-informed neural networks (PINNs) are one popular approach to introduce a priori knowledge about physical systems into the learning framework. PINNs are known to be robust for smaller training sets, derive better generalization problems, and are faster to train. In this paper, we show that using PINNs in comparison with purely data-driven neural networks is not only favorable for training performance but allows us to extract significant information on the quality of the approximated solution. Assuming that the underlying differential equation for the PINN training is an ordinary differential equation, we derive a rigorous upper limit on the PINN prediction error. This bound is applicable even for input data not included in the training phase and without any prior knowledge about the true solution. Therefore, our a posteriori error estimation is an essential step to certify the PINN. We apply our error estimator exemplarily to two academic toy problems, whereof one falls in the category of model-predictive control and thereby shows the practical use of the derived results.
翻訳日:2022-04-01 21:59:09 公開日:2022-03-31
# (参考訳) 神経合成を用いた口腔癌音声の操作 [全文訳有]

Manipulation of oral cancer speech using neural articulatory synthesis ( http://arxiv.org/abs/2203.17072v1 )

ライセンス: CC BY 4.0
Bence Mark Halpern, Teja Rebernik, Thomas Tienkamp, Rob van Son, Michiel van den Brekel, Martijn Wieling, Max Witjes, Odette Scharenborg(参考訳) 本稿では,口腔癌音声の合成と操作のための調音合成フレームワークを提案する。 客観的および主観的評価は、この枠組みが許容される自然性を持ち、さらなる調査に値することを示している。 その後の主観的母音と子音識別実験により、調音合成システムは調音軌道を操作でき、合成された音声は、基底真性口腔癌音声に存在する問題を再現できることを示した。

We present an articulatory synthesis framework for the synthesis and manipulation of oral cancer speech for clinical decision making and alleviation of patient stress. Objective and subjective evaluations demonstrate that the framework has acceptable naturalness and is worth further investigation. A subsequent subjective vowel and consonant identification experiment showed that the articulatory synthesis system can manipulate the articulatory trajectories so that the synthesised speech reproduces problems present in the ground truth oral cancer speech.
翻訳日:2022-04-01 21:43:40 公開日:2022-03-31
# (参考訳) 変圧器ネットワークを用いたディープハイパースペクトルアンミックス [全文訳有]

Deep Hyperspectral Unmixing using Transformer Network ( http://arxiv.org/abs/2203.17076v1 )

ライセンス: CC BY 4.0
Preetam Ghosh, Swalpa Kumar Roy, Bikram Koirala, Behnood Rasti, and Paul Scheunders(参考訳) 現在、この論文はIEEEでレビュー中である。 トランスフォーマーは、自然言語処理における最先端のパフォーマンスでビジョン研究コミュニティに興味を抱いている。 その優れた性能により、トランスフォーマーは超スペクトル画像分類の分野でその道を見出し、有望な結果を得た。 本稿では,変圧器のパワーを利用してハイパースペクトルアンミックスの課題を克服し,変圧器を用いた新しい深部アンミックスモデルを提案する。 本研究の目的は,トランスフォーマーがグローバルな特徴の依存性をよりよく把握し,終末スペクトルやアブリダンスマップの質を高めることである。 提案モデルは畳み込みオートエンコーダとトランスフォーマーを組み合わせたものである。 ハイパースペクトルデータは畳み込みエンコーダによって符号化される。 変換器はエンコーダから派生した表現間の長距離依存関係をキャプチャする。 データは畳み込みデコーダを用いて再構成される。 提案手法をサムソン,アペックス,ワシントンDCモールの3つの未混合モデルに適用し,根平均二乗誤差とスペクトル角距離の観点から最先端のモデルと比較した。 提案されたモデルのソースコードは \url{https://github.com/p reetam22n/deeptrans- hsu} で公開されている。

Currently, this paper is under review in IEEE. Transformers have intrigued the vision research community with their state-of-the-art performance in natural language processing. With their superior performance, transformers have found their way in the field of hyperspectral image classification and achieved promising results. In this article, we harness the power of transformers to conquer the task of hyperspectral unmixing and propose a novel deep unmixing model with transformers. We aim to utilize the ability of transformers to better capture the global feature dependencies in order to enhance the quality of the endmember spectra and the abundance maps. The proposed model is a combination of a convolutional autoencoder and a transformer. The hyperspectral data is encoded by the convolutional encoder. The transformer captures long-range dependencies between the representations derived from the encoder. The data are reconstructed using a convolutional decoder. We applied the proposed unmixing model to three widely used unmixing datasets, i.e., Samson, Apex, and Washington DC mall and compared it with the state-of-the-art in terms of root mean squared error and spectral angle distance. The source code for the proposed model will be made publicly available at \url{https://github.com/p reetam22n/DeepTrans- HSU}.
翻訳日:2022-04-01 21:31:44 公開日:2022-03-31
# (参考訳) $k$NN-NER:一番近くで検索できるエンティティ認識 [全文訳有]

$k$NN-NER: Named Entity Recognition with Nearest Neighbor Search ( http://arxiv.org/abs/2203.17103v1 )

ライセンス: CC BY 4.0
Shuhe Wang, Xiaoya Li, Yuxian Meng, Tianwei Zhang, Rongbin Ouyang, Jiwei Li, Guoyin Wang(参考訳) NLP〜\citep{khandelwal2019 Generalization,khand elwal2020nearest,men g2021gnn}の検索強化手法の最近の進歩に触発されて、トレーニングセットから取得した400ドル近い近隣住民を割り当ててエンティティラベルの分布を拡大するNER(k$NN-NER)フレームワークを導入した。 この戦略により、モデルはより長い尾のケースを扱えるようになり、より優れた数発の学習能力が得られる。 k$nn-nerはトレーニングフェーズで追加の操作を必要とせず、k$nearbys searchをvanilla nerモデルに補間することにより、k$nn-nerはバニラモデルよりも一貫して優れています: 中国のweiboデータセットで、最先端のf1-scoreが72.03 (+1.25)で実現され、さまざまな広く使用されているnerベンチマークで結果が向上しました。 さらに、$k$NN-NERは、トレーニングデータの40倍の量のバニラNERモデルに匹敵する結果が得られることを示す。 コードは \url{https://github.com/s hannonai/knn-ner}。

Inspired by recent advances in retrieval augmented methods in NLP~\citep{khandelwal2019genera lization,khandelwal2 020nearest,meng2021g nn}, in this paper, we introduce a $k$ nearest neighbor NER ($k$NN-NER) framework, which augments the distribution of entity labels by assigning $k$ nearest neighbors retrieved from the training set. This strategy makes the model more capable of handling long-tail cases, along with better few-shot learning abilities. $k$NN-NER requires no additional operation during the training phase, and by interpolating $k$ nearest neighbors search into the vanilla NER model, $k$NN-NER consistently outperforms its vanilla counterparts: we achieve a new state-of-the-art F1-score of 72.03 (+1.25) on the Chinese Weibo dataset and improved results on a variety of widely used NER benchmarks. Additionally, we show that $k$NN-NER can achieve comparable results to the vanilla NER model with 40\% less amount of training data. Code available at \url{https://github.com/S hannonAI/KNN-NER}.
翻訳日:2022-04-01 21:07:32 公開日:2022-03-31
# (参考訳) レシピの内容と準備過程の表現的マルチモーダルクエリ支援計画としての豊かなレシピ表現 [全文訳有]

A Rich Recipe Representation as Plan to Support Expressive Multi Modal Queries on Recipe Content and Preparation Process ( http://arxiv.org/abs/2203.17109v1 )

ライセンス: CC BY 4.0
Vishal Pallagani, Priyadharsini Ramamurthy, Vedant Khandelwal, Revathy Venkataramanan, Kausik Lakkaraju, Sathyanarayanan N. Aakur, Biplav Srivastava(参考訳) 食物は基本的な人間の必要性だけでなく、社会の健康と経済の幸福を駆動する重要な要素でもある。 その結果、料理領域は、情報検索インターフェースからタスク指向のチャットボットまで、ツールを使用して精密な健康を提供するサービスにおいて、意思決定支援(ai)能力を示す一般的なユースケースである。 ここでのAIは、食品領域の概念(レシピや材料など)を理解し、調理中に遭遇した失敗(バターのブラウニングなど)に寛容であり、アレルギーベースの置換を処理し、複数のデータモダリティ(テキストや画像など)を扱う必要がある。 しかし、今日のレシピはテキスト文書として扱われており、機械があいまいさを読みやすく、理性があり、扱いにくい。 これにより、現在のテキスト文書にあるあいまいさとスパースさを克服し、レシピのより良い表現の必要性が要求される。 本稿では,自然言語で利用可能なレシピから,機械が理解可能なリッチレシピ表現(R3)を計画形式で構築することについて議論する。 R3には、アレルゲンに関する情報や成分の画像、原子調理工程の失敗やヒントなどの追加の知識が注がれている。 r3 の利点を示すために,r3 を用いたレシピ検索ツールである treat についても紹介する。r3 を用いて,レシピの内容(計画対象,材料,調理ツール),調理プロセス(計画動作と時間),メディアタイプ(画像,テキスト)についてマルチモーダル推論を行う。 R3は、テキスト表現では不可能だった検索効率と新機能の改善につながる。

Food is not only a basic human necessity but also a key factor driving a society's health and economic well-being. As a result, the cooking domain is a popular use-case to demonstrate decision-support (AI) capabilities in service of benefits like precision health with tools ranging from information retrieval interfaces to task-oriented chatbots. An AI here should understand concepts in the food domain (e.g., recipes, ingredients), be tolerant to failures encountered while cooking (e.g., browning of butter), handle allergy-based substitutions, and work with multiple data modalities (e.g. text and images). However, the recipes today are handled as textual documents which makes it difficult for machines to read, reason and handle ambiguity. This demands a need for better representation of the recipes, overcoming the ambiguity and sparseness that exists in the current textual documents. In this paper, we discuss the construction of a machine-understandab le rich recipe representation (R3), in the form of plans, from the recipes available in natural language. R3 is infused with additional knowledge such as information about allergens and images of ingredients, possible failures and tips for each atomic cooking step. To show the benefits of R3, we also present TREAT, a tool for recipe retrieval which uses R3 to perform multi-modal reasoning on the recipe's content (plan objects - ingredients and cooking tools), food preparation process (plan actions and time), and media type (image, text). R3 leads to improved retrieval efficiency and new capabilities that were hither-to not possible in textual representation.
翻訳日:2022-04-01 20:57:39 公開日:2022-03-31
# (参考訳) 位置偏差クリックフィードバックによる非偏差学習の2倍ロバスト推定 [全文訳有]

Doubly-Robust Estimation for Unbiased Learning-to-Rank from Position-Biased Click Feedback ( http://arxiv.org/abs/2203.17118v1 )

ライセンス: CC BY 4.0
Harrie Oosterhuis(参考訳) ランキングのクリックは位置バイアスに苦しむ:一般的に低いランクのアイテムは、アイテム間の実際の好みにもかかわらず、ユーザーによって検査される可能性が低く、従ってクリックされる。 LTR(Learning-to-Rank )に対する一般的なアプローチは、逆ファクトな逆プロペンシティ・スコアリング(IPS)推定に基づいている。 ltrのユニークな点は、ipsと回帰予測を組み合わせた標準の二重ロバスト(dr)推定が、治療変数(ユーザーが項目を調べたかどうかを示す)がデータで観察できないため、適用できないという事実である。 本稿では,ランクごとの待遇を期待する新しいDR推定器を提案する。 我々の新しいDR推定器は既存のIPS手法よりも頑健な不偏性条件を持ち、また分散の大幅な減少をもたらす。 偏りのないLTRの分野では、DR推定器は最先端性能の向上と、既知のLTR推定器の最も堅牢な理論的保証の両方に寄与する。

Clicks on rankings suffer from position bias: generally items on lower ranks are less likely to be examined - and thus clicked - by users, in spite of their actual preferences between items. The prevalent approach to unbiased click-based Learning-to-Rank (LTR) is based on counterfactual Inverse-Propensity-S coring (IPS) estimation. Unique about LTR is the fact that standard Doubly-Robust (DR) estimation - which combines IPS with regression predictions - is inapplicable since the treatment variable - indicating whether a user examined an item - cannot be observed in the data. In this paper, we introduce a novel DR estimator that uses the expectation of treatment per rank instead. Our novel DR estimator has more robust unbiasedness conditions than the existing IPS approach, and in addition, provides enormous decreases in variance: our experimental results indicate it requires several orders of magnitude fewer datapoints to converge at optimal performance. For the unbiased LTR field, our DR estimator contributes both increases in state-of-the-art performance and the most robust theoretical guarantees of all known LTR estimators.
翻訳日:2022-04-01 20:47:43 公開日:2022-03-31
# (参考訳) 未知の条件下でのトラフィックルーティングのためのオンライン学習 [全文訳有]

Online Learning for Traffic Routing under Unknown Preferences ( http://arxiv.org/abs/2203.17150v1 )

ライセンス: CC BY 4.0
Devansh Jalota and Karthik Gopalakrishnan and Navid Azizan and Ramesh Johari and Marco Pavone(参考訳) 交通ネットワークにおいて、利用者は通常、個々の旅行コストを最小限に抑えるために、分散的かつ自己関心の方法でルートを選択する。 その結果、これらの効率損失に対処し、利用者をシステム効率のよい交通パターンへと誘導する道路料金体系の設計への関心が高まっている。 しかし、道路料金体系の有効性は、しばしばユーザーの旅行属性の完全な情報(例えば、オリジン・デスティネーション(o-d)の旅行情報や、実際に利用できない時間の値など)にアクセスすることに依存している。 この実践的考察により,異種ユーザをシステム効率のよいトラフィックパターンへ向かわせるために,トラフィックネットワークに料金を設定するオンライン学習手法を提案する。 特に,ユーザの追加トリップ属性に頼らずにネットワークの道路上で観測された集約フローのみに基づいて,各期間の料金を調整し,ユーザのプライバシを保護できる簡易かつ効果的なアルゴリズムを開発した。 それぞれの期間にO-Dペアとユーザの時間値が引き出される設定において、我々のアプローチは、O(\sqrt{T})$の期待された後悔と道路容量違反が得られ、そこでは、T$は、料金が更新される期間の数である。 我々の後悔の保証は、ユーザーの旅行属性に関する完全な情報を持つオフラインのオラクルと相対する。 さらに、任意のアルゴリズムの後悔に対する$\Omega(\sqrt{T})$低い境界を確立し、アルゴリズムが定数まで最適であることを示す。 最後に,実世界の交通ネットワークにおけるいくつかのベンチマークと比較して,我々のアプローチの優れた性能を示す。

In transportation networks, users typically choose routes in a decentralized and self-interested manner to minimize their individual travel costs, which, in practice, often results in inefficient overall outcomes for society. As a result, there has been a growing interest in designing road tolling schemes to cope with these efficiency losses and steer users toward a system-efficient traffic pattern. However, the efficacy of road tolling schemes often relies on having access to complete information on users' trip attributes, such as their origin-destination (O-D) travel information and their values of time, which may not be available in practice. Motivated by this practical consideration, we propose an online learning approach to set tolls in a traffic network to drive heterogeneous users with different values of time toward a system-efficient traffic pattern. In particular, we develop a simple yet effective algorithm that adjusts tolls at each time period solely based on the observed aggregate flows on the roads of the network without relying on any additional trip attributes of users, thereby preserving user privacy. In the setting where the O-D pairs and values of time of users are drawn i.i.d. at each period, we show that our approach obtains an expected regret and road capacity violation of $O(\sqrt{T})$, where $T$ is the number of periods over which tolls are updated. Our regret guarantee is relative to an offline oracle that has complete information on users' trip attributes. We further establish a $\Omega(\sqrt{T})$ lower bound on the regret of any algorithm, which establishes that our algorithm is optimal up to constants. Finally, we demonstrate the superior performance of our approach relative to several benchmarks on a real-world transportation network, thereby highlighting its practical applicability.
翻訳日:2022-04-01 20:03:18 公開日:2022-03-31
# (参考訳) 非線形フィルタ問題に対するエネルギーベース深部分割法 [全文訳有]

An energy-based deep splitting method for the nonlinear filtering problem ( http://arxiv.org/abs/2203.17153v1 )

ライセンス: CC BY 4.0
Kasper B{\aa}gmark, Adam Andersson, Stig Larsson(参考訳) 本研究の主な目的は,ディープラーニングによる非線形フィルタリング問題を概ね解決することである。 これは(確率的な)偏微分方程式の近似解として以前に開発された深い分割法による座界方程式の解法によって達成される。 これは、ディープニューラルネットワークによる関数近似のためのエネルギーベースのモデルと組み合わされる。 これにより、計算的に高速なフィルタが観測を入力として受け取り、新しい観測が受信されたときに再学習を必要としない。 この手法は線形ガウスと非線形の3つの例で検証される。 本手法は,Kalmanフィルタとブートストラップ粒子フィルタとのベンチマークにより,有望な性能を示す。

The main goal of this paper is to approximately solve the nonlinear filtering problem through deep learning. This is achieved by solving the Zakai equation by a deep splitting method, previously developed for approximate solution of (stochastic) partial differential equations. This is combined with an energy-based model for the approximation of functions by a deep neural network. This results in a computationally fast filter that takes observations as input and that does not require re-training when new observations are received. The method is tested on three examples, one linear Gaussian and two nonlinear. The method shows promising performance when benchmarked against the Kalman filter and the bootstrap particle filter.
翻訳日:2022-04-01 19:33:36 公開日:2022-03-31
# (参考訳) 深層機械学習によるデータからの極端な事象の予測 - 時と場所- [全文訳有]

Predicting extreme events from data using deep machine learning: when and where ( http://arxiv.org/abs/2203.17155v1 )

ライセンス: CC BY 4.0
Junjie Jiang, Zi-Gang Huang, Celso Grebogi, and Ying-Cheng Lai(参考訳) 我々は,空間次元2の非線形物理系において,時間(when)と空間(where)の両方における極端な事象の発生をモデルフリーで予測するための深層畳み込みニューラルネットワーク(dcnn)ベースのフレームワークを開発した。 測定またはデータは2次元のスナップショットまたは画像の集合である。 所望の時間的予測のために、適切なラベル付けスキームを指定して、DCNNのトレーニングとその後の時間的極端な事象の予測を成功させることが可能である。 極端な事象が時平線内で起こると予測された場合、空間に基づくラベリングスキームは、特定の解像度内で、その事象が起こる場所を予測するために適用することができる。 2次元複素ギンツブルク-ランダウ方程式の合成データと北大西洋の風速データを用いて、機械学習に基づく予測フレームワークを実証・検証した。 予測水平線,空間分解能,精度のトレードオフを考察し,空間偏差による極端事象の発生が予測精度に与える影響について考察した。 ディープラーニングフレームワークは、現実世界の極端なイベントを予測するために有効です。

We develop a deep convolutional neural network (DCNN) based framework for model-free prediction of the occurrence of extreme events both in time ("when") and in space ("where") in nonlinear physical systems of spatial dimension two. The measurements or data are a set of two-dimensional snapshots or images. For a desired time horizon of prediction, a proper labeling scheme can be designated to enable successful training of the DCNN and subsequent prediction of extreme events in time. Given that an extreme event has been predicted to occur within the time horizon, a space-based labeling scheme can be applied to predict, within certain resolution, the location at which the event will occur. We use synthetic data from the 2D complex Ginzburg-Landau equation and empirical wind speed data of the North Atlantic ocean to demonstrate and validate our machine-learning based prediction framework. The trade-offs among the prediction horizon, spatial resolution, and accuracy are illustrated, and the detrimental effect of spatially biased occurrence of extreme event on prediction accuracy is discussed. The deep learning framework is viable for predicting extreme events in the real world.
翻訳日:2022-04-01 19:11:38 公開日:2022-03-31
# (参考訳) ハイパーグラフニューラルネットワークの過平滑化防止 [全文訳有]

Preventing Over-Smoothing for Hypergraph Neural Networks ( http://arxiv.org/abs/2203.17159v1 )

ライセンス: CC BY 4.0
Guanzi Chen, Jiying Zhang(参考訳) 近年、ハイパーグラフ学習は、複雑で高次な関係を表現する能力から大きな注目を集めている。 しかし、ハイパーグラフ用に設計された現在のニューラルネットワークアプローチはほとんどが浅いため、高次の隣人から情報を抽出する能力は制限されている。 本稿では,階層数の増加に伴ってハイパーグラフニューラルネットワークの性能が向上しないことを理論的および実証的に示す。 この問題に対処するため、我々はディープ層におけるノード表現の不均一性を維持できるディープ・HGCNと呼ばれる新しいディープ・ハイパーグラフ畳み込みネットワークを開発した。 具体的には、$k$層Deep-HGCNが任意の係数を持つ$k$の多項式フィルタをシミュレートし、過度な平滑化の問題を解消する。 種々のデータセットに対する実験結果から,提案モデルの性能を最先端のハイパーグラフ学習手法と比較した。

In recent years, hypergraph learning has attracted great attention due to its capacity in representing complex and high-order relationships. However, current neural network approaches designed for hypergraphs are mostly shallow, thus limiting their ability to extract information from high-order neighbors. In this paper, we show both theoretically and empirically, that the performance of hypergraph neural networks does not improve as the number of layers increases, which is known as the over-smoothing problem. To tackle this issue, we develop a new deep hypergraph convolutional network called Deep-HGCN, which can maintain the heterogeneity of node representation in deep layers. Specifically, we prove that a $k$-layer Deep-HGCN simulates a polynomial filter of order $k$ with arbitrary coefficients, which can relieve the problem of over-smoothing. Experimental results on various datasets demonstrate the superior performance of the proposed model comparing to the state-of-the-art hypergraph learning approaches.
翻訳日:2022-04-01 18:45:42 公開日:2022-03-31
# (参考訳) mixed-phoneme bert:テキスト対音声のための混合音素とsup-phoneme表現によるbertの改善 [全文訳有]

Mixed-Phoneme BERT: Improving BERT with Mixed Phoneme and Sup-Phoneme Representations for Text to Speech ( http://arxiv.org/abs/2203.17190v1 )

ライセンス: CC BY 4.0
Guangyan Zhang, Kaitao Song, Xu Tan, Daxin Tan, Yuzi Yan, Yanqing Liu, Gang Wang, Wei Zhou, Tao Qin, Tan Lee, Sheng Zhao(参考訳) 近年,テキスト・トゥ・スピーチ (TTS) における音素エンコーダの改良にBERT事前学習を利用することが注目されている。 しかし,音素を入力として利用するTTSファインタニングとは矛盾するTS音素エンコーダを強化するために,文字ベースユニットによる事前学習を適用する。 入力としての音素のみの事前学習は入力ミスマッチを緩和するが、限られた音素語彙による豊かな表現や意味情報をモデル化する能力は欠如している。 本稿では,音素表現と超音素表現を併用して学習能力を向上させるBERTモデルの新たな変種であるMixedPhoneme BERTを提案する。 具体的には、隣接する音素をsup音素にマージし、モデル入力として音素シーケンスとマージしたsup音素シーケンスを組み合わせることにより、リッチな文脈表現を学習するためのモデルのキャパシティを向上させることができる。 実験の結果,提案したMixed-Phoneme BERTは,FastSpeech 2ベースラインと比較して0.30CMOSゲインでTTS性能を著しく向上することがわかった。 Mixed-Phoneme BERTは、以前のTS事前学習モデルPnG BERTと3倍の推論速度と音声品質を実現する

Recently, leveraging BERT pre-training to improve the phoneme encoder in text to speech (TTS) has drawn increasing attention. However, the works apply pre-training with character-based units to enhance the TTS phoneme encoder, which is inconsistent with the TTS fine-tuning that takes phonemes as input. Pre-training only with phonemes as input can alleviate the input mismatch but lack the ability to model rich representations and semantic information due to limited phoneme vocabulary. In this paper, we propose MixedPhoneme BERT, a novel variant of the BERT model that uses mixed phoneme and sup-phoneme representations to enhance the learning capability. Specifically, we merge the adjacent phonemes into sup-phonemes and combine the phoneme sequence and the merged sup-phoneme sequence as the model input, which can enhance the model capacity to learn rich contextual representations. Experiment results demonstrate that our proposed Mixed-Phoneme BERT significantly improves the TTS performance with 0.30 CMOS gain compared with the FastSpeech 2 baseline. The Mixed-Phoneme BERT achieves 3x inference speedup and similar voice quality to the previous TTS pre-trained model PnG BERT
翻訳日:2022-04-01 18:30:38 公開日:2022-03-31
# (参考訳) SimVQA:ビジュアル質問応答のためのシミュレーション環境の探索 [全文訳有]

SimVQA: Exploring Simulated Environments for Visual Question Answering ( http://arxiv.org/abs/2203.17219v1 )

ライセンス: CC BY 4.0
Paola Cascante-Bonilla, Hui Wu, Letao Wang, Rogerio Feris, Vicente Ordonez(参考訳) vqaの既存の作業は、データセット内のイメージを摂動したり、既存の質問や回答を変更することで、より良い一般化を達成するためにデータ拡張を探求する。 これらの手法は優れた性能を示すが、質問や回答の多様性は利用可能な画像セットによって制限される。 本研究では、コンピュータ生成データを用いて視覚空間と言語空間を完全に制御し、より多様なシナリオを提供する。 我々は、実世界のVQAベンチマークにおける合成データの効果を定量化し、実際のデータに一般化する結果を生成する。 3dおよび物理シミュレーションプラットフォームを活用することで,実画像に存在する可能性のある機密データや個人データの露出を危険にさらすことなく,型固有の質問や回答を拡張・置換するための合成データを生成するパイプラインを提供する。 VQAに使用する既存の超現実的データセットを拡張しながら、包括的な分析を提供する。 また、トレーニング中にオブジェクトレベルの機能をランダムに切り替えてVQAモデルをよりドメイン不変にするF-SWAP(Feature Swapping)を提案する。 F-SWAPは,既存の疑問に答える精度を犠牲にすることなく,実画像のVQAデータセットの強化に有効であることを示す。

Existing work on VQA explores data augmentation to achieve better generalization by perturbing the images in the dataset or modifying the existing questions and answers. While these methods exhibit good performance, the diversity of the questions and answers are constrained by the available image set. In this work we explore using synthetic computer-generated data to fully control the visual and language space, allowing us to provide more diverse scenarios. We quantify the effect of synthetic data in real-world VQA benchmarks and to which extent it produces results that generalize to real data. By exploiting 3D and physics simulation platforms, we provide a pipeline to generate synthetic data to expand and replace type-specific questions and answers without risking the exposure of sensitive or personal data that might be present in real images. We offer a comprehensive analysis while expanding existing hyper-realistic datasets to be used for VQA. We also propose Feature Swapping (F-SWAP) -- where we randomly switch object-level features during training to make a VQA model more domain invariant. We show that F-SWAP is effective for enhancing a currently existing VQA dataset of real images without compromising on the accuracy to answer existing questions in the dataset.
翻訳日:2022-04-01 18:19:26 公開日:2022-03-31
# (参考訳) セブアーノのベースライン可読性モデル [全文訳有]

A Baseline Readability Model for Cebuano ( http://arxiv.org/abs/2203.17225v1 )

ライセンス: CC BY 4.0
Lloyd Lois Antonie Reyes, Michael Antonio Iba\~nez, Ranz Sapinit, Mohammed Hussien, Joseph Marvin Imperial(参考訳) 本研究では,セブアーノ語の最初のベースライン可読性モデルを開発した。 セブアーノ語はフィリピンで2番目に多く使われている言語であり、約2750万人の話者がいる。 ベースラインとして,伝統的あるいは表面的特徴,セブアノの文書的正書法に基づく音節パターン,多言語bertモデルから神経埋め込みを抽出した。 その結果、最初の2つの手作り言語特徴の使用は、すべての指標で約84\%の最適化されたランダムフォレストモデルで訓練された最高の性能を得た。 使用する特徴セットとアルゴリズムは、言語間アプリケーションの可能性を示すフィリピン語の可読性評価の以前の結果と似ている。 cebuanoのようなフィリピンの言語で可読性を評価する作業を促進するため、コードとデータの両方をオープンソース化しました。

In this study, we developed the first baseline readability model for the Cebuano language. Cebuano is the second most-used native language in the Philippines with about 27.5 million speakers. As the baseline, we extracted traditional or surface-based features, syllable patterns based from Cebuano's documented orthography, and neural embeddings from the multilingual BERT model. Results show that the use of the first two handcrafted linguistic features obtained the best performance trained on an optimized Random Forest model with approximately 84\% across all metrics. The feature sets and algorithm used also is similar to previous results in readability assessment for the Filipino language showing potential of crosslingual application. To encourage more work for readability assessment in Philippine languages such as Cebuano, we open-sourced both code and data.
翻訳日:2022-04-01 17:55:26 公開日:2022-03-31
# (参考訳) ImpDet: 3Dオブジェクト検出のためのインシシトフィールドの探索 [全文訳有]

ImpDet: Exploring Implicit Fields for 3D Object Detection ( http://arxiv.org/abs/2203.17240v1 )

ライセンス: CC BY 4.0
Xuelin Qian and Li Wang and Yi Zhu and Li Zhang and Yanwei Fu and Xiangyang Xue(参考訳) 従来の3Dオブジェクト検出手法は、いくつかのパラメータ、すなわち局所化、次元、配向を持つ境界ボックス表現学習に集中する。 その人気と普遍性にもかかわらず、そのような単純なパラダイムは微妙な数値偏差、特に局所化に敏感である。 対象物表面に点雲が自然に捕捉される性質と正確な位置や強度情報を活用することで,境界ボックス回帰を暗黙の関数として見る新たな視点を導入する。 これにより、3Dオブジェクト検出に暗黙的なフィールド学習を活用するImplicit Detection(ImpDet)と呼ばれるフレームワークが提案される。 indetは、異なる局所3d空間内の点に特定の値を割り当てるので、境界内外の点を分類することで高品質な境界を生成することができる。 さらに, 物体表面の疎度問題を解決するために, 空き領域を埋めるだけでなく, 境界を洗練させるために, リッチなセマンティックな特徴を学習するための, シンプルかつ効率的な仮想サンプリング戦略を提案する。 KITTIとWaymoベンチマークの大規模な実験結果は、暗黙のフィールドをオブジェクト検出に統合するの有効性と堅牢性を示している。

Conventional 3D object detection approaches concentrate on bounding boxes representation learning with several parameters, i.e., localization, dimension, and orientation. Despite its popularity and universality, such a straightforward paradigm is sensitive to slight numerical deviations, especially in localization. By exploiting the property that point clouds are naturally captured on the surface of objects along with accurate location and intensity information, we introduce a new perspective that views bounding box regression as an implicit function. This leads to our proposed framework, termed Implicit Detection or ImpDet, which leverages implicit field learning for 3D object detection. Our ImpDet assigns specific values to points in different local 3D spaces, thereby high-quality boundaries can be generated by classifying points inside or outside the boundary. To solve the problem of sparsity on the object surface, we further present a simple yet efficient virtual sampling strategy to not only fill the empty region, but also learn rich semantic features to help refine the boundaries. Extensive experimental results on KITTI and Waymo benchmarks demonstrate the effectiveness and robustness of unifying implicit fields into object detection.
翻訳日:2022-04-01 17:48:10 公開日:2022-03-31
# (参考訳) 23MWのデータセンターは必要なだけ [全文訳有]

A 23 MW data centre is all you need ( http://arxiv.org/abs/2203.17265v1 )

ライセンス: CC BY 4.0
Samuel Albanie, Dylan Campbell, Jo\~ao F. Henriques(参考訳) 機械学習の分野は近年大きな進歩を遂げており、言語モデリング、タンパク質の折り畳み、微妙にきめ細かな犬種分類の画期的な成果が見られた。 コンピュータゲームやボードゲームにも成功し、エンジニアリングと雇用者の期待を設定することに成功している者もいた。 この研究の中心的な貢献は、この進歩とテクノロジーが無期限に継続できるかどうかを慎重に検討することである。 2032年7月20日午前3時07分(BST)に、統計的理論の厳密な適用と、トレーニングデータを超えた外挿の失敗を通じて、私たちは否定的な回答と詳細を提供する。 そして、この発見の意義を探求し、十分に強力なコンピュータにアクセスしたこの神聖な時間に目覚めた個人が、長い言語的「ロックイン」の無数の形態の機会を持っていることを発見した。 必要なのは、この重要な瞬間を捉えるための巨大な(>>1W)データセンターだけです。 類似のアラームクロックを設定することで、人類の未来において、英国の色綴りが世界の単語処理ソフトウェア市場の80%以上にわたってデフォルトの綴りになるようにするために、扱いやすいアルゴリズムを提案します。

The field of machine learning has achieved striking progress in recent years, witnessing breakthrough results on language modelling, protein folding and nitpickingly fine-grained dog breed classification. Some even succeeded at playing computer games and board games, a feat both of engineering and of setting their employers' expectations. The central contribution of this work is to carefully examine whether this progress, and technology more broadly, can be expected to continue indefinitely. Through a rigorous application of statistical theory and failure to extrapolate beyond the training data, we answer firmly in the negative and provide details: technology will peak at 3:07 am (BST) on 20th July, 2032. We then explore the implications of this finding, discovering that individuals awake at this ungodly hour with access to a sufficiently powerful computer possess an opportunity for myriad forms of long-term linguistic 'lock in'. All we need is a large (>> 1W) data centre to seize this pivotal moment. By setting our analogue alarm clocks, we propose a tractable algorithm to ensure that, for the future of humanity, the British spelling of colour becomes the default spelling across more than 80% of the global word processing software market.
翻訳日:2022-04-01 17:31:42 公開日:2022-03-31
# (参考訳) BEVFormer:時空間変換器によるマルチカメラ画像からの鳥の視点表現学習 [全文訳有]

BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers ( http://arxiv.org/abs/2203.17270v1 )

ライセンス: CC BY 4.0
Zhiqi Li, Wenhai Wang, Hongyang Li, Enze Xie, Chonghao Sima, Tong Lu, Qiao Yu, Jifeng Dai(参考訳) マルチカメラ画像に基づく3次元検出やマップセグメンテーションを含む3次元視覚認識タスクは、自律運転システムに不可欠である。 本研究では,複数の自律運転認識タスクをサポートするために,時空間変換器を用いた統合BEV表現を学習するBEVFormerという新しいフレームワークを提案する。 簡単に言うと、BEVFormerは、事前に定義されたグリッド型のBEVクエリを通じて、空間的および時間的空間と相互作用することで、空間的情報と時間的情報の両方を利用する。 空間情報を集約するために,各bevクエリが興味のある領域からカメラビュー全体から空間的特徴を抽出する空間的クロスアテンションを設計する。 時間的情報については、履歴BEV情報を繰り返し融合させる時間的自己注意を提案する。 提案手法は,従来のベストプラクティスよりも9.0ポイント高く,LiDARベースラインの性能と同等であるnuScenesテストセットのNDS測定値において,新しい最先端の56.9\%を実現する。 さらに,BEVFormerは低視認性条件下での物体の速度推定とリコールの精度を著しく向上することを示す。 コードはhttps://github.com/z hiqi-li/BEVFormerでリリースされる。

3D visual perception tasks, including 3D detection and map segmentation based on multi-camera images, are essential for autonomous driving systems. In this work, we present a new framework termed BEVFormer, which learns unified BEV representations with spatiotemporal transformers to support multiple autonomous driving perception tasks. In a nutshell, BEVFormer exploits both spatial and temporal information by interacting with spatial and temporal space through predefined grid-shaped BEV queries. To aggregate spatial information, we design a spatial cross-attention that each BEV query extracts the spatial features from the regions of interest across camera views. For temporal information, we propose a temporal self-attention to recurrently fuse the history BEV information. Our approach achieves the new state-of-the-art 56.9\% in terms of NDS metric on the nuScenes test set, which is 9.0 points higher than previous best arts and on par with the performance of LiDAR-based baselines. We further show that BEVFormer remarkably improves the accuracy of velocity estimation and recall of objects under low visibility conditions. The code will be released at https://github.com/z hiqi-li/BEVFormer.
翻訳日:2022-04-01 17:18:18 公開日:2022-03-31
# 共音声ジェスチャキューを用いた話者抽出

Speaker Extraction with Co-Speech Gestures Cue ( http://arxiv.org/abs/2203.16840v1 )

ライセンス: Link先を確認
Zexu Pan, Xinyuan Qian, Haizhou Li(参考訳) 話者抽出は、複数話者混合音声から対象話者のクリーン音声を抽出することを目指す。 予め録音された音声サンプルや対象話者の顔画像を話者キューとして使用する研究がされている。 人間のコミュニケーションでは、自然に音声と時間をとる共同音声ジェスチャーも音声知覚に寄与する。 本研究では,低分解能映像記録から容易に得ることができる話者抽出用話者キューとして,手動・体動などの音声同時ジェスチャーシーケンスを探索し,顔記録よりも利用しやすいことを示す。 そこで,提案する2つのネットワークでは,対象話者に対して注意的な聞き取りを行うために,話者抽出プロセスにおいて,協調ジェスチャキューを暗黙的に溶かし,一方はまず音声分離を行い,他方は協調ジェスチャキューを明示的に使用し,分離した音声を対象話者に関連付ける。 実験結果から,共同音声ジェスチャの手がかりは対象話者の連想に有益であり,抽出音声の質は未処理混合音声に対して有意な改善を示した。

Speaker extraction seeks to extract the clean speech of a target speaker from a multi-talker mixture speech. There have been studies to use a pre-recorded speech sample or face image of the target speaker as the speaker cue. In human communication, co-speech gestures that are naturally timed with speech also contribute to speech perception. In this work, we explore the use of co-speech gestures sequence, e.g. hand and body movements, as the speaker cue for speaker extraction, which could be easily obtained from low-resolution video recordings, thus more available than face recordings. We propose two networks using the co-speech gestures cue to perform attentive listening on the target speaker, one that implicitly fuses the co-speech gestures cue in the speaker extraction process, the other performs speech separation first, followed by explicitly using the co-speech gestures cue to associate a separated speech to the target speaker. The experimental results show that the co-speech gestures cue is informative in associating the target speaker, and the quality of the extracted speech shows significant improvements over the unprocessed mixture speech.
翻訳日:2022-04-01 16:54:43 公開日:2022-03-31
# Icosahedral CNNを用いた音源位置推定の方向性

Direction of Arrival Estimation of Sound Sources Using Icosahedral CNNs ( http://arxiv.org/abs/2203.16940v1 )

ライセンス: Link先を確認
David Diaz-Guerra, Antonio Miguel, Jose R. Beltran(参考訳) 本稿では,マイクロホンアレイが受信した信号から計算したSRP-PHATパワーマップ上に印加されたIcosahedral Convolutional Neural Network (CNN)に基づく音源の指向性(DOA)推定モデルを提案する。 このイコサヘドラルcnnは、球面回転の連続空間のよい近似を表すイコサヘドロンの60回転対称性と等価であり、標準的な2次元畳み込み層を用いて実装することができ、球面cnnの多くよりも計算コストが低い。 また,コサヘドラル畳み込み後に完全連結層を用いる代わりに,argmax関数の微分可能なバージョンとして見ることができ,畳み込み層の出力を確率分布として解釈する回帰問題としてDOA推定を解くことができる新しいソフトアルグマックス関数を提案する。 問題の等式に適合するモデルを用いることで、残響時間$T_{60}$1.5 sのシナリオであっても、根平均2乗の局所化誤差を10{\degより低くし、計算コストとロバスト性で他の最先端モデルよりも優れることを示す。

In this paper, we present a new model for Direction of Arrival (DOA) estimation of sound sources based on an Icosahedral Convolutional Neural Network (CNN) applied over SRP-PHAT power maps computed from the signals received by a microphone array. This icosahedral CNN is equivariant to the 60 rotational symmetries of the icosahedron, which represent a good approximation of the continuous space of spherical rotations, and can be implemented using standard 2D convolutional layers, having a lower computational cost than most of the spherical CNNs. In addition, instead of using fully connected layers after the icosahedral convolutions, we propose a new soft-argmax function that can be seen as a differentiable version of the argmax function and allows us to solve the DOA estimation as a regression problem interpreting the output of the convolutional layers as a probability distribution. We prove that using models that fit the equivariances of the problem allows us to outperform other state-of-the-art models with a lower computational cost and more robustness, obtaining root mean square localization errors lower than 10{\deg} even in scenarios with a reverberation time $T_{60}$ of 1.5 s.
翻訳日:2022-04-01 16:51:58 公開日:2022-03-31
# 音響ネットワーク:音像定位と量子化のための新しいニューラルネットワーク

Acoustic-Net: A Novel Neural Network for Sound Localization and Quantification ( http://arxiv.org/abs/2203.16988v1 )

ライセンス: Link先を確認
Guanxing Zhou, Hao Liang, Xinghao Ding, Yue Huang, Xiaotong Tu, and Saqlain Abbas(参考訳) 音響ソースのローカライゼーションは、航空学や海洋科学など、さまざまな分野に適用され、一般に複数のマイクロフォンアレイデータを使用してソース位置を再構築している。 しかし、モデルに基づくビームフォーミング法は従来のビームフォーミングマップの高解像度化には失敗した。 ディープニューラルネットワークは音源の特定にも適しているが、一般に複雑なネットワーク構造を持つこれらの手法はハードウェアで認識することが難しい。 本稿では,アコースティックネットと呼ばれる新しいニューラルネットワークを提案し,音源の同定と定量化を行う。 実験により,提案手法は音源予測の精度と計算速度を大幅に向上し,実データへの一般化が期待できることを示した。 コードとトレーニングされたモデルはhttps://github.com/j oaquinchou/acoustic- netで入手できる。

Acoustic source localization has been applied in different fields, such as aeronautics and ocean science, generally using multiple microphones array data to reconstruct the source location. However, the model-based beamforming methods fail to achieve the high-resolution of conventional beamforming maps. Deep neural networks are also appropriate to locate the sound source, but in general, these methods with complex network structures are hard to be recognized by hardware. In this paper, a novel neural network, termed the Acoustic-Net, is proposed to locate and quantify the sound source simply using the original signals. The experiments demonstrate that the proposed method significantly improves the accuracy of sound source prediction and the computing speed, which may generalize well to real data. The code and trained models are available at https://github.com/J oaquinChou/Acoustic- Net.
翻訳日:2022-04-01 16:51:34 公開日:2022-03-31
# SingAug:Cycle-Consis tent Training Strategyを用いた歌声合成のためのデータ強化

SingAug: Data Augmentation for Singing Voice Synthesis with Cycle-consistent Training Strategy ( http://arxiv.org/abs/2203.17001v1 )

ライセンス: Link先を確認
Shuai Guo, Jiatong Shi, Tao Qian, Shinji Watanabe, Qin Jin(参考訳) 深層学習に基づく歌声合成 (svs) システムは, 従来の統計パラメトリック法に比べ, 柔軟に高い品質で歌声を生成することが実証されている。 しかし、ニューラルシステムは一般的にデータに飢えており、限られた公開トレーニングデータで適切な歌声の質に到達するのが困難である。 本研究では,SVSにカスタマイズされたいくつかの戦略を含む,SVSシステムのトレーニングを促進するための異なるデータ拡張手法について検討する。 トレーニングをさらに安定させるために,サイクル一貫性トレーニング戦略を導入する。 2つの歌唱データベースに関する広範囲な実験により,提案手法と安定化訓練戦略が,客観的評価と主観評価の両方において有意な性能向上をもたらすことが示された。

Deep learning based singing voice synthesis (SVS) systems have been demonstrated to flexibly generate singing with better qualities, compared to conventional statistical parametric based methods. However, neural systems are generally data-hungry and have difficulty to reach reasonable singing quality with limited public available training data. In this work, we explore different data augmentation methods to boost the training of SVS systems, including several strategies customized to SVS based on pitch augmentation and mix-up augmentation. To further stabilize the training, we introduce the cycle-consistent training strategy. Extensive experiments on two public singing databases demonstrate that our proposed augmentation methods and the stabilizing training strategy can significantly improve the performance on both objective and subjective evaluations.
翻訳日:2022-04-01 16:51:21 公開日:2022-03-31
# 複雑なSTFT領域におけるスコアベース生成モデルによる音声強調

Speech Enhancement with Score-Based Generative Models in the Complex STFT Domain ( http://arxiv.org/abs/2203.17004v1 )

ライセンス: Link先を確認
Simon Welker, Julius Richter, Timo Gerkmann(参考訳) スコアベースの生成モデル(sgms)は、最近、自然画像や音声信号の無条件および条件生成のような難しい生成タスクにおいて印象的な結果を示している。 本研究では、これらのモデルを複雑な短時間フーリエ変換(STFT)領域に拡張し、複素数値深層ニューラルネットワークを用いた音声強調のための新しい訓練タスクを提案する。 確率微分方程式の形式化の中でこの訓練課題を導出し,予測子補正サンプラーの利用を可能にした。 我々は,SGMを音声強調に用いた過去の出版物に触発された代替の定式化を提案し,騒音分布に関する事前の仮定を不要にし,トレーニングタスクを純粋に生成させ,その結果,改善性能が向上することを示した。

Score-based generative models (SGMs) have recently shown impressive results for difficult generative tasks such as the unconditional and conditional generation of natural images and audio signals. In this work, we extend these models to the complex short-time Fourier transform (STFT) domain, proposing a novel training task for speech enhancement using a complex-valued deep neural network. We derive this training task within the formalism of stochastic differential equations, thereby enabling the use of predictor-corrector samplers. We provide alternative formulations inspired by previous publications on using SGMs for speech enhancement, avoiding the need for any prior assumptions on the noise distribution and making the training task purely generative which, as we show, results in improved enhancement performance.
翻訳日:2022-04-01 16:51:09 公開日:2022-03-31
# CTA-RNN:音声感情認識のための事前学習されたASR埋め込みを利用したチャネル・時間的注意RNN

CTA-RNN: Channel and Temporal-wise Attention RNN Leveraging Pre-trained ASR Embeddings for Speech Emotion Recognition ( http://arxiv.org/abs/2203.17023v1 )

ライセンス: Link先を確認
Chengxin Chen, Pengyuan Zhang(参考訳) 従来の研究は、音声と言語の両方の手がかりを利用して、音声感情認識(SER)を改善する方法を模索してきた。 しかし、最先端のASRモデルとSERタスクとの潜在的な関連性はまだ検討されていない。 本稿では,事前学習されたASRモデルの中間表現に基づく新しいチャネルと時間的注意RNN(CTA-RNN)アーキテクチャを提案する。 具体的には、大規模な訓練済みのエンドツーエンドasrエンコーダの埋め込みには、音響情報と言語情報の両方が含まれており、異なる話者に一般化できるため、下流のserタスクに適している。 ASRエンコーダの異なる層からの埋め込みをさらに活用するために,チャネルおよび時間方向の両方に埋め込まれた埋め込みの感情的健全な部分を捕捉する新しいCTA-RNNアーキテクチャを提案する。 我々は,IEMOCAP と MSP-IMPROV という2つの一般的なベンチマークデータセットに対して,内部コーパスとクロスコーパスの設定を用いてアプローチを評価した。 実験の結果,提案手法は精度とロバスト性で優れた性能が得られることがわかった。

Previous research has looked into ways to improve speech emotion recognition (SER) by utilizing both acoustic and linguistic cues of speech. However, the potential association between state-of-the-art ASR models and the SER task has yet to be investigated. In this paper, we propose a novel channel and temporal-wise attention RNN (CTA-RNN) architecture based on the intermediate representations of pre-trained ASR models. Specifically, the embeddings of a large-scale pre-trained end-to-end ASR encoder contain both acoustic and linguistic information, as well as the ability to generalize to different speakers, making them well suited for downstream SER task. To further exploit the embeddings from different layers of the ASR encoder, we propose a novel CTA-RNN architecture to capture the emotional salient parts of embeddings in both the channel and temporal directions. We evaluate our approach on two popular benchmark datasets, IEMOCAP and MSP-IMPROV, using both within-corpus and cross-corpus settings. Experimental results show that our proposed method can achieve excellent performance in terms of accuracy and robustness.
翻訳日:2022-04-01 16:50:56 公開日:2022-03-31
# 不一致音声データを用いた終端ASRモデルの事前学習変換器デコーダ

Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired Speech Data ( http://arxiv.org/abs/2203.17113v1 )

ライセンス: Link先を確認
Junyi Ao, Ziqiang Zhang, Long Zhou, Shujie Liu, Haizhou Li, Tom Ko, Lirong Dai, Jinyu Li, Yao Qian, Furu Wei(参考訳) 本稿では,エンコーダデコーダに基づく自動音声認識(asr)のための非ペア音声データである speech2c を用いた新しい事前学習手法について検討する。 マルチタスク学習フレームワーク内では,オフラインクラスタリングモデルから派生した擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを導入する。 ひとつは、HuBERTモデルのようなエンコーダ出力におけるマスク付き言語モデリングによる擬似コードを予測し、もうひとつは、テキストスクリプトを生成する代わりに、デコーダが擬似コードを自動回帰的に再構築することを学ぶことである。 このようにして、デコーダは、学習する前にコードで元の音声情報を再構成し、正しいテキストを生成する。 LibriSpeechコーパスの総合的な実験によると、提案したSpeech2Cはデコーダの事前訓練なしに単語誤り率(WER)を19.2%削減でき、また10hと100hの微調整部分集合上で最先端のwav2vec 2.0とHuBERTを著しく上回っている。

This paper studies a novel pre-training technique with unpaired speech data, Speech2C, for encoder-decoder based automatic speech recognition (ASR). Within a multi-task learning framework, we introduce two pre-training tasks for the encoder-decoder network using acoustic units, i.e., pseudo codes, derived from an offline clustering model. One is to predict the pseudo codes via masked language modeling in encoder output, like HuBERT model, while the other lets the decoder learn to reconstruct pseudo codes autoregressively instead of generating textual scripts. In this way, the decoder learns to reconstruct original speech information with codes before learning to generate correct text. Comprehensive experiments on the LibriSpeech corpus show that the proposed Speech2C can relatively reduce the word error rate (WER) by 19.2% over the method without decoder pre-training, and also outperforms significantly the state-of-the-art wav2vec 2.0 and HuBERT on fine-tuning subsets of 10h and 100h.
翻訳日:2022-04-01 16:49:00 公開日:2022-03-31
# 多項式最適化によるオープン量子システムのモデル復元--大域収束量子システム同定に向けて

Recovering models of open quantum systems from data via polynomial optimization: Towards globally convergent quantum system identification ( http://arxiv.org/abs/2203.17164v1 )

ライセンス: Link先を確認
Denys I. Bondar and Zakhar Popovych and Kurt Jacobs and Georgios Korpas and Jakub Marecek(参考訳) 現在の量子デバイスは、製造の結果としての不完全さと、直接の環境と結合した結果のノイズと散逸に苦しんでいる。 このため、第一原理からそれらの力学の正確なモデルを得るのは難しいことが多い。 別の方法は、それらの行動の時系列測定からそのようなモデルを抽出することである。 本稿では,このシステム同定問題を多項式最適化問題として定式化する。 最近の最適化の進歩により、この種類の問題に対してグローバル収束解法が提供され、クラウス写像やリンドブラッド方程式の推測が証明されている。 我々は、最先端のアルゴリズム、境界、収束率の概要と、オープン量子システムのモデリングにおけるこのアプローチの利用について説明する。

Current quantum devices suffer imperfections as a result of fabrication, as well as noise and dissipation as a result of coupling to their immediate environments. Because of this, it is often difficult to obtain accurate models of their dynamics from first principles. An alternative is to extract such models from time-series measurements of their behavior. Here, we formulate this system-identificatio n problem as a polynomial optimization problem. Recent advances in optimization have provided globally convergent solvers for this class of problems, which using our formulation prove estimates of the Kraus map or the Lindblad equation. We include an overview of the state-of-the-art algorithms, bounds, and convergence rates, and illustrate the use of this approach to modeling open quantum systems.
翻訳日:2022-04-01 16:48:35 公開日:2022-03-31
# 一般活性化を持つランダムニューラルネットワークの逆例

Adversarial Examples in Random Neural Networks with General Activations ( http://arxiv.org/abs/2203.17209v1 )

ライセンス: Link先を確認
Andrea Montanari and Yuchen Wu(参考訳) 実証研究のかなりの部分は、敵対的な例に対するディープラーニングモデルの堅牢性の欠如を文書化している。 近年の理論的研究により、サブ指数幅の2層ネットワークとReLUまたはスムーズなアクティベーション、およびサブ指数幅の多層ReLUネットワークにおいて、逆例がユビキタスであることが証明された。 我々は、同じタイプの結果を示し、幅制限なく、一般の局所リプシッツ連続活性化について述べる。 より正確には、ランダムウェイトを持つニューラルネットワーク $f(\,\cdot\,;{\boldsymbol \theta})$ と、特徴ベクトル ${\boldsymbol x}$ が与えられたとき、逆の例 ${\boldsymbol x}'$ が勾配 $\nabla_{{\boldsymbol x}}f({\boldsymbol x};{\boldsymbol \theta})$ の方向に沿って高い確率で見つかることを示す。 我々の証明はガウス条件付け法に基づいている。 我々は、$f$ が ${\boldsymbol x}$ の近傍でほぼ線形であることを証明する代わりに、$f({\boldsymbol x};{\boldsymbol \theta})$ と $f({\boldsymbol x}';{\boldsymbol \theta})$ for ${\boldsymbol x}' = {\boldsymbol x}-s({\boldsymbol x})\nabla_{{\boldsymbol x}}f({\boldsymbol x};{\boldsymbol \theta})$ の合同分布を特徴付ける。

A substantial body of empirical work documents the lack of robustness in deep learning models to adversarial examples. Recent theoretical work proved that adversarial examples are ubiquitous in two-layers networks with sub-exponential width and ReLU or smooth activations, and multi-layer ReLU networks with sub-exponential width. We present a result of the same type, with no restriction on width and for general locally Lipschitz continuous activations. More precisely, given a neural network $f(\,\cdot\,;{\boldsymbol \theta})$ with random weights ${\boldsymbol \theta}$, and feature vector ${\boldsymbol x}$, we show that an adversarial example ${\boldsymbol x}'$ can be found with high probability along the direction of the gradient $\nabla_{{\boldsymbol x}}f({\boldsymbol x};{\boldsymbol \theta})$. Our proof is based on a Gaussian conditioning technique. Instead of proving that $f$ is approximately linear in a neighborhood of ${\boldsymbol x}$, we characterize the joint distribution of $f({\boldsymbol x};{\boldsymbol \theta})$ and $f({\boldsymbol x}';{\boldsymbol \theta})$ for ${\boldsymbol x}' = {\boldsymbol x}-s({\boldsymbol x})\nabla_{{\boldsymbol x}}f({\boldsymbol x};{\boldsymbol \theta})$.
翻訳日:2022-04-01 16:48:23 公開日:2022-03-31
# エンドツーエンド話者認証と識別のための改善された関係ネットワーク

Improved Relation Networks for End-to-End Speaker Verification and Identification ( http://arxiv.org/abs/2203.17218v1 )

ライセンス: Link先を確認
Ashutosh Chaubey, Sparsh Sinha, Susmita Ghose(参考訳) 実世界のシナリオにおける話者識別システムは、登録された話者ごとに数個のサンプルが与えられた一連の登録された話者の中から話者を識別する。 本稿では,このユースケースにおけるメタラーニングと関係ネットワークの有効性を示す。 話者検証と少数ショット話者識別のための改良された関係ネットワークを提案する。 関連ネットワークの利用は、フロントエンドスピーカーエンコーダとバックエンドモデルの合同トレーニングを促進する。 話者照合における原型的ネットワークの使用と話者埋め込みの識別性の向上に着想を得て,学習セットに存在するすべての話者のうち,現在のエピソードのサンプルを分類するモデルを訓練した。 さらに,与えられたメタ学習エピソードからさらに多くの情報を抽出することで,より高速なモデル収束のための新しい学習手法を提案する。 本稿では,VoxCeleb,SITW,VCTKの各データセットに対して,話者検証と未知話者識別のタスクに基づいて提案手法を評価する。 提案手法は、既存のアプローチを両タスクで一貫して上回る。

Speaker identification systems in a real-world scenario are tasked to identify a speaker amongst a set of enrolled speakers given just a few samples for each enrolled speaker. This paper demonstrates the effectiveness of meta-learning and relation networks for this use case. We propose improved relation networks for speaker verification and few-shot (unseen) speaker identification. The use of relation networks facilitates joint training of the frontend speaker encoder and the backend model. Inspired by the use of prototypical networks in speaker verification and to increase the discriminability of the speaker embeddings, we train the model to classify samples in the current episode amongst all speakers present in the training set. Furthermore, we propose a new training regime for faster model convergence by extracting more information from a given meta-learning episode with negligible extra computation. We evaluate the proposed techniques on VoxCeleb, SITW and VCTK datasets on the tasks of speaker verification and unseen speaker identification. The proposed approach outperforms the existing approaches consistently on both tasks.
翻訳日:2022-04-01 16:47:33 公開日:2022-03-31
# 性能パワー

Performative Power ( http://arxiv.org/abs/2203.17232v1 )

ライセンス: Link先を確認
Moritz Hardt, Meena Jagadeesan, Celestine Mendler-D\"unner(参考訳) 本稿では,デジタルコンテンツレコメンデーションプラットフォームなどのアルゴリズムシステムを運用している企業が,人口を養育する能力を測定する,パフォーマンスパワーの概念を紹介する。 我々はパフォーマンスパワーと市場パワーの経済理論を関連づける。 伝統的な経済概念は、デジタルプラットフォームにおける反競争的パターンの特定に苦しむことでよく知られています -- 中心となる課題は、市場、参加者、製品、価格を定義することの難しさです。 実行力は、直接観測可能な統計指標に焦点を合わせ、市場定義の問題を回避します。 ハイパフォーマンスパワーは、プラットフォームが参加者の行動を操ることから利益を得られるが、低パフォーマンスパワーは、履歴データからの学習が最適に近いことを保証している。 第1報では,性能の低い企業では,観測データに対する標準教師あり学習よりも優れた学習を行うことができないことを示す。 我々は、古典的な市場モデルにおける完璧な競争の下で生じる経済状態である価格テーカーである会社と類似している。 次に, 実効電力が集中する市場と対比し, 平衡状態が著しく異なることを示す。 我々は、参加者が競合企業間で切り替えられる戦略分類の具体的設定において、実行能力を研究する。 モノポリは参加者の能力と不利用を最大化するが、競争と外部の選択肢はパフォーマンスのパワーを低下させる。 我々は、経済における市場力の指標と、進行中の反トラスト論争との関係に関する議論に終止符を打つ。

We introduce the notion of performative power, which measures the ability of a firm operating an algorithmic system, such as a digital content recommendation platform, to steer a population. We relate performative power to the economic theory of market power. Traditional economic concepts are well known to struggle with identifying anti-competitive patterns in digital platforms--a core challenge is the difficulty of defining the market, its participants, products, and prices. Performative power sidesteps the problem of market definition by focusing on a directly observable statistical measure instead. High performative power enables a platform to profit from steering participant behavior, whereas low performative power ensures that learning from historical data is close to optimal. Our first general result shows that under low performative power, a firm cannot do better than standard supervised learning on observed data. We draw an analogy with a firm being a price-taker, an economic condition that arises under perfect competition in classical market models. We then contrast this with a market where performative power is concentrated and show that the equilibrium state can differ significantly. We go on to study performative power in a concrete setting of strategic classification where participants can switch between competing firms. We show that monopolies maximize performative power and disutility for the participant, while competition and outside options decrease performative power. We end on a discussion of connections to measures of market power in economics and of the relationship with ongoing antitrust debates.
翻訳日:2022-04-01 16:47:19 公開日:2022-03-31
# ニューラルネットワークを用いた理想的なデータ圧縮と隠蔽法の自動発見

The ideal data compression and automatic discovery of hidden law using neural network ( http://arxiv.org/abs/2203.16941v1 )

ライセンス: Link先を確認
Taisuke Katayose(参考訳) 近年,ニューラルネットワークを用いた機械学習が開発され,新しい手法が提案されている。 一方で、真の汎用性を持つシステムは開発されておらず、人間の脳が機械学習よりも優れている分野が数多く残っている。 我々は、人間の脳がどのように出来事を認識し、記憶し、新しいオートエンコーダニューラルネットワーク(NN)を用いて、人間の脳のシステムを機械学習モデルで再現することに成功しました。 従来のオートエンコーダには,入力データの特徴を適切に定義できないという問題があるため,オートエンコーダの中間層を人為的に制限する必要がある。 我々は,情報エントロピーを反映した新たな損失関数を定義し,NNが入力データを理想的に圧縮し,入力データセットの背後にある隠れた法則を自動的に発見できるようにする。 NNで用いられる損失関数は、統合脳理論として知られる自由エネルギー原理に基づいており、本原理の具体的な定式化は本研究が初めてである。 この研究の結果は、あらゆる種類のデータ分析や認知科学にも応用できる。

Recently machine learning using neural networks has been developed, and many new methods have been suggested. On the other hand, a system that has true versatility has not been developed, and there remain many fields in which the human brain has advantages over machine learning. We considered how the human brain recognizes events and memorizes them and succeeded to reproduce the system of the human brain on a machine learning model with a new autoencoder neural network (NN). The previous autoencoders have the problem that they cannot define well what is the features of the input data, and we need to restrict the middle layer of the autoencoder artificially. We solve this problem by defining a new loss function that reflects the information entropy, and it enables the NN to compress the input data ideally and automatically discover the hidden law behind the input data set. The loss function used in our NN is based on the free-energy principle which is known as the unified brain theory, and our study is the first concrete formularization of this principle. The result of this study can be applied to any kind of data analysis and also to cognitive science.
翻訳日:2022-04-01 16:45:06 公開日:2022-03-31
# 再構成可能なインテリジェントサーフェスによる微分プライベートフェデレーション学習

Differentially Private Federated Learning via Reconfigurable Intelligent Surface ( http://arxiv.org/abs/2203.17028v1 )

ライセンス: Link先を確認
Yuhan Yang, Yong Zhou, Youlong Wu, Yuanming Shi(参考訳) 破壊的な機械学習パラダイムであるフェデレートラーニング(FL)は、分散化されたローカルデータセットを共有せずにグローバルモデルの協調トレーニングを可能にする。 応用範囲は、IoT(Internet-of-Thin gs)からバイオメディカルエンジニアリング、薬物発見まで幅広い。 本稿では,無線ネットワーク上で低遅延かつ高プライバシーなflをサポートするため,学習精度とプライバシのジレンマを緩和する,再構成可能インテリジェントサーフェス(ris)を提案する。 これは、受信信号パワーを増強するためにrisとチャネル伝搬再構成可能性を同時に利用し、高速なモデルアグリゲーションのためにaircomp(over-the-air computation)を用いた波形重ね合わせ特性を生かして達成される。 複数の通信ブロックにまたがって高次元局所モデル更新を伝達する現実的なシナリオを考慮し、微分プライベートなフェデレーション最適化アルゴリズムの収束挙動を特徴付ける。 さらに,2段階交代最小化フレームワークを開発するRISにおいて,送信電力,人工雑音,位相シフトのジョイント設計により,プライバシと電力制約を満足しつつ,学習精度を最適化するシステム最適化問題を定式化する。 シミュレーション結果は、我々の系統的、理論的、アルゴリズム的な成果を検証し、 risが上空flシステムにおいて、プライバシと精度のトレードオフをよりよく達成できることを示しています。

Federated learning (FL), as a disruptive machine learning paradigm, enables the collaborative training of a global model over decentralized local datasets without sharing them. It spans a wide scope of applications from Internet-of-Things (IoT) to biomedical engineering and drug discovery. To support low-latency and high-privacy FL over wireless networks, in this paper, we propose a reconfigurable intelligent surface (RIS) empowered over-the-air FL system to alleviate the dilemma between learning accuracy and privacy. This is achieved by simultaneously exploiting the channel propagation reconfigurability with RIS for boosting the receive signal power, as well as waveform superposition property with over-the-air computation (AirComp) for fast model aggregation. By considering a practical scenario where high-dimensional local model updates are transmitted across multiple communication blocks, we characterize the convergence behaviors of the differentially private federated optimization algorithm. We further formulate a system optimization problem to optimize the learning accuracy while satisfying privacy and power constraints via the joint design of transmit power, artificial noise, and phase shifts at RIS, for which a two-step alternating minimization framework is developed. Simulation results validate our systematic, theoretical, and algorithmic achievements and demonstrate that RIS can achieve a better trade-off between privacy and accuracy for over-the-air FL systems.
翻訳日:2022-04-01 16:44:47 公開日:2022-03-31
# (参考訳) FindIt: 自然言語クエリによる一般化ローカライゼーション [全文訳有]

FindIt: Generalized Localization with Natural Language Queries ( http://arxiv.org/abs/2203.17273v1 )

ライセンス: CC BY 4.0
Weicheng Kuo, Fred Bertsch, Wei Li, AJ Piergiovanni, Mohammad Saffar, Anelia Angelova(参考訳) 本研究では,表現理解の参照,テキストベースのローカライゼーション,オブジェクト検出など,さまざまなビジュアルグラウンドとローカライゼーションタスクを統合する,シンプルで汎用的なフレームワークfinditを提案する。 我々のアーキテクチャの鍵は、タスク間で異なるローカライズ要求を統一する効率的なマルチスケールフュージョンモジュールである。 さらに,タスク固有の設計や損失,事前計算による検出を必要とせず,これらのタスクを統一する上で,標準オブジェクト検出器が驚くほど有効であることが判明した。 エンドツーエンドのトレーニング可能なフレームワークは、ゼロ、ワン、あるいは複数のオブジェクトに対する幅広い参照表現、ローカライゼーション、検出クエリに柔軟かつ正確に応答します。 これらのタスクを共同でトレーニングしたFindItは、表現の参照とテキストベースのローカライゼーションの両方において、技術の状態を上回り、オブジェクト検出における競合性能を示す。 最後に、finditは、強力なシングルタスクベースラインと比較して、分散外データや新しいカテゴリをより一般化します。 これらはすべて、単一で統一的で効率的なモデルによって実現されます。 コードはリリースされます。

We propose FindIt, a simple and versatile framework that unifies a variety of visual grounding and localization tasks including referring expression comprehension, text-based localization, and object detection. Key to our architecture is an efficient multi-scale fusion module that unifies the disparate localization requirements across the tasks. In addition, we discover that a standard object detector is surprisingly effective in unifying these tasks without a need for task-specific design, losses, or pre-computed detections. Our end-to-end trainable framework responds flexibly and accurately to a wide range of referring expression, localization or detection queries for zero, one, or multiple objects. Jointly trained on these tasks, FindIt outperforms the state of the art on both referring expression and text-based localization, and shows competitive performance on object detection. Finally, FindIt generalizes better to out-of-distribution data and novel categories compared to strong single-task baselines. All of these are accomplished by a single, unified and efficient model. The code will be released.
翻訳日:2022-04-01 16:43:52 公開日:2022-03-31
# カリキュラムベースタスクサンプリングによるロバストなメタ強化学習

Robust Meta-Reinforcement Learning with Curriculum-Based Task Sampling ( http://arxiv.org/abs/2203.16801v1 )

ライセンス: Link先を確認
Morio Matsumoto, Hiroya Matsuba, and Toshihiro Kujirai(参考訳) メタ強化学習(Meta-RL)は,タスク分散におけるタスクの優れたパフォーマンスを示すメタポリケーションを取得する。 しかし,タスクをランダムにサンプリングすることでメタポリケーションを学習する従来のメタRLは,特にエージェントが高いスコアを得やすいタスクにおいて,特定のタスクに対するメタオーバーフィッティングを示すことが報告されている。 メタオーバーフィッティングの効果を低減するために,カリキュラムベースのタスクサンプリングを用いたメタRLを検討した。 本手法は,RMRL-GTSを用いたロバストメタ強化学習であり,スコアとエポックに基づいたタスクサンプリングを効果的に制限する手法である。 我々は,堅牢なメタrlを実現するためには,スコアの低いタスクを集中的にサンプリングするだけでなく,サンプリングすべきタスクのタスク領域を制限し拡張する必要があることを示す。

Meta-reinforcement learning (meta-RL) acquires meta-policies that show good performance for tasks in a wide task distribution. However, conventional meta-RL, which learns meta-policies by randomly sampling tasks, has been reported to show meta-overfitting for certain tasks, especially for easy tasks where an agent can easily get high scores. To reduce effects of the meta-overfitting, we considered meta-RL with curriculum-based task sampling. Our method is Robust Meta Reinforcement Learning with Guided Task Sampling (RMRL-GTS), which is an effective method that restricts task sampling based on scores and epochs. We show that in order to achieve robust meta-RL, it is necessary not only to intensively sample tasks with poor scores, but also to restrict and expand the task regions of the tasks to be sampled.
翻訳日:2022-04-01 16:22:20 公開日:2022-03-31
# 帯域フィードバックを用いたランダムベクトルの適応推定

Adaptive Estimation of Random Vectors with Bandit Feedback ( http://arxiv.org/abs/2203.16810v1 )

ライセンス: Link先を確認
Dipayan Sen, Prashanth L.A. and Aditya Gopalan(参考訳) 平均二乗誤差(mse)の意味では、各ラウンドのエントリのわずか$m < k$ を観測することによって、未知共分散のガウス的$k$-ベクトルを推定する逐次学習の問題を考える。 これにより、ベクトル全体の推定に最適な部分集合を学ぶことができる。 そこで我々はまず,観測可能な各部分集合に対するMSEの推定値の指数集中値を確立する。 次に、ベストサブセット識別設定において、推定問題をバンディットフィードバックでフレーム化する。 本稿では,適応推定問題に適合する逐次除去アルゴリズムの変種を提案し,このアルゴリズムのサンプル複雑性に基づく上限を導出する。 さらに、この適応的推定バンドイット問題のサンプル複雑性の基本的な限界を理解するために、ミニマックス下限を導出する。

We consider the problem of sequentially learning to estimate, in the mean squared error (MSE) sense, a Gaussian $K$-vector of unknown covariance by observing only $m < K$ of its entries in each round. This reduces to learning an optimal subset for estimating the entire vector. Towards this, we first establish an exponential concentration bound for an estimate of the MSE for each observable subset. We then frame the estimation problem with bandit feedback in the best-subset identification setting. We propose a variant of the successive elimination algorithm to cater to the adaptive estimation problem, and we derive an upper bound on the sample complexity of this algorithm. In addition, to understand the fundamental limit on the sample complexity of this adaptive estimation bandit problem, we derive a minimax lower bound.
翻訳日:2022-04-01 16:22:05 公開日:2022-03-31
# ハイパーグラフのためのメッセージパッシングニューラルネットワーク

Message Passing Neural Networks for Hypergraphs ( http://arxiv.org/abs/2203.16995v1 )

ライセンス: Link先を確認
Sajjad Heydari, Lorenzo Livi(参考訳) ハイパーグラフ表現は2つ以上のオブジェクト間の関係によって特徴づけられるデータを記述するのに適している。 本稿では,ハイパーグラフ構造化データを処理可能なメッセージパッシングに基づく最初のグラフニューラルネットワークを提案する。 提案モデルは,ハイパーグラフのためのニューラルネットワークモデルの設計空間を定義し,既存のハイパーグラフモデルを一般化することを示す。 ノード分類のためのベンチマークデータセットの実験を行い、グラフやハイパーグラフの他の最先端手法に対する提案モデルの有効性を明らかにする。 また、ハイパーグラフ表現の利点についても論じ、それと同時に、2つ以上のオブジェクト間の関係性がある場合の等価グラフ表現の使用制限も強調する。

Hypergraph representations are both more efficient and better suited to describe data characterized by relations between two or more objects. In this work, we present the first graph neural network based on message passing capable of processing hypergraph-structure d data. We show that the proposed model defines a design space for neural network models for hypergraphs, thus generalizing existing models for hypergraphs. We report experiments on a benchmark dataset for node classification, highlighting the effectiveness of the proposed model with respect to other state-of-the-art methods for graphs and hypergraphs. We also discuss the benefits of using hypergraph representations and, at the same time, highlight the limitation of using equivalent graph representations when the underlying problem has relations among more than two objects.
翻訳日:2022-04-01 16:21:51 公開日:2022-03-31
# 条件付き自己回帰器は解釈可能な分類器である

Conditional Autoregressors are Interpretable Classifiers ( http://arxiv.org/abs/2203.17002v1 )

ライセンス: Link先を確認
Nathan Elazar(参考訳) MNIST-10で画像分類を行うために,クラス条件自動回帰モデルを用いて検討する。 自己回帰モデルは、個々の特徴から確率を組み合わせることで、入力全体に対する確率を割り当てるので、CAによる分類決定は、各入力特徴から容易に分解できる。 つまり、CAは本質的に局所的に解釈可能である。 実験の結果,CAは標準分類器よりもはるかに精度が低いことがわかったが,これは過度な適合のためであり,表現力の欠如によるものではない。 標準分類器からの知識蒸留を用いて、学生CAは、解釈可能なまま教師のパフォーマンスに合わせて訓練することができる。

We explore the use of class-conditional autoregressive (CA) models to perform image classification on MNIST-10. Autoregressive models assign probability to an entire input by combining probabilities from each individual feature; hence classification decisions made by a CA can be readily decomposed into contributions from each each input feature. That is to say, CA are inherently locally interpretable. Our experiments show that naively training a CA achieves much worse accuracy compared to a standard classifier, however this is due to over-fitting and not a lack of expressive power. Using knowledge distillation from a standard classifier, a student CA can be trained to match the performance of the teacher while still being interpretable.
翻訳日:2022-04-01 16:21:41 公開日:2022-03-31
# traffic4cast at neurips 2021 - gridded geo-spatial processes における時間的および空間的少数ショット転送学習

Traffic4cast at NeurIPS 2021 - Temporal and Spatial Few-Shot Transfer Learning in Gridded Geo-Spatial Processes ( http://arxiv.org/abs/2203.17070v1 )

ライセンス: Link先を確認
Christian Eichenberger, Moritz Neun, Henry Martin, Pedro Herruzo, Markus Spanring, Yichao Lu, Sungbin Choi, Vsevolod Konyakhin, Nina Lukashina, Aleksei Shpilman, Nina Wiedemann, Martin Raubal, Bo Wang, Hai L. Vu, Reza Mohajerpoor, Chen Cai, Inhi Kim, Luca Hermes, Andrew Melnik, Riza Velioglu, Markus Vieth, Malte Schilling, Alabi Bojesomo, Hasan Al Marzouqi, Panos Liatsis, Jay Santokhi, Dylan Hillier, Yiming Yang, Joned Sarwar, Anna Jordan, Emil Hewage, David Jonietz, Fei Tang, Aleksandra Gruca, Michael Kopp, David Kreil and Sepp Hochreiter(参考訳) NeurIPS 2019と2020のIARAI Traffic4castコンペティションによると、ニューラルネットワークは、時間と宇宙のビンで単に集計されたGPSプローブデータによって、将来1時間の交通条件を予測できる。 そこで我々は,交通条件の予測を映画完成作業として再解釈した。 u-netsは勝利したアーキテクチャであることが証明され、この複雑な実世界の地理空間プロセスで関連する特徴を抽出する能力を示した。 これまでのコンペティションに基づいて、traffic4cast 2021は現在、時間と空間にわたるモデルの堅牢性と一般化可能性の問題に焦点を当てている。 ひとつの都市からまったく別の都市へ、あるいは、新型コロナウイルスが世界を襲った後、事前に共有された時間から時間に移行することで、明確なドメインシフトがもたらされる。 したがって、このようなドメインシフトを特徴とするデータを初めてリリースします。 コンペティションは2年間で10都市をカバーし、10^12以上のGPSプローブデータから収集したデータを提供する。 勝利したソリューションは、複雑なドメインシフトに対処できるほどトラフィックのダイナミクスをうまく捉えた。 驚いたことに、これは入力として以前の1hのトラフィック動的履歴と静的道路グラフのみを必要とするように思えた。

The IARAI Traffic4cast competitions at NeurIPS 2019 and 2020 showed that neural networks can successfully predict future traffic conditions 1 hour into the future on simply aggregated GPS probe data in time and space bins. We thus reinterpreted the challenge of forecasting traffic conditions as a movie completion task. U-Nets proved to be the winning architecture, demonstrating an ability to extract relevant features in this complex real-world geo-spatial process. Building on the previous competitions, Traffic4cast 2021 now focuses on the question of model robustness and generalizability across time and space. Moving from one city to an entirely different city, or moving from pre-COVID times to times after COVID hit the world thus introduces a clear domain shift. We thus, for the first time, release data featuring such domain shifts. The competition now covers ten cities over 2 years, providing data compiled from over 10^12 GPS probe data. Winning solutions captured traffic dynamics sufficiently well to even cope with these complex domain shifts. Surprisingly, this seemed to require only the previous 1h traffic dynamic history and static road graph as input.
翻訳日:2022-04-01 16:19:39 公開日:2022-03-31
# RobIn: 統合失調症診断のためのロバスト解釈可能なディープネットワーク

RobIn: A Robust Interpretable Deep Network for Schizophrenia Diagnosis ( http://arxiv.org/abs/2203.17085v1 )

ライセンス: Link先を確認
Daniel Organisciak, Hubert P. H. Shum, Ephraim Nwoye, Wai Lok Woo(参考訳) 統合失調症は、長く複雑な診断プロセスを必要とする重度の精神疾患である。 しかし、症状を制御するには早期診断が不可欠である。 近年、深層学習は医学データを分析・解釈するための一般的な方法となっている。 脳画像データから統合失調症の診断にディープラーニングを応用しようとする試みは、将来性を示しているが、大きなトレーニングと応用ギャップに悩まされている - 実験室の研究を現実世界に適用することは困難である。 我々は、容易にアクセス可能なデータに集中することで、トレーニングとアプリケーションのギャップを減らすことを提案する。 DSM-5基準に基づく患者の精神医学的観察のデータセットを収集した。 同様のデータはdsm-5を用いて統合失調症を診断する全ての精神科医に既に記録されているため、正式な診断基準を遵守しながら、臨床医を支援するツールとして現在のプロセスに容易に統合することが可能である。 本システムの実世界利用を容易にするために,解釈可能でロバストであることを示す。 機械学習ツールが診断に達する方法を理解することは、臨床医がその診断を信用するために不可欠である。 この枠組みを解釈するために,2つの相補的注意機構である「スクイーズ」と「自己注意」を融合させ,グローバルな属性の重要性と属性の相互作用性を決定する。 モデルはこれらの重要なスコアを使って意思決定します。 これにより、臨床医は診断の到達方法を理解し、モデルの信頼性を向上させることができる。 機械学習モデルは、しばしば異なるソースのデータへの一般化に苦慮するため、実世界のモデルの適用性を評価するために、拡張テストデータを用いて実験を行う。 我々のモデルは摂動に対してより堅牢であり、臨床環境ではより良い性能を発揮するべきである。 10倍のクロスバリデーションで98%の精度を達成する。

Schizophrenia is a severe mental health condition that requires a long and complicated diagnostic process. However, early diagnosis is vital to control symptoms. Deep learning has recently become a popular way to analyse and interpret medical data. Past attempts to use deep learning for schizophrenia diagnosis from brain-imaging data have shown promise but suffer from a large training-application gap - it is difficult to apply lab research to the real world. We propose to reduce this training-application gap by focusing on readily accessible data. We collect a data set of psychiatric observations of patients based on DSM-5 criteria. Because similar data is already recorded in all mental health clinics that diagnose schizophrenia using DSM-5, our method could be easily integrated into current processes as a tool to assist clinicians, whilst abiding by formal diagnostic criteria. To facilitate real-world usage of our system, we show that it is interpretable and robust. Understanding how a machine learning tool reaches its diagnosis is essential to allow clinicians to trust that diagnosis. To interpret the framework, we fuse two complementary attention mechanisms, 'squeeze and excitation' and 'self-attention', to determine global attribute importance and attribute interactivity, respectively. The model uses these importance scores to make decisions. This allows clinicians to understand how a diagnosis was reached, improving trust in the model. Because machine learning models often struggle to generalise to data from different sources, we perform experiments with augmented test data to evaluate the model's applicability to the real world. We find that our model is more robust to perturbations, and should therefore perform better in a clinical setting. It achieves 98% accuracy with 10-fold cross-validation.
翻訳日:2022-04-01 16:19:20 公開日:2022-03-31
# TrajGen: 自律運転のためのリアクティブかつ実行可能なエージェント行動による現実的および異種軌道の生成

TrajGen: Generating Realistic and Diverse Trajectories with Reactive and Feasible Agent Behaviors for Autonomous Driving ( http://arxiv.org/abs/2203.16792v1 )

ライセンス: Link先を確認
Qichao Zhang, Yinfeng Gao, Yikang Zhang, Youtian Guo, Dawei Ding, Yunpeng Wang, Peng Sun, Dongbin Zhao(参考訳) リアクティブで実現可能なエージェント動作を備えた現実的で多様なシミュレーションシナリオは、コストと時間を要する実世界のテストに頼ることなく、自動運転システムのパフォーマンスの検証と検証に使用できる。 既存のシミュレータは、実世界のシナリオで複雑なインタラクティブな振る舞いを捉えることができない背景車両のヒューリスティックな行動モデルに依存している。 シミュレーションと実世界のギャップを埋めるために,人間の実演からより現実的な行動を直接捉える2段階の軌道生成フレームワークであるTrajGenを提案する。 特に、TrajGenはマルチモーダルな軌道予測段階と強化学習に基づく軌道修正段階で構成されている。 第1段階では, 軌道予測モデルのための補助経路を新たに提案し, ドリブル領域における多モード多種多様な軌道を生成する。 第2段階では、強化学習を用いて予測された軌道を追跡し、衝突を回避し、生成した軌道の実現可能性を向上させる。 さらに,自然駆動データに基づいて強化学習モデルを並列にトレーニングできるデータ駆動シミュレータi-simを開発した。 I-Simの車両モデルは、TrajGenが生成した軌道が車両運動の制約を満たすことを保証できる。 最後に,シミュレーションシナリオにおいて生成した軌跡を評価するための総合的な指標を提示し,traigenが精度,反応性,実現可能性,多様性の観点から軌道予測や逆強化学習よりも優れていることを示す。

Realistic and diverse simulation scenarios with reactive and feasible agent behaviors can be used for validation and verification of self-driving system performance without relying on expensive and time-consuming real-world testing. Existing simulators rely on heuristic-based behavior models for background vehicles, which cannot capture the complex interactive behaviors in real-world scenarios. To bridge the gap between simulation and the real world, we propose TrajGen, a two-stage trajectory generation framework, which can capture more realistic behaviors directly from human demonstration. In particular, TrajGen consists of the multi-modal trajectory prediction stage and the reinforcement learning based trajectory modification stage. In the first stage, we propose a novel auxiliary RouteLoss for the trajectory prediction model to generate multi-modal diverse trajectories in the drivable area. In the second stage, reinforcement learning is used to track the predicted trajectories while avoiding collisions, which can improve the feasibility of generated trajectories. In addition, we develop a data-driven simulator I-Sim that can be used to train reinforcement learning models in parallel based on naturalistic driving data. The vehicle model in I-Sim can guarantee that the generated trajectories by TrajGen satisfy vehicle kinematic constraints. Finally, we give comprehensive metrics to evaluate generated trajectories for simulation scenarios, which shows that TrajGen outperforms either trajectory prediction or inverse reinforcement learning in terms of fidelity, reactivity, feasibility, and diversity.
翻訳日:2022-04-01 16:18:54 公開日:2022-03-31
# f0軌道の関数データ解析による話者識別の改善

Improving speaker de-identification with functional data analysis of f0 trajectories ( http://arxiv.org/abs/2203.16738v1 )

ライセンス: Link先を確認
Lauri Tavi, Tomi Kinnunen, Rosa Gonz\'alez Hautam\"aki(参考訳) 異なる種類のデータベースに格納される音声データが絶えず増加するため、音声のプライバシーが大きな関心事となっている。 このような懸念に応えるため、音声研究者は話者識別のための様々な方法を開発した。 最先端のソリューションは、ディープラーニングのソリューションを利用しており、効果的だが、例えばリソース不足の言語に適用できない、あるいは実用的ではないかもしれない。 フォーマント修正は、訓練データを必要としない話者識別のためのシンプルで効果的な方法である。 それでも、フォルマント匿名化音声における内国的パターンは話者依存の手がかりを含む可能性がある。 本研究は, 簡易な定式化シフトに加えて, 関数データ解析に基づくf0トラジェクトリを操作する新しい話者識別手法を提案する。 提案手法は,音素的に制御可能なピッチ特性を最適に識別し,フォーマントに基づく話者識別を最大25%改善する。

Due to a constantly increasing amount of speech data that is stored in different types of databases, voice privacy has become a major concern. To respond to such concern, speech researchers have developed various methods for speaker de-identification. The state-of-the-art solutions utilize deep learning solutions which can be effective but might be unavailable or impractical to apply for, for example, under-resourced languages. Formant modification is a simpler, yet effective method for speaker de-identification which requires no training data. Still, remaining intonational patterns in formant-anonymized speech may contain speaker-dependent cues. This study introduces a novel speaker de-identification method, which, in addition to simple formant shifts, manipulates f0 trajectories based on functional data analysis. The proposed speaker de-identification method will conceal plausibly identifying pitch characteristics in a phonetically controllable manner and improve formant-based speaker de-identification up to 25%.
翻訳日:2022-04-01 16:18:06 公開日:2022-03-31
# MMER:音声発話における感情認識のためのマルチモーダルマルチタスク学習

MMER: Multimodal Multi-task learning for Emotion Recognition in Spoken Utterances ( http://arxiv.org/abs/2203.16794v1 )

ライセンス: Link先を確認
Harshvardhan Srivastava, Sreyan Ghosh and S. Umesh(参考訳) 感情認識(ER)は、人間の発話を異なる感情カテゴリーに分類することを目的としている。 本稿では,テキストと音響モダリティの早期融合と自己注意に基づくマルチモーダル相互作用をベースとして,ERを個別発話から分離したマルチモーダルマルチタスク学習手法を提案する。 IEMOCAPベンチマーク実験により,提案手法は最先端技術の再実装よりも優れた性能を示し,文学における他の非モーダル・マルチモーダル手法よりも優れた性能を示す。 さらに, 提案手法の有効性を検証し, 高いベースラインとアブレーション研究を行った。 すべてのコードをgithubで公開しています。

Emotion Recognition (ER) aims to classify human utterances into different emotion categories. Based on early-fusion and self-attention-based multimodal interaction between text and acoustic modalities, in this paper, we propose a multimodal multitask learning approach for ER from individual utterances in isolation. Experiments on the IEMOCAP benchmark show that our proposed model performs better than our re-implementation of state-of-the-art and achieves better performance than all other unimodal and multimodal approaches in literature. In addition, strong baselines and ablation studies prove the effectiveness of our proposed approach. We make all our codes publicly available on GitHub.
翻訳日:2022-04-01 16:17:51 公開日:2022-03-31
# マンダリン韻律構造予測のための文字レベルスパンモデル

A Character-level Span-based Model for Mandarin Prosodic Structure Prediction ( http://arxiv.org/abs/2203.16922v1 )

ライセンス: Link先を確認
Xueyuan Chen, Changhe Song, Yixuan Zhou, Zhiyong Wu, Changbin Chen, Zhongqin Wu, Helen Meng(参考訳) 韻律構造予測の精度は, マンダリン音声合成システムにおいて, 合成音声の自然性に欠かせないものであるが, 現在では, 広く用いられているシーケンス・ツー・シーケンスフレームワークや, 先行単語分割結果からの誤り蓄積によって制限されている。 本稿では,スパンに基づくマンダリン韻律構造予測モデルを提案し,対応する韻律ラベル列に変換可能な最適な韻律構造木を求める。 単語セグメンテーションの前提条件に代えて、中国語の文字レベルBERTによってリッチな言語的特徴が提供され、自己注意型アーキテクチャでエンコーダに送られる。 これに加えて、スパン表現とラベルスコアリングは、各木が対応するスコアを持つすべての可能な韻律構造木を記述するために使用される。 与えられた文に対して最もスコアの高い最適木を見つけるために、ボトムアップcky型アルゴリズムも用いられる。 提案手法では、異なるレベルの韻律ラベルを同時に予測し、エンドツーエンドで漢字から直接処理を行うことができる。 2つの実世界のデータセットにおける実験結果は、すべてのシーケンスからシーケンスまでのベースラインアプローチに対して、スパンベース手法の優れた性能を示す。

The accuracy of prosodic structure prediction is crucial to the naturalness of synthesized speech in Mandarin text-to-speech system, but now is limited by widely-used sequence-to-sequence framework and error accumulation from previous word segmentation results. In this paper, we propose a span-based Mandarin prosodic structure prediction model to obtain an optimal prosodic structure tree, which can be converted to corresponding prosodic label sequence. Instead of the prerequisite for word segmentation, rich linguistic features are provided by Chinese character-level BERT and sent to encoder with self-attention architecture. On top of this, span representation and label scoring are used to describe all possible prosodic structure trees, of which each tree has its corresponding score. To find the optimal tree with the highest score for a given sentence, a bottom-up CKY-style algorithm is further used. The proposed method can predict prosodic labels of different levels at the same time and accomplish the process directly from Chinese characters in an end-to-end manner. Experiment results on two real-world datasets demonstrate the excellent performance of our span-based method over all sequence-to-sequence baseline approaches.
翻訳日:2022-04-01 16:16:10 公開日:2022-03-31
# 規則誘導フラット格子変換器を用いた中国語テキスト正規化モデル

An End-to-end Chinese Text Normalization Model based on Rule-guided Flat-Lattice Transformer ( http://arxiv.org/abs/2203.16954v1 )

ライセンス: Link先を確認
Wenlin Dai, Changhe Song, Xiang Li, Zhiyong Wu, Huashan Pan, Xiulin Li, Helen Meng(参考訳) 非標準語から話し言葉へ変換する手順として定義されるテキスト正規化は、テキスト音声合成システムにおける合成音声の理解性に不可欠である。 文脈を考慮せずにルールベースの手法は曖昧さを排除できないが、シーケンスからシーケンスまでのニューラルネットワークベースの手法は予期せぬ、解釈不能なエラー問題に悩まされる。 最近提案されたハイブリッドシステムは、ルールベースのモデルとニューラルネットワークモデルを2つのカスケードされたサブモジュールとして扱う。 フラット・ラティス・トランスフォーマー(flat)に触発されて,漢字を直接入力として受け入れ,ルールに含まれる専門知識をニューラルネットワークに統合したエンドツーエンドの中国語テキスト正規化モデルを提案する。 また,中国語テキスト正規化のための大規模なデータセットも公開しています。 提案モデルは,このデータセットで優れた結果を得た。

Text normalization, defined as a procedure transforming non standard words to spoken-form words, is crucial to the intelligibility of synthesized speech in text-to-speech system. Rule-based methods without considering context can not eliminate ambiguation, whereas sequence-to-sequence neural network based methods suffer from the unexpected and uninterpretable errors problem. Recently proposed hybrid system treats rule-based model and neural model as two cascaded sub-modules, where limited interaction capability makes neural network model cannot fully utilize expert knowledge contained in the rules. Inspired by Flat-LAttice Transformer (FLAT), we propose an end-to-end Chinese text normalization model, which accepts Chinese characters as direct input and integrates expert knowledge contained in rules into the neural network, both contribute to the superior performance of proposed model for the text normalization task. We also release a first publicly accessible largescale dataset for Chinese text normalization. Our proposed model has achieved excellent results on this dataset.
翻訳日:2022-04-01 16:15:50 公開日:2022-03-31
# 音声からのアルツハイマー病検出における音響ノイズの影響:赤ちゃんを泣かせるべきか?

Impact of Acoustic Noise on Alzheimer's Disease Detection from Speech: Should You Let Baby Cry? ( http://arxiv.org/abs/2203.17110v1 )

ライセンス: Link先を確認
Jekaterina Novikova(参考訳) アルツハイマー病(AD)を自動的に検出する研究は、ADの頻度が高く、従来の方法のコストが高いことを考えると、重要である。 ADは自然発話の音響に大きく影響するため、音声処理と機械学習(ML)はADを確実に検出する有望な技術を提供する。 しかし、音声は異なる種類の背景雑音に影響されうるため、音声からADを検出するMLモデルの精度にどのように影響するかを理解することが重要である。 本稿では,5つのカテゴリーから15種類の雑音が3種類の音響表現を訓練した4種類のMLモデルの性能に及ぼす影響について検討する。 MLモデルと音響特性が異なる種類の音響ノイズにどのように影響するかを網羅的に分析する。 音響ノイズは必ずしも有害ではなく、特定の種類のノイズはAD検出モデルに有用であり、最大4.8\%の精度向上に役立つ。 本稿では,実環境に展開するMLモデルにおいて,最高の性能を実現するために,音響ノイズの活用法を提案する。

Research related to automatically detecting Alzheimer's disease (AD) is important, given the high prevalence of AD and the high cost of traditional methods. Since AD significantly affects the acoustics of spontaneous speech, speech processing and machine learning (ML) provide promising techniques for reliably detecting AD. However, speech audio may be affected by different types of background noise and it is important to understand how the noise influences the accuracy of ML models detecting AD from speech. In this paper, we study the effect of fifteen types of noise from five different categories on the performance of four ML models trained with three types of acoustic representations. We perform a thorough analysis showing how ML models and acoustic features are affected by different types of acoustic noise. We show that acoustic noise is not necessarily harmful - certain types of noise are beneficial for AD detection models and help increasing accuracy by up to 4.8\%. We provide recommendations on how to utilize acoustic noise in order to achieve the best performance results with the ML models deployed in real world.
翻訳日:2022-04-01 16:15:32 公開日:2022-03-31
# 音声強調のためのターゲット特徴の知覚的コントラストストストレッチ

Perceptual Contrast Stretching on Target Feature for Speech Enhancement ( http://arxiv.org/abs/2203.17152v1 )

ライセンス: Link先を確認
Rong Chao, Cheng Yu, Szu-Wei Fu, Xugang Lu, Yu Tsao(参考訳) ベース関数として深層学習(DL)モデルを用いることにより,音声強調(SE)性能は大幅に向上した。 本研究では,知覚コントラストストストストレッチ(PCS)によるSE性能向上手法を提案する。 PCSはクリティカルバンド重要度関数に基づいて導出され、SEモデルのターゲットを変更する。 具体的には、PCSは知覚的重要度に応じてターゲット特徴の契約を延長し、SE性能を向上する。 後処理ベースの実装と比較して、PCSをトレーニングフェーズに組み込むことは、パフォーマンスを保ち、オンライン計算を減らす。 また、PCSと異なるSEモデルアーキテクチャとトレーニング基準を適切に組み合わせることができる点にも注意が必要だ。 一方、PCSはSEモデルのトレーニングの因果関係や収束に影響を与えない。 VoiceBank-DEMANDデータセットによる実験結果から,提案手法は因果(PESQ=3.07)と非因果(PESQ=3.35)のSEタスクにおいて,最先端の性能を実現することができることがわかった。

Speech enhancement (SE) performance has improved considerably since the use of deep learning (DL) models as a base function. In this study, we propose a perceptual contrast stretching (PCS) approach to further improve SE performance. PCS is derived based on the critical band importance function and applied to modify the targets of the SE model. Specifically, PCS stretches the contract of target features according to perceptual importance, thereby improving the overall SE performance. Compared to post-processing based implementations, incorporating PCS into the training phase preserves performance and reduces online computation. It is also worth noting that PCS can be suitably combined with different SE model architectures and training criteria. Meanwhile, PCS does not affect the causality or convergence of the SE model training. Experimental results on the VoiceBank-DEMAND dataset showed that the proposed method can achieve state-of-the-art performance on both causal (PESQ=3.07) and non-causal (PESQ=3.35) SE tasks.
翻訳日:2022-04-01 16:15:16 公開日:2022-03-31
# 逆襲に対する強固な雨除去に向けて--包括的ベンチマーク分析とそれ以降

Towards Robust Rain Removal Against Adversarial Attacks: A Comprehensive Benchmark Analysis and Beyond ( http://arxiv.org/abs/2203.16931v1 )

ライセンス: Link先を確認
Yi Yu, Wenhan Yang, Yap-Peng Tan, Alex C. Kot(参考訳) 雨の除去は、画像やビデオから雨の流れを取り除き、雨による破壊的な影響を減らすことを目的としている。 画像/映像の可視性を高めるだけでなく、多くのコンピュータビジョンアルゴリズムが適切に機能する。 本稿では, 深層学習に基づく雨害防止手法の強靭性に関する総合的な研究を初めて行おうとする。 本研究は,画像や映像が高度に劣化すると,小さな歪みや摂動が目立たなくなるほど,逆襲に対して雨除去手法がより脆弱になることを示す。 本稿ではまず,人間の知覚と機械解析のタスクの観点から,様々な攻撃レベルにおける様々な手法の総合的評価と,様々な損失・目標を提示し,摂動を発生させる。 既存手法における鍵モジュールの系統的評価は,敵攻撃に対するロバスト性の観点から行う。 分析の知見から,これらの有効モジュールを統合することにより,より堅牢なデラミニング手法を構築する。 最後に, 出所問題に特有の各種の敵意攻撃と, 人間と機械の視覚課題に対する影響について検討した。 1) 雨地攻撃は、雨地のみに摂動を加え、攻撃された雨画像の摂動を目立たないようにする。 2)オブジェクトに敏感な攻撃を行い、与えられたオブジェクトの近くの領域にのみ摂動を追加する。 コードはhttps://github.com/y uyi-sd/robust_rain_r emovalで入手できる。

Rain removal aims to remove rain streaks from images/videos and reduce the disruptive effects caused by rain. It not only enhances image/video visibility but also allows many computer vision algorithms to function properly. This paper makes the first attempt to conduct a comprehensive study on the robustness of deep learning-based rain removal methods against adversarial attacks. Our study shows that, when the image/video is highly degraded, rain removal methods are more vulnerable to the adversarial attacks as small distortions/perturba tions become less noticeable or detectable. In this paper, we first present a comprehensive empirical evaluation of various methods at different levels of attacks and with various losses/targets to generate the perturbations from the perspective of human perception and machine analysis tasks. A systematic evaluation of key modules in existing methods is performed in terms of their robustness against adversarial attacks. From the insights of our analysis, we construct a more robust deraining method by integrating these effective modules. Finally, we examine various types of adversarial attacks that are specific to deraining problems and their effects on both human and machine vision tasks, including 1) rain region attacks, adding perturbations only in the rain regions to make the perturbations in the attacked rain images less visible; 2) object-sensitive attacks, adding perturbations only in regions near the given objects. Code is available at https://github.com/y uyi-sd/Robust_Rain_R emoval.
翻訳日:2022-04-01 16:14:13 公開日:2022-03-31
# エゴセントリックビデオを用いた頚髄損傷後の家庭における手の使用状況計測

Measuring hand use in the home after cervical spinal cord injury using egocentric video ( http://arxiv.org/abs/2203.16996v1 )

ライセンス: Link先を確認
Andrea Bandini, Mehdy Dousty, Sander L. Hitzig, B. Catharine Craven, Sukhvinder Kalsi-Ryan, Jos\'e Zariffa(参考訳) 背景:エゴセントリックビデオは、特に家庭環境における機能的使用を検出する能力のために、コミュニティで四肢麻痺を患っている人の手機能を監視するための潜在的ソリューションとして最近登場した。 目的:四肢麻痺児の在宅における手指使用量を測定するウェアラブル視覚ベースシステムの開発と評価を行う。 方法: 機能的手-物体相互作用を検出する深層学習アルゴリズムを開発し, 比較した。 最も正確なアルゴリズムは、テトラプレジア患者20名による自宅で記録された65時間の未記録ビデオから手機能の計測に用いられた。 これらの測定は、全記録時間(Perc)における相互作用時間の割合、個々の相互作用の平均時間(Dur)、時間当たりの相互作用数(Num)である。 この技術の臨床的妥当性を示すために, 自己中心性指標は, 手の機能, 独立性(体力, 感性, 先入観の段階的再定義 - 草むら, 上肢運動スコア - uems, 脊髄独立尺度 - scim) の検証された臨床評価と相関した。 結果:F1スコア0.80(0.67-0.87)で手物体の相互作用を自動的に検出した。 以上の結果より, UEMSの上昇と理解度の向上は, 対話時間の増加と相関し, SCIMの上昇と手触覚の向上は, エゴセントリックビデオ撮影における対話回数の増加につながった。 結論: 四肢麻痺者の非拘束環境における手機能の計測は, 初めて国際的に受け入れられた手機能の計測に対して検証された。 今後の作業では,手作業における自己中心型パフォーマンス尺度の信頼性と応答性に関する形式的評価が必要となる。

Background: Egocentric video has recently emerged as a potential solution for monitoring hand function in individuals living with tetraplegia in the community, especially for its ability to detect functional use in the home environment. Objective: To develop and validate a wearable vision-based system for measuring hand use in the home among individuals living with tetraplegia. Methods: Several deep learning algorithms for detecting functional hand-object interactions were developed and compared. The most accurate algorithm was used to extract measures of hand function from 65 hours of unscripted video recorded at home by 20 participants with tetraplegia. These measures were: the percentage of interaction time over total recording time (Perc); the average duration of individual interactions (Dur); the number of interactions per hour (Num). To demonstrate the clinical validity of the technology, egocentric measures were correlated with validated clinical assessments of hand function and independence (Graded Redefined Assessment of Strength, Sensibility and Prehension - GRASSP, Upper Extremity Motor Score - UEMS, and Spinal Cord Independent Measure - SCIM). Results: Hand-object interactions were automatically detected with a median F1-score of 0.80 (0.67-0.87). Our results demonstrated that higher UEMS and better prehension were related to greater time spent interacting, whereas higher SCIM and better hand sensation resulted in a higher number of interactions performed during the egocentric video recordings. Conclusions: For the first time, measures of hand function automatically estimated in an unconstrained environment in individuals with tetraplegia have been validated against internationally accepted measures of hand function. Future work will necessitate a formal evaluation of the reliability and responsiveness of the egocentric-based performance measures for hand use.
翻訳日:2022-04-01 16:12:55 公開日:2022-03-31
# 古い映画を生き返らせる

Bringing Old Films Back to Life ( http://arxiv.org/abs/2203.17276v1 )

ライセンス: Link先を確認
Ziyu Wan and Bo Zhang and Dongdong Chen and Jing Liao(参考訳) 高度に劣化した古いフィルムを復元するための学習ベースのフレームワークであるrecurrent transformer network(rtn)を提案する。 本手法は, フレーム単位の復元を行う代わりに, 閉鎖に関する豊富な情報を含む隣接フレームから学習した隠れ知識に基づいて, 時間的整合性を確保しつつ, 各フレームの難解なアーティファクトの復元に有用である。 また、現在のフレームの表現と隠れた知識との対比により、スクラッチ位置を教師なしで推測することができ、そのような欠陥局在は実世界の劣化によく一般化する。 混合劣化の解消とフレームアライメント時の流量推定誤差の補正に際し,より表現力に富んだトランスフォーマブロックを用いた空間復元を提案する。 合成データセットと実世界の古いフィルムの両方の実験は、既存のソリューションよりも提案されたRTNの顕著な優位性を示している。 さらに、同じ枠組みがキーフレームからビデオ全体へ効果的に色を伝播させ、最終的に説得力のある復元フィルムを生み出す。 実装とモデルはhttps://github.com/r aywzy/Bringing-Old-F ilms-Back-to-Lifeでリリースされる。

We present a learning-based framework, recurrent transformer network (RTN), to restore heavily degraded old films. Instead of performing frame-wise restoration, our method is based on the hidden knowledge learned from adjacent frames that contain abundant information about the occlusion, which is beneficial to restore challenging artifacts of each frame while ensuring temporal coherency. Moreover, contrasting the representation of the current frame and the hidden knowledge makes it possible to infer the scratch position in an unsupervised manner, and such defect localization generalizes well to real-world degradations. To better resolve mixed degradation and compensate for the flow estimation error during frame alignment, we propose to leverage more expressive transformer blocks for spatial restoration. Experiments on both synthetic dataset and real-world old films demonstrate the significant superiority of the proposed RTN over existing solutions. In addition, the same framework can effectively propagate the color from keyframes to the whole video, ultimately yielding compelling restored films. The implementation and model will be released at https://github.com/r aywzy/Bringing-Old-F ilms-Back-to-Life.
翻訳日:2022-04-01 16:12:27 公開日:2022-03-31
# 直交性正規化による特徴の学習

Learning Decoupling Features Through Orthogonality Regularization ( http://arxiv.org/abs/2203.16772v1 )

ライセンス: Link先を確認
Li Wang, Rongzhi Gu, Weiji Zhuang, Peng Gao, Yujun Wang, Yuexian Zou(参考訳) キーワードスポッティング(KWS)と話者検証(SV)は、音声アプリケーションにおいて重要な2つのタスクである。 研究によると、最先端のKWSとSVモデルは異なるデータセットを使って独立して訓練されている。 しかし、人間は言語内容と話者識別を同時に区別することができる。 そこで我々は,タスク固有の特徴を分離しながら,共通特徴を効果的に抽出する手法を検討することが重要であると考えている。 これを踏まえ、同じネットワーク構造を持つ2分岐深層ネットワーク(KWSブランチとSVブランチ)を開発し、話者不変のキーワード表現とキーワード不変の話者表現がそれぞれ期待される場合に、KWSとSVのパフォーマンスを同時に押し上げる新しい分離特徴学習法を提案する。 実験はGoogle Speech Commands Dataset (GSCD)で行われている。 その結果、直交正則化は、ネットワークがそれぞれ KWS と SV で 1.31% と 1.87% の SOTA EER を達成するのに役立つことを示した。

Keyword spotting (KWS) and speaker verification (SV) are two important tasks in speech applications. Research shows that the state-of-art KWS and SV models are trained independently using different datasets since they expect to learn distinctive acoustic features. However, humans can distinguish language content and the speaker identity simultaneously. Motivated by this, we believe it is important to explore a method that can effectively extract common features while decoupling task-specific features. Bearing this in mind, a two-branch deep network (KWS branch and SV branch) with the same network structure is developed and a novel decoupling feature learning method is proposed to push up the performance of KWS and SV simultaneously where speaker-invariant keyword representations and keyword-invariant speaker representations are expected respectively. Experiments are conducted on Google Speech Commands Dataset (GSCD). The results demonstrate that the orthogonality regularization helps the network to achieve SOTA EER of 1.31% and 1.87% on KWS and SV, respectively.
翻訳日:2022-04-01 16:12:08 公開日:2022-03-31
# 匿名化データに対する攻撃による再同定のリスクの評価

Assessing the risk of re-identification arising from an attack on anonymised data ( http://arxiv.org/abs/2203.16921v1 )

ライセンス: Link先を確認
Anna Antoniou, Giacomo Dossena, Julia MacMillan, Steven Hamblin, David Clifton, Paula Petrone(参考訳) 目的: 日常的に取得した医療データを研究目的に利用するためには,データの匿名化による患者の機密性を保護する必要がある。 この研究の目的は、悪意のある攻撃から匿名化されたデータセットへの再識別のリスクを計算することである。 方法:電子健康記録(EHR)データのk匿名化データセットにおいて,1人の患者の再同定の確率を推定する分析手段をまず提示する。 第二に、この解法を一般化し、複数の患者が再同定される確率を得る。 モンテカルロシミュレーションによる合成検証を行い,得られた推定値の精度を示す。 結果: リスク推定のための分析フレームワークは, シミュレーションによって提供されるものと一致した再同定確率を, 様々なシナリオで提供する。 我々の仕事は再同定確率を膨らませる保守的な仮定によって制限される。 考察:我々の推定では,データセットの比率が悪用された場合に再同定確率が増加し,同値クラスサイズと逆相関があることが示されている。 この再帰的アプローチは、任意のk-匿名化スキームにおける複数患者再特定攻撃の一般的なケースに応用可能性ドメインを拡張する。 結論: 事前決定された再同定確率に基づいてk匿名化過程をパラメトリズする方法を定式化する。 kサイズの増加に伴う再識別リスクの低減の利点は、敵が悪意を持って取得したデータセットの一部のサイズに対する再識別確率のベンチマークを検討する場合、データ粒度を低下させる価値がない可能性がある。

Objective: The use of routinely-acquired medical data for research purposes requires the protection of patient confidentiality via data anonymisation. The objective of this work is to calculate the risk of re-identification arising from a malicious attack to an anonymised dataset, as described below. Methods: We first present an analytical means of estimating the probability of re-identification of a single patient in a k-anonymised dataset of Electronic Health Record (EHR) data. Second, we generalize this solution to obtain the probability of multiple patients being re-identified. We provide synthetic validation via Monte Carlo simulations to illustrate the accuracy of the estimates obtained. Results: The proposed analytical framework for risk estimation provides re-identification probabilities that are in agreement with those provided by simulation in a number of scenarios. Our work is limited by conservative assumptions which inflate the re-identification probability. Discussion: Our estimates show that the re-identification probability increases with the proportion of the dataset maliciously obtained and that it has an inverse relationship with the equivalence class size. Our recursive approach extends the applicability domain to the general case of a multi-patient re-identification attack in an arbitrary k-anonymisation scheme. Conclusion: We prescribe a systematic way to parametrize the k-anonymisation process based on a pre-determined re-identification probability. We observed that the benefits of a reduced re-identification risk that come with increasing k-size may not be worth the reduction in data granularity when one is considering benchmarking the re-identification probability on the size of the portion of the dataset maliciously obtained by the adversary.
翻訳日:2022-04-01 16:10:47 公開日:2022-03-31
# バイジアン二元ニューラルネットワークの量子支援型メタラーニング

Quantum-Aided Meta-Learning for Bayesian Binary Neural Networks via Born Machines ( http://arxiv.org/abs/2203.17089v1 )

ライセンス: Link先を確認
Ivana Nikoloska and Osvaldo Simeone(参考訳) 近い将来、ノイズの多い中間スケール量子回路は、離散空間における暗黙的確率モデルを効率的に実装することができ、古典的手法でサンプル化できない分布をサポートする。 そのようなモデルの考えられる応用の1つは、ベイズ法の中核である確率的推論である。 本稿では,バイナリベイズニューラルネットワークの学習におけるBornマシンの利用について検討する。 提案手法では、ニューラルネットワークの2値重みの変動分布をモデル化するためにボーンマシンを使用し、複数のタスクからのデータを使用して新しいタスクのトレーニングデータ要求を削減する。 この方法は、勾配に基づくメタラーニングとボルンマシンによる変分推論を組み合わせることで、従来の共同学習戦略を上回り、原型回帰問題で示される。

Near-term noisy intermediate-scale quantum circuits can efficiently implement implicit probabilistic models in discrete spaces, supporting distributions that are practically infeasible to sample from using classical means. One of the possible applications of such models, also known as Born machines, is probabilistic inference, which is at the core of Bayesian methods. This paper studies the use of Born machines for the problem of training binary Bayesian neural networks. In the proposed approach, a Born machine is used to model the variational distribution of the binary weights of the neural network, and data from multiple tasks is used to reduce training data requirements on new tasks. The method combines gradient-based meta-learning and variational inference via Born machines, and is shown in a prototypical regression problem to outperform conventional joint learning strategies.
翻訳日:2022-04-01 16:10:26 公開日:2022-03-31
# (参考訳) Visual Prompting: 事前トレーニングされたモデルに適応するピクセル空間の修正 [全文訳有]

Visual Prompting: Modifying Pixel Space to Adapt Pre-trained Models ( http://arxiv.org/abs/2203.17274v1 )

ライセンス: CC BY 4.0
Hyojin Bahng, Ali Jahanian, Swami Sankaranarayanan, Phillip Isola(参考訳) Promptingは最近、下流タスクに言語モデルを適用するための一般的なパラダイムになっています。 モデルパラメータの微調整やタスク固有のヘッドの追加ではなく、このアプローチでは、モデルの入力にテキストプロンプトを追加するだけで、新しいタスクを実行するようにモデルを制御します。 本稿では,代わりに画素でプロンプトを作成できるのか,という問いについて考察する。 言い換えれば、事前学習された視覚モデルは、入力にピクセルを追加するだけで新しいタスクに適応できるのだろうか? 我々は,この摂動によって引き起こされる凍結事前学習モデルが新たなタスクを実行するように,タスク固有の画像摂動を学習するビジュアルプロンプトを導入する。 数ピクセルだけを変えるだけで、新しいタスクやデータセットにモデルを適用することができ、現在の軽量適応に対するデファクトアプローチである線形探索と同等に機能することを発見した。 視覚的プロンプトの驚くべき効果は、事前訓練されたモデルを視覚的に適応する方法の新しい視点を提供し、モデルパラメータや出力とは異なり、通常エンドユーザの制御下にある入力のみを通じてモデルを適用する可能性を開放する。 コードはhttp://hjbahng.githu b.io/visual_promptin g.com/で入手できる。

Prompting has recently become a popular paradigm for adapting language models to downstream tasks. Rather than fine-tuning model parameters or adding task-specific heads, this approach steers a model to perform a new task simply by adding a text prompt to the model's inputs. In this paper, we explore the question: can we create prompts with pixels instead? In other words, can pre-trained vision models be adapted to a new task solely by adding pixels to their inputs? We introduce visual prompting, which learns a task-specific image perturbation such that a frozen pre-trained model prompted with this perturbation performs a new task. We discover that changing only a few pixels is enough to adapt models to new tasks and datasets, and performs on par with linear probing, the current de facto approach to lightweight adaptation. The surprising effectiveness of visual prompting provides a new perspective on how to adapt pre-trained models in vision, and opens up the possibility of adapting models solely through their inputs, which, unlike model parameters or outputs, are typically under an end-user's control. Code is available at http://hjbahng.githu b.io/visual_promptin g .
翻訳日:2022-04-01 16:09:15 公開日:2022-03-31
# 変形可能なビデオトランス

Deformable Video Transformer ( http://arxiv.org/abs/2203.16795v1 )

ライセンス: Link先を確認
Jue Wang and Lorenzo Torresani(参考訳) ビデオトランスフォーマーは、アクション分類のための畳み込みネットワークの効果的な代替手段として最近登場した。 しかしながら、以前のビデオトランスフォーマーのほとんどは、グローバルな時空の注意またはフレーム内およびフレーム間のパッチを比較する手作業による戦略を採用する。 これらの固定注意スキームは、高い計算コストを持つだけでなく、所定の場所におけるパッチを比較することによって、ビデオ中の動きのダイナミクスを無視する。 本稿では,各問合せ場所に対して映像パッチのごく一部を動的に予測し,フレーム間の対応に基づいて映像の閲覧先を決定するdvt(deformable video transformer)を提案する。 ビデオの圧縮フォーマットに格納された情報から、これらの動きに基づく対応をゼロコストで得ることが重要である。 我々の変形可能な注意機構は分類性能に関して直接最適化され,注意戦略の最適ハンドデザインの必要性が排除される。 4つの大規模ビデオベンチマーク(Kinetics-400, Something-Something- V2, EPIC-KITCHENS, Diving-48)の実験では、既存のビデオトランスフォーマーと比較して、計算コストが一段と低い場合に精度が向上し、これらの4つのデータセットの最先端結果が得られることを示した。

Video transformers have recently emerged as an effective alternative to convolutional networks for action classification. However, most prior video transformers adopt either global space-time attention or hand-defined strategies to compare patches within and across frames. These fixed attention schemes not only have high computational cost but, by comparing patches at predetermined locations, they neglect the motion dynamics in the video. In this paper, we introduce the Deformable Video Transformer (DVT), which dynamically predicts a small subset of video patches to attend for each query location based on motion information, thus allowing the model to decide where to look in the video based on correspondences across frames. Crucially, these motion-based correspondences are obtained at zero-cost from information stored in the compressed format of the video. Our deformable attention mechanism is optimised directly with respect to classification performance, thus eliminating the need for suboptimal hand-design of attention strategies. Experiments on four large-scale video benchmarks (Kinetics-400, Something-Something- V2, EPIC-KITCHENS and Diving-48) demonstrate that, compared to existing video transformers, our model achieves higher accuracy at the same or lower computational cost, and it attains state-of-the-art results on these four datasets.
翻訳日:2022-04-01 15:52:12 公開日:2022-03-31
# 弱教師付き時間行動定位のためのきめ細かい時間的コントラスト学習

Fine-grained Temporal Contrastive Learning for Weakly-supervised Temporal Action Localization ( http://arxiv.org/abs/2203.16800v1 )

ライセンス: Link先を確認
Junyu Gao, Mengyuan Chen, Changsheng Xu(参考訳) モデルトレーニング中にビデオレベルのアクションラベルのみが使用可能なwsal(weakly-supervis ed action localization)のタスクを目標としています。 近年の進歩にもかかわらず、既存の手法は主にローカライズ・バイ・クラシゼーションのパラダイムを採用しており、ビデオシーケンス間の実りある細かい時間的違いを見落としており、分類学習や分類からローカライズへの適応において厳しい曖昧さに苦しめられている。 本稿では,シーケンスとシーケンスの区別を文脈的に比較することで,wsalにおける本質的帰納的バイアスが得られ,コヒーレントなアクションインスタンスの識別に寄与することを示す。 具体的には、微分可能な動的プログラミングの定式化において、2つの相補的なコントラスト目標(fsd)が設計され、1つはマッチ、インサート、削除演算子を用いて様々なアクション/バックグランドの提案の関係を考慮し、もう1つは2つのビデオ間で最長の共通部分列をマイニングする。 対照的なモジュールは互いに強化し、識別的なアクションバックグラウンド分離のメリットと、分類とローカライゼーションの間のタスクギャップの緩和を共同で享受できる。 大規模な実験により,2つのベンチマークで最先端の性能が得られた。 私たちのコードはhttps://github.com/m engyuanchen21/cvpr20 22-ftclで利用可能です。

We target at the task of weakly-supervised action localization (WSAL), where only video-level action labels are available during model training. Despite the recent progress, existing methods mainly embrace a localization-by-clas sification paradigm and overlook the fruitful fine-grained temporal distinctions between video sequences, thus suffering from severe ambiguity in classification learning and classification-to-lo calization adaption. This paper argues that learning by contextually comparing sequence-to-sequence distinctions offers an essential inductive bias in WSAL and helps identify coherent action instances. Specifically, under a differentiable dynamic programming formulation, two complementary contrastive objectives are designed, including Fine-grained Sequence Distance (FSD) contrasting and Longest Common Subsequence (LCS) contrasting, where the first one considers the relations of various action/background proposals by using match, insert, and delete operators and the second one mines the longest common subsequences between two videos. Both contrasting modules can enhance each other and jointly enjoy the merits of discriminative action-background separation and alleviated task gap between classification and localization. Extensive experiments show that our method achieves state-of-the-art performance on two popular benchmarks. Our code is available at https://github.com/M engyuanChen21/CVPR20 22-FTCL.
翻訳日:2022-04-01 15:51:49 公開日:2022-03-31
# disentangled instance mesh reconstructionによるポイントシーン理解

Point Scene Understanding via Disentangled Instance Mesh Reconstruction ( http://arxiv.org/abs/2203.16832v1 )

ライセンス: Link先を確認
Jiaxiang Tang, Xiaokang Chen, Jingbo Wang, Gang Zeng(参考訳) ポイントクラウドからのセマンティックシーン再構築は,3次元シーン理解に不可欠かつ困難な課題である。 このタスクでは、シーンの各インスタンスを認識するだけでなく、部分的な観測点雲に基づいてジオメトリを復元する必要がある。 既存の手法は通常、検出ベースのバックボーンから不完全なポイントクラウドの提案に基づいて、完全なオブジェクトの占有値を直接予測しようとする。 しかしながら、このフレームワークは、検出された様々な偽陽性オブジェクトの提案の妨害と、完全なオブジェクトの占有値を学ぶための不完全点観測の曖昧さのために、常に高い忠実度メッシュの再構築に失敗する。 このハードルを回避するために,効率的なポイントシーン理解のためのDIMR(Disentangled Instance Mesh Reconstruction)フレームワークを提案する。 セグメント化に基づくバックボーンを用いて偽陽性オブジェクトの提案を減らし,認識と再構成の関係を探求する上でさらに有効である。 正確な提案に基づいて, 不完全点観測による曖昧さを解消し, 形状完了とメッシュ生成のプロセスを分離するために, メッシュ認識潜在コード空間を活用する。 さらに,テスト時にCADモデルプールにアクセスすることで,余分なトレーニングを伴わずにメッシュ検索を行うことで,再現性を向上させることが可能となった。 複数のメトリクスを用いて再構成メッシュの品質を徹底的に評価し,課題であるScanNetデータセット上での手法の優位性を実証した。

Semantic scene reconstruction from point cloud is an essential and challenging task for 3D scene understanding. This task requires not only to recognize each instance in the scene, but also to recover their geometries based on the partial observed point cloud. Existing methods usually attempt to directly predict occupancy values of the complete object based on incomplete point cloud proposals from a detection-based backbone. However, this framework always fails to reconstruct high fidelity mesh due to the obstruction of various detected false positive object proposals and the ambiguity of incomplete point observations for learning occupancy values of complete objects. To circumvent the hurdle, we propose a Disentangled Instance Mesh Reconstruction (DIMR) framework for effective point scene understanding. A segmentation-based backbone is applied to reduce false positive object proposals, which further benefits our exploration on the relationship between recognition and reconstruction. Based on the accurate proposals, we leverage a mesh-aware latent code space to disentangle the processes of shape completion and mesh generation, relieving the ambiguity caused by the incomplete point observations. Furthermore, with access to the CAD model pool at test time, our model can also be used to improve the reconstruction quality by performing mesh retrieval without extra training. We thoroughly evaluate the reconstructed mesh quality with multiple metrics, and demonstrate the superiority of our method on the challenging ScanNet dataset.
翻訳日:2022-04-01 15:51:17 公開日:2022-03-31
# 点雲の非教師付き合成-実シーンフロー推定による変形と対応

Deformation and Correspondence Aware Unsupervised Synthetic-to-Real Scene Flow Estimation for Point Clouds ( http://arxiv.org/abs/2203.16895v1 )

ライセンス: Link先を確認
Zhao Jin, Yinjie Lei, Naveed Akhtar, Haifeng Li, Munawar Hayat(参考訳) ポイントクラウドシーンフロー推定は、自律運転における動的シーンナビゲーションにおいて実用的に重要である。 シーンフローラベルは取得が難しいため、現在の方法では、合成データに基づいてモデルをトレーニングし、実際のシーンに転送する。 しかし、既存の合成データセットと実際のシーンとの大きな相違は、モデル転送の貧弱につながる。 私たちはそれに対処するために2つの大きな貢献をします。 まず,gta-vエンジン用のポイントクラウドコレクタとシーンフローアノテータを開発し,人間の介入なしに多彩なトレーニングサンプルを自動的に取得する。 そこで我々は,大規模合成シーンフローデータセットGTA-SFを開発した。 次に,対象ドメインの擬似ラベルを自己生成する平均教師型ドメイン適応フレームワークを提案する。 また、形状変形正則化と表面対応改善を明示的に組み込んで、ドメイン転送の歪みや不一致に対処する。 広範な実験を通じて、我々のGTA-SFデータセットは、最も広く使用されているFT3Dデータセットと比較して、3つの実際のデータセット(Waymo、Lyft、KITTI)へのモデルの一般化を一貫して向上させることを示した。 さらに,本フレームワークは,6つのソースターゲットデータセットペアに対して優れた適応性を実現し,平均領域ギャップを60%削減する。 データとコードはhttps://github.com/l eolyj/dca-srsfeで入手できる。

Point cloud scene flow estimation is of practical importance for dynamic scene navigation in autonomous driving. Since scene flow labels are hard to obtain, current methods train their models on synthetic data and transfer them to real scenes. However, large disparities between existing synthetic datasets and real scenes lead to poor model transfer. We make two major contributions to address that. First, we develop a point cloud collector and scene flow annotator for GTA-V engine to automatically obtain diverse realistic training samples without human intervention. With that, we develop a large-scale synthetic scene flow dataset GTA-SF. Second, we propose a mean-teacher-based domain adaptation framework that leverages self-generated pseudo-labels of the target domain. It also explicitly incorporates shape deformation regularization and surface correspondence refinement to address distortions and misalignments in domain transfer. Through extensive experiments, we show that our GTA-SF dataset leads to a consistent boost in model generalization to three real datasets (i.e., Waymo, Lyft and KITTI) as compared to the most widely used FT3D dataset. Moreover, our framework achieves superior adaptation performance on six source-target dataset pairs, remarkably closing the average domain gap by 60%. Data and codes are available at https://github.com/l eolyj/DCA-SRSFE
翻訳日:2022-04-01 15:50:55 公開日:2022-03-31
# CRAFT:ロバスト光流用クロスアテンショナルフロートランス

CRAFT: Cross-Attentional Flow Transformer for Robust Optical Flow ( http://arxiv.org/abs/2203.16896v1 )

ライセンス: Link先を確認
Xiuchao Sui, Shaohua Li, Xue Geng, Yan Wu, Xinxing Xu, Yong Liu, Rick Goh, Hongyuan Zhu(参考訳) 光フロー推定は、2つの画像間の対応する画素を識別することで2次元運動場を見つけることを目的としている。 深層学習に基づく光学フロー法が著しく進歩しているにもかかわらず、動きのぼやけた大きな変位を正確に推定することは依然として困難である。 これは主に、2つの画像の畳み込み特徴のドット積として画素マッチングの基礎となる相関体積が計算されるためである。 畳み込み特徴の局所性は、計算された相関を様々な雑音に影響を受けやすくする。 動きのぼやけのある大きな変位では、ノイズの相関が推定流れに深刻な誤差を引き起こす可能性がある。 この課題を克服するために,相関体積計算の活性化を目的とした新しいアーキテクチャ "CRoss-Attentional Flow Transformer" (CRAFT) を提案する。 CRAFTでは、Semantic Smoothing Transformer層がひとつのフレームの特徴を変換し、よりグローバルでセマンティックに安定する。 さらに、ドット積相関を変圧器クロスフレーム注意に置き換える。 このレイヤはクエリとキープロジェクションを通じて特徴ノイズをフィルタリングし、より正確な相関を計算する。 Sintel (Final) と KITTI (Geoground) のベンチマークでは、CRAFT が新しい最先端のパフォーマンスを達成した。 さらに,大きな動きに対して異なるモデルのロバスト性をテストするために,入力画像から大きな動きを生成する画像シフト攻撃を設計した。 この攻撃下では、CRAFTはRAFTとGMAの2つの代表的手法よりもはるかに堅牢に動作している。 craftのコードはhttps://github.com/a skerlee/craftで入手できる。

Optical flow estimation aims to find the 2D motion field by identifying corresponding pixels between two images. Despite the tremendous progress of deep learning-based optical flow methods, it remains a challenge to accurately estimate large displacements with motion blur. This is mainly because the correlation volume, the basis of pixel matching, is computed as the dot product of the convolutional features of the two images. The locality of convolutional features makes the computed correlations susceptible to various noises. On large displacements with motion blur, noisy correlations could cause severe errors in the estimated flow. To overcome this challenge, we propose a new architecture "CRoss-Attentional Flow Transformer" (CRAFT), aiming to revitalize the correlation volume computation. In CRAFT, a Semantic Smoothing Transformer layer transforms the features of one frame, making them more global and semantically stable. In addition, the dot-product correlations are replaced with transformer Cross-Frame Attention. This layer filters out feature noises through the Query and Key projections, and computes more accurate correlations. On Sintel (Final) and KITTI (foreground) benchmarks, CRAFT has achieved new state-of-the-art performance. Moreover, to test the robustness of different models on large motions, we designed an image shifting attack that shifts input images to generate large artificial motions. Under this attack, CRAFT performs much more robustly than two representative methods, RAFT and GMA. The code of CRAFT is is available at https://github.com/a skerlee/craft.
翻訳日:2022-04-01 15:50:33 公開日:2022-03-31
# 物体検出のための多次元アライメント領域適応

Multi-Granularity Alignment Domain Adaptation for Object Detection ( http://arxiv.org/abs/2203.16897v1 )

ライセンス: Link先を確認
Wenzhang Zhou and Dawei Du and Libo Zhang and Tiejian Luo and Yanjun Wu(参考訳) ドメイン適応オブジェクト検出は、ソースドメインとターゲットドメインの異なるデータ分散のために難しい。 本稿では,ドメイン不変な特徴学習に向けた多粒度アライメントに基づくオブジェクト検出フレームワークを提案する。 この目的のために、ピクセル、インスタンス、カテゴリレベルを含むさまざまな粒度の観点から依存関係を同時にエンコードし、2つのドメインを整合させます。 バックボーンネットワークからの画素レベルの特徴写像に基づいて,まず,大規模コンボリューションによるインスタンスの識別表現を集約するオムニスケールゲート融合モジュールを開発し,堅牢なマルチスケールオブジェクト検出を実現する。 一方,マルチグラニュラリティ判別器は,サンプルの粒度(ピクセル,インスタンス,カテゴリ)の異なる領域を識別するために提案されている。 特に、異なるカテゴリにおけるインスタンス識別可能性だけでなく、2つのドメイン間のカテゴリ整合性も活用する。 複数の領域適応シナリオにおいて、アンカーフリーFCOSおよびアンカーベース高速RCNN検出器上での最先端アルゴリズムに対する我々のフレームワークの有効性を実証した。

Domain adaptive object detection is challenging due to distinctive data distribution between source domain and target domain. In this paper, we propose a unified multi-granularity alignment based object detection framework towards domain-invariant feature learning. To this end, we encode the dependencies across different granularity perspectives including pixel-, instance-, and category-levels simultaneously to align two domains. Based on pixel-level feature maps from the backbone network, we first develop the omni-scale gated fusion module to aggregate discriminative representations of instances by scale-aware convolutions, leading to robust multi-scale object detection. Meanwhile, the multi-granularity discriminators are proposed to identify which domain different granularities of samples(i.e., pixels, instances, and categories) come from. Notably, we leverage not only the instance discriminability in different categories but also the category consistency between two domains. Extensive experiments are carried out on multiple domain adaptation scenarios, demonstrating the effectiveness of our framework over state-of-the-art algorithms on top of anchor-free FCOS and anchor-based Faster RCNN detectors with different backbones.
翻訳日:2022-04-01 15:50:09 公開日:2022-03-31
# Occupancy Grid Mapsに基づく終端軌道分布予測

End-to-End Trajectory Distribution Prediction Based on Occupancy Grid Maps ( http://arxiv.org/abs/2203.16910v1 )

ライセンス: Link先を確認
Ke Guo, Wenxi Liu, Jia Pan(参考訳) 本稿では, 社会的シーン画像と歴史的軌跡から, 実世界における移動エージェントの今後の軌道分布を予測することを目的とする。 しかし、基底構造分布が未知であり観測不可能であるのに対して、モデル学習の監視にはサンプルの1つしか適用できないため、これは難しい課題である。 最近の研究は、実際の分布の全てのモードをカバーするために様々な軌跡を予測することに重点を置いているが、それらは精度を軽視し、非現実的な予測に過剰な信用を与えるかもしれない。 この問題に対処するために, 占有グリッドマップを用いた対称クロスエントロピー分布を, 地中分布に対する明示的かつシーンに準拠した近似として学習し, 予期しない予測を効果的にペナルティ化する。 具体的には,エンド・ツー・エンドで近似値反復ネットワークを用いて計画の学習を行う,逆強化学習に基づくマルチモーダル軌道分布予測フレームワークを提案する。 さらに, 予測分布に基づいて, トラジェクトリの関係をモデル化するための注意機構を持つ, 可変トランスフォーマネットワークを通じて, 代表トラジェクトリの小さなセットを生成する。 実験では,Stanford Drone DatasetおよびIntersection Drone Dataset上での最先端の性能を実現する。

In this paper, we aim to forecast a future trajectory distribution of a moving agent in the real world, given the social scene images and historical trajectories. Yet, it is a challenging task because the ground-truth distribution is unknown and unobservable, while only one of its samples can be applied for supervising model learning, which is prone to bias. Most recent works focus on predicting diverse trajectories in order to cover all modes of the real distribution, but they may despise the precision and thus give too much credit to unrealistic predictions. To address the issue, we learn the distribution with symmetric cross-entropy using occupancy grid maps as an explicit and scene-compliant approximation to the ground-truth distribution, which can effectively penalize unlikely predictions. In specific, we present an inverse reinforcement learning based multi-modal trajectory distribution forecasting framework that learns to plan by an approximate value iteration network in an end-to-end manner. Besides, based on the predicted distribution, we generate a small set of representative trajectories through a differentiable Transformer-based network, whose attention mechanism helps to model the relations of trajectories. In experiments, our method achieves state-of-the-art performance on the Stanford Drone Dataset and Intersection Drone Dataset.
翻訳日:2022-04-01 15:49:50 公開日:2022-03-31
# フレーム間コーディングへの貢献

Contributions to interframe coding ( http://arxiv.org/abs/2203.16934v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy, Francesc Vallverdu-Bayes, Francesc Tarres-Ruiz(参考訳) 画像列に含まれる異なる物体によって実験された動きの優れた表現には、高度な動きモデル(4または6パラメータ)が必要である。 画像が非常に小さなブロックに分割されている場合、複雑な動きの正確な記述は2つのパラメータで達成できる。 この代替案は画像あたりの大きなベクトル集合を意味する。 画像の局所特性の関数として異なるブロックサイズを用いてベクトル数を削減し,最小のブロックで許容される誤差を増大させることなく,新たな手法を提案する。 インター/イントラフレームコーダには第2のアルゴリズムが提案されている。

Advanced motion models (4 or 6 parameters) are needed for a good representation of the motion experimented by the different objects contained in a sequence of images. If the image is split in very small blocks, then an accurate description of complex movements can be achieved with only 2 parameters. This alternative implies a large set of vectors per image. We propose a new approach to reduce the number of vectors, using different block sizes as a function of the local characteristics of the image, without increasing the error accepted with the smallest blocks. A second algorithm is proposed for an inter/intraframe coder.
翻訳日:2022-04-01 15:48:45 公開日:2022-03-31
# 病理画像分類のための自己蒸留強化マスクオートエンコーダ

Self-distillation Augmented Masked Autoencoders for Histopathological Image Classification ( http://arxiv.org/abs/2203.16983v1 )

ライセンス: Link先を確認
Yang Luo, Zhineng Chen, Xieping Gao(参考訳) 近年,病理画像解析において自己教師あり学習(SSL)が注目されている。 しかし、一般的な対照的なSSLは、均質な視覚的外観のため、このシナリオの下で特徴表現に最適である。 あるいは、マスク付きオートエンコーダ(MAE)が生成パラダイムからSSLを構築する。 彼らは病理画像モデリングにもっと親しみやすい。 本稿では,まず病理画像解析にMAEを導入する。 新しいSD-MAEモデルを提案し,生のMAE上に自己蒸留型SSLを実現する。 SD-MAEは、マスクされた画像パッチの再構成損失に加えて、可視パッチに自己蒸留損失を課す。 エンコーダは、下流タスクに役立つハイレベルなセマンティクスを知覚する。 SD-MAEを2つの病理画像と1つの自然画像の分類タスクに適用する。 実験により、sd-maeは主要なコントラストssl法と比較して高い競合性を示す。 病理的画像の適度なサイズで事前訓練された結果は、2桁以上の画像で事前訓練された方法にも匹敵する。 私たちのコードはまもなくリリースされます。

Self-supervised learning (SSL) has drawn increasing attention in pathological image analysis in recent years. However, the prevalent contrastive SSL is suboptimal in feature representation under this scenario due to the homogeneous visual appearance. Alternatively, masked autoencoders (MAE) build SSL from a generative paradigm. They are more friendly to pathological image modeling. In this paper, we firstly introduce MAE to pathological image analysis. A novel SD-MAE model is proposed to enable a self-distillation augmented SSL on top of the raw MAE. Besides the reconstruction loss on masked image patches, SD-MAE further imposes the self-distillation loss on visible patches. It guides the encoder to perceive high-level semantics that benefit downstream tasks. We apply SD-MAE to the image classification task on two pathological and one natural image datasets. Experiments demonstrate that SD-MAE performs highly competitive when compared with leading contrastive SSL methods. The results, which are pre-trained using a moderate size of pathological images, are also comparable to the method pre-trained with two orders of magnitude more images. Our code will be released soon.
翻訳日:2022-04-01 15:48:38 公開日:2022-03-31
# BEVDet4D:マルチカメラ3Dオブジェクト検出における爆発的一時キュー

BEVDet4D: Exploit Temporal Cues in Multi-camera 3D Object Detection ( http://arxiv.org/abs/2203.17054v1 )

ライセンス: Link先を確認
Junjie Huang, Guan Huang(参考訳) 単一フレームデータには、既存のビジョンベースのマルチカメラ3Dオブジェクト検出パラダイムの性能を制限する有限情報が含まれている。 BEVDet4Dは空間のみの3次元空間から時空間の4次元空間へ拡張性のあるBEVDetパラダイムを持ち上げるために提案されている。 我々は、前のフレームと対応するフレームを現在のフレームに融合させるためだけに、いくつかの修正を加えてフレームワークをアップグレードする。 このようにして,計算予算を不要にすることで,2つの候補特徴をクエリし比較することにより,アルゴリズムが時間的手がかりにアクセスできるようにする。 さらに,BEVDet4Dに頑健な一般化性能を持たせるとともに,速度誤差を52.8%削減するエゴモーションと時間の要因を除去することで,速度学習タスクを簡素化する。 これにより、視覚ベースの手法が、この面でLiDARやレーダーに依存している手法に初めて匹敵するものになる。 チャレンジベンチマーク nuScenes では、BEVDet4D-Base と呼ばれる高性能な構成で51.5% NDS の新たな記録を報告し、これは以前のリードメソッドである BEVDet を +4.3% NDS で上回っている。

Single frame data contains finite information which limits the performance of the existing vision-based multi-camera 3D object detection paradigms. For fundamentally pushing the performance boundary in this area, BEVDet4D is proposed to lift the scalable BEVDet paradigm from the spatial-only 3D space to the spatial-temporal 4D space. We upgrade the framework with a few modifications just for fusing the feature from the previous frame with the corresponding one in the current frame. In this way, with negligible extra computing budget, we enable the algorithm to access the temporal cues by querying and comparing the two candidate features. Beyond this, we also simplify the velocity learning task by removing the factors of ego-motion and time, which equips BEVDet4D with robust generalization performance and reduces the velocity error by 52.8%. This makes vision-based methods, for the first time, become comparable with those relied on LiDAR or radar in this aspect. On challenge benchmark nuScenes, we report a new record of 51.5% NDS with the high-performance configuration dubbed BEVDet4D-Base, which surpasses the previous leading method BEVDet by +4.3% NDS.
翻訳日:2022-04-01 15:48:25 公開日:2022-03-31
# CADG:領域一般化のための交差注意に基づくモデル

CADG: A Model Based on Cross Attention for Domain Generalization ( http://arxiv.org/abs/2203.17067v1 )

ライセンス: Link先を確認
Cheng Dai, Fan Li, Xiyao Li and Donglin Xie(参考訳) ドメイン一般化(dg)タスクでは、モデルがソースドメインからのトレーニングデータのみを使用して訓練され、対象とするドメインの一般化を達成すると、分散シフト問題が発生する。 したがって、マルチドメインの分類に使用できる共通表現にフォーカスするために、分類器を学ぶことが重要であり、この分類器は目に見えないターゲットドメインでも高いパフォーマンスを達成することができる。 様々なクロスモーダルタスクにおけるクロス注意の成功により、クロス注意は異なるディストリビューションから来る機能を調整する強力なメカニズムであることが判明した。 そこで我々は分散シフト問題に対処するために,クロスアテンションが重要な役割を果たすcadg(cross attention for domain generalization)というモデルを設計する。 このような設計により、複数のドメインで分類器を適用できるため、分類器は見当たらないドメイン上でよく一般化される。 実験により,本手法は他の単一モデルと比較して,様々な領域一般化ベンチマークの最先端性能を達成でき,アンサンブルに基づく手法よりも優れた性能が得られることが示された。

In Domain Generalization (DG) tasks, models are trained by using only training data from the source domains to achieve generalization on an unseen target domain, this will suffer from the distribution shift problem. So it's important to learn a classifier to focus on the common representation which can be used to classify on multi-domains, so that this classifier can achieve a high performance on an unseen target domain as well. With the success of cross attention in various cross-modal tasks, we find that cross attention is a powerful mechanism to align the features come from different distributions. So we design a model named CADG (cross attention for domain generalization), wherein cross attention plays a important role, to address distribution shift problem. Such design makes the classifier can be adopted on multi-domains, so the classifier will generalize well on an unseen domain. Experiments show that our proposed method achieves state-of-the-art performance on a variety of domain generalization benchmarks compared with other single model and can even achieve a better performance than some ensemble-based methods.
翻訳日:2022-04-01 15:48:02 公開日:2022-03-31
# AEGNN: 非同期イベントベースのグラフニューラルネットワーク

AEGNN: Asynchronous Event-based Graph Neural Networks ( http://arxiv.org/abs/2203.17149v1 )

ライセンス: Link先を確認
Simon Schaefer, Daniel Gehrig and Davide Scaramuzza(参考訳) イベントカメラのために考案された最高の学習アルゴリズムは、まずイベントを高密度表現に変換し、その後標準cnnで処理することで動作する。 しかし、これらのステップはイベントのスパーシリティと高時間分解の両方を捨て、高い計算負荷とレイテンシをもたらす。 このため、近年の研究では、イベントを「静的」時空間グラフとして処理するグラフニューラルネットワーク(GNN)が採用されている。 AEGNN(Asynchronous, Event-based Graph Neural Networks)は、標準GNNを一般化してイベントを「進化的」時空間グラフとして処理する新しいイベント処理パラダイムである。 AEGNNは、新しいイベント毎に影響を受けるノードにのみネットワークアクティベーションの再計算を制限する効率的な更新ルールに従っている。 AEGNNは同期入力で容易に訓練でき、テスト時に効率的な「非同期」ネットワークに変換できる。 対象の分類および検出タスクにおいて,提案手法を徹底的に検証し,最大200倍の計算量削減(flops)を,最先端の非同期手法と同様の,あるいはさらに優れた性能で示す。 この計算の削減は、標準のGNNと比較して8倍の計算遅延を減少させ、低レイテンシのイベントベースの処理への扉を開く。

The best performing learning algorithms devised for event cameras work by first converting events into dense representations that are then processed using standard CNNs. However, these steps discard both the sparsity and high temporal resolution of events, leading to high computational burden and latency. For this reason, recent works have adopted Graph Neural Networks (GNNs), which process events as "static" spatio-temporal graphs, which are inherently "sparse". We take this trend one step further by introducing Asynchronous, Event-based Graph Neural Networks (AEGNNs), a novel event-processing paradigm that generalizes standard GNNs to process events as "evolving" spatio-temporal graphs. AEGNNs follow efficient update rules that restrict recomputation of network activations only to the nodes affected by each new event, thereby significantly reducing both computation and latency for event-by-event processing. AEGNNs are easily trained on synchronous inputs and can be converted to efficient, "asynchronous" networks at test time. We thoroughly validate our method on object classification and detection tasks, where we show an up to a 200-fold reduction in computational complexity (FLOPs), with similar or even better performance than state-of-the-art asynchronous methods. This reduction in computation directly translates to an 8-fold reduction in computational latency when compared to standard GNNs, which opens the door to low-latency event-based processing.
翻訳日:2022-04-01 15:47:43 公開日:2022-03-31
# Time Lens++:パラメトリック非線形流れとマルチスケール融合を用いたイベントベースフレーム補間

Time Lens++: Event-based Frame Interpolation with Parametric Non-linear Flow and Multi-scale Fusion ( http://arxiv.org/abs/2203.17191v1 )

ライセンス: Link先を確認
Stepan Tulyakov, Alfredo Bochicchio, Daniel Gehrig, Stamatios Georgoulis, Yuanyou Li, and Davide Scaramuzza(参考訳) 近年,フレームカメラとイベントベースカメラの組み合わせによるフレーム補間が,性能とメモリ効率の両面で従来の画像ベース手法を上回っている。 しかし、現在の方法はまだ苦しめられている。 (i)補間結果の脆性画像レベル融合は、融合画像中のアーティファクトの存在下では失敗する。 (ii)挿入フレーム毎に実行される時間的に不整合かつ非効率な動き推定手順 (iii)低コントラスト領域はイベントをトリガしないため、イベントのみの動作推定がアーチファクトを生成する。 さらに、以前の方法は、実世界の完全な複雑さを捉えない平面シーンと遠方シーンからなるデータセットでのみテストされた。 本研究では,マルチスケールな特徴量融合を導入し,イベントや画像からの非線形フレーム間移動を計算し,画像ウォーピングのために効率的にサンプリングすることで,上記の問題に対処する。 また,100以上のチャレンジシーンからなる大規模イベントとフレームのデータセットを収集し,ビームスプリッターに基づく新しい実験的なセットアップで収集した。 提案手法は,PSNRで最大0.2dB,LPIPSで最大15%の再現性向上を実現する。

Recently, video frame interpolation using a combination of frame- and event-based cameras has surpassed traditional image-based methods both in terms of performance and memory efficiency. However, current methods still suffer from (i) brittle image-level fusion of complementary interpolation results, that fails in the presence of artifacts in the fused image, (ii) potentially temporally inconsistent and inefficient motion estimation procedures, that run for every inserted frame and (iii) low contrast regions that do not trigger events, and thus cause events-only motion estimation to generate artifacts. Moreover, previous methods were only tested on datasets consisting of planar and faraway scenes, which do not capture the full complexity of the real world. In this work, we address the above problems by introducing multi-scale feature-level fusion and computing one-shot non-linear inter-frame motion from events and images, which can be efficiently sampled for image warping. We also collect the first large-scale events and frames dataset consisting of more than 100 challenging scenes with depth variations, captured with a new experimental setup based on a beamsplitter. We show that our method improves the reconstruction quality by up to 0.2 dB in terms of PSNR and up to 15% in LPIPS score.
翻訳日:2022-04-01 15:47:20 公開日:2022-03-31
# ローカルとグローバルな表現を活用する - 新しい自己監督型学習戦略

Leverage Your Local and Global Representations: A New Self-Supervised Learning Strategy ( http://arxiv.org/abs/2203.17205v1 )

ライセンス: Link先を確認
Tong Zhang, Congpei Qiu, Wei Ke, Sabine S\"usstrunk, Mathieu Salzmann(参考訳) 自己教師付き学習(SSL)法は,収穫量や内容に関わらず,同じ画像の異なる作物から抽出した特徴の類似性を最大化し,ビュー不変表現を学習することを目的としている。 本質的にこの戦略は、2つの作物が実際には背景や小さな物体といった異なる画像情報を含んでいるという事実を無視し、学習された表現の多様性を抑制する傾向がある。 この目的のために、既存の戦略は通常、ネットワークが貴重な情報(例えば背景や小さなオブジェクト)の一部を破棄し、表現の多様性を犠牲にする損失関数を用いる。 本研究では,新しい自己教師付き学習戦略「ロゴ」を導入することでこの問題に対処し,「bf lo}cal」と「bf g}l{\bf o}bal」の明確な理由を明らかにした。 ビューの不変性を達成するため、LoGoは同じ画像からグローバルな作物と、グローバルな作物とローカルな作物の類似性を奨励する。 しかし、より小さな作物の含有量が全く異なるかもしれないという事実を正しくエンコードするために、LoGoはグローバルな作物に近づきながら、異なる表現を持つ2つの地域作物を推進している。 私たちのLoGo戦略は、既存のSSLメソッドに簡単に適用できます。 さまざまなデータセットに関する広範な実験を行い、さまざまな自己教師付き学習フレームワークを使用して、既存のアプローチよりもその優位性を検証した。 明らかに、1/10ドルのデータを使う場合、転送学習のモデルを監督するよりも優れた結果が得られる。

Self-supervised learning (SSL) methods aim to learn view-invariant representations by maximizing the similarity between the features extracted from different crops of the same image regardless of cropping size and content. In essence, this strategy ignores the fact that two crops may truly contain different image information, e.g., background and small objects, and thus tends to restrain the diversity of the learned representations. %To this end, the existing strategies typically employ loss functions that enforces the networks to discard part of valuable information, e.g. background and small objects, and sacrifices the diversity of representation. In this work, we address this issue by introducing a new self-supervised learning strategy, LoGo, that explicitly reasons about {\bf Lo}cal and {\bf G}l{\bf o}bal crops. To achieve view invariance, LoGo encourages similarity between global crops from the same image, as well as between a global and a local crop. However, to correctly encode the fact that the content of smaller crops may differ entirely, LoGo promotes two local crops to have dissimilar representations, while being close to global crops. Our LoGo strategy can easily be applied to existing SSL methods. Our extensive experiments on a variety of datasets and using different self-supervised learning frameworks validate its superiority over existing approaches. Noticeably, we achieve better results than supervised models on transfer learning when using only $1/10$ of the data.
翻訳日:2022-04-01 15:46:58 公開日:2022-03-31
# 3Dオブジェクトポス推定のためのテンプレート再検討:新しいオブジェクトへの一般化とオクルージョンへのロバスト性

Templates for 3D Object Pose Estimation Revisited: Generalization to New Objects and Robustness to Occlusions ( http://arxiv.org/abs/2203.17234v1 )

ライセンス: Link先を確認
Van Nguyen Nguyen, Yinlin Hu, Yang Xiao, Mathieu Salzmann, Vincent Lepetit(参考訳) 本稿では,新しい物体を認識でき,RGB画像の3次元ポーズを部分閉塞下でも推定できる手法を提案する。 本手法では,これらのオブジェクトのトレーニングフェーズも,CADモデルのみの実際の画像も必要としない。 これは、ローカルオブジェクト表現を学ぶための小さなトレーニングオブジェクトセットに依存しており、入力されたイメージを新しいオブジェクトのcadモデルのレンダリングされた一連の"テンプレート"にローカルにマッチさせることができる。 最先端の手法とは対照的に,本手法を適用した新しいオブジェクトは,トレーニング対象とは大きく異なる。 その結果、LINEMOD と Occlusion-LINEMOD のデータセットを再トレーニングすることなく、一般化を初めて示す。 従来のテンプレートベースアプローチの障害モードの解析は,テンプレートマッチングに対するローカル機能のメリットをさらに裏付けるものだ。 我々はLINEMOD, Occlusion-LINEMOD, T-LESSデータセットにおける最先端のテンプレートマッチング手法より優れている。 ソースコードとデータはhttps://github.com/n v-nguyen/template-po seで公開されている。

We present a method that can recognize new objects and estimate their 3D pose in RGB images even under partial occlusions. Our method requires neither a training phase on these objects nor real images depicting them, only their CAD models. It relies on a small set of training objects to learn local object representations, which allow us to locally match the input image to a set of "templates", rendered images of the CAD models for the new objects. In contrast with the state-of-the-art methods, the new objects on which our method is applied can be very different from the training objects. As a result, we are the first to show generalization without retraining on the LINEMOD and Occlusion-LINEMOD datasets. Our analysis of the failure modes of previous template-based approaches further confirms the benefits of local features for template matching. We outperform the state-of-the-art template matching methods on the LINEMOD, Occlusion-LINEMOD and T-LESS datasets. Our source code and data are publicly available at https://github.com/n v-nguyen/template-po se
翻訳日:2022-04-01 15:45:24 公開日:2022-03-31
# ビデオの有能なオブジェクトランキングの再考

Rethinking Video Salient Object Ranking ( http://arxiv.org/abs/2203.17257v1 )

ライセンス: Link先を確認
Jiaying Lin and Huankang Guan and Rynson W.H. Lau(参考訳) salient object ranking (sor) は、入力画像内の複数のsalient objectsのsaliencyの程度をランク付けする。 直近では,予測固定地図に基づく入力映像中のサルエント物体をランク付けする手法が提案されている。 それは、正当性ランキングに対する人間の認識とは相容れない、正当性ランクを推測するために、正当性オブジェクト内の固定物の密度にのみ依存する。 本研究では,異なるサルエントオブジェクト間の空間的および時間的関係を明示的に学習し,サルエンシーランクを生成することを提案する。 そこで本研究では,同一フレーム内のサリアンオブジェクト間の空間的関係を局所的かつグローバルに学習するiarモジュールと,異なるフレーム間のサリアンシーの時間的関係をモデル化するidrモジュールという,2つのモジュールを備えたビデオサリアンオブジェクトランキング(vsor)のエンド・ツー・エンド法を提案する。 さらに,既存のVSORデータセットの限られたビデオタイプ(スポーツや映画のみ)とシーンの多様性に対処するため,様々なビデオタイプと多様なシーンを大規模にカバーする新たなデータセットを提案する。 実験の結果,本手法は関連分野における最先端手法よりも優れていた。 ソースコードと提案したデータセットを利用可能にします。

Salient Object Ranking (SOR) involves ranking the degree of saliency of multiple salient objects in an input image. Most recently, a method is proposed for ranking salient objects in an input video based on a predicted fixation map. It relies solely on the density of the fixations within the salient objects to infer their saliency ranks, which is incompatible with human perception of saliency ranking. In this work, we propose to explicitly learn the spatial and temporal relations between different salient objects to produce the saliency ranks. To this end, we propose an end-to-end method for video salient object ranking (VSOR), with two novel modules: an intra-frame adaptive relation (IAR) module to learn the spatial relation among the salient objects in the same frame locally and globally, and an inter-frame dynamic relation (IDR) module to model the temporal relation of saliency across different frames. In addition, to address the limited video types (just sports and movies) and scene diversity in the existing VSOR dataset, we propose a new dataset that covers different video types and diverse scenes on a large scale. Experimental results demonstrate that our method outperforms state-of-the-art methods in relevant fields. We will make the source code and our proposed dataset available.
翻訳日:2022-04-01 15:45:07 公開日:2022-03-31
# 複数チャンネル終端音声認識のための単一チャンネル音声の発声:比較検討

Exploiting Single-Channel Speech for Multi-Channel End-to-End Speech Recognition: A Comparative Study ( http://arxiv.org/abs/2203.16757v1 )

ライセンス: Link先を確認
Keyu An and Zhijian Ou(参考訳) 近年,マルチチャネルASRにおけるエンドツーエンドトレーニング手法の有効性が示され,ビームフォーミングフロントエンドと認識バックエンドが一般的である。 しかし,複数のモジュールの統合により,実環境に記録されるマルチチャネル音声データのサイズが制限されることを考えると,エンドツーエンドのトレーニングは困難になる。 これにより、マルチチャネルのエンドツーエンドASRのための単一チャネルデータを利用する必要が生じる。 本稿では,マルチチャネル・エンド・ツー・エンドASR(バックエンド事前学習,データスケジューリング,データシミュレーション)における外部単一チャネルデータを利用する3つの方式の性能を,単一チャネルデータのサイズやフロントエンドの選択といった異なる設定下で体系的に比較する。 CHiME-4とAISHELL-4データセットの大規模な実験により、3つの手法がすべてマルチチャネルのエンドツーエンド音声認識性能を改善する一方で、データシミュレーションは他の2つよりも長いトレーニング時間で性能が向上することが示された。 データスケジューリングは、トレーニング前の段階では、特にシングルチャネルのデータサイズが小さい場合、単一のチャネルデータに過度に適合する傾向があるため、ほとんど一貫して、バックエンドのトレーニングよりも優れています。

Recently, the end-to-end training approach for multi-channel ASR has shown its effectiveness, which usually consists of a beamforming front-end and a recognition back-end. However, the end-to-end training becomes more difficult due to the integration of multiple modules, particularly considering that multi-channel speech data recorded in real environments are limited in size. This raises the demand to exploit the single-channel data for multi-channel end-to-end ASR. In this paper, we systematically compare the performance of three schemes to exploit external single-channel data for multi-channel end-to-end ASR, namely back-end pre-training, data scheduling, and data simulation, under different settings such as the sizes of the single-channel data and the choices of the front-end. Extensive experiments on CHiME-4 and AISHELL-4 datasets demonstrate that while all three methods improve the multi-channel end-to-end speech recognition performance, data simulation outperforms the other two, at the cost of longer training time. Data scheduling outperforms back-end pre-training marginally but nearly consistently, presumably because that in the pre-training stage, the back-end tends to overfit on the single-channel data, especially when the single-channel data size is small.
翻訳日:2022-04-01 15:42:19 公開日:2022-03-31
# CUSIDE:ストリーミングASRのためのチャンキング、将来のコンテキストとデコード

CUSIDE: Chunking, Simulating Future Context and Decoding for Streaming ASR ( http://arxiv.org/abs/2203.16758v1 )

ライセンス: Link先を確認
Keyu An and Huahuan Zheng and Zhijian Ou and Hongyu Xiang and Ke Ding and Guanglu Wan(参考訳) 正確な音響モデリングには、歴史と将来の文脈情報の重要性が知られている。 しかし、将来的なコンテキストの獲得は、ストリーミングASRのレイテンシをもたらす。 本稿では,ストリーミング音声認識のための新しい枠組み,チャンキング,将来の文脈のシミュレーション,デコード(cuside)を提案する。 将来のコンテキストを待たずに、将来のコンテキストフレームを再帰的にシミュレートするために、新しいシミュレーションモジュールが導入された。 シミュレーションモジュールは自己教師付き損失を用いてASRモデルと共同で訓練され、ASRモデルは通常のASR損失(例えば、CTC-CRF)に最適化される。 実験により、現実のフレームを適切なコンテキストとして使用するのに対し、シミュレーションされた将来のコンテキストを使用すると、認識精度を維持しながら遅延を大幅に低減できることが示された。 CUSIDEではAISHELL-1データセットから最先端のストリーミングASR結果を得る。

History and future contextual information are known to be important for accurate acoustic modeling. However, acquiring future context brings latency for streaming ASR. In this paper, we propose a new framework - Chunking, Simulating Future Context and Decoding (CUSIDE) for streaming speech recognition. A new simulation module is introduced to recursively simulate the future contextual frames, without waiting for future context. The simulation module is jointly trained with the ASR model using a self-supervised loss; the ASR model is optimized with the usual ASR loss, e.g., CTC-CRF as used in our experiments. Experiments show that, compared to using real future frames as right context, using simulated future context can drastically reduce latency while maintaining recognition accuracy. With CUSIDE, we obtain new state-of-the-art streaming ASR results on the AISHELL-1 dataset.
翻訳日:2022-04-01 15:41:57 公開日:2022-03-31
# オープンソースのMagicData-RAMC: リッチアノテートマンダリン会話(RAMC)音声データセット

Open Source MagicData-RAMC: A Rich Annotated Mandarin Conversational(RAMC) Speech Dataset ( http://arxiv.org/abs/2203.16844v1 )

ライセンス: Link先を確認
Zehui Yang, Yifan Chen, Lei Luo, Runyan Yang, Lingxuan Ye, Gaofeng Cheng, Ji Xu, Yaohui Jin, Qingqing Zhang, Pengyuan Zhang, Lei Xie, Yonghong Yan(参考訳) 本稿では,magicdata-ramc という,高品質なリッチなアノテートマンダリン会話(ramc)音声データセットを提案する。 MagicData-RAMCコーパスには、中国語の母語話者が携帯電話上で16kHzのサンプリングレートで記録した180時間の会話音声データが含まれている。 MagicData-RAMCのダイアログは15の多様化されたドメインに分類され、科学や技術から普通の生活まで、トピックラベルでタグ付けされる。 サンプル毎に正確な書き起こしと正確な話者音声活動タイムスタンプを手動でラベル付けする。 講演者の詳細な情報も提供される。 高品質でリッチなアノテーションを備えたダイアログシナリオ用に設計されたマンダリン音声データセットとして、MagicData-RAMCは、マンダリン音声コミュニティにおけるデータの多様性を強化し、自動音声認識、話者ダイアリゼーション、トピック検出、キーワード検索、テキスト音声など、一連の音声関連タスクに関する広範な研究を可能にする。 関連するタスクもいくつか実施し、データセットを評価するための実験結果を提供しています。

This paper introduces a high-quality rich annotated Mandarin conversational (RAMC) speech dataset called MagicData-RAMC. The MagicData-RAMC corpus contains 180 hours of conversational speech data recorded from native speakers of Mandarin Chinese over mobile phones with a sampling rate of 16 kHz. The dialogs in MagicData-RAMC are classified into 15 diversified domains and tagged with topic labels, ranging from science and technology to ordinary life. Accurate transcription and precise speaker voice activity timestamps are manually labeled for each sample. Speakers' detailed information is also provided. As a Mandarin speech dataset designed for dialog scenarios with high quality and rich annotations, MagicData-RAMC enriches the data diversity in the Mandarin speech community and allows extensive research on a series of speech-related tasks, including automatic speech recognition, speaker diarization, topic detection, keyword search, text-to-speech, etc. We also conduct several relevant tasks and provide experimental results to help evaluate the dataset.
翻訳日:2022-04-01 15:41:43 公開日:2022-03-31
# サンプルソフトマックスを用いたrnnトランスデューサのメモリ効率トレーニング

Memory-Efficient Training of RNN-Transducer with Sampled Softmax ( http://arxiv.org/abs/2203.16868v1 )

ライセンス: Link先を確認
Jaesong Lee, Lukas Lee, Shinji Watanabe(参考訳) RNN-Transducerはエンドツーエンドの自動音声認識のための有望なアーキテクチャの1つだ。 RNN-Transducerには、高い精度とストリーミングフレンドリーな特性を含む多くの利点があるが、トレーニング中のメモリ消費は、開発にとって重要な問題である。 本稿では,学習中に語彙のごく一部しか必要とせず,メモリ消費を節約できるrnn-transducerにサンプルソフトマックスを適用することを提案する。 さらに、サンプルソフトマックスを拡張して、ミニバッチのメモリ消費を最適化し、サンプル語彙の補助的なCTC損失分布を用いてモデル精度を向上させる。 本稿では,librispeech,aishell -1,csj-apsにおいて,サンプルソフトマックスがメモリ消費を大幅に削減し,ベースラインモデルの精度を維持する実験結果を示す。

RNN-Transducer has been one of promising architectures for end-to-end automatic speech recognition. Although RNN-Transducer has many advantages including its strong accuracy and streaming-friendly property, its high memory consumption during training has been a critical problem for development. In this work, we propose to apply sampled softmax to RNN-Transducer, which requires only a small subset of vocabulary during training thus saves its memory consumption. We further extend sampled softmax to optimize memory consumption for a minibatch, and employ distributions of auxiliary CTC losses for sampling vocabulary to improve model accuracy. We present experimental results on LibriSpeech, AISHELL-1, and CSJ-APS, where sampled softmax greatly reduces memory consumption and still maintains the accuracy of the baseline model.
翻訳日:2022-04-01 15:41:27 公開日:2022-03-31
# 音声言語識別のための最適輸送の部分結合

Partial Coupling of Optimal Transport for Spoken Language Identification ( http://arxiv.org/abs/2203.17036v1 )

ライセンス: Link先を確認
Xugang Lu, Peng Shen, Yu Tsao, Hisashi Kawai(参考訳) 非教師付きドメイン適応(UDA)手法として,クロスドメイン音声言語識別(SLID)システムの性能向上のために,最適輸送(OT)に基づく共同分散アライメント(JDA)モデルを提案する。 トレーニングデータセットとテストデータセットの相違点の測定をJDAに導入した。 前回の研究では、トレーニングセットとテストセットは同じラベルスペースを共有しているはずでした。 しかし、実際のアプリケーションでは、テストセットのラベル空間はトレーニングセットのそれのサブセットに過ぎない。 分散アライメントのための完全なトレーニングとテストドメインは、負のドメイン転送をもたらす可能性がある。 本稿では,部分最適輸送(POT)に基づくJDAモデルを提案する。 また、テストデータのラベルが不明であるため、POTでは、ドメインアライメント中に、輸送コストに基づく結合に対するソフト重み付けを適応的に設定する。 提案したUDAを評価するために,クロスドメインSLIDタスクで実験を行った。 その結果, OTにおける部分結合を考慮した結果, 提案するUDAの性能は有意に向上した。

In order to reduce domain discrepancy to improve the performance of cross-domain spoken language identification (SLID) system, as an unsupervised domain adaptation (UDA) method, we have proposed a joint distribution alignment (JDA) model based on optimal transport (OT). A discrepancy measurement based on OT was adopted for JDA between training and test data sets. In our previous study, it was supposed that the training and test sets share the same label space. However, in real applications, the label space of the test set is only a subset of that of the training set. Fully matching training and test domains for distribution alignment may introduce negative domain transfer. In this paper, we propose an JDA model based on partial optimal transport (POT), i.e., only partial couplings of OT are allowed during JDA. Moreover, since the label of test data is unknown, in the POT, a soft weighting on the coupling based on transport cost is adaptively set during domain alignment. Experiments were carried out on a cross-domain SLID task to evaluate the proposed UDA. Results showed that our proposed UDA significantly improved the performance due to the consideration of the partial couplings in OT.
翻訳日:2022-04-01 15:41:13 公開日:2022-03-31
# ソフトウェア工学におけるNLPモデルの評価について

On the Evaluation of NLP-based Models for Software Engineering ( http://arxiv.org/abs/2203.17166v1 )

ライセンス: Link先を確認
Maliheh Izadi, Matin Nili Ahmadabadi(参考訳) NLPベースのモデルはSE問題に対処するためにますます取り入れられている。 これらのモデルは、ほとんど変更のないSEドメインで採用されるか、ソースコードとそのユニークな特徴に非常に適しています。 これらのアプローチの多くは、既存のソリューションを上回ったり補完したりするものだと考えられている。 これらのモデルは、seコミュニティにおいて、公平かつ一貫して評価されているか? そこで本研究では,se問題に対するnlpモデルの評価方法について検討した。 この結果から,これらのモデルの評価には一貫性があり,広く受け入れられているプロトコルが存在しないことが示唆された。 同じタスクの異なる側面が異なる研究で評価されているが、メトリクスはシステムではなくカスタム選択に基づいて定義されており、最終的に回答が収集され、ケースごとに解釈される。 したがって、一貫した評価と公正かつ効率的な比較の可能性を維持するために、NLPモデルを評価する方法論的な方法を提供する必要がある。

NLP-based models have been increasingly incorporated to address SE problems. These models are either employed in the SE domain with little to no change, or they are greatly tailored to source code and its unique characteristics. Many of these approaches are considered to be outperforming or complementing existing solutions. However, an important question arises here: "Are these models evaluated fairly and consistently in the SE community?". To answer this question, we reviewed how NLP-based models for SE problems are being evaluated by researchers. The findings indicate that currently there is no consistent and widely-accepted protocol for the evaluation of these models. While different aspects of the same task are being assessed in different studies, metrics are defined based on custom choices, rather than a system, and finally, answers are collected and interpreted case by case. Consequently, there is a dire need to provide a methodological way of evaluating NLP-based models to have a consistent assessment and preserve the possibility of fair and efficient comparison.
翻訳日:2022-04-01 15:40:56 公開日:2022-03-31
# (参考訳) DiffSkill: ツールによる変形可能なオブジェクト操作のための微分物理学からのスキル抽象化 [全文訳有]

DiffSkill: Skill Abstraction from Differentiable Physics for Deformable Object Manipulations with Tools ( http://arxiv.org/abs/2203.17275v1 )

ライセンス: CC0 1.0
Xingyu Lin, Zhiao Huang, Yunzhu Li, Joshua B. Tenenbaum, David Held, Chuang Gan(参考訳) ツールを用いた変形可能な物体の逐次ロボット操作の問題点を考察する。 従来の研究では、微分可能な物理シミュレータが環境状態の勾配を提供し、変形可能なオブジェクト操作のためのモデルなし強化学習アルゴリズムよりもはるかに高速に軌道の最適化を支援することが示されている。 しかし、勾配に基づく軌道最適化は通常、完全なシミュレータ状態へのアクセスを必要とし、局所最適による短水平単スキルタスクのみを解くことができる。 そこで本研究では,技術抽象化のための微分可能な物理シミュレータを用いて,知覚観察から長方形変形可能な物体操作タスクを解決するための新しいフレームワークdiffskillを提案する。 特に,微分可能シミュレータの完全な状態情報を用いて,勾配に基づくオプティマイザから個々のツールを用いて,まず短距離スキルを取得し,次にRGBD画像を入力とする実演軌跡からニューラルスキル抽象体を学習する。 最後に、中間目標を見つけ、それから長距離タスクを解くことで、スキルを計画する。 本手法は,従来の強化学習アルゴリズムと比較し,軌道オプティマイザと比較して,逐次変形可能なオブジェクト操作タスクの利点を示す。

We consider the problem of sequential robotic manipulation of deformable objects using tools. Previous works have shown that differentiable physics simulators provide gradients to the environment state and help trajectory optimization to converge orders of magnitude faster than model-free reinforcement learning algorithms for deformable object manipulation. However, such gradient-based trajectory optimization typically requires access to the full simulator states and can only solve short-horizon, single-skill tasks due to local optima. In this work, we propose a novel framework, named DiffSkill, that uses a differentiable physics simulator for skill abstraction to solve long-horizon deformable object manipulation tasks from sensory observations. In particular, we first obtain short-horizon skills using individual tools from a gradient-based optimizer, using the full state information in a differentiable simulator; we then learn a neural skill abstractor from the demonstration trajectories which takes RGBD images as input. Finally, we plan over the skills by finding the intermediate goals and then solve long-horizon tasks. We show the advantages of our method in a new set of sequential deformable object manipulation tasks compared to previous reinforcement learning algorithms and compared to the trajectory optimizer.
翻訳日:2022-04-01 15:39:08 公開日:2022-03-31
# specgrad: 拡散確率モデルに基づく適応型雑音スペクトル整形型ニューラルボコーダ

SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping ( http://arxiv.org/abs/2203.16749v1 )

ライセンス: Link先を確認
Yuma Koizumi and Heiga Zen and Kohei Yatabe and Nanxin Chen and Michiel Bacchiani(参考訳) denoising diffusion probabilistic model (ddpm) を用いたニューラルボコーダは, 拡散雑音分布を与えられた音響特性に適応することにより改善されている。 本研究では,スペクトル包絡が条件付き対数メル分光図に近いように拡散雑音を適応させるスペックグラードを提案する。 この時間変化フィルタリングによる適応は、特に高周波帯域における音質を向上させる。 従来のddpmベースのニューラルボコーダとほぼ同じ計算コストを維持するために、時間周波数領域で処理される。 実験結果から, SpecGrad は従来の DDPM ベースのニューラルボコーダよりも高忠実度音声波形を生成することがわかった。 オーディオデモはwavegrad.github.io/s pecgrad/で見ることができる。

Neural vocoder using denoising diffusion probabilistic model (DDPM) has been improved by adaptation of the diffusion noise distribution to given acoustic features. In this study, we propose SpecGrad that adapts the diffusion noise so that its time-varying spectral envelope becomes close to the conditioning log-mel spectrogram. This adaptation by time-varying filtering improves the sound quality especially in the high-frequency bands. It is processed in the time-frequency domain to keep the computational cost almost the same as the conventional DDPM-based neural vocoders. Experimental results showed that SpecGrad generates higher-fidelity speech waveform than conventional DDPM-based neural vocoders in both analysis-synthesis and speech enhancement scenarios. Audio demos are available at wavegrad.github.io/s pecgrad/.
翻訳日:2022-04-01 15:18:23 公開日:2022-03-31
# 集合に基づく多目的ベイズ最適化を用いた風力発電レイアウト最適化

Wind Farm Layout Optimisation using Set Based Multi-objective Bayesian Optimisation ( http://arxiv.org/abs/2203.17065v1 )

ライセンス: Link先を確認
Tinkle Chugh and Endi Ymeraj(参考訳) 風力エネルギーは最もクリーンな再生可能エネルギー源の1つであり、気候変動の課題に対応するのに役立つ。 風力発電の欠点の1つは風力発電所を設置するために必要な広い空間である。これは限られた地域に風力タービンを置くことが生産性を阻害し、経済的に便利ではないという事実から生じる。 これは自然に最適化問題につながり、(1)複数の矛盾する目的(2)計算コストのかかるシミュレーションモデル、(3)設計ベクトルではなく設計集合の最適化という3つの課題がある。 第1および第2の課題は、例えば\ bayesian multi-objective optimization(英語版)のようなsurrogateの支援によって解決できる。 しかし、問題の最適化関数は設計ベクトルではなく設計集合に依存するため、伝統的なベイズ最適化は適用できない。 本稿では,風力発電レイアウト問題の解法として,ベイズ多目的最適化の適用性を拡張した。 ガウス過程におけるセットベースのカーネルを用いて風力発電所(タービンの数が異なる)間の相関を定量化する。 風力エネルギーと方向の与えられたデータセットの結果は、セットベースベイズ多目的最適化の可能性を明らかに示している。

Wind energy is one of the cleanest renewable electricity sources and can help in addressing the challenge of climate change. One of the drawbacks of wind-generated energy is the large space necessary to install a wind farm; this arises from the fact that placing wind turbines in a limited area would hinder their productivity and therefore not be economically convenient. This naturally leads to an optimisation problem, which has three specific challenges: (1) multiple conflicting objectives (2) computationally expensive simulation models and (3) optimisation over design sets instead of design vectors. The first and second challenges can be addressed by using surrogate-assisted e.g.\ Bayesian multi-objective optimisation. However, the traditional Bayesian optimisation cannot be applied as the optimisation function in the problem relies on design sets instead of design vectors. This paper extends the applicability of Bayesian multi-objective optimisation to set based optimisation for solving the wind farm layout problem. We use a set-based kernel in Gaussian process to quantify the correlation between wind farms (with a different number of turbines). The results on the given data set of wind energy and direction clearly show the potential of using set-based Bayesian multi-objective optimisation.
翻訳日:2022-04-01 15:18:12 公開日:2022-03-31
# レーン検出モデルのための駆動指向計測法の開発

Towards Driving-Oriented Metric for Lane Detection Models ( http://arxiv.org/abs/2203.16851v1 )

ライセンス: Link先を確認
Takami Sato and Qi Alfred Chen(参考訳) 2017年のTuSimple Lane Detection Challengeの後、そのデータセットと精度とF1スコアに基づく評価が、車線検出手法の性能を測定するデファクトスタンダードになっている。 レーン検出法の性能向上に大きな役割を果たしてきたが,下流課題における評価手法の有効性は十分に研究されていない。 本研究では、車線検出のための2つの新しい駆動指向メトリクスを設計する: エンド・トゥ・エンド横方向偏差距離(E2E-LD)は、車線検出のコアダウンストリームタスクである自律走行の要求に基づいて直接定式化される; Per-frame Simulated Lateral偏差距離(PSLD)はE2E-LDの軽量サロゲート距離である。 提案手法の有効性を評価するため,TuSimpleデータセットと新たに構築したComma2k19-LDの4種類のレーン検出手法を用いて大規模実験を行った。 以上の結果から,従来の指標はE2E-LDと強く負の相関関係(\leq$-0.55)を持つことが明らかとなった。 自動運転は安全・安全・クリティカルなシステムであるため、ロバスト性の過小評価は実用的な車線検出モデルの健全な開発を妨げる。 今回の研究は,車線検出のための下流のタスクアウェア評価を,コミュニティがより達成できることを願っています。

After the 2017 TuSimple Lane Detection Challenge, its dataset and evaluation based on accuracy and F1 score have become the de facto standard to measure the performance of lane detection methods. While they have played a major role in improving the performance of lane detection methods, the validity of this evaluation method in downstream tasks has not been adequately researched. In this study, we design 2 new driving-oriented metrics for lane detection: End-to-End Lateral Deviation metric (E2E-LD) is directly formulated based on the requirements of autonomous driving, a core downstream task of lane detection; Per-frame Simulated Lateral Deviation metric (PSLD) is a lightweight surrogate metric of E2E-LD. To evaluate the validity of the metrics, we conduct a large-scale empirical study with 4 major types of lane detection approaches on the TuSimple dataset and our newly constructed dataset Comma2k19-LD. Our results show that the conventional metrics have strongly negative correlations ($\leq$-0.55) with E2E-LD, meaning that some recent improvements purely targeting the conventional metrics may not have led to meaningful improvements in autonomous driving, but rather may actually have made it worse by overfitting to the conventional metrics. As autonomous driving is a security/safety-crit ical system, the underestimation of robustness hinders the sound development of practical lane detection models. We hope that our study will help the community achieve more downstream task-aware evaluations for lane detection.
翻訳日:2022-04-01 15:17:29 公開日:2022-03-31
# 音声音声コーデックス:再合成による音声音声強調の再考

Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis ( http://arxiv.org/abs/2203.17263v1 )

ライセンス: Link先を確認
Karren Yang, Dejan Markovic, Steven Krenn, Vasu Agrawal, Alexander Richard(参考訳) 唇の動きのような顔の動きは、音声の内容に関する重要な情報を含んでいるため、音声視覚音声強調法が音声のみのものよりも正確であることは驚くべきことではない。 しかし、最先端のアプローチは、音のアーチファクトや不自然な歪みを伴わずにクリーンで現実的な音声を生成するのに苦戦している。 本稿では,AR/VRにおける高忠実度通信のための新しい音声視覚音声強調フレームワークを提案する。 ニューラル音声コーデックのコードを生成するために音声-視覚音声キューを活用し,ノイズ信号からクリーンでリアルな音声を効率的に合成する。 音声における話者固有の手がかりの重要性を考えると,個別話者に適したパーソナライズされたモデルの開発に注力する。 本研究では,既存の音声・視覚データセットと同様に,制約のない大語彙で収集した新たな音声・視覚音声データセットに対する提案手法の有効性を実証し,定量的指標と人的評価研究の両方において,音声強調基準を上回った。 質的な結果の補足ビデオはhttps://github.com/f acebookresearch/face star/releases/downlo ad/paper_ Materialss/video.mp4 でご覧ください。

Since facial actions such as lip movements contain significant information about speech content, it is not surprising that audio-visual speech enhancement methods are more accurate than their audio-only counterparts. Yet, state-of-the-art approaches still struggle to generate clean, realistic speech without noise artifacts and unnatural distortions in challenging acoustic environments. In this paper, we propose a novel audio-visual speech enhancement framework for high-fidelity telecommunications in AR/VR. Our approach leverages audio-visual speech cues to generate the codes of a neural speech codec, enabling efficient synthesis of clean, realistic speech from noisy signals. Given the importance of speaker-specific cues in speech, we focus on developing personalized models that work well for individual speakers. We demonstrate the efficacy of our approach on a new audio-visual speech dataset collected in an unconstrained, large vocabulary setting, as well as existing audio-visual datasets, outperforming speech enhancement baselines on both quantitative metrics and human evaluation studies. Please see the supplemental video for qualitative results at https://github.com/f acebookresearch/face star/releases/downlo ad/paper_materials/v ideo.mp4.
翻訳日:2022-04-01 15:17:00 公開日:2022-03-31
# MyStyle: パーソナライズされた生成プリミティブ

MyStyle: A Personalized Generative Prior ( http://arxiv.org/abs/2203.17272v1 )

ライセンス: Link先を確認
Yotam Nitzan, Kfir Aberman, Qiurui He, Orly Liba, Michal Yarom, Yossi Gandelsman, Inbar Mosseri, Yael Pritch, Daniel Cohen-or(参考訳) MyStyleはパーソナライズされたディープジェネレーティブで、個人の数枚のショットで訓練される。 mystyleは特定の人物の画像を再構築し、強化し、編集することができるので、出力は人の重要な顔特性に忠実である。 人物の肖像画の小さな参照セット(〜100)が与えられた場合、トレーニング済みのStyleGANフェイスジェネレータの重量を調整し、潜在空間内の局所的で低次元のパーソナライズされた多様体を形成する。 この多様体は、個人の多様なポートレート画像に関連付けられた潜在コードにまたがるパーソナライズされた領域を構成する。 さらに, 個人化された生成先行情報を取得し, インペイントや高解像度化, セマンティック編集など, 様々な不適切な画像強調問題に適用するための統一的なアプローチを提案する。 このパーソナライズされた生成前処理を用いて、入力画像に対して高い忠実度を示し、参照セット内の個人の重要な顔特性に忠実な出力を得る。 提案手法は,期待された結果の質的評価に先立つ知識を持つ多くの広く認識可能な人物のフェアユース画像を用いて実証する。 我々のアプローチは、数ショットベースラインに対して評価し、我々のパーソナライズされた先行的、定量的、質的に、最先端の代替手段よりも優れています。

We introduce MyStyle, a personalized deep generative prior trained with a few shots of an individual. MyStyle allows to reconstruct, enhance and edit images of a specific person, such that the output is faithful to the person's key facial characteristics. Given a small reference set of portrait images of a person (~100), we tune the weights of a pretrained StyleGAN face generator to form a local, low-dimensional, personalized manifold in the latent space. We show that this manifold constitutes a personalized region that spans latent codes associated with diverse portrait images of the individual. Moreover, we demonstrate that we obtain a personalized generative prior, and propose a unified approach to apply it to various ill-posed image enhancement problems, such as inpainting and super-resolution, as well as semantic editing. Using the personalized generative prior we obtain outputs that exhibit high-fidelity to the input images and are also faithful to the key facial characteristics of the individual in the reference set. We demonstrate our method with fair-use images of numerous widely recognizable individuals for whom we have the prior knowledge for a qualitative evaluation of the expected outcome. We evaluate our approach against few-shots baselines and show that our personalized prior, quantitatively and qualitatively, outperforms state-of-the-art alternatives.
翻訳日:2022-04-01 15:15:18 公開日:2022-03-31
# 楕円型pdes解のためのニューラルq学習

Neural Q-learning for solving elliptic PDEs ( http://arxiv.org/abs/2203.17128v1 )

ライセンス: Link先を確認
Samuel N. Cohen and Deqing Jiang and Justin Sirignano(参考訳) 高次元偏微分方程式(PDE)を解くことは、科学計算における大きな課題である。 強化学習におけるq学習アルゴリズムを適用し,楕円型pdesの解法を新たに開発した。 我々のQ-PDEアルゴリズムはメッシュフリーであり、従って次元の呪いを克服する可能性がある。 ニューラル・タンジェント・カーネル(NTK)アプローチを用いて、Q-PDEアルゴリズムで訓練されたPDE解のニューラルネットワーク近似器が、無限次元常微分方程式(ODE)の軌道に、隠蔽単位$\rightarrow \infty$の個数として収束することを証明する。 NTK のスペクトルギャップが欠如しているにもかかわらず、単調な PDE に対して、無限次元ODE を満たす極限ニューラルネットワークは、トレーニング時間 $\rightarrow \infty$ として PDE の解に$L^2$ で収束することが証明される。 より一般的には、Q-PDEアルゴリズムのワイドネットワーク極限の任意の固定点がPDEの解であることを証明することができる(必ずしも単調な条件でではない)。 楕円型PDEに対するQ-PDEアルゴリズムの数値計算性能について検討した。

Solving high-dimensional partial differential equations (PDEs) is a major challenge in scientific computing. We develop a new numerical method for solving elliptic-type PDEs by adapting the Q-learning algorithm in reinforcement learning. Our "Q-PDE" algorithm is mesh-free and therefore has the potential to overcome the curse of dimensionality. Using a neural tangent kernel (NTK) approach, we prove that the neural network approximator for the PDE solution, trained with the Q-PDE algorithm, converges to the trajectory of an infinite-dimensional ordinary differential equation (ODE) as the number of hidden units $\rightarrow \infty$. For monotone PDE (i.e. those given by monotone operators, which may be nonlinear), despite the lack of a spectral gap in the NTK, we then prove that the limit neural network, which satisfies the infinite-dimensional ODE, converges in $L^2$ to the PDE solution as the training time $\rightarrow \infty$. More generally, we can prove that any fixed point of the wide-network limit for the Q-PDE algorithm is a solution of the PDE (not necessarily under the monotone condition). The numerical performance of the Q-PDE algorithm is studied for several elliptic PDEs.
翻訳日:2022-04-01 15:14:37 公開日:2022-03-31
# グラフネットワークを用いた初期核融合モデルによる相似ミーム検出

Misogynistic Meme Detection using Early Fusion Model with Graph Network ( http://arxiv.org/abs/2203.16781v1 )

ライセンス: Link先を確認
Harshvardhan Srivastava(参考訳) 近年,ミームと呼ばれる新しいエンターテイメントメディアが急増している。 これらのミームは一見無害に見えるものの、女性に対するオンラインハラスメントの境界を超え、彼らに対する望ましくない偏見を生み出した。 本稿では,この問題を緩和するために,SemEval-2022 Task 5 に参画した擬似的ミームとそのタイプを予測・同定するための早期融合モデルを提案する。 モデルは、対象ベクトルによるテキスト転写を伴う入力ミーム画像として受信する。 この課題の重要な課題は、ミソジニーを予測するための異なるモダリティの組み合わせであることを考えると、このモデルは、さまざまな最先端トランスフォーマーベースの言語モデルと、効果的な画像表現を得るために訓練済みイメージプリトレーニングモデルからの事前学習されたコンテキスト表現に依存している。 我々のモデルは、他の競争チームとSubTask-AとSubTask-Bの双方で競合し、ベースラインを大幅に上回っている。

In recent years , there has been an upsurge in a new form of entertainment medium called memes. These memes although seemingly innocuous have transcended onto the boundary of online harassment against women and created an unwanted bias against them . To help alleviate this problem , we propose an early fusion model for prediction and identification of misogynistic memes and its type in this paper for which we participated in SemEval-2022 Task 5 . The model receives as input meme image with its text transcription with a target vector. Given that a key challenge with this task is the combination of different modalities to predict misogyny, our model relies on pretrained contextual representations from different state-of-the-art transformer-based language models and pretrained image pretrained models to get an effective image representation. Our model achieved competitive results on both SubTask-A and SubTask-B with the other competition teams and significantly outperforms the baselines.
翻訳日:2022-04-01 15:13:51 公開日:2022-03-31
# 会話における感情認識のための談話認識シーケンス学習アプローチ

A Discourse Aware Sequence Learning Approach for Emotion Recognition in Conversations ( http://arxiv.org/abs/2203.16799v1 )

ライセンス: Link先を確認
Sreyan Ghosh, Harshvardhan Srivastava and S. Umesh(参考訳) 感情の表現は人間の日常コミュニケーションの重要な部分である。 会話とシーケンシャルな文脈のモデリングは成功し、会話における感情認識(ERC)において重要な役割を果たす。 しかし、既存のアプローチは2つのうちの1つしかモデル化せず、最終的な発話表現を得るために単純なレイトフュージョン手法を用いている。 本稿では,これらの文脈を取り入れ,会話内の内在的構造をより良くモデル化する新しいアイデアを提案する。 より正確には、DCDLSTMと呼ばれる改良LSTMセルによって強化された新しいアーキテクチャを提案し、会話コンテキストとシーケンシャルコンテキストの相互作用をよりよくキャプチャする。 disclstmは、両方の世界のベストをまとめ、会話関係を通じて長距離会話の背景をよりよく捉え、繰り返しを通じてシーケンシャルなコンテキストを捉えることにより、個々の発話間の情報フローをより直感的で効率的な方法でモデル化する。 ERCのための4つのベンチマークデータセットの実験を行い、我々のモデルが最先端と競合する性能を達成し、時には他の文献のグラフベースのアプローチよりも優れた性能を発揮することを示す。 すべてのコードをgithubで公開しています。

The expression of emotions is a crucial part of daily human communication. Modeling the conversational and sequential context has seen much success and plays a vital role in Emotion Recognition in Conversations (ERC). However, existing approaches either model only one of the two or employ naive late-fusion methodologies to obtain final utterance representations. This paper proposes a novel idea to incorporate both these contexts and better model the intrinsic structure within a conversation. More precisely, we propose a novel architecture boosted by a modified LSTM cell, which we call DiscLSTM, that better captures the interaction between conversational and sequential context. DiscLSTM brings together the best of both worlds and provides a more intuitive and efficient way to model the information flow between individual utterances by better capturing long-distance conversational background through discourse relations and sequential context through recurrence. We conduct experiments on four benchmark datasets for ERC and show that our model achieves performance competitive to state-of-the-art and at times performs better than other graph-based approaches in literature, with a conversational graph that is both sparse and avoids complicated edge relations like much of previous work. We make all our codes publicly available on GitHub.
翻訳日:2022-04-01 15:11:23 公開日:2022-03-31
# PANGUBOT: 事前学習言語モデルからの効率的な生成対話事前学習

PANGUBOT: Efficient Generative Dialogue Pre-training from Pre-trained Language Model ( http://arxiv.org/abs/2203.17090v1 )

ライセンス: Link先を確認
Fei Mi, Yitong Li, Yulong Zeng, Jingyan Zhou, Yasheng Wang, Chuanfei Xu, Lifeng Shang, Xin Jiang, Shiqi Zhao, Qun Liu(参考訳) 本稿では,PLM(PLM)PANGU-alpha (Zeng et al.,2021)に基づく中国語の事前学習型オープンドメイン対話モデルであるPANGUBOTを紹介する。 大量の対話データをスクラッチから学習した他の事前学習対話モデルと異なり、PLMから貴重な言語能力と知識を継承することにより、比較的少ないデータと計算コストで強力な対話モデルを構築することを目指している。 この目的のために,中国における多種多様な自然言語タスクにおいて良好に機能することが証明されたPLM PANGU-alphaからPANGUBOTを訓練する。 応答品質,知識,安全性など,PANGUBOTが生み出す応答のさまざまな側面について検討する。 PANGUBOTは現状の中国語対話システム(CDIALGPT(Wang et al., 2020), EVA(Zhou et al., 2021)より優れており、上述の3つの側面に優れる。 また,PANGUBOTは,さらなるトレーニングを行なわずに感情的な反応を生成できることを示した。 経験的分析を通じて,パングボットの応答品質,知識の正確性,安全性はいまだに完璧ではないことを指摘し,信頼性とスマートな対話システムの構築にはさらなる探索が不可欠である。

In this paper, we introduce PANGUBOT, a Chinese pre-trained open-domain dialogue generation model based on a large pre-trained language model (PLM) PANGU-alpha (Zeng et al.,2021). Different from other pre-trained dialogue models trained over a massive amount of dialogue data from scratch, we aim to build a powerful dialogue model with relatively fewer data and computation costs by inheriting valuable language capabilities and knowledge from PLMs. To this end, we train PANGUBOT from the large PLM PANGU-alpha, which has been proven well-performed on a variety of Chinese natural language tasks. We investigate different aspects of responses generated by PANGUBOT, including response quality, knowledge, and safety. We show that PANGUBOT outperforms state-of-the-art Chinese dialogue systems (CDIALGPT (Wang et al., 2020), EVA (Zhou et al., 2021)) w.r.t. the above three aspects. We also demonstrate that PANGUBOT can be easily deployed to generate emotional responses without further training. Throughout our empirical analysis, we also point out that the PANGUBOT response quality, knowledge correctness, and safety are still far from perfect, and further explorations are indispensable to building reliable and smart dialogue systems.
翻訳日:2022-04-01 15:11:01 公開日:2022-03-31
# 情報理論レンズによるラップアップ効果の解析

Analyzing Wrap-Up Effects through an Information-Theoreti c Lens ( http://arxiv.org/abs/2203.17213v1 )

ライセンス: Link先を確認
Clara Meister and Tiago Pimentel and Thomas Hikaru Clark and Ryan Cotterell and Roger Levy(参考訳) 読解時間(RT)データの多種多様な分析が実施されており、読解理解を促進する認知過程の理解を深めている。しかし、文の末尾で測定されたデータは、いわゆる「ラップアップ・エフェクト(wrap-up effect)」によって引き起こされる要因のため、しばしば省略される。これはこれらの単語に対するRTのスキュード分布として表される。 したがって、これらの包み込み効果にかかわる認知過程の理解は限られている。 本研究では,これらのプロセスについて,単語や文脈の前提など,ラップアップ効果と情報理論量との関係について検討する。 先行する文脈における情報の分布は、多くの場合、文末rtsと節末rts(文中rtsではない)の予測である。 これにより、ラップアップ効果に関わるプロセスに関するいくつかの先行仮説が支持される。

Numerous analyses of reading time (RT) data have been implemented -- all in an effort to better understand the cognitive processes driving reading comprehension. However, data measured on words at the end of a sentence -- or even at the end of a clause -- is often omitted due to the confounding factors introduced by so-called "wrap-up effects," which manifests as a skewed distribution of RTs for these words. Consequently, the understanding of the cognitive processes that might be involved in these wrap-up effects is limited. In this work, we attempt to learn more about these processes by examining the relationship between wrap-up effects and information-theoreti c quantities, such as word and context surprisals. We find that the distribution of information in prior contexts is often predictive of sentence- and clause-final RTs (while not of sentence-medial RTs). This lends support to several prior hypotheses about the processes involved in wrap-up effects.
翻訳日:2022-04-01 15:10:36 公開日:2022-03-31
# 言語生成における確率品質パラドックスについて

On the probability-quality paradox in language generation ( http://arxiv.org/abs/2203.17217v1 )

ライセンス: Link先を確認
Clara Meister and Gian Wiher and Tiago Pimentel and Ryan Cotterell(参考訳) ニューラル確率論的モデルから自然言語を生成するとき、高い確率は必ずしも高い品質に一致するとは限らない: モード探索復号法、すなわちモデルの下で高確率テキストを生成するものは、不自然な言語をもたらすことがしばしば観察されている。 一方,確率的手法によって生成された低確率テキストは,より人間的と考えられる。 本稿では,情報理論レンズを用いて言語生成を分析することにより,この現象を説明する。 具体的には、自然文字列の分布のエントロピーに近い情報量(負のログ確率として定量化される)を含むべきだと仮定する。 さらに、より多く(または少ない)情報を持つ言語は望ましくないと仮定する。 複数のタスクと一般的なデコード戦略をカバーする、人間と機械が生成したテキストの品質評価は、高い品質のテキストが、偶然よりもエントロピーにかなり近い情報コンテンツを持っていることを示唆している。

When generating natural language from neural probabilistic models, high probability does not always coincide with high quality: It has often been observed that mode-seeking decoding methods, i.e., those that produce high-probability text under the model, lead to unnatural language. On the other hand, the lower-probability text generated by stochastic methods is perceived as more human-like. In this note, we offer an explanation for this phenomenon by analyzing language generation through an information-theoreti c lens. Specifically, we posit that human-like language should contain an amount of information (quantified as negative log-probability) that is close to the entropy of the distribution over natural strings. Further, we posit that language with substantially more (or less) information is undesirable. We provide preliminary empirical evidence in favor of this hypothesis; quality ratings of both human and machine-generated text -- covering multiple tasks and common decoding strategies -- suggest high-quality text has an information content significantly closer to the entropy than we would expect by chance.
翻訳日:2022-04-01 15:10:21 公開日:2022-03-31
# リッチ属性を用いたパーソナライズド画像美学評価

Personalized Image Aesthetics Assessment with Rich Attributes ( http://arxiv.org/abs/2203.16754v1 )

ライセンス: Link先を確認
Yuzhe Yang, Liwu Xu, Leida Li, Nan Qie, Yaqian Li, Peng Zhang, Yandong Guo(参考訳) パーソナライズドイメージ美学アセスメント(PIAA)は、その主観性が高いため困難である。 人の美的嗜好は、画像の特徴や被写体文字を含む多様な要素に依存する。 既存のPIAAデータベースは、アノテーションの多様性、特に、PIAA研究の増大する要求を満たすことができない主題の観点から制限されている。 このジレンマを解決するために,これまでに,パーソナライズされた画像美学の最も包括的な主観的研究を行い,31,220枚の画像に注釈を付した,リッチ属性(para)のパーソナライズされた画像美学データベースを438名導入した。 PARAは、9つの画像指向の目的属性と4つの人間指向の主観的属性を含む、リッチなアノテーションを備えている。 また、PIAAやユーザ・ポートレートの研究を支援するために、人格特性などの脱感作情報も提供される。 アノテーションデータの包括的分析を行い、統計的研究により、美的嗜好を主観的属性によって反映できることを示す。 また,条件付きpiaaを条件付きプリミティブとして用いることにより,条件付きpiaaモデルを提案する。 実験の結果,条件付きpiaaモデルは制御群よりも優れており,画像美学と被写体キャラクタの相互作用が画像美学において複雑にパーソナライズされた嗜好を生み出すことを示す最初の試みでもある。 データベースと関連する分析は,次世代PIAA研究の実施に有用であると考えられる。 PARAのプロジェクトページは、https://cv-datasets. institutecv.com/#/da ta-setsにある。

Personalized image aesthetics assessment (PIAA) is challenging due to its highly subjective nature. People's aesthetic tastes depend on diversified factors, including image characteristics and subject characters. The existing PIAA databases are limited in terms of annotation diversity, especially the subject aspect, which can no longer meet the increasing demands of PIAA research. To solve the dilemma, we conduct so far, the most comprehensive subjective study of personalized image aesthetics and introduce a new Personalized image Aesthetics database with Rich Attributes (PARA), which consists of 31,220 images with annotations by 438 subjects. PARA features wealthy annotations, including 9 image-oriented objective attributes and 4 human-oriented subjective attributes. In addition, desensitized subject information, such as personality traits, is also provided to support study of PIAA and user portraits. A comprehensive analysis of the annotation data is provided and statistic study indicates that the aesthetic preferences can be mirrored by proposed subjective attributes. We also propose a conditional PIAA model by utilizing subject information as conditional prior. Experimental results indicate that the conditional PIAA model can outperform the control group, which is also the first attempt to demonstrate how image aesthetics and subject characters interact to produce the intricate personalized tastes on image aesthetics. We believe the database and the associated analysis would be useful for conducting next-generation PIAA study. The project page of PARA can be found at: https://cv-datasets. institutecv.com/#/da ta-sets.
翻訳日:2022-04-01 15:04:55 公開日:2022-03-31
# スケルトンに基づく行動認識のための時空間焦点

SpatioTemporal Focus for Skeleton-based Action Recognition ( http://arxiv.org/abs/2203.16767v1 )

ライセンス: Link先を確認
Liyu Wu, Can Zhang, Yuexian Zou(参考訳) グラフ畳み込みネットワーク(gcns)は、データトポロジーをモデル化する能力があるため、スケルトンベースの行動認識に広く採用されている。 近年提案されたスケルトンに基づく行動認識手法の性能は,以下の要因によって制限されている。 まず、事前に定義されたグラフ構造はネットワーク全体で共有され、マルチグリッドの意味情報をモデル化する柔軟性と能力に欠ける。 第2に、グローバルジョイント間の関係はグラフ局所畳み込みによって完全には利用されず、暗黙のジョイント関係を失う可能性がある。 例えば、走ったり振ったりといった動作は、体の一部や関節、例えば脚や腕の協調動作によって行われるが、それらは物理的に遠く離れている。 近年の注目機構に着想を得て,動作関連関係情報を身体関節や部分から収集するマルチグラインド・コンテキスト・フォーカス・モジュール MCF を提案する。 その結果、異なるスケルトンアクションシーケンスに対するより説明可能な表現がmcfによって得られる。 本研究では,入力スケルトン配列の密集したサンプル戦略が採用され,インスタンス数が動作と無関係であることから冗長性が高まるという一般的な手法に従う。 冗長性を低減するために,tdfと呼ばれる時間的識別焦点モジュールを開発し,時間的ダイナミクスの局所的感度点を捉える。 MCFとTDFは標準のGCNネットワークに統合され、STF-Netと呼ばれる統一アーキテクチャを形成する。 stf-netは、多面的コンテキストアグリゲーションと時間的依存性に基づいて、これらの骨格トポロジ構造からロバストな動きパターンをキャプチャする機能を提供する。 我々のSTF-Netは, NTU RGB+D 60, NTU RGB+D 120, Kinetics-skeletonの3つの挑戦的ベンチマークにおいて, 最先端の結果を著しく達成している。

Graph convolutional networks (GCNs) are widely adopted in skeleton-based action recognition due to their powerful ability to model data topology. We argue that the performance of recent proposed skeleton-based action recognition methods is limited by the following factors. First, the predefined graph structures are shared throughout the network, lacking the flexibility and capacity to model the multi-grain semantic information. Second, the relations among the global joints are not fully exploited by the graph local convolution, which may lose the implicit joint relevance. For instance, actions such as running and waving are performed by the co-movement of body parts and joints, e.g., legs and arms, however, they are located far away in physical connection. Inspired by the recent attention mechanism, we propose a multi-grain contextual focus module, termed MCF, to capture the action associated relation information from the body joints and parts. As a result, more explainable representations for different skeleton action sequences can be obtained by MCF. In this study, we follow the common practice that the dense sample strategy of the input skeleton sequences is adopted and this brings much redundancy since number of instances has nothing to do with actions. To reduce the redundancy, a temporal discrimination focus module, termed TDF, is developed to capture the local sensitive points of the temporal dynamics. MCF and TDF are integrated into the standard GCN network to form a unified architecture, named STF-Net. It is noted that STF-Net provides the capability to capture robust movement patterns from these skeleton topology structures, based on multi-grain context aggregation and temporal dependency. Extensive experimental results show that our STF-Net significantly achieves state-of-the-art results on three challenging benchmarks NTU RGB+D 60, NTU RGB+D 120, and Kinetics-skeleton.
翻訳日:2022-04-01 15:04:29 公開日:2022-03-31
# ViSTA: クロスモーダル検索のための視覚とシーンテキストアグリゲーション

ViSTA: Vision and Scene Text Aggregation for Cross-Modal Retrieval ( http://arxiv.org/abs/2203.16778v1 )

ライセンス: Link先を確認
Mengjun Cheng, Yipeng Sun, Longchao Wang, Xiongwei Zhu, Kun Yao, Jie Chen, Guoli Song, Junyu Han, Jingtuo Liu, Errui Ding, Jingdong Wang(参考訳) 視覚的な外観は、クロスモーダル検索のための画像を理解する上で最も重要な手がかりであると考えられているが、画像に現れるシーンテキストは、視覚の意味を理解する上で貴重な情報を提供することがある。 既存のクロスモーダル検索手法のほとんどはシーンテキスト情報の利用を無視しており、直接追加することでシーンテキストフリーシナリオのパフォーマンスが低下する可能性がある。 この問題に対処するために、これらのクロスモーダル検索シナリオを単一の$\textbf{Vi}$sionと$\textbf{S}$cene $\textbf{T}$ext $\textbf{A}$ggregation framework (ViSTA)で統一するフルトランスフォーマーアーキテクチャを提案する。 具体的には、トランスフォーマーブロックを使用して、画像パッチを直接エンコードし、シーンテキストを埋め込むことで、クロスモーダル検索のための集約された視覚表現を学習する。 シーンテキストのモダリティを欠く問題に対処するため,新たな融合トークンベースのトランスフォーマー集約手法を提案し,融合トークンを介して必要なシーンテキスト情報を交換し,各モードにおける最も重要な特徴に集中する。 視覚モダリティをさらに強化するため、画像-テキストペアと融合-テキストペアの両方を共通のクロスモーダル空間に埋め込むために、2つのコントラスト学習損失を開発する。 既存の手法と比較して、ViSTAは関連するシーンテキストセマンティクスを視覚的外観で集約し、シーンテキストフリーとシーンテキストアウェアメントの両方のシナリオで結果を改善することができる。 実験の結果、vistaはシーンテキスト認識検索タスクのrecall@1で少なくとも$\bf{8.4}\%$で他のメソッドよりも優れていた。 最先端のシーンテキスト検索手法と比較して,提案手法の有効性を検証した推論段階では,少なくとも3倍高速に動作しながら,Flicker30K と MSCOCO の精度が向上する。

Visual appearance is considered to be the most important cue to understand images for cross-modal retrieval, while sometimes the scene text appearing in images can provide valuable information to understand the visual semantics. Most of existing cross-modal retrieval approaches ignore the usage of scene text information and directly adding this information may lead to performance degradation in scene text free scenarios. To address this issue, we propose a full transformer architecture to unify these cross-modal retrieval scenarios in a single $\textbf{Vi}$sion and $\textbf{S}$cene $\textbf{T}$ext $\textbf{A}$ggregation framework (ViSTA). Specifically, ViSTA utilizes transformer blocks to directly encode image patches and fuse scene text embedding to learn an aggregated visual representation for cross-modal retrieval. To tackle the modality missing problem of scene text, we propose a novel fusion token based transformer aggregation approach to exchange the necessary scene text information only through the fusion token and concentrate on the most important features in each modality. To further strengthen the visual modality, we develop dual contrastive learning losses to embed both image-text pairs and fusion-text pairs into a common cross-modal space. Compared to existing methods, ViSTA enables to aggregate relevant scene text semantics with visual appearance, and hence improve results under both scene text free and scene text aware scenarios. Experimental results show that ViSTA outperforms other methods by at least $\bf{8.4}\%$ at Recall@1 for scene text aware retrieval task. Compared with state-of-the-art scene text free retrieval methods, ViSTA can achieve better accuracy on Flicker30K and MSCOCO while running at least three times faster during the inference stage, which validates the effectiveness of the proposed framework.
翻訳日:2022-04-01 15:03:56 公開日:2022-03-31
# 野生における効率的な舗装距離検出・認識のためのパッチラベル推論ネットワーク

Weakly Supervised Patch Label Inference Networks for Efficient Pavement Distress Detection and Recognition in the Wild ( http://arxiv.org/abs/2203.16782v1 )

ライセンス: Link先を確認
Sheng Huang and Wenhao Tang and Guixin Huang and Luwen Huangfu and Dan Yang(参考訳) 自動的な画像ベース舗装災害検出と認識は、舗装維持と管理に不可欠である。 しかし,既存のディープ・ラーニング・ベースの手法は,高精細度や低救難面積比などの舗装画像の特徴をほとんど省略しており,エンドツーエンドの訓練ができない。 本稿では,Wakly Supervised Patch Label Inference Networks (WSPLIN) という,これらのタスクを様々なアプリケーション環境下で効率的に処理するための,シンプルで効果的なエンドツーエンドディープラーニング手法を提案する。 解像度とスケール情報をフル活用するために、WSPLINはまず異なるスケールの舗装画像を異なるコレクション戦略のパッチに分割し、次にパッチのラベルを推測するためにパッチラベル推論ネットワーク(PLIN)を使用する。 特に,難易度分布の事前知識に基づいてパッチラベルの空間性制約を設計し,包括的決定ネットワーク(CDN)を利用してPLINのトレーニングを弱教師付きで指導する。 したがって、PLINが生成するパッチラベルは、粗い位置や苦痛の種類などの解釈可能な中間情報を提供する。 本手法はCQU-BPDDという大規模舗装災害データセットを用いて評価した。 その結果,本手法は性能と効率の両方において,ベースラインよりも優れていることが示された。

Automatic image-based pavement distress detection and recognition are vital for pavement maintenance and management. However, existing deep learning-based methods largely omit the specific characteristics of pavement images, such as high image resolution and low distress area ratio, and are not end-to-end trainable. In this paper, we present a series of simple yet effective end-to-end deep learning approaches named Weakly Supervised Patch Label Inference Networks (WSPLIN) for efficiently addressing these tasks under various application settings. To fully exploit the resolution and scale information, WSPLIN first divides the pavement image under different scales into patches with different collection strategies and then employs a Patch Label Inference Network (PLIN) to infer the labels of these patches. Notably, we design a patch label sparsity constraint based on the prior knowledge of distress distribution, and leverage the Comprehensive Decision Network (CDN) to guide the training of PLIN in a weakly supervised way. Therefore, the patch labels produced by PLIN provide interpretable intermediate information, such as the rough location and the type of distress. We evaluate our method on a large-scale bituminous pavement distress dataset named CQU-BPDD. Extensive results demonstrate the superiority of our method over baselines in both performance and efficiency.
翻訳日:2022-04-01 15:03:15 公開日:2022-03-31
# 微分弱時間アライメントによるビデオテキスト表現学習

Video-Text Representation Learning via Differentiable Weak Temporal Alignment ( http://arxiv.org/abs/2203.16784v1 )

ライセンス: Link先を確認
Dohwan Ko, Joonmyung Choi, Juyeon Ko, Shinyeong Noh, Kyoung-Woon On, Eun-Sol Kim, Hyunwoo J. Kim(参考訳) 教師付き手法でビデオとテキストの汎用的な共同表現を学習するには、手動で注釈付けされたビデオデータセットの膨大な量が必要となる。 実用的な代替手段として、大規模だが未修正かつナレーション付きビデオデータセットであるHowTo100Mが最近導入された。 しかし、あいまいさと非順序的なアライメントのため、ビデオとテキストの共同埋め込みを自己管理的に学ぶことは依然として困難である。 本稿では,VT-TWINS(VT-TWINS)を用いて,動的時間ワープ(DTW)の変種を用いて,雑音や相関の弱いデータから重要な情報を抽出する手法を提案する。 標準DTWは本質的に相関の弱いデータを扱うことができず、グローバルな最適アライメントパスのみを考慮する。 これらの問題に対処するため,時間的アライメントの弱い局所情報を反映した微分可能DTWを開発した。 さらに,本モデルでは,弱相関データに対する特徴表現の学習に対比学習手法を適用する。 本稿では,VT-TWINSがマルチモーダル表現学習の大幅な改善を実現し,下流の課題に優れることを示す。 コードはhttps://github.com/m lvlab/VT-TWINSで入手できる。

Learning generic joint representations for video and text by a supervised method requires a prohibitively substantial amount of manually annotated video datasets. As a practical alternative, a large-scale but uncurated and narrated video dataset, HowTo100M, has recently been introduced. But it is still challenging to learn joint embeddings of video and text in a self-supervised manner, due to its ambiguity and non-sequential alignment. In this paper, we propose a novel multi-modal self-supervised framework Video-Text Temporally Weak Alignment-based Contrastive Learning (VT-TWINS) to capture significant information from noisy and weakly correlated data using a variant of Dynamic Time Warping (DTW). We observe that the standard DTW inherently cannot handle weakly correlated data and only considers the globally optimal alignment path. To address these problems, we develop a differentiable DTW which also reflects local information with weak temporal alignment. Moreover, our proposed model applies a contrastive learning scheme to learn feature representations on weakly correlated data. Our extensive experiments demonstrate that VT-TWINS attains significant improvements in multi-modal representation learning and outperforms various challenging downstream tasks. Code is available at https://github.com/m lvlab/VT-TWINS.
翻訳日:2022-04-01 15:02:55 公開日:2022-03-31
# (参考訳) Imitate and Repurpose: 人間と動物の行動から再利用可能なロボット運動スキルを学ぶ [全文訳有]

Imitate and Repurpose: Learning Reusable Robot Movement Skills From Human and Animal Behaviors ( http://arxiv.org/abs/2203.17138v1 )

ライセンス: CC BY 4.0
Steven Bohez, Saran Tunyasuvunakool, Philemon Brakel, Fereshteh Sadeghi, Leonard Hasenclever, Yuval Tassa, Emilio Parisotto, Jan Humplik, Tuomas Haarnoja, Roland Hafner, Markus Wulfmeier, Michael Neunert, Ben Moran, Noah Siegel, Andrea Huber, Francesco Romano, Nathan Batchelor, Federico Casarini, Josh Merel, Raia Hadsell, Nicolas Heess(参考訳) そこで本研究では,人間と動物の運動に関する事前知識を用いて,実足歩行ロボットの運動能力を学習する。 我々のアプローチは、人や犬のモーションキャプチャー(MoCap)データを模倣して、運動スキルモジュールを学ぶという以前の研究に基づいている。 学んだら、このスキルモジュールは複雑なダウンストリームタスクに再利用できる。 重要なことは、MoCapデータによって事前に課せられていたため、我々のアプローチは、再利用時に合理的で自然に見える振る舞いを生成するために、広範な報酬工学を必要としないことである。 これにより、実際のロボットへのデプロイに適した、適切に調整されたタスク指向のコントローラを簡単に作成できる。 我々は,我々のスキルモジュールを模倣に利用し,anymal quadrupedとop3 humanoidの両方の歩行およびボールドリブルポリシーをトレーニングできることを実証した。 これらのポリシーはゼロショットシミュレーションから現実への転送を通じてハードウェアにデプロイされる。 ビデオはhttps://bit.ly/robot -npmpで見ることができる。

We investigate the use of prior knowledge of human and animal movement to learn reusable locomotion skills for real legged robots. Our approach builds upon previous work on imitating human or dog Motion Capture (MoCap) data to learn a movement skill module. Once learned, this skill module can be reused for complex downstream tasks. Importantly, due to the prior imposed by the MoCap data, our approach does not require extensive reward engineering to produce sensible and natural looking behavior at the time of reuse. This makes it easy to create well-regularized, task-oriented controllers that are suitable for deployment on real robots. We demonstrate how our skill module can be used for imitation, and train controllable walking and ball dribbling policies for both the ANYmal quadruped and OP3 humanoid. These policies are then deployed on hardware via zero-shot simulation-to-realit y transfer. Accompanying videos are available at https://bit.ly/robot -npmp.
翻訳日:2022-04-01 15:00:20 公開日:2022-03-31
# 拡張SGDのための説明可能なメトリクスの爆発

Exploiting Explainable Metrics for Augmented SGD ( http://arxiv.org/abs/2203.16723v1 )

ライセンス: Link先を確認
Mahdi S. Hosseini and Mathieu Tuli and Konstantinos N. Plataniotis(参考訳) ディープラーニングの一般化特性を説明することは、高度な機械学習における新たなトピックである。 確率的最適化の下での学習が実際にどのように機能し、特定の戦略が他より優れているかについては、いくつかの未解決の疑問がある。 本稿では,ディープニューラルネットワークの中間層を探索して,各レイヤの学習品質を識別・定量化することができるか? この課題を念頭に置いて,ネットワーク層内の冗長情報を低ランク因子化フレームワークを用いて測定し,与えられた最適化器,ネットワーク,データセットの一般化性能と高い相関を持つ複雑性尺度を定量化する,新たな説明可能性指標を提案する。 その後,各層における学習速度を適応的に調整し,一般化性能を向上させることで,確率勾配降下(sgd)オプティマイザの強化を図る。 我々の拡張SGDは、RMSGDと呼ばれ、SOTA法と比較して最小限の計算オーバーヘッドを導入し、アプリケーション、アーキテクチャ、データセットにまたがる強力な一般化特性を示し、それらを上回ります。

Explaining the generalization characteristics of deep learning is an emerging topic in advanced machine learning. There are several unanswered questions about how learning under stochastic optimization really works and why certain strategies are better than others. In this paper, we address the following question: \textit{can we probe intermediate layers of a deep neural network to identify and quantify the learning quality of each layer?} With this question in mind, we propose new explainability metrics that measure the redundant information in a network's layers using a low-rank factorization framework and quantify a complexity measure that is highly correlated with the generalization performance of a given optimizer, network, and dataset. We subsequently exploit these metrics to augment the Stochastic Gradient Descent (SGD) optimizer by adaptively adjusting the learning rate in each layer to improve in generalization performance. Our augmented SGD -- dubbed RMSGD -- introduces minimal computational overhead compared to SOTA methods and outperforms them by exhibiting strong generalization characteristics across application, architecture, and dataset.
翻訳日:2022-04-01 14:15:04 公開日:2022-03-31
# 改良された分類のための3次および2次量子化

Ternary and Binary Quantization for Improved Classification ( http://arxiv.org/abs/2203.16798v1 )

ライセンス: Link先を確認
Weizhi Lu, Mingrui Chen, Kai Guo and Weiyu Li(参考訳) 次元の減少とデータの量子化は、データの複雑さを減らす2つの重要な方法である。 本稿では,まずランダムな投影によってデータ次元を減少させ,それから三進法や二進法への投影を定量化する手法について検討する。 通常、量子化は高い量子化誤差のため分類の精度を著しく低下させる。 興味深いことに、量子化されるデータは共通のフィルタで生成される特徴が乏しいため、量子化は同等でしばしば優れた精度を提供する可能性がある。 さらに、この量子化特性は、特徴量と乱射影行列が十分にスパースである場合、スパース特徴のランダム射影において維持することができる。 広範な実験を行うことで,この興味深い性質を検証し,分析する。

Dimension reduction and data quantization are two important methods for reducing data complexity. In the paper, we study the methodology of first reducing data dimension by random projection and then quantizing the projections to ternary or binary codes, which has been widely applied in classification. Usually, the quantization will seriously degrade the accuracy of classification due to high quantization errors. Interestingly, however, we observe that the quantization could provide comparable and often superior accuracy, as the data to be quantized are sparse features generated with common filters. Furthermore, this quantization property could be maintained in the random projections of sparse features, if both the features and random projection matrices are sufficiently sparse. By conducting extensive experiments, we validate and analyze this intriguing property.
翻訳日:2022-04-01 14:14:44 公開日:2022-03-31
# 多相タスクのサンプリングによるクラスインクリメンタル学習

Few-Shot Class-Incremental Learning by Sampling Multi-Phase Tasks ( http://arxiv.org/abs/2203.17030v1 )

ライセンス: Link先を確認
Da-Wei Zhou, Han-Jia Ye, De-Chuan Zhan(参考訳) 新しいクラスは、ソーシャルメディアの新興トピックやeコマースの新しいタイプの製品など、絶えず変化する世界において頻繁に発生する。 モデルは新しいクラスを認識し、一方で古いクラスに対する差別性を維持すべきである。 厳しい状況下では、モデルを段階的に更新する新規インスタンスは限られている。 古いクラスを忘れずに新しいクラスを認識するタスクは、FSCIL ( few-shot class-incremental Learning) と呼ばれる。 本研究では,ベースデータセットから偽のFSCILタスクを合成するLearnIng Multi-phase Incremental Tasks (LIMIT)によるメタラーニングに基づくFSCILの新しいパラダイムを提案する。 偽タスクのデータフォーマットは ‘real’ インクリメンタルタスクと一致しており、メタ学習を通じて、目に見えないタスクのための一般化可能な機能空間を構築することができます。 さらに、LIMITはトランスフォーマーに基づいたキャリブレーションモジュールも構築しており、古いクラス分類器と新しいクラスプロトタイプを同じスケールにキャリブレーションし、セマンティックギャップを埋める。 キャリブレーションモジュールはまた、インスタンス固有の埋め込みをset-to-set関数で適応的にコンテキスト化する。 LIMITは、新しいクラスに効率的に適応し、古いクラスを忘れることに抵抗する。 3つのベンチマークデータセット(CIFAR100、miniImageNet、CUB200)と大規模データセット、すなわち ImageNet ILSVRC2012の実験では、LIMITは最先端のパフォーマンスを達成する。

New classes arise frequently in our ever-changing world, e.g., emerging topics in social media and new types of products in e-commerce. A model should recognize new classes and meanwhile maintain discriminability over old classes. Under severe circumstances, only limited novel instances are available to incrementally update the model. The task of recognizing few-shot new classes without forgetting old classes is called few-shot class-incremental learning (FSCIL). In this work, we propose a new paradigm for FSCIL based on meta-learning by LearnIng Multi-phase Incremental Tasks (LIMIT), which synthesizes fake FSCIL tasks from the base dataset. The data format of fake tasks is consistent with the `real' incremental tasks, and we can build a generalizable feature space for the unseen tasks through meta-learning. Besides, LIMIT also constructs a calibration module based on transformer, which calibrates the old class classifiers and new class prototypes into the same scale and fills in the semantic gap. The calibration module also adaptively contextualizes the instance-specific embedding with a set-to-set function. LIMIT efficiently adapts to new classes and meanwhile resists forgetting over old classes. Experiments on three benchmark datasets (CIFAR100, miniImageNet, and CUB200) and large-scale dataset, i.e., ImageNet ILSVRC2012 validate that LIMIT achieves state-of-the-art performance.
翻訳日:2022-04-01 14:14:32 公開日:2022-03-31
# 拡散モデルを用いた低密度領域からの高精度データ生成

Generating High Fidelity Data from Low-density Regions using Diffusion Models ( http://arxiv.org/abs/2203.17260v1 )

ライセンス: Link先を確認
Vikash Sehwag, Caner Hazirbas, Albert Gordo, Firat Ozgenel, Cristian Canton Ferrer(参考訳) 本研究は、共通画像データセットにおけるデータ多様体の低密度領域からのサンプル不足への対処に焦点を当てる。 拡散過程に基づく生成モデルを用いて低密度領域からの新規画像の合成を行う。 データ多様体の高密度領域からの拡散モデルからの均一サンプリングを主に観察する。 そこで,合成データの忠実性を維持しつつ,低密度領域へ導くためにサンプリングプロセスを変更した。 我々は,このプロセスが低密度領域から新しい高忠実度サンプルを生成することに成功したことを厳密に証明した。 さらに, 生成した試料について検討し, 低密度データを記憶せず, 低密度領域から新しい試料を生成できることを示した。

Our work focuses on addressing sample deficiency from low-density regions of data manifold in common image datasets. We leverage diffusion process based generative models to synthesize novel images from low-density regions. We observe that uniform sampling from diffusion models predominantly samples from high-density regions of the data manifold. Therefore, we modify the sampling process to guide it towards low-density regions while simultaneously maintaining the fidelity of synthetic data. We rigorously demonstrate that our process successfully generates novel high fidelity samples from low-density regions. We further examine generated samples and show that the model does not memorize low-density data and indeed learns to generate novel samples from low-density regions.
翻訳日:2022-04-01 14:14:07 公開日:2022-03-31
# TransEditor:高い制御が可能な顔編集のためのトランスフォーマーベースのデュアルスペースGAN

TransEditor: Transformer-Based Dual-Space GAN for Highly Controllable Facial Editing ( http://arxiv.org/abs/2203.17266v1 )

ライセンス: Link先を確認
Yanbo Xu, Yueqin Yin, Liming Jiang, Qianyi Wu, Chengyao Zheng, Chen Change Loy, Bo Dai, Wayne Wu(参考訳) StyleGANのような最近の進歩は、制御可能な顔編集の成長を促進している。 1つの潜在空間における属性疎結合のコア課題に対処するため、スタイルとコンテンツ表現の整合性を改善するためにデュアルスペースGANを採用する試みがなされている。 それにもかかわらず、これらの手法は、特に複雑な属性に対して、高い制御性を持つ妥当な編集結果を得るには相変わらず不適である。 本研究では,より制御可能な編集のために,二重空間ganにおける相互作用の重要性を強調する。 本稿では,トランスフォーマーをベースとした新しいフレームワークであるTransEditorを提案する。 さらに,新たなデュアルスペース編集およびインバージョン戦略を開発し,編集の柔軟性を高めた。 画像品質と編集能力において提案するフレームワークの優位性を実証し,高い制御性を有する顔編集におけるTransEditorの有効性を示唆した。

Recent advances like StyleGAN have promoted the growth of controllable facial editing. To address its core challenge of attribute decoupling in a single latent space, attempts have been made to adopt dual-space GAN for better disentanglement of style and content representations. Nonetheless, these methods are still incompetent to obtain plausible editing results with high controllability, especially for complicated attributes. In this study, we highlight the importance of interaction in a dual-space GAN for more controllable editing. We propose TransEditor, a novel Transformer-based framework to enhance such interaction. Besides, we develop a new dual-space editing and inversion strategy to provide additional editing flexibility. Extensive experiments demonstrate the superiority of the proposed framework in image quality and editing capability, suggesting the effectiveness of TransEditor for highly controllable facial editing.
翻訳日:2022-04-01 14:13:56 公開日:2022-03-31
# ロバストな顔年齢推定のための適応平均残差

Adaptive Mean-Residue Loss for Robust Facial Age Estimation ( http://arxiv.org/abs/2203.17156v1 )

ライセンス: Link先を確認
Ziyuan Zhao, Peisheng Qian, Yubo Hou, Zeng Zeng(参考訳) 顔の年齢の自動推定は、マルチメディア分析、例えばビデオ監視、人間とコンピュータの相互作用に様々な応用がある。 しかし,老化過程のランダム性とあいまいさから年齢評価は困難である。 このトピックに関する研究の多くは、このタスクを年齢の回帰、分類、ランク付けの問題の1つと見なしており、年齢の曖昧さを示すラベルの年齢分布をうまく活用できない。 本研究では,分布学習による頑健な顔年齢推定,すなわち適応的平均残差を,推定年齢分布の平均値と接地構造年齢との差を,残余損失は分布中の動的トップKから年齢確率のエントロピーを,簡便かつ効果的な損失関数として提案する。 FG-NETとCLAP2016のデータセットの実験結果は、提案された損失の有効性を検証した。 私たちのコードはhttps://github.com/j acobzhaoziyuan/amr-l ossで利用可能です。

Automated facial age estimation has diverse real-world applications in multimedia analysis, e.g., video surveillance, and human-computer interaction. However, due to the randomness and ambiguity of the aging process, age assessment is challenging. Most research work over the topic regards the task as one of age regression, classification, and ranking problems, and cannot well leverage age distribution in representing labels with age ambiguity. In this work, we propose a simple yet effective loss function for robust facial age estimation via distribution learning, i.e., adaptive mean-residue loss, in which, the mean loss penalizes the difference between the estimated age distribution's mean and the ground-truth age, whereas the residue loss penalizes the entropy of age probability out of dynamic top-K in the distribution. Experimental results in the datasets FG-NET and CLAP2016 have validated the effectiveness of the proposed loss. Our code is available at https://github.com/j acobzhaoziyuan/AMR-L oss.
翻訳日:2022-04-01 14:13:42 公開日:2022-03-31
# Wav2Vec2.0はドメインシフトASRでどのように機能するか? 航空交通制御コミュニケーションに関する総合ベンチマーク

How Does Pre-trained Wav2Vec2.0 Perform on Domain Shifted ASR? An Extensive Benchmark on Air Traffic Control Communications ( http://arxiv.org/abs/2203.16822v1 )

ライセンス: Link先を確認
Juan Zuluaga-Gomez, Amrutha Prasad, Iuliia Nigmatulina, Saeed Sarfjoo, Petr Motlicek, Matthias Kleinert, Hartmut Helmke, Oliver Ohneiser, Qingran Zhan(参考訳) 近年、大規模未ラベル音声データを活用して、後から下流のタスク、例えば自動音声認識(ASR)で微調整できる堅牢なエンドツーエンド音響モデル(E2E)を構築することに焦点を当てている。 しかし、事前学習と下流の微調整フェーズ(すなわちドメインシフト)でデータが大きく異なる場合のパフォーマンスへの影響を調査する研究はほとんどない。 本稿では, 航空交通制御(ATC)通信において, 下流ASRにおけるWav2Vec2.0およびXLS-Rモデルのロバスト性を解析することにより, このシナリオを目標とする。 提案したモデルを4つの挑戦的ATCテストセットでベンチマークする(信号対雑音比は5~20dB)。 ラベル付きデータの少ない細調整E2E音響モデルを用いて, 単語誤り率(WER)の20%から40%の低減をハイブリッドベースとしたASRベースラインと比較した。 また、微調整データサイズがWERに与える影響を5分(2時間)から15時間まで調べる。

Recent work on self-supervised pre-training focus on leveraging large-scale unlabeled speech data to build robust end-to-end (E2E) acoustic models (AM) that can be later fine-tuned on downstream tasks e.g., automatic speech recognition (ASR). Yet, few works investigated the impact on performance when the data substantially differs between the pre-training and downstream fine-tuning phases (i.e., domain shift). We target this scenario by analyzing the robustness of Wav2Vec2.0 and XLS-R models on downstream ASR for a completely unseen domain, i.e., air traffic control (ATC) communications. We benchmark the proposed models on four challenging ATC test sets (signal-to-noise ratio varies between 5 to 20 dB). Relative word error rate (WER) reduction between 20% to 40% are obtained in comparison to hybrid-based state-of-the-art ASR baselines by fine-tuning E2E acoustic models with a small fraction of labeled data. We also study the impact of fine-tuning data size on WERs, going from 5 minutes (few-shot) to 15 hours.
翻訳日:2022-04-01 14:13:22 公開日:2022-03-31
# 音声感情認識のためのニューラルアーキテクチャ探索

Neural Architecture Search for Speech Emotion Recognition ( http://arxiv.org/abs/2203.16928v1 )

ライセンス: Link先を確認
Xixin Wu, Shoukang Hu, Zhiyong Wu, Xunying Liu, Helen Meng(参考訳) ディープニューラルネットワークは、音声感情認識(SER)に大きな進歩をもたらした。 しかし、serのアーキテクチャ設計は、主に専門家の知識と経験的(試行錯誤)評価に基づいている。 本稿では,SERモデルの自動構成にニューラルアーキテクチャサーチ(NAS)技術を適用することを提案する。 候補アーキテクチャ最適化を加速するため,我々は,すべての候補アーキテクチャ操作を等しく最適化する統一パスドロップアウト戦略を提案する。 IEMOCAP上の2つの異なるニューラルネットワーク構造の実験結果から、NASはモデルパラメータサイズを維持しながらSER性能(54.89\%から56.28\%)を向上させることができる。 提案したドロップアウト戦略は,従来のアプローチよりも優れていた。

Deep neural networks have brought significant advancements to speech emotion recognition (SER). However, the architecture design in SER is mainly based on expert knowledge and empirical (trial-and-error) evaluations, which is time-consuming and resource intensive. In this paper, we propose to apply neural architecture search (NAS) techniques to automatically configure the SER models. To accelerate the candidate architecture optimization, we propose a uniform path dropout strategy to encourage all candidate architecture operations to be equally optimized. Experimental results of two different neural structures on IEMOCAP show that NAS can improve SER performance (54.89\% to 56.28\%) while maintaining model parameter sizes. The proposed dropout strategy also shows superiority over the previous approaches.
翻訳日:2022-04-01 14:11:57 公開日:2022-03-31
# WavThruVec:ニューラル音声合成の中間機能としての潜在音声表現

WavThruVec: Latent speech representation as intermediate features for neural speech synthesis ( http://arxiv.org/abs/2203.16930v1 )

ライセンス: Link先を確認
Hubert Siuzdak, Piotr Dura, Pol van Rijn, Nori Jacoby(参考訳) ニューラルテキスト音声合成研究の最近の進歩は,メルスペクトルなどの低レベル中間音声表現を利用した2段階パイプラインによって支配されている。 しかし、そのような所定の特徴は、隠れ表現を学習することでデータ駆動アプローチの潜在能力を最大限に活用できないため、基本的に制限されている。 このため、いくつかのエンドツーエンド手法が提案されている。 しかし、そのようなモデルは訓練が困難であり、多くの高品質な録音と書き起こしを必要とする。 本稿では,高次元Wav2Vec 2.0埋め込みを中間音声表現として使用することによりボトルネックを解決する2段階アーキテクチャであるWavThruVecを提案する。 これらの隠れたアクティベーションは高いレベルの言語的特徴を提供するため、ノイズに対してより堅牢である。 これにより、より低い品質の注釈付き音声データセットを使用して、第1ステージモジュールをトレーニングすることができます。 同時に、wav2vec 2.0組み込みは時間整合であり、話者非依存であるため、第2段階のコンポーネントは大規模に書き起こされていないオーディオコーパスでトレーニングすることができる。 その結果,語彙外単語への一般化能力が向上し,未知話者への一般化性が向上した。 提案モデルは,最先端のニューラルモデルの品質に適合するだけでなく,音声変換やゼロショット合成などのタスクを可能にする有用な特性を示す。

Recent advances in neural text-to-speech research have been dominated by two-stage pipelines utilizing low-level intermediate speech representation such as mel-spectrograms. However, such predetermined features are fundamentally limited, because they do not allow to exploit the full potential of a data-driven approach through learning hidden representations. For this reason, several end-to-end methods have been proposed. However, such models are harder to train and require a large number of high-quality recordings with transcriptions. Here, we propose WavThruVec - a two-stage architecture that resolves the bottleneck by using high-dimensional Wav2Vec 2.0 embeddings as intermediate speech representation. Since these hidden activations provide high-level linguistic features, they are more robust to noise. That allows us to utilize annotated speech datasets of a lower quality to train the first-stage module. At the same time, the second-stage component can be trained on large-scale untranscribed audio corpora, as Wav2Vec 2.0 embeddings are time-aligned and speaker-independent. This results in an increased generalization capability to out-of-vocabulary words, as well as to a better generalization to unseen speakers. We show that the proposed model not only matches the quality of state-of-the-art neural models, but also presents useful properties enabling tasks like voice conversion or zero-shot synthesis.
翻訳日:2022-04-01 14:11:43 公開日:2022-03-31
# CatIss: 変圧器を用いた問題レポートの分類ツール

CatIss: An Intelligent Tool for Categorizing Issues Reports using Transformers ( http://arxiv.org/abs/2203.17196v1 )

ライセンス: Link先を確認
Maliheh Izadi(参考訳) ユーザはリポジトリ内のイシューレポートの追跡と管理にイシュートラッキングシステムを使用する。 問題とは,問題や新機能の要求,あるいは単にソフトウェア製品に関する質問を含む,さまざまなレポートを含む,豊富なソフトウェア情報のソースである。 これらの問題の数が増えると、手動で管理することが難しくなります。 そこで,問題報告の管理を支援するために,自動アプローチを提案する。 本稿では,Transformer-based pre-trained RoBERTaモデルに基づく,ISSueレポートの自動CATegorizerであるCatIssについて述べる。 CatIssは発行レポートを、バグレポート、強化/機能要求、質問の3つの主要なカテゴリに分類する。 まず、NLBSEツールコンペのために提供されるデータセットをクリーン化し、前処理する。 そして、事前訓練されたRoBERTaモデルを、前処理されたデータセットに微調整する。 githubから約8万のイシューレポートでcatissを評価した結果、競合ベースラインであるtickettaggerを非常に上回っており、87.2%のf1-score(マイクロ平均)を達成した。 さらに、CatIssは幅広いリポジトリで訓練されているため、一般的な予測モデルであり、見知らぬソフトウェアプロジェクトや、歴史的なデータはほとんどないプロジェクトに適用できる。 データセットのクリーニング、CatIssのトレーニング、モデルの評価のためのスクリプトが公開されている。

Users use Issue Tracking Systems to keep track and manage issue reports in their repositories. An issue is a rich source of software information that contains different reports including a problem, a request for new features, or merely a question about the software product. As the number of these issues increases, it becomes harder to manage them manually. Thus, automatic approaches are proposed to help facilitate the management of issue reports. This paper describes CatIss, an automatic CATegorizer of ISSue reports which is built upon the Transformer-based pre-trained RoBERTa model. CatIss classifies issue reports into three main categories of Bug reports, Enhancement/feature requests, and Questions. First, the datasets provided for the NLBSE tool competition are cleaned and preprocessed. Then, the pre-trained RoBERTa model is fine-tuned on the preprocessed dataset. Evaluating CatIss on about 80 thousand issue reports from GitHub, indicates that it performs very well surpassing the competition baseline, TicketTagger, and achieving 87.2% F1-score (micro average). Additionally, as CatIss is trained on a wide set of repositories, it is a generic prediction model, hence applicable for any unseen software project or projects with little historical data. Scripts for cleaning the datasets, training CatIss, and evaluating the model are publicly available.
翻訳日:2022-04-01 14:11:22 公開日:2022-03-31
# (参考訳) 長距離ジェスチャー認識のためのレーダーポイントクラウドを用いたグラフ表現のクロスモーダル学習 [全文訳有]

Cross-modal Learning of Graph Representations using Radar Point Cloud for Long-Range Gesture Recognition ( http://arxiv.org/abs/2203.17066v1 )

ライセンス: CC BY 4.0
Souvik Hazra, Hao Feng, Gamze Naz Kiprit, Michael Stephan, Lorenzo Servadei, Robert Wille, Robert Weigel, Avik Santra(参考訳) ジェスチャー認識は最も直感的なインタラクション方法の1つであり、人間のコンピュータインタラクションに特に注目を集めている。 レーダーセンサーは、低照度、厳しい気象条件で作業する能力、低コストでコンパクトであるなど、複数の固有の特性を有しており、ジェスチャー認識ソリューションとして非常に好適である。 しかし、ほとんどの文献は1メートル未満の限られた範囲の解に焦点をあてている。 本稿では、カメラポイントクラウドから60GHzのFMCWレーダポイントクラウドへのポイントクラウドベースのクロスラーニングアプローチを活用し、ノイズを抑えながらより良い表現を学習できるようにする、長距離(1m~2m)ジェスチャー認識ソリューションの新しいアーキテクチャを提案する。 クロスラーニングには動的グラフCNN(DGCNN)の変種を使用し、局所的およびグローバルレベルで点間の関係をモデル化し、Bi-LSTMネットワークが採用する時間的ダイナミクスをモデル化する。 実験では,5つのジェスチャに対するモデル全体の精度98.4%と一般化能力を示す。

Gesture recognition is one of the most intuitive ways of interaction and has gathered particular attention for human computer interaction. Radar sensors possess multiple intrinsic properties, such as their ability to work in low illumination, harsh weather conditions, and being low-cost and compact, making them highly preferable for a gesture recognition solution. However, most literature work focuses on solutions with a limited range that is lower than a meter. We propose a novel architecture for a long-range (1m - 2m) gesture recognition solution that leverages a point cloud-based cross-learning approach from camera point cloud to 60-GHz FMCW radar point cloud, which allows learning better representations while suppressing noise. We use a variant of Dynamic Graph CNN (DGCNN) for the cross-learning, enabling us to model relationships between the points at a local and global level and to model the temporal dynamics a Bi-LSTM network is employed. In the experimental results section, we demonstrate our model's overall accuracy of 98.4% for five gestures and its generalization capability.
翻訳日:2022-04-01 14:08:15 公開日:2022-03-31
# プライバシー保護でポートレート・マットリングを再考

Rethinking Portrait Matting with Privacy Preserving ( http://arxiv.org/abs/2203.16828v1 )

ライセンス: Link先を確認
Sihan Ma, Jizhizi Li, Jing Zhang, He Zhang, Dacheng Tao(参考訳) 近年,個人識別可能な情報を機械学習に利用することで生じるプライバシー問題に対する懸念が高まっている。 しかし、過去の肖像画マッチング手法はすべて、識別可能な肖像画に基づいていた。 p3m-10kは,プライバシ保存型ポートレートマットリング(p3m)のための,最初の大規模匿名化ベンチマークである。 P3M-10kは1万枚の高解像度の顔黒の肖像画と高品質のアルファマットで構成されている。 P3M-10k上でのトリマップフリーおよびトリマップベースのマッティング手法を体系的に評価し、既存のマッティング手法は、プライバシー保護トレーニング設定の下で異なる一般化能力を示す。 得られた知見に基づいて,プライバシに敏感なセマンティクス知覚と詳細保持されたマッティングを同時に実行可能な3つの統合モジュールからなるp3m-netという統一マッティングモデルを提案する。 さらに、cnnとトランスフォーマーバックボーンが異なるp3m-netの複数の変種を設計、その一般化能力の違いを同定する。 この問題をさらに緩和するため,プライバシの心配なく有名人画像から顔情報を借用し,ネットワークにデータと機能の両方で顔のコンテキストを再獲得するよう指示する,シンプルかつ効果的なコピー&ペースト戦略(p3m-cp)を考案する。 P3M-CPは、トレーニング中に追加の計算しか行わず、マッチングモデルでは、推論中に余分な労力なしで顔と正常の画像の両方を処理できる。 P3M-10kの広汎な実験は、P3M-Netが最先端の手法よりも優れていること、P3M-CPがP3M-Netの一般化能力の向上に有効であることを示し、将来の研究や実世界の応用においてP3Mの大きな意義を示唆している。

Recently, there has been an increasing concern about the privacy issue raised by using personally identifiable information in machine learning. However, previous portrait matting methods were all based on identifiable portrait images. To fill the gap, we present P3M-10k in this paper, which is the first large-scale anonymized benchmark for Privacy-Preserving Portrait Matting (P3M). P3M-10k consists of 10,000 high-resolution face-blurred portrait images along with high-quality alpha mattes. We systematically evaluate both trimap-free and trimap-based matting methods on P3M-10k and find that existing matting methods show different generalization abilities under the privacy preserving training setting, i.e., training only on face-blurred images while testing on arbitrary images. Based on the gained insights, we propose a unified matting model named P3M-Net consisting of three carefully designed integration modules that can perform privacy-insensitive semantic perception and detail-reserved matting simultaneously. We further design multiple variants of P3M-Net with different CNN and transformer backbones and identify the difference in their generalization abilities. To further mitigate this issue, we devise a simple yet effective Copy and Paste strategy (P3M-CP) that can borrow facial information from public celebrity images without privacy concerns and direct the network to reacquire the face context at both data and feature levels. P3M-CP only brings a few additional computations during training, while enabling the matting model to process both face-blurred and normal images without extra effort during inference. Extensive experiments on P3M-10k demonstrate the superiority of P3M-Net over state-of-the-art methods and the effectiveness of P3M-CP in improving the generalization ability of P3M-Net, implying a great significance of P3M for future research and real-world applications.
翻訳日:2022-04-01 13:55:31 公開日:2022-03-31
# MPS-NeRF:多視点画像からの汎用的な3Dレンダリング

MPS-NeRF: Generalizable 3D Human Rendering from Multiview Images ( http://arxiv.org/abs/2203.16875v1 )

ライセンス: Link先を確認
Xiangjun Gao, Jiaolong Yang, Jongyoo Kim, Sida Peng, Zicheng Liu, Xin Tong(参考訳) 近年,ニューラルレイディアンスフィールド(NeRF)の進歩に基づき,新しいビュー合成やポーズアニメーションを含む3次元人体レンダリングが急速に進歩している。 しかし、既存の方法の多くは個人固有のトレーニングに焦点を合わせており、訓練は通常マルチビュービデオを必要とする。 本稿では,複数視点の画像のみを入力として,新しい視点と新しいポーズをトレーニングで見ていない人に提示する,新たな課題を扱う。 そこで本研究では,多視点画像を条件入力として一般化nyrfを訓練する簡易かつ効果的な手法を提案する。 鍵となる要素は、正準NeRFと体積変形方式を組み合わせた専用表現である。 標準空間を用いることで、人間の共有特性を学習し、異なる人に容易に一般化することができる。 体積変形は、標準空間を入力およびターゲット画像と接続するために使用され、放射率と密度予測のためのクエリ画像の特徴がある。 入力画像に装着したパラメトリックな3次元人体モデルを用いて変形を導出する。 本手法の有効性を総合的に示すために,新しいビュー合成とポーズアニメーションによる実データと合成データの両方の実験を行った。

There has been rapid progress recently on 3D human rendering, including novel view synthesis and pose animation, based on the advances of neural radiance fields (NeRF). However, most existing methods focus on person-specific training and their training typically requires multi-view videos. This paper deals with a new challenging task -- rendering novel views and novel poses for a person unseen in training, using only multiview images as input. For this task, we propose a simple yet effective method to train a generalizable NeRF with multiview images as conditional input. The key ingredient is a dedicated representation combining a canonical NeRF and a volume deformation scheme. Using a canonical space enables our method to learn shared properties of human and easily generalize to different people. Volume deformation is used to connect the canonical space with input and target images and query image features for radiance and density prediction. We leverage the parametric 3D human model fitted on the input images to derive the deformation, which works quite well in practice when combined with our canonical NeRF. The experiments on both real and synthetic data with the novel view synthesis and pose animation tasks collectively demonstrate the efficacy of our method.
翻訳日:2022-04-01 13:54:52 公開日:2022-03-31
# データアソシエーションと単段検出器によるヒューマンインスタンスのセグメンテーションと追跡

Human Instance Segmentation and Tracking via Data Association and Single-stage Detector ( http://arxiv.org/abs/2203.16966v1 )

ライセンス: Link先を確認
Lu Cheng and Mingbo Zhao(参考訳) 人間のビデオインスタンスセグメンテーションは、人間の活動のコンピュータ理解において重要な役割を担い、ビデオ処理、ビデオ監視、バーチャルリアリティーにおける人間のモデリングにおいて広く利用されている。 現在のVISメソッドの多くはMask-RCNNフレームワークをベースとしており、ターゲットの外観やデータマッチングの動作情報は計算コストを増大させ、セグメント化のリアルタイムパフォーマンスに影響を与える。 本稿では,この問題を解決するために,単段検出器を用いた人間のビデオインスタンスセグメンテーション手法を開発した。 ビデオ全体のインスタンスを追跡するために、ビデオシーケンス内の同じインスタンスをマッチングするためのデータアソシエイト戦略を採用し、目的のインスタンスの外観と親和性をエンドツーエンドで一対の動画フレームで共同で学習する。 また,重重畳条件で各インスタンスマスクの内部にインスタンス位置を偏差させることにより,組込み抽出能力を向上するセントロイドサンプリング戦略を採用した。 その結果、キャラクタアクティビティが突然変化しても、インスタンス位置がマスクから移動しないため、同じインスタンスが2つの異なるインスタンスで表現される問題を軽減することができる。 最後に、複数のビデオインスタンスセグメンテーションデータセットを組み立ててPVISデータセットを収集し、人間のビデオセグメンテーション専用のデータセットの欠如のギャップを埋める。 このようなデータセットに基づく広範なシミュレーションが実施されている。 シミュレーションの結果,提案手法の有効性と有効性を検証した。

Human video instance segmentation plays an important role in computer understanding of human activities and is widely used in video processing, video surveillance, and human modeling in virtual reality. Most current VIS methods are based on Mask-RCNN framework, where the target appearance and motion information for data matching will increase computational cost and have an impact on segmentation real-time performance; on the other hand, the existing datasets for VIS focus less on all the people appearing in the video. In this paper, to solve the problems, we develop a new method for human video instance segmentation based on single-stage detector. To tracking the instance across the video, we have adopted data association strategy for matching the same instance in the video sequence, where we jointly learn target instance appearances and their affinities in a pair of video frames in an end-to-end fashion. We have also adopted the centroid sampling strategy for enhancing the embedding extraction ability of instance, which is to bias the instance position to the inside of each instance mask with heavy overlap condition. As a result, even there exists a sudden change in the character activity, the instance position will not move out of the mask, so that the problem that the same instance is represented by two different instances can be alleviated. Finally, we collect PVIS dataset by assembling several video instance segmentation datasets to fill the gap of the current lack of datasets dedicated to human video segmentation. Extensive simulations based on such dataset has been conduct. Simulation results verify the effectiveness and efficiency of the proposed work.
翻訳日:2022-04-01 13:54:30 公開日:2022-03-31
# 3次元同変グラフインプリシット関数

3D Equivariant Graph Implicit Functions ( http://arxiv.org/abs/2203.17178v1 )

ライセンス: Link先を確認
Yunlu Chen, Basura Fernando, Hakan Bilen, Matthias Nie{\ss}ner, Efstratios Gavves(参考訳) 近年、神経暗示表現は任意の位相を持つ3次元形状のモデリングにおいて顕著な進歩を遂げている。 本研究では、局所的な3次元幾何学的詳細を捉えず、未知の3次元変換を持つ形状に学習し、一般化する際の2つの重要な制約に対処する。 この目的のために, 局所的詳細をモデル化し, 幾何変換の様々な群に対するロバスト性を保証し, 局所的$k$-nnグラフ埋め込みによる多重解像度でのスパース点集合観測を可能にする同変層を持つグラフ暗黙関数の新規ファミリーを導入する。 提案手法は,ShapeNet再構成作業における既存の回転同変暗黙関数を0.69から0.89(IoU)に改善する。 また、同変の暗黙関数は他の類似性変換にも拡張でき、未知の変換やスケーリングにも一般化できることを示す。

In recent years, neural implicit representations have made remarkable progress in modeling of 3D shapes with arbitrary topology. In this work, we address two key limitations of such representations, in failing to capture local 3D geometric fine details, and to learn from and generalize to shapes with unseen 3D transformations. To this end, we introduce a novel family of graph implicit functions with equivariant layers that facilitates modeling fine local details and guaranteed robustness to various groups of geometric transformations, through local $k$-NN graph embeddings with sparse point set observations at multiple resolutions. Our method improves over the existing rotation-equivariant implicit function from 0.69 to 0.89 (IoU) on the ShapeNet reconstruction task. We also show that our equivariant implicit function can be extended to other types of similarity transformations and generalizes to unseen translations and scaling.
翻訳日:2022-04-01 13:54:05 公開日:2022-03-31
# 視覚言語事前学習モデルは原始概念を学ぶか?

Do Vision-Language Pretrained Models Learn Primitive Concepts? ( http://arxiv.org/abs/2203.17271v1 )

ライセンス: Link先を確認
Tian Yun, Usha Bhalla, Ellie Pavlick, Chen Sun(参考訳) 視覚言語事前学習モデルは、マルチモーダル推論とゼロショット認識タスクで印象的なパフォーマンスを達成している。 これらのVLモデルの多くは、未ラベルの画像とインターネットからのキャプションペアで事前訓練されている。 本稿では,これらの事前学習されたVLモデルから,色や形状などの原始概念の概念が自動的に現れるかどうかを考察する。 そこで本研究では,プリミティブ概念のアクティベーションを合成概念にマッピングする合成導出法を学ぶことを提案する。 このコンポジション導出学習(CompDL)フレームワークは,学習された導出物の有用性と解釈性を定量的に測定することを可能にする。 本研究は,最先端のvlプリトレーニングモデルが,細粒度の視覚認識タスクにおいて高い性能を示すように,視覚記述子として非常に有用な原始概念を学習することを示すが,これらの概念は解釈可能な構成導出を提供することに苦慮しており,既存のvlモデルの限界を強調するものである。 コードとモデルはリリースされる。

Vision-language pretrained models have achieved impressive performance on multimodal reasoning and zero-shot recognition tasks. Many of these VL models are pretrained on unlabeled image and caption pairs from the internet. In this paper, we study whether the notion of primitive concepts, such as color and shape attributes, emerges automatically from these pretrained VL models. We propose to learn compositional derivations that map primitive concept activations into composite concepts, a task which we demonstrate to be straightforward given true primitive concept annotations. This compositional derivation learning (CompDL) framework allows us to quantitively measure the usefulness and interpretability of the learned derivations, by jointly considering the entire set of candidate primitive concepts. Our study reveals that state-of-the-art VL pretrained models learn primitive concepts that are highly useful as visual descriptors, as demonstrated by their strong performance on fine-grained visual recognition tasks, but those concepts struggle to provide interpretable compositional derivations, which highlights limitations of existing VL models. Code and models will be released.
翻訳日:2022-04-01 13:53:48 公開日:2022-03-31
# モデルとデータを$\texttt{t5x}$と$\texttt{seqio}$でスケールアップする

Scaling Up Models and Data with $\texttt{t5x}$ and $\texttt{seqio}$ ( http://arxiv.org/abs/2203.17189v1 )

ライセンス: Link先を確認
Adam Roberts, Hyung Won Chung, Anselm Levskaya, Gaurav Mishra, James Bradbury, Daniel Andor, Sharan Narang, Brian Lester, Colin Gaffney, Afroz Mohiuddin, Curtis Hawthorne, Aitor Lewkowycz, Alex Salcianu, Marc van Zee, Jacob Austin, Sebastian Goodman, Livio Baldini Soares, Haitang Hu, Sasha Tsvyashchenko, Aakanksha Chowdhery, Jasmijn Bastings, Jannis Bulian, Xavier Garcia, Jianmo Ni, Andrew Chen, Kathleen Kenealy, Jonathan H. Clark, Stephan Lee, Dan Garrette, James Lee-Thorp, Colin Raffel, Noam Shazeer, Marvin Ritter, Maarten Bosma, Alexandre Passos, Jeremy Maitin-Shepard, Noah Fiedel, Mark Omernick, Brennan Saeta, Ryan Sepassi, Alexander Spiridonov, Joshua Newlan, Andrea Gesmundo(参考訳) 最近のニューラルネットワークベースの言語モデルは、トレーニングデータセットのサイズとモデル自体のパラメータの数をスケールアップすることで大きな恩恵を受けています。 スケーリングは、スーパーコンピュータクラスタ(例えば、tpus)に計算を分散する必要があることや、データ提供時のボトルネックの防止、再現可能な結果の確保など、さまざまな要因によって複雑になる可能性がある。 この作業では、これらの問題を緩和する2つのソフトウェアライブラリを提示します。$\texttt{t5x}$は、使用の容易さを維持しながら、大規模に大規模な言語モデルを構築およびトレーニングするプロセスを単純化し、$\texttt{seqio}$は、高速で再現可能なトレーニングデータと評価パイプラインを簡単に作成するためのタスクベースのAPIを提供します。 これらのオープンソースライブラリは、複数のテラバイトのトレーニングデータを持つデータセット上で、数十億のパラメータを持つモデルをトレーニングするために使用されています。 ライブラリとともに、GPTライクなデコーダのみのアーキテクチャと同様に、T5ライクなエンコーダ-デコーダモデルの構成と命令をリリースする。 $\texttt{t5x}$と$\texttt{seqio}$はオープンソースで、https://github.com/g oogle-research/t5xとhttps://github.com/g oogle/seqioで利用可能である。

Recent neural network-based language models have benefited greatly from scaling up the size of training datasets and the number of parameters in the models themselves. Scaling can be complicated due to various factors including the need to distribute computation on supercomputer clusters (e.g., TPUs), prevent bottlenecks when infeeding data, and ensure reproducible results. In this work, we present two software libraries that ease these issues: $\texttt{t5x}$ simplifies the process of building and training large language models at scale while maintaining ease of use, and $\texttt{seqio}$ provides a task-based API for simple creation of fast and reproducible training data and evaluation pipelines. These open-source libraries have been used to train models with hundreds of billions of parameters on datasets with multiple terabytes of training data. Along with the libraries, we release configurations and instructions for T5-like encoder-decoder models as well as GPT-like decoder-only architectures. $\texttt{t5x}$ and $\texttt{seqio}$ are open source and available at https://github.com/g oogle-research/t5x and https://github.com/g oogle/seqio, respectively.
翻訳日:2022-04-01 13:53:30 公開日:2022-03-31
# 科学論文における不均一グラフのノード表現学習のための教師なしクラスタベース手法

An unsupervised cluster-level based method for learning node representations of heterogeneous graphs in scientific papers ( http://arxiv.org/abs/2203.16751v1 )

ライセンス: Link先を確認
Jie Song and Meiyu Liang and Zhe Xue and Junping Du and Kou Feifei(参考訳) 学術論文データの知識表現を学習することは解決すべき問題であり、学術論文の不均一ネットワークにおける論文ノードの表現をいかに学習するかがこの問題の解決の核となる。 本稿では,ノードの表現(著者,機関,論文など)を学術論文の異種グラフで取得することを目的とした,教師なしクラスタレベルの科学論文ヘテロジニアスグラフノード表現学習法(UCHL)を提案する。 本稿では,不均質グラフの表現に基づいて,不均質グラフ全体のリンク予測を行い,ノードのエッジ,すなわち論文と論文の関係を求める。 実験の結果,提案手法は実科学論文のデータセット上で,複数の評価指標に対して優れた性能を発揮することがわかった。

Learning knowledge representation of scientific paper data is a problem to be solved, and how to learn the representation of paper nodes in scientific paper heterogeneous network is the core to solve this problem. This paper proposes an unsupervised cluster-level scientific paper heterogeneous graph node representation learning method (UCHL), aiming at obtaining the representation of nodes (authors, institutions, papers, etc.) in the heterogeneous graph of scientific papers. Based on the heterogeneous graph representation, this paper performs link prediction on the entire heterogeneous graph and obtains the relationship between the edges of the nodes, that is, the relationship between papers and papers. Experiments results show that the proposed method achieves excellent performance on multiple evaluation metrics on real scientific paper datasets.
翻訳日:2022-04-01 13:51:57 公開日:2022-03-31
# 3次元における分子発生の等変拡散

Equivariant Diffusion for Molecule Generation in 3D ( http://arxiv.org/abs/2203.17003v1 )

ライセンス: Link先を確認
Emiel Hoogeboom, Victor Garcia Satorras, Cl\'ement Vignac, Max Welling(参考訳) この研究は、ユークリッド変換に同値な3次元分子生成の拡散モデルを導入する。 E(3)同変拡散モデル(EDM)は,連続的(原子座標)とカテゴリー的特徴(原子型)の両方で共同で動作する同変ネットワークを用いて拡散過程を認知することを学ぶ。 さらに,本モデルを用いて分子の確率計算を行う確率論的解析を行った。 提案手法は, 従来の3次元分子生成法に比べて, 生成した試料の品質と訓練時の効率を著しく向上させる。

This work introduces a diffusion model for molecule generation in 3D that is equivariant to Euclidean transformations. Our E(3) Equivariant Diffusion Model (EDM) learns to denoise a diffusion process with an equivariant network that jointly operates on both continuous (atom coordinates) and categorical features (atom types). In addition, we provide a probabilistic analysis which admits likelihood computation of molecules using our model. Experimentally, the proposed method significantly outperforms previous 3D molecular generative methods regarding the quality of generated samples and efficiency at training time.
翻訳日:2022-04-01 13:51:36 公開日:2022-03-31
# 多くの軌跡から学ぶ

Learning from many trajectories ( http://arxiv.org/abs/2203.17193v1 )

ライセンス: Link先を確認
Stephen Tu and Roy Frostig and Mahdi Soltanolkotabi(参考訳) 我々は,非独立共変量の多数の独立列(軌道)から教師あり学習の研究を開始し,シーケンスモデリング,制御,強化学習のタスクを反映する。 概念的には、我々の多軌道設定は、統計学習理論における従来の2つの設定の間にある。 効率的な学習のための我々の条件は、従来の設定を一般化する - トラジェクトリは、独立例の標準要件を拡張する方法では非退化されなければならない。 軌道はエルゴード的、長く、あるいは厳密に安定である必要はない。 線型最小二乗回帰に対して、$m$ trajectories によって生成される$n$-次元の例が与えられたとき、長さ$T$ は、トラジェクトリの数が少数の (m \lesssim n$) から多くの (m \gtrsim n$) へと増加するにつれて、統計効率の顕著な変化を観測する。 具体的には、この問題の最悪のエラー率は$\Theta(n / m T)$ every $m \gtrsim n$である。 一方、$m \lesssim n$ の場合、単純な不安定な線形力学系によって実現される最悪の場合の誤差率に対して、(シャープな)下限が $\omega(n^2 / m^2 t)$ となる。 重要なポイントは、軌道が定期的にリセットされる領域では、エラー率は最終的にすべての例が完全に独立しているかのように振る舞うことである。 また,本分析の結果から,線形システム同定問題に対する保証性も向上した。

We initiate a study of supervised learning from many independent sequences ("trajectories") of non-independent covariates, reflecting tasks in sequence modeling, control, and reinforcement learning. Conceptually, our multi-trajectory setup sits between two traditional settings in statistical learning theory: learning from independent examples and learning from a single auto-correlated sequence. Our conditions for efficient learning generalize the former setting--trajectorie s must be non-degenerate in ways that extend standard requirements for independent examples. They do not require that trajectories be ergodic, long, nor strictly stable. For linear least-squares regression, given $n$-dimensional examples produced by $m$ trajectories, each of length $T$, we observe a notable change in statistical efficiency as the number of trajectories increases from a few (namely $m \lesssim n$) to many (namely $m \gtrsim n$). Specifically, we establish that the worst-case error rate this problem is $\Theta(n / m T)$ whenever $m \gtrsim n$. Meanwhile, when $m \lesssim n$, we establish a (sharp) lower bound of $\Omega(n^2 / m^2 T)$ on the worst-case error rate, realized by a simple, marginally unstable linear dynamical system. A key upshot is that, in domains where trajectories regularly reset, the error rate eventually behaves as if all of the examples were independent altogether, drawn from their marginals. As a corollary of our analysis, we also improve guarantees for the linear system identification problem.
翻訳日:2022-04-01 13:51:28 公開日:2022-03-31
# (参考訳) ブラックボックスNLPモデルの解釈:サーベイ [全文訳有]

Interpretation of Black Box NLP Models: A Survey ( http://arxiv.org/abs/2203.17081v1 )

ライセンス: CC BY 4.0
Shivani Choudhary, Niladri Chatterjee, Subir Kumar Saha(参考訳) 金融やヘルスケアといった高い利害を持つ領域に機械学習モデルが展開されている。 優れたパフォーマンスにもかかわらず、多くのモデルは本質的に説明が難しいブラックボックスである。 研究者がこれらのブラックボックスモデルを解釈する手法を開発する努力が増えている。 LIMEのような摂動に基づくポストホックの説明は、機械学習モデルの構築後に解釈するために広く使われているアプローチである。 このタイプのメソッドは大きな不安定性を示し、メソッド自体の有効性に深刻な課題を生じさせ、ユーザの信頼を損なうことが示されている。 本稿では,中央極限定理に基づく仮説検定フレームワークを用いて,解の安定性を保証するのに必要な摂動点数を決定するs-limeを提案する。 本手法の有効性を示すため,シミュレーションと実世界の両方のデータセットの実験を行った。

An increasing number of machine learning models have been deployed in domains with high stakes such as finance and healthcare. Despite their superior performances, many models are black boxes in nature which are hard to explain. There are growing efforts for researchers to develop methods to interpret these black-box models. Post hoc explanations based on perturbations, such as LIME, are widely used approaches to interpret a machine learning model after it has been built. This class of methods has been shown to exhibit large instability, posing serious challenges to the effectiveness of the method itself and harming user trust. In this paper, we propose S-LIME, which utilizes a hypothesis testing framework based on central limit theorem for determining the number of perturbation points needed to guarantee stability of the resulting explanation. Experiments on both simulated and real world data sets are provided to demonstrate the effectiveness of our method.
翻訳日:2022-04-01 13:48:18 公開日:2022-03-31
# 会話の自動分析のためのニューラルモデルの調査:社会科学のより良い統合を目指して

A survey of neural models for the automatic analysis of conversation: Towards a better integration of the social sciences ( http://arxiv.org/abs/2203.16891v1 )

ライセンス: Link先を確認
Chlo\'e Clavel and Matthieu Labeau and Justine Cassell(参考訳) 会話の分析のための神経アーキテクチャに対するエキサイティングな新しいアプローチが、ここ数年で導入されている。 これには、感情、対話行動、感情極性を検出する神経アーキテクチャが含まれる。 彼らは、注意機構を備えたリカレントニューラルネットワークやトランスフォーマーベースのアプローチなど、現代の機械学習の重要な属性のいくつかを活用する。 しかし、アーキテクチャ自体は非常に有望であるが、それらがこれまで適用されてきた現象は、会話を活発にする部分に過ぎない。 本稿では,これらのニューラルアーキテクチャとその適用状況について検討する。 社会科学の文献に基づいて、会話の最も基本的で決定的な特徴であると考えられるものを記述し、それは2つ以上のインターロケータによる時間的共同構築である。 調査対象のニューラルアーキテクチャーが、これらの会話のより基本的な側面にどのように利益をもたらすか、また、会話のより良い分析や、長期的には会話システムのための会話を生成するより良い方法の観点から、何を買うかについて論じる。

Some exciting new approaches to neural architectures for the analysis of conversation have been introduced over the past couple of years. These include neural architectures for detecting emotion, dialogue acts, and sentiment polarity. They take advantage of some of the key attributes of contemporary machine learning, such as recurrent neural networks with attention mechanisms and transformer-based approaches. However, while the architectures themselves are extremely promising, the phenomena they have been applied to to date are but a small part of what makes conversation engaging. In this paper we survey these neural architectures and what they have been applied to. On the basis of the social science literature, we then describe what we believe to be the most fundamental and definitional feature of conversation, which is its co-construction over time by two or more interlocutors. We discuss how neural architectures of the sort surveyed could profitably be applied to these more fundamental aspects of conversation, and what this buys us in terms of a better analysis of conversation and even, in the longer term, a better way of generating conversation for a conversational system.
翻訳日:2022-04-01 13:24:36 公開日:2022-03-31
# 密度比推定による多目的ベイズ最適化

MBORE: Multi-objective Bayesian Optimisation by Density-Ratio Estimation ( http://arxiv.org/abs/2203.16912v1 )

ライセンス: Link先を確認
George De Ath, Tinkle Chugh, Alma A. M. Rahat(参考訳) 最適化問題は、しばしば、計算上および/または経済的に高価である複数の相反する目的を持つ。 単代理ベイズ最適化(BO)は、ブラックボックス関数を最適化するための一般的なモデルベースのアプローチである。 これはスカラ化によって客観的な値を結合し、スカラ化された値のガウス過程(gp)を構築する。 安価に検索できる取得関数を最大化する場所は、次に高く評価する場所として選択される。 BOは効果的な戦略であるが、GPの使用は制限されている。 問題入力次元が増加するにつれて性能が低下し、計算複雑性はデータ量とともに立方的にスケールする。 これらの制限に対処するために、密度比推定(bore)によるboの以前の作業を多目的設定に拡張する。 ボアは改善獲得関数の確率の計算と確率的分類の計算を関連付けている。 これにより、BOライクなフレームワークで最先端の分類器を使用できる。 密度比推定による多目的ベイズ最適化(multi-objective bayesian optimization)、合成および実世界のベンチマークでboと比較する。 MBOREは,多種多様な問題においてBOと同等以上の性能を示し,高次元および実世界の問題においてBOより優れた性能を示した。

Optimisation problems often have multiple conflicting objectives that can be computationally and/or financially expensive. Mono-surrogate Bayesian optimisation (BO) is a popular model-based approach for optimising such black-box functions. It combines objective values via scalarisation and builds a Gaussian process (GP) surrogate of the scalarised values. The location which maximises a cheap-to-query acquisition function is chosen as the next location to expensively evaluate. While BO is an effective strategy, the use of GPs is limiting. Their performance decreases as the problem input dimensionality increases, and their computational complexity scales cubically with the amount of data. To address these limitations, we extend previous work on BO by density-ratio estimation (BORE) to the multi-objective setting. BORE links the computation of the probability of improvement acquisition function to that of probabilistic classification. This enables the use of state-of-the-art classifiers in a BO-like framework. In this work we present MBORE: multi-objective Bayesian optimisation by density-ratio estimation, and compare it to BO across a range of synthetic and real-world benchmarks. We find that MBORE performs as well as or better than BO on a wide variety of problems, and that it outperforms BO on high-dimensional and real-world problems.
翻訳日:2022-04-01 13:24:06 公開日:2022-03-31
# エンボディードAIのための連続場面表現

Continuous Scene Representations for Embodied AI ( http://arxiv.org/abs/2203.17251v1 )

ライセンス: Link先を確認
Samir Yitzhak Gadre, Kiana Ehsani, Shuran Song, Roozbeh Mottaghi(参考訳) 連続シーン表現(Continuous Scene Representations, CSR)は,オブジェクトとその関係を連続的な値の埋め込みによってモデル化した,空間内を移動するエンボディエージェントによって構築されたシーン表現である。 本手法はオブジェクト間の特徴関係をキャプチャし,それらをオンザフライでグラフ構造に構成し,その表現の中に具体化エージェントを配置する。 私たちの重要な洞察は、オブジェクト間のペアワイズ関係を潜在空間に埋め込むことです。 これにより、シーン表現を構築するのに一般的に使用される離散関係(例えば[ support], [next-to])よりもリッチな表現が可能になる。 CSRは、エージェントがシーンを移動するときにオブジェクトを追跡し、それに従って表現を更新し、部屋の構成の変更を検出する。 我々は,CSRを用いて,タスク固有のトレーニングを伴わずに,視覚室再構成の困難な下流タスクに対して,最先端のアプローチより優れていた。 さらに,学習した組込みがシーンの空間的詳細を捉え,実世界データへの適用性を示す。 夏のビデオとコードはhttps://prior.allena i.org/projects/csr.c omで公開されている。

We propose Continuous Scene Representations (CSR), a scene representation constructed by an embodied agent navigating within a space, where objects and their relationships are modeled by continuous valued embeddings. Our method captures feature relationships between objects, composes them into a graph structure on-the-fly, and situates an embodied agent within the representation. Our key insight is to embed pair-wise relationships between objects in a latent space. This allows for a richer representation compared to discrete relations (e.g., [support], [next-to]) commonly used for building scene representations. CSR can track objects as the agent moves in a scene, update the representation accordingly, and detect changes in room configurations. Using CSR, we outperform state-of-the-art approaches for the challenging downstream task of visual room rearrangement, without any task specific training. Moreover, we show the learned embeddings capture salient spatial details of the scene and show applicability to real world data. A summery video and code is available at https://prior.allena i.org/projects/csr.
翻訳日:2022-04-01 13:22:06 公開日:2022-03-31
# R2L: 効率的な新しい視点合成のためのニューラル光場への蒸留ニューラルラジアンス場

R2L: Distilling Neural Radiance Field to Neural Light Field for Efficient Novel View Synthesis ( http://arxiv.org/abs/2203.17261v1 )

ライセンス: Link先を確認
Huan Wang, Jian Ren, Zeng Huang, Kyle Olszewski, Menglei Chai, Yun Fu, Sergey Tulyakov(参考訳) 最近のneural radiance field(nerf)の研究は、ニューラルネットワークで複雑なシーンを表現できる可能性を示している。 一つのピクセルをレンダリングするには、NeRFネットワークを何百回もクエリする必要がある。 これを解決するため、既存の取り組みは主に必要なサンプリングポイントの数を減らそうとしている。 しかし、反復サンプリングの問題はまだ残っている。 一方、neural light field(nelf)は、新しいビュー合成において、nerfよりも分かりやすい表現を示す -- ピクセルのレンダリングは、レイマーチングなしで1つのフォワードパスに等しい。 そこで本研究では,光場を効果的に学習するためのMLPネットワーク(88層)を提案する。 このような深層nelfネットワークをうまく学習するための鍵は十分なデータを持つことであり、データ蒸留によって事前学習したnerfモデルから知識を転送することである。 合成シーンと実世界のシーンの両方における大規模な実験は、我々の手法が他のアルゴリズムよりも有益であることを示す。 合成シーンでは、26-35x FLOPsの削減(カメラ1枚あたり)と28-31xのランタイム高速化を実現し、また、カスタマイズされた実装トリックなしで、NeRFよりもはるかに優れた(1.4-2.8dB平均PSNR改善)レンダリング品質を実現した。

Recent research explosion on Neural Radiance Field (NeRF) shows the encouraging potential to represent complex scenes with neural networks. One major drawback of NeRF is its prohibitive inference time: Rendering a single pixel requires querying the NeRF network hundreds of times. To resolve it, existing efforts mainly attempt to reduce the number of required sampled points. However, the problem of iterative sampling still exists. On the other hand, Neural Light Field (NeLF) presents a more straightforward representation over NeRF in novel view synthesis -- the rendering of a pixel amounts to one single forward pass without ray-marching. In this work, we present a deep residual MLP network (88 layers) to effectively learn the light field. We show the key to successfully learning such a deep NeLF network is to have sufficient data, for which we transfer the knowledge from a pre-trained NeRF model via data distillation. Extensive experiments on both synthetic and real-world scenes show the merits of our method over other counterpart algorithms. On the synthetic scenes, we achieve 26-35x FLOPs reduction (per camera ray) and 28-31x runtime speedup, meanwhile delivering significantly better (1.4-2.8 dB average PSNR improvement) rendering quality than NeRF without any customized implementation tricks.
翻訳日:2022-04-01 13:21:46 公開日:2022-03-31
# リハーサルフリー連続学習について

A Closer Look at Rehearsal-Free Continual Learning ( http://arxiv.org/abs/2203.17269v1 )

ライセンス: Link先を確認
James Seale Smith, Junjiao Tian, Yen-Chang Hsu, Zsolt Kira(参考訳) 連続学習は、機械学習モデルが、トレーニングデータを継続的にシフトすることから新しい概念を学習するのと同時に、トレーニングデータから長期にわたって消える可能性のある、それまでに見られたクラス(破滅的な忘れる問題として知られる現象)の知識の劣化を回避している。 1つの拡張タスク(いわゆるクラス増分連続学習)の継続的な学習への現在のアプローチは、この知識の劣化を避けるために、これまで見られたデータを広範囲にリハーサルする必要がある。 残念ながら、リハーサルはメモリと計算に多大なコストがかかり、データプライバシにも違反する可能性がある。 代わりに,知識蒸留とパラメータ正規化を組み合わせることにより,リハーサルを伴わずに継続学習性能の向上を図る。 具体的には、予測蒸留、特徴蒸留、L2パラメータ正則化、EWCパラメータ正則化など、一般的な連続学習手法について深く研究する。 まず、パラメータ正規化手法が1つの拡張タスクのリハーサルなし連続学習に失敗するという一般的な仮定を論じる。 次に、リハーサルなし連続学習における事前学習モデルからの知識を活用する方法について検討し、バニラL2パラメータ正則化がEWCパラメータ正則化および特徴蒸留より優れていることを示す。 次に,リハーサルフリーの連続学習環境の影響を分類器拡張ベンチマークで強調し,この結果に基づく戦略とポジティブ/負のラベルバランスのヒューリスティックが組み合わさることで,上位戦略と既存戦略のパフォーマンスギャップを最大50%削減できることを示した。 最後に,CIFAR-100ベンチマークにおいて,事前学習,L2正則化,予測蒸留による簡易な手法がリハーサル法よりも優れていることを示す。

Continual learning describes a setting where machine learning models learn novel concepts from continuously shifting training data, while simultaneously avoiding degradation of knowledge on previously seen classes (a phenomenon known as the catastrophic forgetting problem) which may disappear from the training data for extended periods of time. Current approaches for continual learning of a single expanding task (aka class-incremental continual learning) require extensive rehearsal of previously seen data to avoid this degradation of knowledge. Unfortunately, rehearsal comes at a sharp cost to memory and computation, and it may also violate data-privacy. Instead, we explore combining knowledge distillation and parameter regularization in new ways to achieve strong continual learning performance without rehearsal. Specifically, we take a deep dive into common continual learning techniques: prediction distillation, feature distillation, L2 parameter regularization, and EWC parameter regularization. We first disprove the common assumption that parameter regularization techniques fail for rehearsal-free continual learning of a single, expanding task. Next, we explore how to leverage knowledge from a pre-trained model in rehearsal-free continual learning and find that vanilla L2 parameter regularization outperforms EWC parameter regularization and feature distillation. We then highlight the impact of the rehearsal-free continual learning settings with a classifier expansion benchmark, showing that a strategy based on our findings combined with a positive/negative label balancing heuristic can close the performance gap between the upper bound and the existing strategies by up to roughly 50%. Finally, we show that a simple method consisting of pre-training, L2 regularization, and prediction distillation can even outperform rehearsal-based methods on the common CIFAR-100 benchmark.
翻訳日:2022-04-01 13:21:20 公開日:2022-03-31
# 単語混合とGRUに基づく科学的・技術的テキスト知識抽出法

Scientific and Technological Text Knowledge Extraction Method of based on Word Mixing and GRU ( http://arxiv.org/abs/2203.17079v1 )

ライセンス: Link先を確認
Suyu Ouyang and Yingxia Shao and Junping Du and Ang Li(参考訳) 知識抽出タスクは、構造化されていないテキストデータからトリプルリレーション(ヘッドエンティティ-リレーション-テールエンティティ)を抽出する。 既存の知識抽出方法は「パイプライン法」と「ジョイント抽出法」に分けられる。 パイプライン」メソッドは、名前付きエンティティ認識とエンティティ関係抽出を分離し、それらを抽出するのに独自のモジュールを使用する。 この方法は柔軟性が向上するが、訓練速度は遅い。 協調抽出の学習モデルは、エンティティ認識と関係抽出を同時に実現するためにニューラルネットワークによって実装されたエンドツーエンドモデルであり、エンティティと関係の関係をよく保存し、エンティティと関係の協調抽出をシーケンスアノテーション問題に変換することができる。 本稿では, 単語混合とGRUに基づく科学技術資源の知識抽出手法と, 単語混合ベクトルマッピング法と自己認識機構を組み合わせることで, 中国語の科学・技術資源に対するテキスト関係抽出の効果を効果的に向上する。

The knowledge extraction task is to extract triple relations (head entity-relation-tail entity) from unstructured text data. The existing knowledge extraction methods are divided into "pipeline" method and joint extraction method. The "pipeline" method is to separate named entity recognition and entity relationship extraction and use their own modules to extract them. Although this method has better flexibility, the training speed is slow. The learning model of joint extraction is an end-to-end model implemented by neural network to realize entity recognition and relationship extraction at the same time, which can well preserve the association between entities and relationships, and convert the joint extraction of entities and relationships into a sequence annotation problem. In this paper, we propose a knowledge extraction method for scientific and technological resources based on word mixture and GRU, combined with word mixture vector mapping method and self-attention mechanism, to effectively improve the effect of text relationship extraction for Chinese scientific and technological resources.
翻訳日:2022-04-01 13:20:45 公開日:2022-03-31
# (参考訳) me-capsnet:ルーティング機構を備えたマルチエンハンスカプセルネットワーク [全文訳有]

ME-CapsNet: A Multi-Enhanced Capsule Networks with Routing Mechanism ( http://arxiv.org/abs/2203.15547v3 )

ライセンス: CC BY 4.0
Jerrin Bright, Suryaprakash Rajkumar and Arockia Selvakumar Arockia Doss(参考訳) 畳み込みニューラルネットワークは、ネットワーク層におけるチャネルワイドおよび空間ワイドの情報によって決定される情報的特徴を構築する必要がある。 本研究では,各レイヤの受容領域内の空間成分とチャネル成分の両方を強化するために,高度な最適化を用いた新しい解法を提案する。 カプセルネットワークは特徴マップの特徴間の空間的関連を理解するために使われた。 スタンドアローンカプセルネットワークは、異常な量の特徴情報の結果として、複雑なデータセットよりも比較的単純なデータセットに対して良い結果を示した。 そこで我々は,ME-CapsNetを提案し,より深い畳み込み層を導入して重要な特徴を抽出し,戦略的にカプセル層のモジュールを通過し,ネットワークの性能を大幅に向上させた。 深層畳み込み層は、空間サイズを漸進的に減少させる確率的サンプリングアプローチを用いて、重要な特徴情報を損なうことなく、それらの相互依存性を再構築することにより、チャネルを動的に再調整する、スクイーズ抽出ネットワークのブロックを含む。 提案するme-capsnetの効率を示す一般的なデータセットを用いて大規模な実験を行い、複雑なデータセットにおけるモデルの複雑さを最小限に抑えながら、高い精度を達成することにより、様々な研究成果を明らかに上回っている。

Convolutional Neural Networks need the construction of informative features, which are determined by channel-wise and spatial-wise information at the network's layers. In this research, we focus on bringing in a novel solution that uses sophisticated optimization for enhancing both the spatial and channel components inside each layer's receptive field. Capsule Networks were used to understand the spatial association between features in the feature map. Standalone capsule networks have shown good results on comparatively simple datasets than on complex datasets as a result of the inordinate amount of feature information. Thus, to tackle this issue, we have proposed ME-CapsNet by introducing deeper convolutional layers to extract important features before passing through modules of capsule layers strategically to improve the performance of the network significantly. The deeper convolutional layer includes blocks of Squeeze-Excitation networks which use a stochastic sampling approach for progressively reducing the spatial size thereby dynamically recalibrating the channels by reconstructing their interdependencies without much loss of important feature information. Extensive experimentation was done using commonly used datasets demonstrating the efficiency of the proposed ME-CapsNet, which clearly outperforms various research works by achieving higher accuracy with minimal model complexity in complex datasets.
翻訳日:2022-04-01 13:19:44 公開日:2022-03-31
# (参考訳) 検閲を伴う縦公平性 [全文訳有]

Longitudinal Fairness with Censorship ( http://arxiv.org/abs/2203.16024v2 )

ライセンス: CC0 1.0
Wenbin Zhang and Jeremy C. Weiss(参考訳) 人工知能の公正性に関する最近の研究は、公平性統計のパリティを達成する制約付き最適化プログラムを提案し、差別を緩和しようとする試みである。 ほとんどがクラスラベルの可用性を仮定しており、精密医学、時間的分析、再帰的予測など、多くの実世界のアプリケーションでは実用的でない。 ここでは, 連続的右検閲環境において, 事象の時期が不明な場合, クラスラベルの検閲と既存フェアネス研究の不適用性について考察する。 我々は、適用可能な公正度対策を考案し、デバイアスアルゴリズムを提案し、これらの重要かつ社会的に敏感なタスクに対して検閲なしで公正度を橋渡しするために必要な理論的構成を提供する。 4つの検閲データセットに関する実験で,提案手法の有用性を確認した。

Recent works in artificial intelligence fairness attempt to mitigate discrimination by proposing constrained optimization programs that achieve parity for some fairness statistic. Most assume availability of the class label, which is impractical in many real-world applications such as precision medicine, actuarial analysis and recidivism prediction. Here we consider fairness in longitudinal right-censored environments, where the time to event might be unknown, resulting in censorship of the class label and inapplicability of existing fairness studies. We devise applicable fairness measures, propose a debiasing algorithm, and provide necessary theoretical constructs to bridge fairness with and without censorship for these important and socially-sensitive tasks. Our experiments on four censored datasets confirm the utility of our approach.
翻訳日:2022-04-01 13:07:59 公開日:2022-03-31
# (参考訳) 将来の物体検出によるLiDARからの予測 [全文訳有]

Forecasting from LiDAR via Future Object Detection ( http://arxiv.org/abs/2203.16297v2 )

ライセンス: CC BY 4.0
Neehar Peri, Jonathon Luiten, Mengtian Li, Aljo\v{s}a O\v{s}ep, Laura Leal-Taix\'e, Deva Ramanan(参考訳) 物体検出と予測は、具体化知覚の基本的な構成要素である。 しかし、これらの2つの問題はコミュニティによって主に研究されている。 本稿では,地中真実の軌跡ではなく,原位置センサによる検出と動き予測のためのエンドツーエンドアプローチを提案する。 現在のフレームの位置を予測し、時間内に前方に予測する代わりに、将来のオブジェクトの位置とバックキャストを直接予測して、それぞれの軌道がどこから始まったかを決定する。 我々のアプローチは他のモジュラーベースラインやエンド・ツー・エンドベースラインと比べて全体的な精度を向上させるだけでなく、具体化された知覚に対する明示的な追跡の役割を再考する。 さらに、将来と現在の場所を多対一でリンクすることで、これまでエンドツーエンドのアプローチでは難しいと考えられていた、複数の未来を推論することができます。 我々は,人気のあるnuscenesデータセットを広範囲に実験し,このアプローチの実証的有効性を示す。 さらに、エンド・ツー・エンドの設定で標準予測メトリクスを再利用することの適切性を調査し、これらのメトリクスを競うための単純なベースラインを構築するための多くの制限を見つける。 本稿では,検出コミュニティから一般的なAPメトリクスを拡張し,予測精度を計測する,新しい共同予測・検出指標を用いてこの問題に対処する。 私たちのコードはhttps://github.com/n eeharperi/FutureDetで利用可能です。

Object detection and forecasting are fundamental components of embodied perception. These two problems, however, are largely studied in isolation by the community. In this paper, we propose an end-to-end approach for detection and motion forecasting based on raw sensor measurement as opposed to ground truth tracks. Instead of predicting the current frame locations and forecasting forward in time, we directly predict future object locations and backcast to determine where each trajectory began. Our approach not only improves overall accuracy compared to other modular or end-to-end baselines, it also prompts us to rethink the role of explicit tracking for embodied perception. Additionally, by linking future and current locations in a many-to-one manner, our approach is able to reason about multiple futures, a capability that was previously considered difficult for end-to-end approaches. We conduct extensive experiments on the popular nuScenes dataset and demonstrate the empirical effectiveness of our approach. In addition, we investigate the appropriateness of reusing standard forecasting metrics for an end-to-end setup, and find a number of limitations which allow us to build simple baselines to game these metrics. We address this issue with a novel set of joint forecasting and detection metrics that extend the commonly used AP metrics from the detection community to measuring forecasting accuracy. Our code is available at https://github.com/n eeharperi/FutureDet
翻訳日:2022-04-01 12:53:47 公開日:2022-03-31
# (参考訳) 一般化アグレッシブデコーディングによる自動回帰翻訳のロスレス高速化 [全文訳有]

Lossless Speedup of Autoregressive Translation with Generalized Aggressive Decoding ( http://arxiv.org/abs/2203.16487v2 )

ライセンス: CC BY 4.0
Heming Xia, Tao Ge, Furu Wei, Zhifang Sui(参考訳) 本稿では,GAD(Generalized Aggressive Decoding)を提案する。トランスフォーマーの自己回帰的・非自己回帰的翻訳(NAT)の協調により,品質損失のない自己回帰的翻訳を高速化する新しいアプローチである。 各デコーディングイテレーションで、gadはnatを通してドラフトとして並行して多数のトークンを積極的にデコードし、検証をパスするトークンのみがデコードされたトークンとして保持される自己回帰的な方法でそれらを検証する。 GADは自動回帰翻訳と同じ性能を達成できるが、NATの起草と自己回帰検証は並列計算のため高速であるため、はるかに効率的に行うことができる。 我々はwmt14の英ドイツ語翻訳タスクで実験を行い、バニラgadが約3倍のスピードアップでグリーディ復号と全く同じ結果が得られること、そしてその進化した検証戦略(gad++)がグリーディ翻訳よりも優れるだけでなく、ビーム検索結果と同等の翻訳品質を達成し、さらにデコード速度を向上し、自己回帰翻訳よりも約5倍のスピードアップをもたらすことを確認した。 私たちのモデルとコードはhttps://github.com/h emingkx/generalized- aggressive-decodingで利用可能です。

In this paper, we propose Generalized Aggressive Decoding (GAD) -- a novel approach to accelerating autoregressive translation with no quality loss, through the collaboration of autoregressive and non-autoregressive translation (NAT) of the Transformer. At each decoding iteration, GAD aggressively decodes a number of tokens in parallel as a draft through NAT and then verifies them in the autoregressive manner, where only the tokens that pass the verification are kept as decoded tokens. GAD can achieve the same performance as autoregressive translation but much more efficiently because both NAT drafting and autoregressive verification are fast due to parallel computing. We conduct experiments in the WMT14 English-German translation task and confirm that the vanilla GAD yields exactly the same results as greedy decoding with an around 3x speedup, and that its variant (GAD++) with an advanced verification strategy not only outperforms the greedy translation and even achieves the comparable translation quality with the beam search result, but also further improves the decoding speed, resulting in an around 5x speedup over autoregressive translation. Our models and codes are available at https://github.com/h emingkx/Generalized- Aggressive-Decoding.
翻訳日:2022-04-01 12:34:18 公開日:2022-03-31
# ディープハッシュとコード分類によるコード検索の高速化

Accelerating Code Search with Deep Hashing and Code Classification ( http://arxiv.org/abs/2203.15287v2 )

ライセンス: Link先を確認
Wenchao Gu, Yanlin Wang, Lun Du, Hongyu Zhang, Shi Han, Dongmei Zhang, and Michael R. Lyu(参考訳) コード検索は、自然言語クエリに基づいてソースコードコーパスから再利用可能なコードスニペットを検索する。 深層学習に基づくコード検索手法は有望な結果を示している。 しかし,従来の手法は検索精度に重点を置いていたが,検索効率に注意が払わなかった。 本研究では,コード探索の精度を犠牲にすることなく,効率的なコード探索を実現することを目的とした,ディープハッシュとコード分類によるコード探索を高速化する新しい手法であるcoshcを提案する。 CoSHCの有効性を評価するため,提案手法を5つのコード検索モデルに適用した。 その結果,CoSHCは検索時間の90%以上を節約できる一方で,検索精度の99%は保存できることがわかった。

Code search is to search reusable code snippets from source code corpus based on natural languages queries. Deep learning-based methods of code search have shown promising results. However, previous methods focus on retrieval accuracy but lacked attention to the efficiency of the retrieval process. We propose a novel method CoSHC to accelerate code search with deep hashing and code classification, aiming to perform an efficient code search without sacrificing too much accuracy. To evaluate the effectiveness of CoSHC, we apply our method to five code search models. Extensive experimental results indicate that compared with previous code search baselines, CoSHC can save more than 90% of retrieval time meanwhile preserving at least 99% of retrieval accuracy.
翻訳日:2022-04-01 12:10:49 公開日:2022-03-31
# 生成的逆ネットワークを用いたコミュニケーションロボット運動の合成と実行

Synthesis and Execution of Communicative Robotic Movements with Generative Adversarial Networks ( http://arxiv.org/abs/2203.15640v2 )

ライセンス: Link先を確認
Luca Garello, Linda Lastrico, Alessandra Sciutti, Nicoletta Noceti, Fulvio Mastrogiovanni and Francesco Rea(参考訳) オブジェクト操作は私たちが毎日実行する自然なアクティビティです。 人間がどのようにオブジェクトを扱うかは、行動の意志や操作するコンテキストの重要な側面だけでなく、明示的な言語記述を必要とせずに、関連するオブジェクトの特性を伝達することができる。 人間の知性はコンテキストを読み取る能力を備えているため、ロボットはこのような情報を直感的に伝達するアクションを実行できる。 本研究では、繊細な物体を操作する際に人間が採用するのと同じキネマティクス変調を2つの異なるロボットプラットフォームに転送する方法に焦点を当て、ロボットに動きに注意を示す能力を与える。 我々は、ロボットのエンドエフェクタが採用する速度プロファイルを、異なる特性を持つ物体を輸送する際に人間が何をするかに触発されて調整する。 我々は、人間の運動学の例で訓練された、新しい生成的敵対的ネットワークアーキテクチャを利用して、それらを一般化し、注意深い態度または注意深い態度に関連づけられた、新しい有意義な速度プロファイルを生成する。 このアプローチにより、次世代ロボットは知覚された文脈に応じて最も適切な動作スタイルを選択し、自律的に運動の実行を生成することができる。

Object manipulation is a natural activity we perform every day. How humans handle objects can communicate not only the willfulness of the acting, or key aspects of the context where we operate, but also the properties of the objects involved, without any need for explicit verbal description. Since human intelligence comprises the ability to read the context, allowing robots to perform actions that intuitively convey this kind of information would greatly facilitate collaboration. In this work, we focus on how to transfer on two different robotic platforms the same kinematics modulation that humans adopt when manipulating delicate objects, aiming to endow robots with the capability to show carefulness in their movements. We choose to modulate the velocity profile adopted by the robots' end-effector, inspired by what humans do when transporting objects with different characteristics. We exploit a novel Generative Adversarial Network architecture, trained with human kinematics examples, to generalize over them and generate new and meaningful velocity profiles, either associated with careful or not careful attitudes. This approach would allow next generation robots to select the most appropriate style of movement, depending on the perceived context, and autonomously generate their motor action execution.
翻訳日:2022-04-01 12:10:37 公開日:2022-03-31
# voxelレベルセグメンテーション指標が多局所前立腺癌局所化の評価に及ぼす影響

The impact of using voxel-level segmentation metrics on evaluating multifocal prostate cancer localisation ( http://arxiv.org/abs/2203.16415v2 )

ライセンス: Link先を確認
Wen Yan and Qianye Yang and Tom Syer and Zhe Min and Shonit Punwani and Mark Emberton and Dean C. Barratt and Bernard Chiu and Yipeng Hu(参考訳) Dice similarity coefficient (DSC) と Hausdorff distance (HD) は医療画像セグメンテーションの評価に広く用いられている。 彼らはまた、単独で報告されたとき、その不明瞭な、あるいは誤解を招く臨床解釈について批判されている。 DSCは、被検体内の境界の滑らかさや複数の関心領域(ROI)のため、HDと大きく異なる場合もある。 さらに重要なことに、どちらのメトリックも、タイプ1と2のエラーに基づく結果と非線形で非単調な関係を持ち、結果のセグメンテーションを使用する特定の臨床判断のために設計された。 これらのメトリクス間の不一致を引き起こすケースは、仮定が難しくない。 この研究はまず, 前立腺癌治療の計画にオブジェクト検出に使用する新しい非対称検出指標を提案する。 病変レベルの指標はvoxelレベルのdscとhdと比較され、3d unetはマルチパラメトリックmr(mpmr)画像から病変を分割するために使用される。 実験結果をもとに ペアワイズ・アグリーメントと相関関係を 1) DSC と HD の間, そして 2) ボクセルレベルのDSCと病変レベルのリコール制御精度の間には, コーエンの[0.49, 0.61]とピアソンの [0.66, 0.76] (p-values}<0.001) が様々なカットオフで一致した。 しかし, 偽陽性例と偽陰性例の差は, dscが使用される場合, 実際の誤差と偽陰性例との差は, 357例中152例, 154例にみられた。 したがって,dscなどのvoxelレベル指標は有意な相関関係があるにもかかわらず,多焦点前立腺癌の局所化を評価するために病変レベル検出精度を誤認し,注意して解釈すべきである。

Dice similarity coefficient (DSC) and Hausdorff distance (HD) are widely used for evaluating medical image segmentation. They have also been criticised, when reported alone, for their unclear or even misleading clinical interpretation. DSCs may also differ substantially from HDs, due to boundary smoothness or multiple regions of interest (ROIs) within a subject. More importantly, either metric can also have a nonlinear, non-monotonic relationship with outcomes based on Type 1 and 2 errors, designed for specific clinical decisions that use the resulting segmentation. Whilst cases causing disagreement between these metrics are not difficult to postulate. This work first proposes a new asymmetric detection metric, adapting those used in object detection, for planning prostate cancer procedures. The lesion-level metrics is then compared with the voxel-level DSC and HD, whereas a 3D UNet is used for segmenting lesions from multiparametric MR (mpMR) images. Based on experimental results we report pairwise agreement and correlation 1) between DSC and HD, and 2) between voxel-level DSC and recall-controlled precision at lesion-level, with Cohen's [0.49, 0.61] and Pearson's [0.66, 0.76] (p-values}<0.001) at varying cut-offs. However, the differences in false-positives and false-negatives, between the actual errors and the perceived counterparts if DSC is used, can be as high as 152 and 154, respectively, out of the 357 test set lesions. We therefore carefully conclude that, despite of the significant correlations, voxel-level metrics such as DSC can misrepresent lesion-level detection accuracy for evaluating localisation of multifocal prostate cancer and should be interpreted with caution.
翻訳日:2022-04-01 12:10:15 公開日:2022-03-31
# 量子回路を用いた最適無分類と密度推定

Optimisation-free Classification and Density Estimation with Quantum Circuits ( http://arxiv.org/abs/2203.14452v2 )

ライセンス: Link先を確認
Vladimir Vargas-Calder\'on, Fabio A. Gonz\'alez, and Herbert Vinck-Posada(参考訳) 量子回路を用いた確率密度推定と分類のための新しい機械学習フレームワークの実装を実証する。 このフレームワークは、トレーニングデータセットまたは単一のデータサンプルを、量子特徴マップを介して物理システムの量子状態にマップする。 任意の大きなトレーニングデータセットの量子状態は、その確率分布を有限次元の量子波動関数で要約する。 新しいデータサンプルの量子状態をトレーニングデータセットの量子状態に投影することにより、統計を導出して、新しいデータサンプルの密度を分類または推定することができる。 注目すべきは、実際の量子デバイスに対する我々のフレームワークの実装は、量子回路パラメータの最適化を必要としないことである。 それにもかかわらず、我々はこのフレームワークの量子長所を活用できる変分量子回路アプローチについて論じる。

We demonstrate the implementation of a novel machine learning framework for probability density estimation and classification using quantum circuits. The framework maps a training data set or a single data sample to the quantum state of a physical system through quantum feature maps. The quantum state of the arbitrarily large training data set summarises its probability distribution in a finite-dimensional quantum wave function. By projecting the quantum state of a new data sample onto the quantum state of the training data set, one can derive statistics to classify or estimate the density of the new data sample. Remarkably, the implementation of our framework on a real quantum device does not require any optimisation of quantum circuit parameters. Nonetheless, we discuss a variational quantum circuit approach that could leverage quantum advantage for our framework.
翻訳日:2022-04-01 12:09:42 公開日:2022-03-31
# オーディオディープフェイク検出は一般化するか?

Does Audio Deepfake Detection Generalize? ( http://arxiv.org/abs/2203.16263v2 )

ライセンス: Link先を確認
Nicolas M. M\"uller, Pavel Czempin, Franziska Dieckmann, Adam Froghyar, Konstantin B\"ottinger(参考訳) 現在のテキストから音声へのアルゴリズムは、人間の声の現実的なフェイクを生成し、ディープフェイク検出を非常に必要な研究領域にする。 研究者たちは、オーディオスプーフを検出するための様々なテクニックを提示してきたが、これらのアーキテクチャが成功した理由がよく分かっていない: 事前処理ステップ、ハイパーパラメータ設定、微調整の程度は、関連する作業間で一致していない。 成功に寄与する要因は何か。 本研究では, 関連する作業からアーキテクチャを再実装し, 均一に評価することで, 音声スプーフィング検出をシステム化する。 メリースペック機能の代わりにcqtspecやlogspec機能などのオーディオディープフェイク検出を成功させるためには,平均で37%のEERの性能向上が期待できる。 我々は、有名人や政治家の音声記録を37.9時間収集し、新しいデータセットを公開し、そのうち17.2時間はディープフェイクである。 このような実世界のデータ(最大1000パーセントの性能劣化)では、関連する作業が不十分であることが分かりました。 これは、コミュニティがASVSpoofベンチマークに近づきすぎており、ディープフェイクが以前考えられていたよりもラボ外で検出するのがずっと難しいことを示唆しているかもしれない。

Current text-to-speech algorithms produce realistic fakes of human voices, making deepfake detection a much-needed area of research. While researchers have presented various techniques for detecting audio spoofs, it is often unclear exactly why these architectures are successful: Preprocessing steps, hyperparameter settings, and the degree of fine-tuning are not consistent across related work. Which factors contribute to success, and which are accidental? In this work, we address this problem: We systematize audio spoofing detection by re-implementing and uniformly evaluating architectures from related work. We identify overarching features for successful audio deepfake detection, such as using cqtspec or logspec features instead of melspec features, which improves performance by 37% EER on average, all other factors constant. Additionally, we evaluate generalization capabilities: We collect and publish a new dataset consisting of 37.9 hours of found audio recordings of celebrities and politicians, of which 17.2 hours are deepfakes. We find that related work performs poorly on such real-world data (performance degradation of up to one thousand percent). This may suggest that the community has tailored its solutions too closely to the prevailing ASVSpoof benchmark and that deepfakes are much harder to detect outside the lab than previously thought.
翻訳日:2022-04-01 12:09:32 公開日:2022-03-31
# (参考訳) AdaMixer: 高速に収束するクエリベースのオブジェクト検出器 [全文訳有]

AdaMixer: A Fast-Converging Query-Based Object Detector ( http://arxiv.org/abs/2203.16507v2 )

ライセンス: CC BY 4.0
Ziteng Gao, Limin Wang, Bing Han, Sheng Guo(参考訳) 従来の物体検出器は、画像中の場所やスケールを走査する密集したパラダイムを採用している。 最近のクエリベースのオブジェクト検出器は、画像の特徴を学習可能なクエリのセットでデコードすることで、この規約を破っている。 しかしながら、このパラダイムは、バックボーンとデコーダの間の余分なネットワークの収束の遅さ、性能の制限、設計上の複雑さに悩まされている。 本稿では,様々なオブジェクトにクエリをキャストするためのデコーダの適応性が課題の鍵であることを示す。 そこで本研究では,クエリベースの復号処理の2つの側面から適応性を向上させることにより,高速収束型クエリベース検出器adamixerを提案する。 まず、各クエリは、推定オフセットに基づいてスペースとスケールを適応的にサンプリングし、adamixerがオブジェクトのコヒーレントな領域に効率的に出席できるようにします。 そして,各クエリのガイダンスに基づいて,適応型MLP-Mixerでこれらの特徴を動的に復号する。 この2つの重要な設計のおかげで、adamixerは集中エンコーダや明示的なピラミッドネットワークを必要とせずに、アーキテクチャの単純さを享受できる。 挑戦的なMS COCOベンチマークでは、ResNet-50をバックボーンとするAdaMixerが12のトレーニングエポックを持ち、検証セット上で最大45.0 APに達し、27.9 APで小さな物体を検出する。 より長いトレーニングスキームでは、ResNeXt-101-DCNとSwin-Sを使用したAdaMixerは49.5と51.3 APに達する。 私たちの仕事は、クエリベースのオブジェクト検出のためのシンプルで正確で高速な収束アーキテクチャに光を当てています。 コードはhttps://github.com/m cg-nju/adamixerで入手できる。

Traditional object detectors employ the dense paradigm of scanning over locations and scales in an image. The recent query-based object detectors break this convention by decoding image features with a set of learnable queries. However, this paradigm still suffers from slow convergence, limited performance, and design complexity of extra networks between backbone and decoder. In this paper, we find that the key to these issues is the adaptability of decoders for casting queries to varying objects. Accordingly, we propose a fast-converging query-based detector, named AdaMixer, by improving the adaptability of query-based decoding processes in two aspects. First, each query adaptively samples features over space and scales based on estimated offsets, which allows AdaMixer to efficiently attend to the coherent regions of objects. Then, we dynamically decode these sampled features with an adaptive MLP-Mixer under the guidance of each query. Thanks to these two critical designs, AdaMixer enjoys architectural simplicity without requiring dense attentional encoders or explicit pyramid networks. On the challenging MS COCO benchmark, AdaMixer with ResNet-50 as the backbone, with 12 training epochs, reaches up to 45.0 AP on the validation set along with 27.9 APs in detecting small objects. With the longer training scheme, AdaMixer with ResNeXt-101-DCN and Swin-S reaches 49.5 and 51.3 AP. Our work sheds light on a simple, accurate, and fast converging architecture for query-based object detectors. The code is made available at https://github.com/M CG-NJU/AdaMixer
翻訳日:2022-04-01 12:07:34 公開日:2022-03-31
# 異常検出のためのラジアルオートエンコーダ

Radial Autoencoders for Enhanced Anomaly Detection ( http://arxiv.org/abs/2203.15884v2 )

ライセンス: Link先を確認
Mihai-Cezar Augustin, Vivien Bonvin, Regis Houssou, Efstratios Rappos and Stephan Robert-Nicoud(参考訳) 分類問題では、ニューラルネットワークが複雑なパターンを学習できるため、教師付き機械学習手法が従来のアルゴリズムより優れている。 しかしながら、異常や不正検出のような2つのクラス分類タスクでは、教師なしのメソッドは、以前学習したタイプの異常に限らないため、さらに優れている可能性がある。 異常検出の直感的なアプローチは、2つのクラスの質量の中心からの距離に基づいている。 オートエンコーダは、監視なしで訓練されるが、異常を検出できる: 正常点の質量の中心を考えると、再構築はradiiとなり、最大のradiiは異常点を示す可能性が高い。 もちろん、radiiベースの分類はすでにオートエンコーダを介さずに可能であった。 任意の空間において、ラジアル分類はある程度は操作できる。 それを上回るためには、データのラジアルな変形(軸中心の圧縮や拡大)とオートエンコーダのトレーニングに進む。 データセンターを利用するオートエンコーダは、ここで、中心的オートエンコーダ(cAE)を洗礼する。 特別なタイプは、cpAE (Centripetal autoencoder) と名付けられた一様に圧縮されたデータセットで訓練されたCAEである。 新しい概念はスキーマ的な人工データセットに関連して研究され、導出された手法は一貫したスコア改善を示す。 しかし、実際の銀行データを用いてテストしたところ、我々の放射状変形監視アルゴリズムだけでは、ほとんどの監督手法が期待するように、CAEよりも優れた性能を発揮する。 我々は、幾何学的アルゴリズムで自然に伸びる能力と未知の異常型を検出するネイティブ能力により、中心的なオートエンコーダが、幾何学に基づく異常なライブ検出において、置換不能なオブジェクトになることを期待する。

In classification problems, supervised machine-learning methods outperform traditional algorithms, thanks to the ability of neural networks to learn complex patterns. However, in two-class classification tasks like anomaly or fraud detection, unsupervised methods could do even better, because their prediction is not limited to previously learned types of anomalies. An intuitive approach of anomaly detection can be based on the distances from the centers of mass of the two respective classes. Autoencoders, although trained without supervision, can also detect anomalies: considering the center of mass of the normal points, reconstructions have now radii, with largest radii most likely indicating anomalous points. Of course, radii-based classification were already possible without interposing an autoencoder. In any space, radial classification can be operated, to some extent. In order to outperform it, we proceed to radial deformations of data (i.e. centric compression or expansions of axes) and autoencoder training. Any autoencoder that makes use of a data center is here baptized a centric autoencoder (cAE). A special type is the cAE trained with a uniformly compressed dataset, named the centripetal autoencoder (cpAE). The new concept is studied here in relation with a schematic artificial dataset, and the derived methods show consistent score improvements. But tested on real banking data, our radial deformation supervised algorithms alone still perform better that cAEs, as expected from most supervised methods; nonetheless, in hybrid approaches, cAEs can be combined with a radial deformation of space, improving its classification score. We expect that centric autoencoders will become irreplaceable objects in anomaly live detection based on geometry, thanks to their ability to stem naturally on geometrical algorithms and to their native capability of detecting unknown anomaly types.
翻訳日:2022-04-01 11:30:25 公開日:2022-03-31
# 高速, 高精度, メモリ効率の良い部分置換同期

Fast, Accurate and Memory-Efficient Partial Permutation Synchronization ( http://arxiv.org/abs/2203.16505v2 )

ライセンス: Link先を確認
Shaohan Li, Yunpeng Shi, Gilad Lerman(参考訳) 従来の部分置換同期(PPS)アルゴリズムは、一般にマルチオブジェクトマッチングに使用されるが、計算集約およびメモリ要求行列演算を伴うことが多い。 これらの操作は、運動データセットから大規模構造を抽出できる。 純粋な置換同期のために、最近の cycle-edge message passing (cemp) フレームワークは、メモリ効率が高く高速なソリューションを提案している。 ここでは,コンパクト群に対するcempの制限を克服し,観測された部分置換の腐敗レベルを推定する改良アルゴリズムcemp-partialを提案する。 これにより、スペクトル初期化を必要とせずに非凸重み付き電力法を実装できる。 得られた新しいPSアルゴリズムであるMatchFAME(Fast, Accurate and Memory-Efficient Matching)は、疎行列演算のみを伴い、従来のPSアルゴリズムと比較して時間と空間の複雑さが低い。 敵対的腐敗の下では、付加的なノイズが無く、特定の仮定でCEMP-Partialは、破損した部分置換を正確に分類することができる。 提案手法の精度,高速化,メモリ効率を,合成データと実データの両方で実証する。

Previous partial permutation synchronization (PPS) algorithms, which are commonly used for multi-object matching, often involve computation-intensiv e and memory-demanding matrix operations. These operations become intractable for large scale structure-from-motio n datasets. For pure permutation synchronization, the recent Cycle-Edge Message Passing (CEMP) framework suggests a memory-efficient and fast solution. Here we overcome the restriction of CEMP to compact groups and propose an improved algorithm, CEMP-Partial, for estimating the corruption levels of the observed partial permutations. It allows us to subsequently implement a nonconvex weighted projected power method without the need of spectral initialization. The resulting new PPS algorithm, MatchFAME (Fast, Accurate and Memory-Efficient Matching), only involves sparse matrix operations, and thus enjoys lower time and space complexities in comparison to previous PPS algorithms. We prove that under adversarial corruption, though without additive noise and with certain assumptions, CEMP-Partial is able to exactly classify corrupted and clean partial permutations. We demonstrate the state-of-the-art accuracy, speed and memory efficiency of our method on both synthetic and real datasets.
翻訳日:2022-04-01 11:29:54 公開日:2022-03-31
# プロアクティブ画像操作検出

Proactive Image Manipulation Detection ( http://arxiv.org/abs/2203.15880v2 )

ライセンス: Link先を確認
Vishal Asnani, Xi Yin, Tal Hassner, Sijia Liu, Xiaoming Liu(参考訳) 画像操作検出アルゴリズムは、特定の生成モデル(gms)で操作された画像と実際の画像とを区別するように訓練されることが多いが、訓練中に認識されないgmsで操作された画像にはあまり一般化しない。 従来の検出アルゴリズムは受動的に入力画像を受け取る。 対照的に,画像操作検出のためのプロアクティブスキームを提案する。 私たちの重要な実現技術は、実際のイメージに追加されるとより正確な操作検出につながるテンプレートセットを見積もることです。 つまり、テンプレート保護実画像とその操作されたバージョンは、元の実画像と操作された画像の区別が優れている。 これらのテンプレートは、テンプレートの望ましい特性に基づいて、特定の制約を用いて推定される。 画像操作検出では,提案手法は,サイクルガンでは16%,ゴーガンでは32%の平均精度で先行手法を上回っている。 本手法は,12台のGMに対して平均10%の精度で先行作業よりも改善したことを示す様々なGMに対して一般化可能である。 私たちのコードはhttps://www.github.c om/vishal3477/proact ive_imdで利用可能です。

Image manipulation detection algorithms are often trained to discriminate between images manipulated with particular Generative Models (GMs) and genuine/real images, yet generalize poorly to images manipulated with GMs unseen in the training. Conventional detection algorithms receive an input image passively. By contrast, we propose a proactive scheme to image manipulation detection. Our key enabling technique is to estimate a set of templates which when added onto the real image would lead to more accurate manipulation detection. That is, a template protected real image, and its manipulated version, is better discriminated compared to the original real image vs. its manipulated one. These templates are estimated using certain constraints based on the desired properties of templates. For image manipulation detection, our proposed approach outperforms the prior work by an average precision of 16% for CycleGAN and 32% for GauGAN. Our approach is generalizable to a variety of GMs showing an improvement over prior work by an average precision of 10% averaged across 12 GMs. Our code is available at https://www.github.c om/vishal3477/proact ive_IMD.
翻訳日:2022-04-01 11:29:35 公開日:2022-03-31
# IoTにおけるグラフニューラルネットワーク: サーベイ

Graph Neural Networks in IoT: A Survey ( http://arxiv.org/abs/2203.15935v2 )

ライセンス: Link先を確認
Guimin Dong, Mingyue Tang, Zhiyuan Wang, Jiechao Gao, Sikun Guo, Lihua Cai, Robert Gutierrez, Bradford Campbell, Laura E. Barnes, Mehdi Boukhechba(参考訳) IoT(Internet of Things)ブームは、医療、家庭、輸送、製造業、サプライチェーンなど、人々の日常生活のほぼすべてのコーナーに革命をもたらした。 近年のセンサと通信技術の発展により、スマートウェアラブル、カメラ、スマートウォッチ、自動運転車などのIoTデバイスは、周囲の環境を正確に測定し、知覚することができる。 継続的センシングは大量のデータを生成し、機械学習の課題を提示します。 ディープラーニングモデル(畳み込みニューラルネットワークやリカレントニューラルネットワークなど)は、マルチモーダル感覚データからパターンを学習することでIoTタスクの解決に広く利用されている。 Graph Neural Networks(GNN)は、センサートポロジ内の複雑なインタラクションをキャプチャし、多くのIoT学習タスクで最先端の結果を達成することが実証されている。 本調査では,さまざまなIoTセンサ環境におけるGNN設計の深層分析,収集した出版物の公開データとソースコードの網羅的リスト,今後の研究方向性など,GNNのIoT分野への応用の最近の進歩を概観する。 新たに公開された作品を追跡するために、代表論文とそのオープンソース実装を収集し、https://github.com/G uiminDong/GNN4IoT.co mでGithubリポジトリを作成します。

The Internet of Things (IoT) boom has revolutionized almost every corner of people's daily lives: healthcare, home, transportation, manufacturing, supply chain, and so on. With the recent development of sensor and communication technologies, IoT devices including smart wearables, cameras, smartwatches, and autonomous vehicles can accurately measure and perceive their surrounding environment. Continuous sensing generates massive amounts of data and presents challenges for machine learning. Deep learning models (e.g., convolution neural networks and recurrent neural networks) have been extensively employed in solving IoT tasks by learning patterns from multi-modal sensory data. Graph Neural Networks (GNNs), an emerging and fast-growing family of neural network models, can capture complex interactions within sensor topology and have been demonstrated to achieve state-of-the-art results in numerous IoT learning tasks. In this survey, we present a comprehensive review of recent advances in the application of GNNs to the IoT field, including a deep dive analysis of GNN design in various IoT sensing environments, an overarching list of public data and source code from the collected publications, and future research directions. To keep track of newly published works, we collect representative papers and their open-source implementations and create a Github repository at https://github.com/G uiminDong/GNN4IoT.
翻訳日:2022-04-01 11:29:18 公開日:2022-03-31