このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220412となっている論文です。

PDF登録状況(公開日: 20220412)

TitleAuthorsAbstract論文公表日・翻訳日
# タスク指向対話のための簡易言語モデル

A Simple Language Model for Task-Oriented Dialogue ( http://arxiv.org/abs/2005.00796v4 )

ライセンス: Link先を確認
Ehsan Hosseini-Asl, Bryan McCann, Chien-Sheng Wu, Semih Yavuz, Richard Socher(参考訳) タスク指向の対話は、ユーザの入力の理解、アクションの決定、応答の生成という3つのタスクに分解されることが多い。 このような分解はサブタスクごとに専用モデルを提案するかもしれないが、単純な統一的なアプローチがマルチウォズデータセットで最先端のパフォーマンスをもたらすことを見出している。 SimpleTODはタスク指向対話に対する単純なアプローチであり、すべてのサブタスクのリキャストで訓練された単一因果言語モデルを単一シーケンス予測問題として利用する。 これによりSimpleTODは、事前訓練されたオープンドメイン、GPT-2のような因果言語モデルからのトランスファー学習を完全に活用できる。 SimpleTODは,対話状態追跡における従来の目標精度よりも向上し,この設定におけるノイズの多いアノテーションに対するロバスト性を明らかにする。 simpletodはまた、エンド・ツー・エンドの設定で行動決定と応答生成を評価するために使われる主要な指標であるインフォメーション率を8.1ポイント、成功率を9.7ポイント、合計スコアを7.2ポイント改善した。

Task-oriented dialogue is often decomposed into three tasks: understanding user input, deciding actions, and generating a response. While such decomposition might suggest a dedicated model for each sub-task, we find a simple, unified approach leads to state-of-the-art performance on the MultiWOZ dataset. SimpleTOD is a simple approach to task-oriented dialogue that uses a single, causal language model trained on all sub-tasks recast as a single sequence prediction problem. This allows SimpleTOD to fully leverage transfer learning from pre-trained, open domain, causal language models such as GPT-2. SimpleTOD improves over the prior state-of-the-art in joint goal accuracy for dialogue state tracking, and our analysis reveals robustness to noisy annotations in this setting. SimpleTOD also improves the main metrics used to evaluate action decisions and response generation in an end-to-end setting: inform rate by 8.1 points, success rate by 9.7 points, and combined score by 7.2 points.
翻訳日:2022-12-07 12:34:46 公開日:2022-04-12
# グラフ上の機械学習:モデルと包括的分類法

Machine Learning on Graphs: A Model and Comprehensive Taxonomy ( http://arxiv.org/abs/2005.03675v3 )

ライセンス: Link先を確認
Ines Chami, Sami Abu-El-Haija, Bryan Perozzi, Christopher R\'e, Kevin Murphy(参考訳) 近年,グラフ構造化データの学習表現への関心が高まっている。 グラフ表現学習法は一般にラベル付きデータの可用性に基づく3つの主要なカテゴリに分類されている。 最初のネットワーク埋め込み(浅いグラフ埋め込みやグラフオートエンコーダなど)は、関係構造の教師なし表現の学習に焦点を当てている。 第2のグラフ正規化ニューラルネットワークは、半教師付き学習のための正規化目標でニューラルネットワーク損失を増やすためにグラフを活用する。 3番目のグラフニューラルネットワークは、任意の構造を持つ離散トポロジ上で微分可能関数を学ぶことを目的としている。 しかし、これらの分野の人気にもかかわらず、3つのパラダイムを統合する作業は驚くほど少ない。 ここでは,グラフニューラルネットワーク,ネットワーク埋め込み,グラフ正規化モデル間のギャップを埋めることを目的とする。 本稿では,グラフ構造化データに対する表現学習手法の包括的分類法を提案する。 具体的には、グラフ上の半教師付き学習(グラフセージ、グラフ畳み込みネットワーク、グラフ注意ネットワークなど)や、グラフ表現(ディープウォーク、node2vecなど)の教師なし学習を単一の一貫したアプローチに一般化したグラフエンコーダデコーダモデル(graphedm)を提案する。 このアプローチの汎用性を説明するために、30以上の既存メソッドをこのフレームワークに適合させる。 この統一的視点は,これらの手法の背景にある直観を理解するための確固たる基盤を提供し,今後の研究を可能にすると信じている。

There has been a surge of recent interest in learning representations for graph-structured data. Graph representation learning methods have generally fallen into three main categories, based on the availability of labeled data. The first, network embedding (such as shallow graph embedding or graph auto-encoders), focuses on learning unsupervised representations of relational structure. The second, graph regularized neural networks, leverages graphs to augment neural network losses with a regularization objective for semi-supervised learning. The third, graph neural networks, aims to learn differentiable functions over discrete topologies with arbitrary structure. However, despite the popularity of these areas there has been surprisingly little work on unifying the three paradigms. Here, we aim to bridge the gap between graph neural networks, network embedding and graph regularization models. We propose a comprehensive taxonomy of representation learning methods for graph-structured data, aiming to unify several disparate bodies of work. Specifically, we propose a Graph Encoder Decoder Model (GRAPHEDM), which generalizes popular algorithms for semi-supervised learning on graphs (e.g. GraphSage, Graph Convolutional Networks, Graph Attention Networks), and unsupervised learning of graph representations (e.g. DeepWalk, node2vec, etc) into a single consistent approach. To illustrate the generality of this approach, we fit over thirty existing methods into this framework. We believe that this unifying view both provides a solid foundation for understanding the intuition behind these methods, and enables future research in the area.
翻訳日:2022-12-05 22:22:51 公開日:2022-04-12
# クリーン線形時間におけるサブモジュラー最大化

Submodular Maximization in Clean Linear Time ( http://arxiv.org/abs/2006.09327v5 )

ライセンス: Link先を確認
Wenxin Li, Moran Feldman, Ehsan Kazemi, Amin Karbasi(参考訳) 本稿では, 基数(サイズ)制約下でのサブモジュラー最大化の厳密な1-1/e$近似を保証するとともに, 基底集合の$n$と線形にしかスケールしないクエリを多数生成する決定論的アルゴリズムを提案する。 その結果を補完するために,強い情報理論の下界を示す。 より具体的には、解に許容される最大濃度が一定であるとき、関数評価のサブ線形数を作るアルゴリズムが任意の定数近似比を保証できないことを示す。 さらに、制約が基底集合の定数数の選択を許す場合、$\Omega(n/\log(n))$関数評価より小さい任意のアルゴリズムは、正しい大きさの基底集合の一様ランダムな部分集合を単純に出力するアルゴリズムよりも優れた性能を発揮できないことを示す。 次に、より一般的なknapsack制約に対する決定論的アルゴリズムの変種を提供し、この制約に対して1/2$-近似を保証する最初の線形時間アルゴリズムである。 最後に、この結果は、$p$-set 系と複数のknapsack 制約の交叉を受ける単調部分モジュラ函数を最大化する一般の場合にまで拡張する。 我々は,映画推薦,位置情報要約,twitterテキスト要約,ビデオ要約など,複数の実生活機械学習アプリケーションにおけるアルゴリズムの性能を広範囲に評価した。

In this paper, we provide the first deterministic algorithm that achieves the tight $1-1/e$ approximation guarantee for submodular maximization under a cardinality (size) constraint while making a number of queries that scales only linearly with the size of the ground set $n$. To complement our result, we also show strong information-theoretic lower bounds. More specifically, we show that when the maximum cardinality allowed for a solution is constant, no algorithm making a sub-linear number of function evaluations can guarantee any constant approximation ratio. Furthermore, when the constraint allows the selection of a constant fraction of the ground set, we show that any algorithm making fewer than $\Omega(n/\log(n))$ function evaluations cannot perform better than an algorithm that simply outputs a uniformly random subset of the ground set of the right size. We then provide a variant of our deterministic algorithm for the more general knapsack constraint, which is the first linear-time algorithm that achieves $1/2$-approximation guarantee for this constraint. Finally, we extend our results to the general case of maximizing a monotone submodular function subject to the intersection of a $p$-set system and multiple knapsack constraints. We extensively evaluate the performance of our algorithms on multiple real-life machine learning applications, including movie recommendation, location summarization, twitter text summarization and video summarization.
翻訳日:2022-11-20 21:42:39 公開日:2022-04-12
# コストサンプリングによる帯域問題に対する相対的精度のPACアルゴリズム

A PAC algorithm in relative precision for bandit problem with costly sampling ( http://arxiv.org/abs/2007.15331v2 )

ライセンス: Link先を確認
Marie Billaud-Friess and Arthur Macherey and Anthony Nouy and Cl\'ementine Prieur(参考訳) 本稿では,有限集合上の期待関数を最大化する問題,あるいは有限アームバンディット問題を考える。 まず, この離散最適化問題に対して, 相対的精度でほぼ正解(PAC)を求める有理確率帯域幅アルゴリズムを提案し, 高い確率で, 所定の許容値より小さい相対誤差まで最適化問題を解く。 また,同一の保証付きPAC解法を提供する適応確率的バンディットアルゴリズムを提案する。 適応アルゴリズムは, 生成サンプル数の観点から, ナイーブアルゴリズムの平均複雑性を上回り, 特にサンプリングコストの高いアプリケーションに適している。

This paper considers the problem of maximizing an expectation function over a finite set, or finite-arm bandit problem. We first propose a naive stochastic bandit algorithm for obtaining a probably approximately correct (PAC) solution to this discrete optimization problem in relative precision, that is a solution which solves the optimization problem up to a relative error smaller than a prescribed tolerance, with high probability. We also propose an adaptive stochastic bandit algorithm which provides a PAC-solution with the same guarantees. The adaptive algorithm outperforms the mean complexity of the naive algorithm in terms of number of generated samples and is particularly well suited for applications with high sampling cost.
翻訳日:2022-11-05 13:51:12 公開日:2022-04-12
# 深達度学習によるMRI画像上乳癌の放射線治療成績

Radiologist-level Performance by Using Deep Learning for Segmentation of Breast Cancers on MRI Scans ( http://arxiv.org/abs/2009.09827v2 )

ライセンス: Link先を確認
Lukas Hirsch, Yu Huang, Shaojun Luo, Carolina Rossi Saccarelli, Roberto Lo Gullo, Isaac Daimiel Naranjo, Almir G.V. Bitencourt, Natsuko Onishi, Eun Sook Ko, Doris Leithner, Daly Avendano, Sarah Eskreis-Winkler, Mary Hughes, Danny F. Martinez, Katja Pinker, Krishna Juluru, Amin E. El-Rowmeim, Pierre Elnajjar, Elizabeth A. Morris, Hernan A. Makse, Lucas C Parra, Elizabeth J. Sutton(参考訳) 目的: 乳腺MRIにおいて, 完全自動化された放射線科レベルのがん分離を実現するディープネットワークアーキテクチャを開発すること。 対象と方法:2002年から2014年に1つの臨床施設で紹介された女性患者(年齢12~94歳,平均年齢52年+/10(標準偏差))を対象に,38229回の検診を行った。 放射線科医によって2次元(2次元)画像に区切られた2555個の乳癌と、非がん組織の例となる60108個の良性乳癌が選択され、いずれもモデルトレーニングに使用された。 検査では、4人の放射線技師が2D画像に基づいて、さらに250の乳がんを分離した。 著者は、いくつかの3次元深層畳み込みニューラルネットワークアーキテクチャ、入力モダリティ、調和法の中から選択した。 結果尺度は2次元セグメンテーションのdiceスコアであり,wilcoxonサインドランクテストと片面テスト手順を用いてネットワークと放射線技師の間で比較した。 結果: トレーニングセットにおける最高性能のネットワークは, ダイナミックコントラスト強調MRIを入力とし, 強度を正常化した3次元U-Netであった。 テストセットでは、このネットワークの中央値のダイススコアは 0.77 (interquartile range, 0.26) であった。 ネットワークの性能は放射線科医のそれと同等であった(放射線科医が0.69-0.84を等価境界として、p <= .001、n = 250)。 結語: 十分に大きなデータセットでトレーニングを行うと, 3D U-Netは, 正常な臨床MRIで乳がんの2次元分画を詳細に観察した。

Purpose: To develop a deep network architecture that would achieve fully automated radiologist-level segmentation of cancers at breast MRI. Materials and Methods: In this retrospective study, 38229 examinations (composed of 64063 individual breast scans from 14475 patients) were performed in female patients (age range, 12-94 years; mean age, 52 years +/- 10 [standard deviation]) who presented between 2002 and 2014 at a single clinical site. A total of 2555 breast cancers were selected that had been segmented on two-dimensional (2D) images by radiologists, as well as 60108 benign breasts that served as examples of noncancerous tissue; all these were used for model training. For testing, an additional 250 breast cancers were segmented independently on 2D images by four radiologists. Authors selected among several three-dimensional (3D) deep convolutional neural network architectures, input modalities, and harmonization methods. The outcome measure was the Dice score for 2D segmentation, which was compared between the network and radiologists by using the Wilcoxon signed rank test and the two one-sided test procedure. Results: The highest-performing network on the training set was a 3D U-Net with dynamic contrast-enhanced MRI as input and with intensity normalized for each examination. In the test set, the median Dice score of this network was 0.77 (interquartile range, 0.26). The performance of the network was equivalent to that of the radiologists (two one-sided test procedures with radiologist performance of 0.69-0.84 as equivalence bounds, P <= .001 for both; n = 250). Conclusion: When trained on a sufficiently large dataset, the developed 3D U-Net performed as well as fellowship-trained radiologists in detailed 2D segmentation of breast cancers at routine clinical MRI.
翻訳日:2022-10-16 04:44:11 公開日:2022-04-12
# 動的スパース部分空間学習による高次元ストリーミングデータのオンライン構造変化点検出

Online Structural Change-point Detection of High-dimensional Streaming Data via Dynamic Sparse Subspace Learning ( http://arxiv.org/abs/2009.11713v3 )

ライセンス: Link先を確認
Ruiyu Xu, Jianguo Wu, Xiaowei Yue and Yongxiang Li(参考訳) 高次元ストリーミングデータは、多くの分野でますます普及している。 それらはしばしば複数の低次元部分空間に存在し、多様体構造はパターンシフトや異常の発生によって時間スケールで突然変化する。 しかし,構造変化をリアルタイムに検出する問題は十分に研究されていない。 このギャップを埋めるために,高次元ストリーミングデータのオンライン構造変化点検出のための動的スパース部分空間学習手法を提案する。 新しい多重構造変化点モデルを提案し, 推定器の漸近特性について検討した。 ペナルティ係数選択のためのベイズ情報基準と変化点検出精度に基づくチューニング手法を提案する。 オンライン最適化と変更点検出のために,効率的なPruned Exact Linear Timeベースのアルゴリズムを提案する。 提案手法の有効性は,いくつかのシミュレーション実験と動作追跡のためのジェスチャデータの実例を用いて実証した。

High-dimensional streaming data are becoming increasingly ubiquitous in many fields. They often lie in multiple low-dimensional subspaces, and the manifold structures may change abruptly on the time scale due to pattern shift or occurrence of anomalies. However, the problem of detecting the structural changes in a real-time manner has not been well studied. To fill this gap, we propose a dynamic sparse subspace learning approach for online structural change-point detection of high-dimensional streaming data. A novel multiple structural change-point model is proposed and the asymptotic properties of the estimators are investigated. A tuning method based on Bayesian information criterion and change-point detection accuracy is proposed for penalty coefficients selection. An efficient Pruned Exact Linear Time based algorithm is proposed for online optimization and change-point detection. The effectiveness of the proposed method is demonstrated through several simulation studies and a real case study on gesture data for motion tracking.
翻訳日:2022-10-15 04:14:11 公開日:2022-04-12
# Memformer:シーケンスモデリングのためのメモリ拡張トランス

Memformer: A Memory-Augmented Transformer for Sequence Modeling ( http://arxiv.org/abs/2010.06891v2 )

ライセンス: Link先を確認
Qingyang Wu, Zhenzhong Lan, Kun Qian, Jing Gu, Alborz Geramifard, Zhou Yu(参考訳) トランスフォーマーはシーケンスモデリングで顕著な成功を収めている。 しかしながら、これらのモデルには、すべての履歴トークンレベルの表現をメモリに格納する必要があるため、効率上の問題がある。 本稿では,外部動的メモリを用いて過去の情報を符号化・検索する,効率的なシーケンスモデリング用ニューラルネットワークであるmemformerを提案する。 我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。 また,メモリ要求量を大幅に削減し,長期のバックプロパゲーションを促進する新たな最適化手法であるメモリ再生バックプロパゲーション(MRBP)を提案する。 実験の結果、Memformerはメモリスペースを8.1倍、推論を3.2倍速くすることで、ベースラインと比較して同等のパフォーマンスを達成した。 注意パターンの分析は、外部メモリスロットが時間ステップを通じて重要な情報をエンコードし保持できることを示しています。

Transformers have reached remarkable success in sequence modeling. However, these models have efficiency issues as they need to store all the history token-level representations as memory. We present Memformer, an efficient neural network for sequence modeling, that utilizes an external dynamic memory to encode and retrieve past information. Our model achieves linear time complexity and constant memory space complexity when processing long sequences. We also propose a new optimization scheme, memory replay back-propagation (MRBP), which promotes long-range back-propagation through time with a significantly reduced memory requirement. Experimental results show that Memformer has achieved comparable performance compared to the baselines by using 8.1x less memory space and 3.2x faster on inference. Analysis of the attention pattern shows that our external memory slots can encode and retain important information through timesteps.
翻訳日:2022-10-07 13:18:59 公開日:2022-04-12
# 完全には役に立たない: クラスミスマッチ型半教師付き学習のためのリサイクリング可能な非ラベルデータを目指して

They are Not Completely Useless: Towards Recycling Transferable Unlabeled Data for Class-Mismatched Semi-Supervised Learning ( http://arxiv.org/abs/2011.13529v4 )

ライセンス: Link先を確認
Zhuo Huang, Ying Tai, Chengjie Wang, Jian Yang, Chen Gong(参考訳) SSL(Semi-Supervised Learning)とミスマッチしたクラスは、制限されたラベル付きデータにおける関心のクラスが、巨大なラベル付きデータに含まれるクラスのサブセットである、という問題に対処する。 その結果、ラベルのないデータしか持たないクラスは、分類器の訓練を誤解させ、様々なSSLメソッドの現実的な着地を妨げる可能性がある。 この問題を解決するために、既存の方法は、通常、ラベルなしデータを非配布(ID)データとアウト・オブ・ディストリビューション(OOD)データに分割し、その悪影響を避けるためにOODデータを直接破棄または弱める。 言い換えれば、OODデータを全く役に立たないものとして扱い、それらに含まれる分類の潜在的価値情報は、完全に無視される。 この欠陥を解消するために,IDデータと「リサイクル可能な」OODデータを適切に利用し,クラスミスマッチSSLを行うための情報を強化する「転送可能なOODデータリサイクル(TOOR)」手法を提案する。 具体的には、TOORはまず、ラベル付けされていないすべてのデータをIDデータまたはOODデータに属性付けし、その中のIDデータがトレーニングに直接使用される。 次に,IDデータとラベル付きデータとの密接な関係を持つOODデータをリサイクル可能として扱い,敵領域適応を用いてIDデータとラベル付きデータの空間に投影する。 言い換えれば、OODダタムのリサイクル性はその転送性によって評価され、リサイクル可能なOODデータは、既知の関心のクラス分布に適合するように転送される。 その結果,TOOR法は既存の手法よりもラベルのないデータからより多くの情報を抽出し,典型的なベンチマークデータセットで実証された性能向上を実現することができた。

Semi-Supervised Learning (SSL) with mismatched classes deals with the problem that the classes-of-interests in the limited labeled data is only a subset of the classes in massive unlabeled data. As a result, the classes only possessed by the unlabeled data may mislead the classifier training and thus hindering the realistic landing of various SSL methods. To solve this problem, existing methods usually divide unlabeled data to in-distribution (ID) data and out-of-distribution (OOD) data, and directly discard or weaken the OOD data to avoid their adverse impact. In other words, they treat OOD data as completely useless and thus the potential valuable information for classification contained by them is totally ignored. To remedy this defect, this paper proposes a "Transferable OOD data Recycling" (TOOR) method which properly utilizes ID data as well as the "recyclable" OOD data to enrich the information for conducting class-mismatched SSL. Specifically, TOOR firstly attributes all unlabeled data to ID data or OOD data, among which the ID data are directly used for training. Then we treat the OOD data that have a close relationship with ID data and labeled data as recyclable, and employ adversarial domain adaptation to project them to the space of ID data and labeled data. In other words, the recyclability of an OOD datum is evaluated by its transferability, and the recyclable OOD data are transferred so that they are compatible with the distribution of known classes-of-interests. Consequently, our TOOR method extracts more information from unlabeled data than existing approaches, so it can achieve the improved performance which is demonstrated by the experiments on typical benchmark datasets.
翻訳日:2022-09-20 01:47:21 公開日:2022-04-12
# (参考訳) GMSS:脳波認識のためのグラフベースのマルチタスク自己監視学習

GMSS: Graph-Based Multi-Task Self-Supervised Learning for EEG Emotion Recognition ( http://arxiv.org/abs/2205.01030v1 )

ライセンス: CC BY 4.0
Yang Li, Ji Chen, Fu Li, Boxun Fu, Hao Wu, Youshuo Ji, Yijin Zhou, Yi Niu, Guangming Shi, Wenming Zheng(参考訳) 以前の脳波(EEG)の感情認識は単一タスク学習に依存しており、一般化に欠ける過度に適合し、学習された感情の特徴をもたらす可能性がある。 本稿では,脳波感情認識のためのグラフベースマルチタスク自己教師学習モデル(GMSS)を提案する。 GMSSは、空間的および周波数的なジグソーパズルタスクや対照的な学習タスクを含む複数の自己指導タスクを統合することで、より一般的な表現を学ぶことができる。 複数のタスクから同時に学習することで、GMSSはすべてのタスクをキャプチャして、元のタスク、すなわち感情認識タスクに過度に適合する機会を減らす表現を見つけることができる。 特に、空間ジグソーパズルタスクは、異なる脳領域の固有の空間関係を捉えることを目的としている。 脳波感情信号における周波数情報の重要性を考慮すると、周波数ジグソーパズルタスクの目的は脳波感情認識において重要な周波数帯域を探索することである。 学習した特徴をより規則化し、ネットワークに固有の表現を学習するよう促すために、変換されたデータを共通の特徴空間にマッピングすることで、コントラスト学習タスクを採用する。 提案したGMSSの性能は、一般的な教師なしおよび教師なしの手法と比較される。 SEED、SEED-IV、MPEDデータセットの実験により、提案モデルが脳波の感情信号に対するより差別的で一般的な特徴を学習する際、顕著な利点があることが示されている。

Previous electroencephalogram (EEG) emotion recognition relies on single-task learning, which may lead to overfitting and learned emotion features lacking generalization. In this paper, a graph-based multi-task self-supervised learning model (GMSS) for EEG emotion recognition is proposed. GMSS has the ability to learn more general representations by integrating multiple self-supervised tasks, including spatial and frequency jigsaw puzzle tasks, and contrastive learning tasks. By learning from multiple tasks simultaneously, GMSS can find a representation that captures all of the tasks thereby decreasing the chance of overfitting on the original task, i.e., emotion recognition task. In particular, the spatial jigsaw puzzle task aims to capture the intrinsic spatial relationships of different brain regions. Considering the importance of frequency information in EEG emotional signals, the goal of the frequency jigsaw puzzle task is to explore the crucial frequency bands for EEG emotion recognition. To further regularize the learned features and encourage the network to learn inherent representations, contrastive learning task is adopted in this work by mapping the transformed data into a common feature space. The performance of the proposed GMSS is compared with several popular unsupervised and supervised methods. Experiments on SEED, SEED-IV, and MPED datasets show that the proposed model has remarkable advantages in learning more discriminative and general features for EEG emotional signals.
翻訳日:2022-05-09 06:39:58 公開日:2022-04-12
# (参考訳) Data Justice in Practice: 開発者のためのガイド

Data Justice in Practice: A Guide for Developers ( http://arxiv.org/abs/2205.01037v1 )

ライセンス: CC BY 4.0
David Leslie, Michael Katell, Mhairi Aitken, Jatinder Singh, Morgan Briggs, Rosamund Powell, Cami Rinc\'on, Antonella Perini, Smera Jayadeva, and Christopher Burr(参考訳) Advancing Data Justice Research and Practice プロジェクトは、現代のデータ収集、ガバナンス、利用のエコロジーにおける差別と不平等に寄与する社会的、歴史的、文化的、政治的、経済的力の理解を深めることを目的としている。 これは、データ集約技術を生み出し、調達し、又は利用している開発者や組織向けの相談書の草案であり、第1節では、データ正義の分野について、初期の議論から、データ正義とは何かを理解するための、より最近の提案まで紹介する。 この節では、このガイダンスが展開するデータ正義の6つの柱について記述する。 次に、責任あるデータ集約型AI/MLシステムを設計、開発、デプロイする開発者を支援するため、社会技術レンズを通じてAI/MLプロジェクトのライフサイクルを概説する。 AI/MLライフサイクル全体とデータイノベーションエコシステムの中で、運用データ正義をサポートするために、私たちは、責任、公平、信頼できるデータリサーチとイノベーションプラクティス、SAFE-D原則-セーフティ、説明責任、公正性、説明責任、データ品質、統合性、保護、プライバシの5つの原則を提示します。 最終章では、AI/MLライフサイクル全体を通じてデータ正義の問題に対処し、責任ある、公平なデータ集約型およびAI/MLシステムの設計、開発、デプロイを保証するための反射的イノベーションプラクティスに開発者が関与するのに役立つ、ガイド的な質問が提示されている。

The Advancing Data Justice Research and Practice project aims to broaden understanding of the social, historical, cultural, political, and economic forces that contribute to discrimination and inequity in contemporary ecologies of data collection, governance, and use. This is the consultation draft of a guide for developers and organisations, which are producing, procuring, or using data-intensive technologies.In the first section, we introduce the field of data justice, from its early discussions to more recent proposals to relocate understandings of what data justice means. This section includes a description of the six pillars of data justice around which this guidance revolves. Next, to support developers in designing, developing, and deploying responsible and equitable data-intensive and AI/ML systems, we outline the AI/ML project lifecycle through a sociotechnical lens. To support the operationalisation data justice throughout the entirety of the AI/ML lifecycle and within data innovation ecosystems, we then present five overarching principles of responsible, equitable, and trustworthy data research and innovation practices, the SAFE-D principles-Safety, Accountability, Fairness, Explainability, and Data Quality, Integrity, Protection, and Privacy. The final section presents guiding questions that will help developers both address data justice issues throughout the AI/ML lifecycle and engage in reflective innovation practices that ensure the design, development, and deployment of responsible and equitable data-intensive and AI/ML systems.
翻訳日:2022-05-09 06:14:46 公開日:2022-04-12
# (参考訳) 対向摂動に対するロバストなスパイキングニューラルネットワーク

Toward Robust Spiking Neural Network Against Adversarial Perturbation ( http://arxiv.org/abs/2205.01625v1 )

ライセンス: CC BY 4.0
Ling Liang, Kaidi Xu, Xing Hu, Lei Deng, Yuan Xie(参考訳) スパイクニューラルネットワーク(SNN)が現実の効率の重要なアプリケーションにますますデプロイされるにつれて、SNNのセキュリティ上の懸念がより注目を集めている。 現在、研究者らはSNNを敵の例で攻撃できることを示した。 堅牢なSNNの構築方法が緊急の問題になります。 近年,ニューラルネットワーク(ANN)における認証トレーニングの適用例が多く,NNモデルの堅牢性の向上が期待できる。 しかし、SNNのニューロンの挙動や入力形式が異なるため、既存の認証は直接SNNに転送することはできない。 本研究では、SNNのニューロンモデリングにおける非線形機能に対処するS-IBPとS-CROWNを最初に設計する。 そして,デジタル入力とスパイク入力の両方の境界を定式化する。 最後に、異なるデータセットとモデルアーキテクチャにおけるロバストなトレーニング手法の有効性を実証する。 実験によれば、攻撃誤差を最大で37.7\%減らし、元の精度を3.7\%減らすことができる。 我々の知る限りでは、これはSNNの堅牢なトレーニングに関する最初の分析である。

As spiking neural networks (SNNs) are deployed increasingly in real-world efficiency critical applications, the security concerns in SNNs attract more attention. Currently, researchers have already demonstrated an SNN can be attacked with adversarial examples. How to build a robust SNN becomes an urgent issue. Recently, many studies apply certified training in artificial neural networks (ANNs), which can improve the robustness of an NN model promisely. However, existing certifications cannot transfer to SNNs directly because of the distinct neuron behavior and input formats for SNNs. In this work, we first design S-IBP and S-CROWN that tackle the non-linear functions in SNNs' neuron modeling. Then, we formalize the boundaries for both digital and spike inputs. Finally, we demonstrate the efficiency of our proposed robust training method in different datasets and model architectures. Based on our experiment, we can achieve a maximum $37.7\%$ attack error reduction with $3.7\%$ original accuracy loss. To the best of our knowledge, this is the first analysis on robust training of SNNs.
翻訳日:2022-05-09 06:13:25 公開日:2022-04-12
# AutoFi: 幾何学的自己監視学習によるWiFi自動センシングを目指して

AutoFi: Towards Automatic WiFi Human Sensing via Geometric Self-Supervised Learning ( http://arxiv.org/abs/2205.01629v1 )

ライセンス: Link先を確認
Jianfei Yang, Xinyan Chen, Han Zou, Dazhuo Wang, Lihua Xie(参考訳) WiFiセンサー技術は、コスト効率とプライバシー保護の利点により、さまざまなセンサーの中でスマートホームの優位性を示している。 WiFi信号と高度な機械学習モデルから抽出されたチャネル状態情報(CSI)によって、CSIの動作パターンを分析することができる。 多くの学習に基づくモデルが様々な応用のために提案されているが、環境依存に苦しむ。 この課題に対処するためにドメイン適応法が提案されているが、適応アルゴリズムのための新しい環境において、高品質でよく分断されたバランスの取れたCSIサンプルを収集することは現実的ではない。 本稿では、まず、これらの低品質CSIサンプルからロバストモデルを学習する方法を考察し、新しい幾何学的自己教師付き学習アルゴリズムに基づく自動WiFiセンシングモデルであるAutoFiを提案する。 AutoFiは、ランダムにキャプチャされる未ラベルの低品質CSIサンプルをフル活用し、ユーザによって定義された特定のタスクに知識を転送する。 AutoFiは評価のためにAtheros WiFi APに実装されている。 AutoFiはランダムに収集されたCSIサンプルから人間の歩行認識に知識を伝達し、最先端のパフォーマンスを達成する。 さらに,公開データセットを用いたクロスタスク転送をシミュレートし,クロスタスク学習能力をさらに実証する。 UT-HARとWidarのデータセットでは、AutoFiは事前トレーニングなしでアクティビティ認識とジェスチャー認識に満足な結果が得られる。 われわれはAutoFiがデベロッパーの関与なしに自動WiFiセンシングに向けて大きな一歩を踏み出し、クロスサイト問題を克服していると信じている。

WiFi sensing technology has shown superiority in smart homes among various sensors for its cost-effective and privacy-preserving merits. It is empowered by Channel State Information (CSI) extracted from WiFi signals and advanced machine learning models to analyze motion patterns in CSI. Many learning-based models have been proposed for kinds of applications, but they severely suffer from environmental dependency. Though domain adaptation methods have been proposed to tackle this issue, it is not practical to collect high-quality, well-segmented and balanced CSI samples in a new environment for adaptation algorithms, but randomly captured CSI samples can be easily collected. In this paper, we firstly explore how to learn a robust model from these low-quality CSI samples, and propose AutoFi, an automatic WiFi sensing model based on a novel geometric self-supervised learning algorithm. The AutoFi fully utilizes unlabeled low-quality CSI samples that are captured randomly, and then transfers the knowledge to specific tasks defined by users, which is the first work to achieve cross-task transfer in WiFi sensing. The AutoFi is implemented on a pair of Atheros WiFi APs for evaluation. The AutoFi transfers knowledge from randomly collected CSI samples into human gait recognition and achieves state-of-the-art performance. Furthermore, we simulate cross-task transfer using public datasets to further demonstrate its capacity for cross-task learning. For the UT-HAR and Widar datasets, the AutoFi achieves satisfactory results on activity recognition and gesture recognition without any prior training. We believe that the AutoFi takes a huge step toward automatic WiFi sensing without any developer engagement while overcoming the cross-site issue.
翻訳日:2022-05-09 00:06:52 公開日:2022-04-12
# 不確かさを定量化した解釈モデルの自動学習

Automated Learning of Interpretable Models with Quantified Uncertainty ( http://arxiv.org/abs/2205.01626v1 )

ライセンス: Link先を確認
G.F. Bomarito and P.E. Leser and N.C.M Strauss and K.M. Garbrecht and J.D. Hochhalter(参考訳) 機械学習における解釈可能性と不確かさの定量化は、意思決定の正当化を提供し、科学的発見を促進し、モデルの振る舞いをよりよく理解する。 シンボリックレグレッションは本質的に解釈可能な機械学習を提供するが、ノイズデータに対するシンボリックレグレッションの使用や不確かさを定量化する必要性に焦点を絞った作業は比較的少ない。 遺伝的プログラミングに基づく記号的回帰(gpsr)のための新しいベイズ的枠組みが導入され、進化の選択段階における置換確率の定式化にモデル証拠(すなわち限界確率)を用いた。 モデルパラメータの不確かさは自動的に定量化され、gpsrアルゴリズムによって生成された各方程式の確率的予測が可能になる。 モデルエビデンスもこのプロセスで定量化され、その使用法は解釈可能性を高め、ノイズに対する堅牢性を高め、数値実験と物理実験の両方における従来のGPSR実装と比較して過度な適合性を減らすことが示されている。

Interpretability and uncertainty quantification in machine learning can provide justification for decisions, promote scientific discovery and lead to a better understanding of model behavior. Symbolic regression provides inherently interpretable machine learning, but relatively little work has focused on the use of symbolic regression on noisy data and the accompanying necessity to quantify uncertainty. A new Bayesian framework for genetic-programming-based symbolic regression (GPSR) is introduced that uses model evidence (i.e., marginal likelihood) to formulate replacement probability during the selection phase of evolution. Model parameter uncertainty is automatically quantified, enabling probabilistic predictions with each equation produced by the GPSR algorithm. Model evidence is also quantified in this process, and its use is shown to increase interpretability, improve robustness to noise, and reduce overfitting when compared to a conventional GPSR implementation on both numerical and physical experiments.
翻訳日:2022-05-09 00:06:08 公開日:2022-04-12
# (参考訳) 折り紙特徴設計とパターン選択のための解釈可能な機械学習

Harnessing Interpretable Machine Learning for Origami Feature Design and Pattern Selection ( http://arxiv.org/abs/2204.07235v1 )

ライセンス: CC BY 4.0
Yi Zhu, Evgueni T. Filipov(参考訳) 折り紙システムの工学的設計は,分類学的特徴を用いて異なる折り紙パターンを比較し,マルチフィジカルな動作目標を評価することが多目的問題をもたらすため,困難である。 本研究は,決定木機械学習手法が,折り紙の逆設計に特に適していることを示す。 この解釈可能な機械学習手法は、分類学的特徴と異なる折り紙パターンを比較するための連続的特徴との複雑な相互作用を明らかにし、マルチフィジカルな性能目標を持つアクティブ折り紙を設計するための多目的問題に対処し、既存の折り紙の形状適合アルゴリズムを拡張して、折り紙システムの非幾何学的性能をさらに検討することができる。 提案フレームワークは, メタマテリアル, 展開可能な構造, ソフトロボット, バイオメディカルデバイスなど, 様々な用途に有効な折り紙システムを設計するための総合的な手法を示す。

Engineering design of origami systems is challenging because comparing different origami patterns requires using categorical features and evaluating multi-physics behavior targets introduces multi-objective problems. This work shows that a decision tree machine learning method is particularly suitable for the inverse design of origami. This interpretable machine learning method can reveal complex interactions between categorical features and continuous features for comparing different origami patterns, can tackle multi-objective problems for designing active origami with multi-physics performance targets, and can extend existing origami shape fitting algorithms to further consider non-geometrical performances of origami systems. The proposed framework shows a holistic way of designing active origami systems for various applications such as metamaterials, deployable structures, soft robots, biomedical devices, and many more.
翻訳日:2022-04-24 17:22:10 公開日:2022-04-12
# (参考訳) ポリメチルメタクリレートの複合熱伝達における機械学習と数値モデリングの比較解析

Comparative analysis of machine learning and numerical modeling for combined heat transfer in Polymethylmethacrylate ( http://arxiv.org/abs/2204.08459v1 )

ライセンス: CC BY 4.0
Mahsa Dehghan Manshadi, Nima Alafchi, Alireza Taat, Milad Mousavi, Amir Mosavi(参考訳) 本研究は, ポリメチルメタクリレート (PMMA) 試料における導電性および放射性熱伝達の同時効果を予測するための異なる方法の比較を行った。 pmmaは様々なセンサーやアクチュエータ装置で使用されるポリマーの一種である。 1次元複合熱伝達は数値解析において考慮される。 離散化の場合,暗黙差分法による支配方程式の数値解に対して,計算機による実装が得られた。 キルヒホフ変換は,pmma試料境界に対する単色放射強度と温度条件を考慮し,非線形導電性伝熱方程式からデータを得るために用いられた。 深層ニューラルネットワーク (dnn) 法では, 数値的手法よりも少ない処理時間で正確な結果を得るために, 新たにlong short term memory (lstm) 法が導入された。 最近の研究はPMMA試料に対する熱伝達と温度分布の組み合わせを導出した。 さらに, 過渡温度分布を別の研究で検証した。 比較は完全な一致を証明する。 PMMA試料から導電性熱伝達のスペクトル量を生成する一次位置における温度勾配を示す。 新たなDNN法と比較すると,より単純である。 結果は,この人工知能手法が問題予測において正確かつ高速であることを示す。 数値解から結果を分析することにより, 導電性および放射性熱流束は, 勾配挙動の場合と似ているが, 約2倍の量であることがわかった。 したがって、全熱流束は近似定常状態で一定値を持つ。 構成分析に加えて,アルゴリズム性能を評価するために,roc曲線と混乱行列を実装した。

This study compares different methods to predict the simultaneous effects of conductive and radiative heat transfer in a Polymethylmethacrylate (PMMA) sample. PMMA is a kind of polymer utilized in various sensors and actuator devices. One-dimensional combined heat transfer is considered in numerical analysis. Computer implementation was obtained for the numerical solution of governing equation with the implicit finite difference method in the case of discretization. Kirchhoff transformation was used to get data from a non-linear equation of conductive heat transfer by considering monochromatic radiation intensity and temperature conditions applied to the PMMA sample boundaries. For Deep Neural Network (DNN) method, the novel Long Short Term Memory (LSTM) method was introduced to find accurate results in the least processing time than the numerical method. A recent study derived the combined heat transfers and their temperature profiles for the PMMA sample. Furthermore, the transient temperature profile is validated by another study. A comparison proves a perfect agreement. It shows the temperature gradient in the primary positions that makes a spectral amount of conductive heat transfer from a PMMA sample. It is more straightforward when they are compared with the novel DNN method. Results demonstrate that this artificial intelligence method is accurate and fast in predicting problems. By analyzing the results from the numerical solution it can be understood that the conductive and radiative heat flux is similar in the case of gradient behavior, but it is also twice in its amount approximately. Hence, total heat flux has a constant value in an approximated steady state condition. In addition to analyzing their composition, ROC curve and confusion matrix were implemented to evaluate the algorithm performance.
翻訳日:2022-04-24 17:05:31 公開日:2022-04-12
# (参考訳) 脳波のマルチチャンネルイメージングによるてんかん発作リスク評価

Epileptic Seizure Risk Assessment by Multi-Channel Imaging of the EEG ( http://arxiv.org/abs/2204.07034v1 )

ライセンス: CC BY 4.0
Tiago Leal, Fabio Lopes, Cesar Teixeira, Antonio Dourado(参考訳) 難治性てんかん患者はいつでも発作を起こすことがある。 静流の予測は彼らの生活を大幅に改善するだろう。 本研究では、頭皮脳波とその画像への変換に基づいて、分類層の出力ではなく、CNNのソフトマックス層出力(可能性)の平均を用いて、任意の瞬間に発生するてんかん発作の確率を算出する。 その結果、確率としきい値を分析することで、高い感度または低いfpr/hが得られることがわかった。 最善の閾値は5例で50%以上であり, 残りの36例では低値であった。 しかしながら、この方法の実際の性能を評価するには、特に新しい発作において、さらなるテストが必要である。 この研究は、前向きな見通しを持つ概念実証である。

Refractory epileptic patients can suffer a seizure at any moment. Seizure prediction would substantially improve their lives. In this work, based on scalp EEG and its transformation into images, the likelihood of an epileptic seizure occurring at any moment is computed using an average of the softmax layer output (the likelihood) of a CNN, instead of the output of the classification layer. Results show that by analyzing the likelihood and thresholding it, prediction has higher sensitivity or a lower FPR/h. The best threshold for the likelihood was higher than 50% for 5 patients, and was lower for the remaining 36. However, more testing is needed, especially in new seizures, to better assess the real performance of this method. This work is a proof of concept with a positive outlook.
翻訳日:2022-04-16 09:00:13 公開日:2022-04-12
# (参考訳) 機械学習を用いたイスラエルの政治ツイートの感性分析

Sentiment Analysis of Political Tweets for Israel using Machine Learning ( http://arxiv.org/abs/2204.06515v1 )

ライセンス: CC BY 4.0
Amisha Gangwar, Tanvi Mehta(参考訳) 感覚分析はコンピュータ科学の分野において重要な研究課題である。 情報技術やソーシャルネットワークの発展が加速するにつれ、コメントテキストに関する膨大なデータがウェブアプリケーションやtwitterのようなソーシャルメディアプラットフォームで生成されている。 このため、世論に関する一般情報や情報の普及が盛んになり、大衆の反応を分析する重要な要因となっている。 ほとんどの研究者はソーシャルメディアの具体例や内容を使って、政治出来事に関する世論を分析し、予測してきた。 本研究では、イスラエルの政治Twitterデータを用いて、パレスチナ・イスラエル紛争に対する世論を解釈する分析研究を提案する。 ツイート形式における民族集団や意見指導者の態度は、サポートベクター分類(svc)、意思決定木(dt)、ナイーブベイズ(nb)といった機械学習アルゴリズムを用いて分析される。 最後に、異なるモデルによる実験結果に基づいて比較分析を行う。

Sentiment Analysis is a vital research topic in the field of Computer Science. With the accelerated development of Information Technology and social networks, a massive amount of data related to comment texts has been generated on web applications or social media platforms like Twitter. Due to this, people have actively started proliferating general information and the information related to political opinions, which becomes an important reason for analyzing public reactions. Most researchers have used social media specifics or contents to analyze and predict public opinion concerning political events. This research proposes an analytical study using Israeli political Twitter data to interpret public opinion towards the Palestinian-Israeli conflict. The attitudes of ethnic groups and opinion leaders in the form of tweets are analyzed using Machine Learning algorithms like Support Vector Classifier (SVC), Decision Tree (DT), and Naive Bayes (NB). Finally, a comparative analysis is done based on experimental results from different models.
翻訳日:2022-04-15 00:12:19 公開日:2022-04-12
# (参考訳) IWSLT2022における同時音声翻訳作業のためのCUNI-KITシステム

CUNI-KIT System for Simultaneous Speech Translation Task at IWSLT 2022 ( http://arxiv.org/abs/2204.06028v1 )

ライセンス: CC BY 4.0
Peter Pol\'ak, Ngoc-Quan Ngoc, Tuan-Nam Nguyen, Danni Liu, Carlos Mullov, Jan Niehues, Ond\v{r}ej Bojar, Alexander Waibel(参考訳) 本稿では,IWSLT 2022における同時音声翻訳への提案について述べる。 我々は、オリジナルのモデルを変更することなく、オフラインモデルを同時に利用するための戦略を探求する。 実験の結果,オンライゼーションアルゴリズムはオフライン設定とほぼ同等であり,テストセットのレイテンシではオフラインよりも3倍高速であることがわかった。 システムを公開しています。

In this paper, we describe our submission to the Simultaneous Speech Translation at IWSLT 2022. We explore strategies to utilize an offline model in a simultaneous setting without the need to modify the original model. In our experiments, we show that our onlinization algorithm is almost on par with the offline setting while being 3x faster than offline in terms of latency on the test set. We make our system publicly available.
翻訳日:2022-04-15 00:06:36 公開日:2022-04-12
# (参考訳) スパース多項式カオス展開:係数と項の大域的選択に関するジョイント事前の完全ベイズ的アプローチ

The sparse Polynomial Chaos expansion: a fully Bayesian approach with joint priors on the coefficients and global selection of terms ( http://arxiv.org/abs/2204.06043v1 )

ライセンス: CC BY 4.0
Paul-Christian B\"urkner, Ilja Kr\"oker, Sergey Oladyshkin, Wolfgang Nowak(参考訳) PCE(Polynomial chaos expansion)は不確実性定量化や機械学習に広く用いられている汎用ツールであるが、その成功例はPCEベースの応答面の精度と信頼性に大きく依存する。 高い精度は一般に高い多項式次数を必要とし、特に高次元問題において次元性の呪いを通じて多くの訓練点を必要とする。 いわゆるスパースPCE概念は、従来のPCEアプローチよりもはるかに小さな基底多項式の選択で機能し、次元の呪いを克服することができるが、トレーニングポイントを選択する戦略に特に注意を払う必要がある。 さらに、近似誤差は既存のPCEベースの手法では推定できない不確実性に類似している。 本研究では,ジョイント収縮前駆とマルコフ連鎖モンテカルロによるpce表現を確立するための完全ベイズ的手法を開発し,評価する。 ベイズPCEモデルの提案は、上記の2つの課題を直接解決することを目的としている: 疎いPCE表現の実現と、PCE自体の不確実性を推定する。 ジョイント収縮による埋め込みベイズ正則化は、与えられたトレーニングポイントに対して、PCE係数が利用可能なトレーニングポイントの数よりもはるかに大きい場合の未決定状況に対処する能力のために、より高い多項式次数を使用することができる。 また,既定のベイズ表現に基づくスパースpce展開を構成する複数の変数選択法を探索し,利用可能なトレーニングデータから最も有意義な正規直交多項式をグローバルに選択する。 いくつかのベンチマークでベイズPCEとそれに対応する疎性誘導手法の利点を示す。

Polynomial chaos expansion (PCE) is a versatile tool widely used in uncertainty quantification and machine learning, but its successful application depends strongly on the accuracy and reliability of the resulting PCE-based response surface. High accuracy typically requires high polynomial degrees, demanding many training points especially in high-dimensional problems through the curse of dimensionality. So-called sparse PCE concepts work with a much smaller selection of basis polynomials compared to conventional PCE approaches and can overcome the curse of dimensionality very efficiently, but have to pay specific attention to their strategies of choosing training points. Furthermore, the approximation error resembles an uncertainty that most existing PCE-based methods do not estimate. In this study, we develop and evaluate a fully Bayesian approach to establish the PCE representation via joint shrinkage priors and Markov chain Monte Carlo. The suggested Bayesian PCE model directly aims to solve the two challenges named above: achieving a sparse PCE representation and estimating uncertainty of the PCE itself. The embedded Bayesian regularizing via the joint shrinkage prior allows using higher polynomial degrees for given training points due to its ability to handle underdetermined situations, where the number of considered PCE coefficients could be much larger than the number of available training points. We also explore multiple variable selection methods to construct sparse PCE expansions based on the established Bayesian representations, while globally selecting the most meaningful orthonormal polynomials given the available training data. We demonstrate the advantages of our Bayesian PCE and the corresponding sparsity-inducing methods on several benchmarks.
翻訳日:2022-04-14 23:55:37 公開日:2022-04-12
# (参考訳) ReLUニューラルネットワーク関数の局所的および大域的位相的複雑性測定

Local and global topological complexity measures OF ReLU neural network functions ( http://arxiv.org/abs/2204.06062v1 )

ライセンス: CC BY 4.0
J. Elisenda Grigsby and Kathryn Lindsey and Marissa Masden(参考訳) 本稿では,完全連結フィードフォワード relu ニューラルネットワーク関数 f: r^n -> r に対する局所的および大域的複雑度の概念を定義するために,grunert-kuhnel-rote によるモース理論の一般化された区分線形(pl)バージョンを適用した。 また,深度2ネットワークにおける局所的複雑性の組合せ記述を行い,局所的複雑性が任意に高いことを示す。

We apply a generalized piecewise-linear (PL) version of Morse theory due to Grunert-Kuhnel-Rote to define and study new local and global notions of topological complexity for fully-connected feedforward ReLU neural network functions, F: R^n -> R. Along the way, we show how to construct, for each such F, a canonical polytopal complex K(F) and a deformation retract of the domain onto K(F), yielding a convenient compact model for performing calculations. We also give a combinatorial description of local complexity for depth 2 networks, and a construction showing that local complexity can be arbitrarily high.
翻訳日:2022-04-14 23:54:29 公開日:2022-04-12
# (参考訳) 橋の下でトロルを見つける:モチフ検出器の予備研究

Finding Trolls Under Bridges: Preliminary Work on a Motif Detector ( http://arxiv.org/abs/2204.06085v1 )

ライセンス: CC BY 4.0
W. Victor H. Yarlott, Armando Ochoa, Anurag Acharya, Laurel Bobrow, Diego Castro Estrada, Diana Gomez, Joan Zheng, David McDonald, Chris Miller, Mark A. Finlayson(参考訳) モチーフは、ニュース、文学、プレスリリース、プロパガンダにおけるコミュニケーション装置として重要な民俗学的要素である。 モチーフは、文化的に関連のある情報の集合体を簡潔に示しており、その幅広い使用法は、その認識の重要性を文化的知識の足跡として示唆している。 これまで、民俗学者やモチーフに関心のある人々は、手動で物語からモチーフを抽出しただけだった。 本稿では,モチーフの自動検出システムの開発に関する予備報告を行う。 我々は、現在進行中のトレーニングモチーフ検出のためのデータを生成するためのアノテーションの取り組みを簡潔に説明する。 このアーキテクチャは,モチーフ候補がモチーフとして使用されているかどうかを人々がどのように判断するかを,部分的に把握することを目的としています。 この記述は、モチーフ検出の特徴としてオフザシェルフ比喩検出器のテストを含み、モチーフ上のF1は0.35で、マクロ平均F1は0.21で、モチーフ候補に割り当てる4つのカテゴリからなる。

Motifs are distinctive recurring elements found in folklore that have significance as communicative devices in news, literature, press releases, and propaganda. Motifs concisely imply a large constellation of culturally-relevant information, and their broad usage suggests their cognitive importance as touchstones of cultural knowledge, making their detection a worthy step toward culturally-aware natural language processing tasks. Until now, folklorists and others interested in motifs have only extracted motifs from narratives manually. We present a preliminary report on the development of a system for automatically detecting motifs. We briefly describe an annotation effort to produce data for training motif detection, which is on-going. We describe our in-progress architecture in detail, which aims to capture, in part, how people determine whether or not a motif candidate is being used in a motific way. This description includes a test of an off-the-shelf metaphor detector as a feature for motif detection, which achieves a F1 of 0.35 on motifs and a macro-average F1 of 0.21 across four categories which we assign to motif candidates.
翻訳日:2022-04-14 23:53:27 公開日:2022-04-12
# (参考訳) 不均衡機械学習問題としての自動車保険請求発生予測

Prediction of motor insurance claims occurrence as an imbalanced machine learning problem ( http://arxiv.org/abs/2204.06109v1 )

ライセンス: CC BY 4.0
Sebastian Baran, Przemys{\l}aw Rola(参考訳) 巨大なデータセットを持つ保険業界は、ビッグデータソリューションを使用する自然な場所です。 しかし、不正検出やクレーム予測など、保険業界における機械学習の多くの応用が、不均衡データセットにおける機械学習の問題に対処することを強調する必要がある。 これは、ドライバーの人口全体と比較して詐欺やクレームが稀な出来事であるという事実による。 不均衡学習の問題は克服が難しいことが多い。 したがって,本研究の主な目的は,自動車保険における債権発生予測の文脈において,不均衡データセットを扱う様々な手法を提示し,適用することである。 また、上記の手法は、自動車保険におけるクレーム発生予測の文脈における機械学習アルゴリズムの結果を比較するために用いられる。 本研究は,ロジスティック回帰,決定木,ランダム林,xgBoost,フィードフォワードネットワークなどの技術について述べる。 問題は分類です。

The insurance industry, with its large datasets, is a natural place to use big data solutions. However it must be stressed, that significant number of applications for machine learning in insurance industry, like fraud detection or claim prediction, deals with the problem of machine learning on an imbalanced data set. This is due to the fact that frauds or claims are rare events when compared with the entire population of drivers. The problem of imbalanced learning is often hard to overcome. Therefore, the main goal of this work is to present and apply various methods of dealing with an imbalanced dataset in the context of claim occurrence prediction in car insurance. In addition, the above techniques are used to compare the results of machine learning algorithms in the context of claim occurrence prediction in car insurance. Our study covers the following techniques: logistic-regression, decision tree, random forest, xgBoost, feed-forward network. The problem is the classification one.
翻訳日:2022-04-14 23:38:11 公開日:2022-04-12
# dt2cam - content addressable memory framework への決定ツリー

DT2CAM: A Decision Tree to Content Addressable Memory Framework ( http://arxiv.org/abs/2204.06114v1 )

ライセンス: Link先を確認
Mariam Rakka, Mohammed E. Fouda, Rouwaida Kanj, and Fadi Kurdahi(参考訳) 決定木は、データ分類の最も強力なツールの1つである。 電力とレイテンシの予算が限られている最先端のアプリケーションでは、決定木探索の加速が不可欠です。 本稿では、決定木(dt)推論の高速化のためのコンテンツアドレス付きメモリ(cam)コンパイラを提案する。 本稿では,コンパクトな実装を実現し,高い推論精度を維持しつつ,三項コンテンツ対応メモリへの効率的なビジェクティブマッピングを実現する「適応精度」手法を提案する。 さらに、決定木をReCAMにマッピングし、エネルギー、レイテンシ、精度評価のための機能シミュレーションを行うためのResistive-CAM(ReCAM)機能合成器を開発した。 デバイス欠陥, 製造変動性, 入力符号化ノイズなど, ハードウェア非理想性に基づく決定木精度について検討した。 我々は、さまざまなDTデータセット上でフレームワークをテストし、例えば、 \textit{Give Me Some Credit}、 \textit{Titanic}、 \textit{-19} などです。 この結果から,<42.4\%>の省エネルギー化と,最先端ハードウェアアクセラレータと比較して最大17.8倍のエネルギー遅延面積の製品,パイプライン実装1秒あたりの最大3億3300万の意思決定が得られた。

Decision trees are considered one of the most powerful tools for data classification. Accelerating the decision tree search is crucial for on-the-edge applications that have limited power and latency budget. In this paper, we propose a Content Addressable Memory (CAM) Compiler for Decision Tree (DT) inference acceleration. We propose a novel "adaptive-precision" scheme that results in a compact implementation and enables an efficient bijective mapping to Ternary Content Addressable Memories while maintaining high inference accuracies. In addition, a Resistive-CAM (ReCAM) functional synthesizer is developed for mapping the decision tree to the ReCAM and performing functional simulations for energy, latency, and accuracy evaluations. We study the decision tree accuracy under hardware non-idealities including device defects, manufacturing variability, and input encoding noise. We test our framework on various DT datasets including \textit{Give Me Some Credit}, \textit{Titanic}, and \textit{COVID-19}. Our results reveal up to {42.4\%} energy savings and up to 17.8x better energy-delay-area product compared to the state-of-art hardware accelerators, and up to 333 million decisions per sec for the pipelined implementation.
翻訳日:2022-04-14 14:08:14 公開日:2022-04-12
# Sub-6GHz 5G NRにおけるMIMOビームの大量管理

Massive MIMO Beam Management in Sub-6 GHz 5G NR ( http://arxiv.org/abs/2204.06064v1 )

ライセンス: Link先を確認
Ryan M. Dreifuerst and Robert W. Heath jr. and Ali Yazdan(参考訳) ビームコードブックは5G新無線(NR)におけるM-MIMO(Multiple-input multiple-output)の新機能である。 ビームフォーミングベクトルからなるコードブックを用いて、参照信号を送信し、コードワードインデックスを介して受信者から制限されたチャネル状態情報(csi)を得る。 これにより、十分なCSIが得られない大きな配列が得られる。 しかし、性能はコードブックの設計によって制限されている。 本稿では,機械学習を用いてサイト固有のコードブックを初期アクセスのためにトレーニングできることを示す。 本研究では,rf環境特性と組み合わせてビームスペース観測を行い,同期信号(ss)バースト符号ブックを改善するオートエンコーダアーキテクチャに基づくニューラルネットワークの設計を行う。 我々はQuaDRiGaから生成されたチャネルの柔軟なデータセットを用いてアルゴリズムをテストする。 その結果,本モデルは業界標準(DFTビーム)より優れ,CSIと特異値分解(SVD)に基づくビームフォーミングの最適性能に近づき,ほんの数ビットのフィードバックしか得られなかった。

Beam codebooks are a new feature of massive multiple-input multiple-output (M-MIMO) in 5G new radio (NR). Codebooks comprised of beamforming vectors are used to transmit reference signals and obtain limited channel state information (CSI) from receivers via the codeword index. This enables large arrays that cannot otherwise obtain sufficient CSI. The performance, however, is limited by the codebook design. In this paper, we show that machine learning can be used to train site-specific codebooks for initial access. We design a neural network based on an autoencoder architecture that uses a beamspace observation in combination with RF environment characteristics to improve the synchronization signal (SS) burst codebook. We test our algorithm using a flexible dataset of channels generated from QuaDRiGa. The results show that our model outperforms the industry standard (DFT beams) and approaches the optimal performance (perfect CSI and singular value decomposition (SVD)-based beamforming), using only a few bits of feedback.
翻訳日:2022-04-14 14:04:24 公開日:2022-04-12
# サンプルガウス機構の適応的構成のための最適メンバーシップ推定境界

Optimal Membership Inference Bounds for Adaptive Composition of Sampled Gaussian Mechanisms ( http://arxiv.org/abs/2204.06106v1 )

ライセンス: Link先を確認
Saeed Mahloujifar, Alexandre Sablayrolles, Graham Cormode, Somesh Jha(参考訳) トレーニングされたモデルとデータサンプルが与えられた場合、メンバシップ推論(MI)アタックは、サンプルがモデルのトレーニングセットにあるかどうかを予測する。 MI攻撃に対する一般的な対策は、モデルトレーニング中に差分プライバシー(DP)を利用して個々の事例の存在を隠蔽することである。 このDPの使用は、MI攻撃の有効性を制限するための原則的なアプローチであるが、DPが提供する境界とMI攻撃の実証的性能との間にはギャップがある。 本稿では,MI攻撃を施した敵の「textit{advantage}」のバウンダリを導出し,広く用いられているガウス機構の厳密性を示す。 さらに、mi攻撃の \textit{confidence} の境界を示す。 我々の限界はDP分析の結果よりもはるかに強い。 例えば、DP-SGD を $\epsilon=4$ で解析すると、我々の分析に基づいて $\approx0.36$ の利点の上限を得るが、$\approx 0.97$ の上限は $\epsilon$ をメンバシップ推論境界に変換する以前の研究の分析から得られる。 最後に、分析を用いて、CIFAR10データセットでトレーニングされたモデルに対してMIメトリクスを提供する。 私たちの知る限りでは、当社の分析はプライバシに関する最先端のメンバシップ推論を提供するものです。

Given a trained model and a data sample, membership-inference (MI) attacks predict whether the sample was in the model's training set. A common countermeasure against MI attacks is to utilize differential privacy (DP) during model training to mask the presence of individual examples. While this use of DP is a principled approach to limit the efficacy of MI attacks, there is a gap between the bounds provided by DP and the empirical performance of MI attacks. In this paper, we derive bounds for the \textit{advantage} of an adversary mounting a MI attack, and demonstrate tightness for the widely-used Gaussian mechanism. We further show bounds on the \textit{confidence} of MI attacks. Our bounds are much stronger than those obtained by DP analysis. For example, analyzing a setting of DP-SGD with $\epsilon=4$ would obtain an upper bound on the advantage of $\approx0.36$ based on our analyses, while getting bound of $\approx 0.97$ using the analysis of previous work that convert $\epsilon$ to membership inference bounds. Finally, using our analysis, we provide MI metrics for models trained on CIFAR10 dataset. To the best of our knowledge, our analysis provides the state-of-the-art membership inference bounds for the privacy.
翻訳日:2022-04-14 13:41:29 公開日:2022-04-12
# agqa 2.0: 構成時空間推論の更新ベンチマーク

AGQA 2.0: An Updated Benchmark for Compositional Spatio-Temporal Reasoning ( http://arxiv.org/abs/2204.06105v1 )

ライセンス: Link先を確認
Madeleine Grunde-McLaughlin, Ranjay Krishna, Maneesh Agrawala(参考訳) 以前のベンチマークでは、視覚的コンポジション推論を測定するために、ビデオに関する質問に対するモデルの回答を分析していた。 Action Genome Question Answering (AGQA)はそのようなベンチマークである。 AGQAは、言語バイアスの影響を低減するために、バランスの取れた回答分布を備えたトレーニング/テストの分割を提供する。 しかしながら、いくつかのAGQAカテゴリーにはバイアスが残っている。 我々は、このベンチマークのバージョンであるAGQA 2.0を紹介し、いくつかの改善、すなわち、より厳格なバランスをとる手順を紹介します。 そして、すべての実験のベンチマークを更新して結果を報告する。

Prior benchmarks have analyzed models' answers to questions about videos in order to measure visual compositional reasoning. Action Genome Question Answering (AGQA) is one such benchmark. AGQA provides a training/test split with balanced answer distributions to reduce the effect of linguistic biases. However, some biases remain in several AGQA categories. We introduce AGQA 2.0, a version of this benchmark with several improvements, most namely a stricter balancing procedure. We then report results on the updated benchmark for all experiments.
翻訳日:2022-04-14 13:25:25 公開日:2022-04-12
# オープンワールドのインスタンスセグメンテーション:学習されたペアの親和性から疑似基底真理を活用

Open-World Instance Segmentation: Exploiting Pseudo Ground Truth From Learned Pairwise Affinity ( http://arxiv.org/abs/2204.06107v1 )

ライセンス: Link先を確認
Weiyao Wang, Matt Feiszli, Heng Wang, Jitendra Malik, Du Tran(参考訳) オープンワールドのインスタンスセグメンテーションは、事前に決定された分類なしに、ピクセルをオブジェクトインスタンスにグループ化するタスクである。 最先端の手法は大きなラベル付きデータセットから得られた明示的なクラスセマンティクスに依存しており、ドメイン外評価のパフォーマンスは大幅に低下する。 本稿では,マスク提案のための新しいアプローチであるジェネリック・グルーピング・ネットワーク(GGN)を提案する。 我々のアプローチは、ピクセル親和性の局所測定とインスタンスレベルのマスク監視を組み合わせることで、データの多様性が許容するほど汎用的なモデルを設計したトレーニングレギュレータを生成する。 本稿では,ピクセル対間の局所関係を学習したペアワイズアフィニティ(pa)を予測する手法を提案する。 PAは目に見えないカテゴリに非常によく一般化する。 PAでは,GGNをトレーニングし,COCO,LVIS,ADE20K,UVOなど,さまざまなベンチマーク上でのオープンワールドインスタンスセグメンテーションにおいてSOTAを大幅に上回っている。 コードはプロジェクトのWebサイト(https://sites.google.com/view/generic-grouping/)で入手できる。

Open-world instance segmentation is the task of grouping pixels into object instances without any pre-determined taxonomy. This is challenging, as state-of-the-art methods rely on explicit class semantics obtained from large labeled datasets, and out-of-domain evaluation performance drops significantly. Here we propose a novel approach for mask proposals, Generic Grouping Networks (GGNs), constructed without semantic supervision. Our approach combines a local measure of pixel affinity with instance-level mask supervision, producing a training regimen designed to make the model as generic as the data diversity allows. We introduce a method for predicting Pairwise Affinities (PA), a learned local relationship between pairs of pixels. PA generalizes very well to unseen categories. From PA we construct a large set of pseudo-ground-truth instance masks; combined with human-annotated instance masks we train GGNs and significantly outperform the SOTA on open-world instance segmentation on various benchmarks including COCO, LVIS, ADE20K, and UVO. Code is available on project website: https://sites.google.com/view/generic-grouping/.
翻訳日:2022-04-14 13:25:17 公開日:2022-04-12
# 大規模観測データを用いた予測・解釈のためのハイブリッド特徴量・類似度モデル

Hybrid Feature- and Similarity-Based Models for Prediction and Interpretation using Large-Scale Observational Data ( http://arxiv.org/abs/2204.06076v1 )

ライセンス: Link先を確認
Jacqueline K. Kueper, Jennifer Rayner, Daniel J. Lizotte(参考訳) 導入: 大規模電子健康記録(EHR)データセットには、患者年齢のような単純な情報的特徴や、個々の特徴として簡単に表現できないケア履歴のような複雑なデータが含まれることが多い。 このような複雑なデータは、リスクアセスメントの質を向上させると同時に、リスクにつながる因果要因をよりよく理解する可能性を持っている。 本稿では,機能とカーネル学習のアプローチを組み合わせた教師付き学習のためのハイブリッド機能と類似性に基づくモデルを提案する。 方法:提案したハイブリッドモデルは,カーネル部分の疎性誘導ペナルティを伴う凸最適化に適合する。 特徴係数とカーネル係数は順次または同時に適合することができる。 本モデルと合成データを用いた機能的・類似性に基づくアプローチと,初等医療機関のehrデータを用いて孤独や社会的孤立のリスクを予測した。 また,高次元インジケータ符号化EHRデータに適したカーネル構築のための新しい戦略を提案する。 結果: ハイブリッドモデルは, 総合および臨床ケーススタディにおいて, 特徴ベースおよびカーネルベースアプローチと同等あるいは優れた予測性能を示した。 ハイブリッドモデルの固有解釈性は, カーネル係数方向によって階層化されたクライアント特性を臨床ケーススタディで探究するために用いられ, 因果解釈が要求される場合の2つのハイブリッドモデル形態の機会と注意について, 簡単な例を用いて議論する。 結論: ハイブリッド特徴と類似性に基づくモデルは、単純なモデルや不透明な複雑なモデルに対する予測と解釈の改善をサポートする付加モデル構造内の複雑な高次元データをキャプチャする機会を提供する。

Introduction: Large-scale electronic health record(EHR) datasets often include simple informative features like patient age and complex data like care history that are not easily represented as individual features. Such complex data have the potential to both improve the quality of risk assessment and to enable a better understanding of causal factors leading to those risks. We propose a hybrid feature- and similarity-based model for supervised learning that combines feature and kernel learning approaches to take advantage of rich but heterogeneous observational data sources to create interpretable models for prediction and for investigation of causal relationships. Methods: The proposed hybrid model is fit by convex optimization with a sparsity-inducing penalty on the kernel portion. Feature and kernel coefficients can be fit sequentially or simultaneously. We compared our models to solely feature- and similarity-based approaches using synthetic data and using EHR data from a primary health care organization to predict risk of loneliness or social isolation. We also present a new strategy for kernel construction that is suited to high-dimensional indicator-coded EHR data. Results: The hybrid models had comparable or better predictive performance than the feature- and kernel-based approaches in both the synthetic and clinical case studies. The inherent interpretability of the hybrid model is used to explore client characteristics stratified by kernel coefficient direction in the clinical case study; we use simple examples to discuss opportunities and cautions of the two hybrid model forms when causal interpretations are desired. Conclusion: Hybrid feature- and similarity-based models provide an opportunity to capture complex, high-dimensional data within an additive model structure that supports improved prediction and interpretation relative to simple models and opaque complex models.
翻訳日:2022-04-14 13:04:35 公開日:2022-04-12
# AdaTest:オンチップハードウェアトロイの木馬検出のための強化学習と適応サンプリング

AdaTest:Reinforcement Learning and Adaptive Sampling for On-chip Hardware Trojan Detection ( http://arxiv.org/abs/2204.06117v1 )

ライセンス: Link先を確認
Huili Chen, Xinqiao Zhang, Ke Huang, Farinaz Koushanfar(参考訳) 本稿では,HT(Hardware Trojan)検出のための新しい適応型テストパターン生成フレームワークであるAdaTestを提案する。 HTは、被害者集積回路(IC)の設計を妨害するバックドア攻撃である。 AdaTestは、ノイズやバリエーションの存在下でより小さなトロイの木を検知するスケーラビリティと精度の観点から、既存のHT検出技術を改善している。 高いトリガーカバレッジを達成するために、AdaTestはReinforcement Learning(RL)を活用して、さまざまなテストインプットを生成する。 特に,評価値の高いテストベクトルを漸進的に反復的に生成する。 各イテレーションでテストセットを評価し、必要に応じて適応的に拡張する。 さらに、AdaTestは適応サンプリングを統合して、HT検出のためのより多くの情報を提供するテストサンプルを優先順位付けする。 我々はAdaTestをSoftware/Hardwareの共同設計原則で開発し、最適化されたオンチップアーキテクチャソリューションを提供する。 AdaTestのアーキテクチャは、ハードウェアオーバーヘッドを2つの方法で最小化する。 (i) プログラム可能なハードウェア上に回路エミュレーションを配置し、テスト入力の報酬評価を加速すること。 2AdaTestの各計算段階のパイプライン化は、テスト入力生成、報酬評価、適応サンプリングのための補助回路を自動構築する。 各種HTベンチマークでAdaTestの性能を評価し,HT検出に論理テストを用いた2つの先行研究と比較した。 実験の結果, adatest engender は, テスト生成速度を最大2桁, テストセットサイズを2桁削減し, 同じレベル以上のトロイの木馬検出率を達成していることがわかった。

This paper proposes AdaTest, a novel adaptive test pattern generation framework for efficient and reliable Hardware Trojan (HT) detection. HT is a backdoor attack that tampers with the design of victim integrated circuits (ICs). AdaTest improves the existing HT detection techniques in terms of scalability and accuracy of detecting smaller Trojans in the presence of noise and variations. To achieve high trigger coverage, AdaTest leverages Reinforcement Learning (RL) to produce a diverse set of test inputs. Particularly, we progressively generate test vectors with high reward values in an iterative manner. In each iteration, the test set is evaluated and adaptively expanded as needed. Furthermore, AdaTest integrates adaptive sampling to prioritize test samples that provide more information for HT detection, thus reducing the number of samples while improving the sample quality for faster exploration. We develop AdaTest with a Software/Hardware co-design principle and provide an optimized on-chip architecture solution. AdaTest's architecture minimizes the hardware overhead in two ways:(i) Deploying circuit emulation on programmable hardware to accelerate reward evaluation of the test input; (ii) Pipelining each computation stage in AdaTest by automatically constructing auxiliary circuit for test input generation, reward evaluation, and adaptive sampling. We evaluate AdaTest's performance on various HT benchmarks and compare it with two prior works that use logic testing for HT detection. Experimental results show that AdaTest engenders up to two orders of test generation speedup and two orders of test set size reduction compared to the prior works while achieving the same level or higher Trojan detection rate.
翻訳日:2022-04-14 13:04:06 公開日:2022-04-12
# ASQA: 長文の回答にファクトイドの質問

ASQA: Factoid Questions Meet Long-Form Answers ( http://arxiv.org/abs/2204.06092v1 )

ライセンス: Link先を確認
Ivan Stelmakh, Yi Luan, Bhuwan Dhingra, Ming-Wei Chang(参考訳) データセットの多さと信頼性評価指標の可用性は、ファクトイド質問応答(QA)において大きな進歩をもたらした。 しかし、この進歩は、詳細な説明を必要とする質問に答えることが目的である長期QAの課題に容易に移行することができない。 ハードルには (i)高品質なデータの欠如、及び (ii)回答の品質についての明確な概念が存在しないこと。 本稿では,これらの問題に対処する。 i)ASQA(Answer Summaries for Questions that are Ambiguous)と呼ばれる新しいデータセットとタスクを公開し、 (II)ASQAの性能測定のための信頼性指標の提案。 我々の課題は、不明瞭な事実的質問、すなわち解釈によって異なる正しい回答に焦点をあてる。 あいまいな質問に対する回答は、複数の情報源からの事実情報を、あいまいさを解決する長文の要約にまとめるべきである。 既存の長期QAタスク(ELI5など)とは対照的に、ASQAは明確な正当性の概念を認めている。 我々はこの正確性の概念を用いて、ASQAのパフォーマンスの自動測定値を定義する。 本分析は,この測定値と人的判断値の一致を示し,人的評価と強いベースラインとの間にかなりの差があることを明らかにする。

An abundance of datasets and availability of reliable evaluation metrics have resulted in strong progress in factoid question answering (QA). This progress, however, does not easily transfer to the task of long-form QA, where the goal is to answer questions that require in-depth explanations. The hurdles include (i) a lack of high-quality data, and (ii) the absence of a well-defined notion of the answer's quality. In this work, we address these problems by (i) releasing a novel dataset and a task that we call ASQA (Answer Summaries for Questions which are Ambiguous); and (ii) proposing a reliable metric for measuring performance on ASQA. Our task focuses on factoid questions that are ambiguous, that is, have different correct answers depending on interpretation. Answers to ambiguous questions should synthesize factual information from multiple sources into a long-form summary that resolves the ambiguity. In contrast to existing long-form QA tasks (such as ELI5), ASQA admits a clear notion of correctness: a user faced with a good summary should be able to answer different interpretations of the original ambiguous question. We use this notion of correctness to define an automated metric of performance for ASQA. Our analysis demonstrates an agreement between this metric and human judgments, and reveals a considerable gap between human performance and strong baselines.
翻訳日:2022-04-14 12:49:48 公開日:2022-04-12
# InCoder: コード入力と合成のための生成モデル

InCoder: A Generative Model for Code Infilling and Synthesis ( http://arxiv.org/abs/2204.05999v1 )

ライセンス: Link先を確認
Daniel Fried, Armen Aghajanyan, Jessy Lin, Sida Wang, Eric Wallace, Freda Shi, Ruiqi Zhong, Wen-tau Yih, Luke Zettlemoyer, Mike Lewis(参考訳) コードは1つの左から右へのパスで書くことはめったになく、繰り返し編集され、洗練される。 本稿では,プログラム合成(左から右への生成による)や編集(インフィルリングによる)が可能な統合生成モデルであるincoderを紹介する。 incoderは、許容ライセンスコードの大きなコーパスからコードファイルを生成するように訓練されており、コードの領域はランダムにマスキングされ、各ファイルの端に移動し、双方向のコンテキストでコードを埋め込むことができる。 我々のモデルは,型推論やコメント生成,変数の再命名といった課題に対して,ゼロショットコード入力を直接実行可能な最初の生成モデルである。 両方向の文脈で条件を定めれば、これらのタスクの性能は大幅に向上するが、同じスケールで事前訓練された左から右へのモデルと比較して、標準的なプログラム合成ベンチマークでは相容れない。 InCoderモデルとコードは公開されている。 https://sites.google.com/view/incoder-code-models

Code is seldom written in a single left-to-right pass and is instead repeatedly edited and refined. We introduce InCoder, a unified generative model that can perform program synthesis (via left-to-right generation) as well as editing (via infilling). InCoder is trained to generate code files from a large corpus of permissively licensed code, where regions of code have been randomly masked and moved to the end of each file, allowing code infilling with bidirectional context. Our model is the first generative model that is able to directly perform zero-shot code infilling, which we evaluate on challenging tasks such as type inference, comment generation, and variable re-naming. We find that the ability to condition on bidirectional context substantially improves performance on these tasks, while still performing comparably on standard program synthesis benchmarks in comparison to left-to-right only models pretrained at similar scale. The InCoder models and code are publicly released. https://sites.google.com/view/incoder-code-models
翻訳日:2022-04-14 12:45:21 公開日:2022-04-12
# SRMD:スパースランダムモード分解

SRMD: Sparse Random Mode Decomposition ( http://arxiv.org/abs/2204.06108v1 )

ライセンス: Link先を確認
Nicholas Richardson, Hayden Schaeffer, Giang Tran(参考訳) 信号分解と多スケール信号解析は、時間周波数解析に有用な多くのツールを提供する。 スペクトル図へのスパース近似を構築し,時系列データをランダムに解析する手法を提案する。 ランダム化は時間窓の位置と周波数サンプリングの両方であり、全体のサンプリングと計算コストを下げる。 スペクトログラムのスパース化は、時間周波数クラスタ間の鋭い分離につながり、本質的なモードの識別が容易になるため、新たなデータ駆動モードの分解につながる。 応用例としては、信号表現、異常除去、モード分解などがある。 ベンチマークテストでは,本手法が他の最先端分解法よりも優れていることを示す。

Signal decomposition and multiscale signal analysis provide many useful tools for time-frequency analysis. We proposed a random feature method for analyzing time-series data by constructing a sparse approximation to the spectrogram. The randomization is both in the time window locations and the frequency sampling, which lowers the overall sampling and computational cost. The sparsification of the spectrogram leads to a sharp separation between time-frequency clusters which makes it easier to identify intrinsic modes, and thus leads to a new data-driven mode decomposition. The applications include signal representation, outlier removal, and mode decomposition. On the benchmark tests, we show that our approach outperforms other state-of-the-art decomposition methods.
翻訳日:2022-04-14 12:45:03 公開日:2022-04-12
# 知識ベースとしての言語モデルの検討

A Review on Language Models as Knowledge Bases ( http://arxiv.org/abs/2204.06031v1 )

ライセンス: Link先を確認
Badr AlKhamissi, Millicent Li, Asli Celikyilmaz, Mona Diab, Marjan Ghazvininejad(参考訳) 近年,知識ベース (KB) としての事前訓練言語モデル (LM) の利用に対する,NLPコミュニティへの関心が高まっている。 研究者らは、十分に大きな(ウェブ)コーパスで訓練されたLMが、パラメータに暗黙的にかなりの量の知識を符号化することを示した。 結果のLMは様々な種類の知識を探索し、KBとして振る舞うことができる。 これは従来のkbsよりも大きな利点であり、この手法は人間の監督を必要としない。 本稿では,LM が KB として完全に振る舞う必要があるとみなす側面の集合を示し,それらの側面について最近の文献をレビューする。

Recently, there has been a surge of interest in the NLP community on the use of pretrained Language Models (LMs) as Knowledge Bases (KBs). Researchers have shown that LMs trained on a sufficiently large (web) corpus will encode a significant amount of knowledge implicitly in its parameters. The resulting LM can be probed for different kinds of knowledge and thus acting as a KB. This has a major advantage over traditional KBs in that this method requires no human supervision. In this paper, we present a set of aspects that we deem a LM should have to fully act as a KB, and review the recent literature with respect to those aspects.
翻訳日:2022-04-14 12:24:04 公開日:2022-04-12
# L3Cube-MahaNER: エンティティ認識データセットとBERTモデル

L3Cube-MahaNER: A Marathi Named Entity Recognition Dataset and BERT models ( http://arxiv.org/abs/2204.06029v1 )

ライセンス: Link先を確認
Parth Patil, Aparna Ranade, Maithili Sabane, Onkar Litake, Raviraj Joshi(参考訳) Named Entity Recognition (NER) は基本的なNLPタスクであり、会話や検索システムにおける主要な用途を見つける。 下流のアプリケーションで使われる文の中のキーエンティティを識別するのに役立ちます。 一般的な言語向けのNERや類似のスロットフィリングシステムは、商用アプリケーションでよく使われている。 本研究では,マハーラーシュトラ州の住民に顕著に話されるインドの言語であるマラティに焦点を当てる。 Marathiは低リソース言語であり、今でも有用なNERリソースがない。 マラタイで最初の主要金本位認証データセットであるL3Cube-MahaNERを提示する。 また,手作業によるアノテーションガイドラインについても述べる。 最後に、mBERT、XLM-RoBERTa、IndicBERT、MahaBERTなどの異なるCNN、LSTM、Transformerベースのモデルでデータセットをベンチマークする。 MahaBERTはすべてのモデルの中で最高のパフォーマンスを提供する。 データとモデルはhttps://github.com/l3cube-pune/marathinlpで入手できる。

Named Entity Recognition (NER) is a basic NLP task and finds major applications in conversational and search systems. It helps us identify key entities in a sentence used for the downstream application. NER or similar slot filling systems for popular languages have been heavily used in commercial applications. In this work, we focus on Marathi, an Indian language, spoken prominently by the people of Maharashtra state. Marathi is a low resource language and still lacks useful NER resources. We present L3Cube-MahaNER, the first major gold standard named entity recognition dataset in Marathi. We also describe the manual annotation guidelines followed during the process. In the end, we benchmark the dataset on different CNN, LSTM, and Transformer based models like mBERT, XLM-RoBERTa, IndicBERT, MahaBERT, etc. The MahaBERT provides the best performance among all the models. The data and models are available at https://github.com/l3cube-pune/MarathiNLP .
翻訳日:2022-04-14 12:22:49 公開日:2022-04-12
# 農業における画像拡張のためのジェネレーティブ・アドバイサル・ネットワーク:システムレビュー

Generative Adversarial Networks for Image Augmentation in Agriculture: A Systematic Review ( http://arxiv.org/abs/2204.04707v2 )

ライセンス: Link先を確認
Ebenezer Olaniyi, Dong Chen, Yuzhen Lu, Yanbo Huang(参考訳) 農業画像解析では,生物多様性や非構造環境の課題が存在する場合,視覚認識タスク(画像分類,セグメンテーション,物体検出,局所化など)を満足するために最適なモデル性能が追求されている。 しかし、大規模でバランスの取れた画像データセットは、高度で高性能なモデルの開発を加速させるのにしばしば困難である。 ディープラーニングによる人工知能が農業イメージの分析とモデリングに影響を与えているため、データ拡張は、トレーニングデータセットをアルゴリズム的に拡張することで、データ準備のための手作業を削減すると同時に、モデルパフォーマンスを向上させる上で重要な役割を果たす。 2014年にコンピュータビジョンコミュニティで発明されたGAN(Generative Adversarial Network)は、従来のデータ拡張技術以外にも、優れたデータ表現を学習し、非常に現実的なサンプルを生成する新しいアプローチスイートを提供する。 2017年以降、農業における画像増強や合成のためのGANの研究が成長し、モデル性能が向上した。 本稿では, GAN アーキテクチャの進化を概観するとともに, 植物健康, 雑草, 果実, 養殖, 牧草, 植物育種, 植物育種, 植物育種, および, 果実の欠陥検出のための様々なビジョンタスクを含む, 農業への応用の体系的レビュー(https://github.com/Derekabc/GANs-Agriculture)を行った。 GANの課題と機会を今後の研究のために論じる。

In agricultural image analysis, optimal model performance is keenly pursued for better fulfilling visual recognition tasks (e.g., image classification, segmentation, object detection and localization), in the presence of challenges with biological variability and unstructured environments. Large-scale, balanced and ground-truthed image datasets, however, are often difficult to obtain to fuel the development of advanced, high-performance models. As artificial intelligence through deep learning is impacting analysis and modeling of agricultural images, data augmentation plays a crucial role in boosting model performance while reducing manual efforts for data preparation, by algorithmically expanding training datasets. Beyond traditional data augmentation techniques, generative adversarial network (GAN) invented in 2014 in the computer vision community, provides a suite of novel approaches that can learn good data representations and generate highly realistic samples. Since 2017, there has been a growth of research into GANs for image augmentation or synthesis in agriculture for improved model performance. This paper presents an overview of the evolution of GAN architectures followed by a systematic review of their application to agriculture (https://github.com/Derekabc/GANs-Agriculture), involving various vision tasks for plant health, weeds, fruits, aquaculture, animal farming, plant phenotyping as well as postharvest detection of fruit defects. Challenges and opportunities of GANs are discussed for future research.
翻訳日:2022-04-14 10:28:54 公開日:2022-04-12
# (参考訳) RGB熱画像対を用いたガラスセグメンテーション

Glass Segmentation with RGB-Thermal Image Pairs ( http://arxiv.org/abs/2204.05453v1 )

ライセンス: CC BY 4.0
Dong Huo, Jian Wang, Yiming Qian, Yee-Hong Yang(参考訳) 本稿では,RGBと熱画像を組み合わせた新しいガラスセグメンテーション法を提案する。 可視光の透過特性と、ほとんどのガラスが可視光に対して透明であるが熱エネルギーに不透明なガラスによる熱エネルギーとの差が大きいため、シーンのガラス領域はRGB画像のみよりもRGB画像と熱画像の対でより区別可能である。 このようなユニークな特性を利用するために,rgb熱画像対と注意に基づく新しいマルチモーダル融合モジュールを効果的に組み合わせ,cnnとtransformerを統合して局所特徴と長距離依存性を抽出するニューラルネットワークアーキテクチャを提案する。 また,5551 rgbの熱画像ペアと地対セグメンテーションアノテーションを含む新しいデータセットも収集した。 定性的,定量的な評価は,ガラスセグメンテーションにおけるRGBの拡散と熱データに対する提案手法の有効性を示す。 私たちのコードとデータはhttps://github.com/Dong-Huo/RGB-T-Glass-Segmentationで公開されています。

This paper proposes a new glass segmentation method utilizing paired RGB and thermal images. Due to the large difference between the transmission property of visible light and that of the thermal energy through the glass where most glass is transparent to the visible light but opaque to thermal energy, glass regions of a scene are made more distinguishable with a pair of RGB and thermal images than solely with an RGB image. To exploit such a unique property, we propose a neural network architecture that effectively combines an RGB-thermal image pair with a new multi-modal fusion module based on attention, and integrate CNN and transformer to extract local features and long-range dependencies, respectively. As well, we have collected a new dataset containing 5551 RGB-thermal image pairs with ground-truth segmentation annotations. The qualitative and quantitative evaluations demonstrate the effectiveness of the proposed approach on fusing RGB and thermal data for glass segmentation. Our code and data are available at https://github.com/Dong-Huo/RGB-T-Glass-Segmentation.
翻訳日:2022-04-14 04:32:44 公開日:2022-04-12
# (参考訳) リニア回帰とディープ・コンボリューショナル・ゲート・リカレント・ユニットの結合による流線形ワイアの正確な放電係数予測

Accurate Discharge Coefficient Prediction of Streamlined Weirs by Coupling Linear Regression and Deep Convolutional Gated Recurrent Unit ( http://arxiv.org/abs/2204.05476v1 )

ライセンス: CC BY 4.0
Weibin Chen, Danial Sharifrazi, Guoxi Liang, Shahab S. Band, Kwok Wing Chau, Amir Mosavi(参考訳) 自然に着想を得たワイアである流線形ワイアは, 主に高放電係数の確立した性能のため, 油圧技術者の間で大きな注目を集めている。 計算流体力学(CFD)は放電係数を予測する頑健なツールであると考えられている。 そこで本研究では,CFDシミュレーションの代替として,データ駆動型モデリング手法を提案する。 この目的のために、kフォールドクロス検証技術を用いてデータセットを分割した後、古典的およびハイブリッド機械学習ディープラーニング(ML DL)アルゴリズムの性能評価を行う。 ML手法では,線形回帰 (LR) ランダムフォレスト (RF) 支援ベクトルマシン (SVM) k-nearest neighbor (KNN) と決定木 (DT) アルゴリズムについて検討した。 DLの文脈では、長い短期記憶(LSTM)畳み込みニューラルネットワーク(CNN)とゲートリカレントユニット(GRU)とそのハイブリッド形式(LSTM GRU、CNN LSTM、CNN GRU)を異なるエラーメトリクスを用いて比較する。 提案する3層階層型dlアルゴリズムは,lr法とハイブリダライズされた2つの gru レベルと結合した畳み込み層からなるため,誤差メトリクスが小さくなることがわかった。 本稿では,合理化ワイアのデータ駆動モデリング手法について述べる。

Streamlined weirs which are a nature-inspired type of weir have gained tremendous attention among hydraulic engineers, mainly owing to their established performance with high discharge coefficients. Computational fluid dynamics (CFD) is considered as a robust tool to predict the discharge coefficient. To bypass the computational cost of CFD-based assessment, the present study proposes data-driven modeling techniques, as an alternative to CFD simulation, to predict the discharge coefficient based on an experimental dataset. To this end, after splitting the dataset using a k fold cross validation technique, the performance assessment of classical and hybrid machine learning deep learning (ML DL) algorithms is undertaken. Among ML techniques linear regression (LR) random forest (RF) support vector machine (SVM) k-nearest neighbor (KNN) and decision tree (DT) algorithms are studied. In the context of DL, long short-term memory (LSTM) convolutional neural network (CNN) and gated recurrent unit (GRU) and their hybrid forms such as LSTM GRU, CNN LSTM and CNN GRU techniques, are compared using different error metrics. It is found that the proposed three layer hierarchical DL algorithm consisting of a convolutional layer coupled with two subsequent GRU levels, which is also hybridized with the LR method, leads to lower error metrics. This paper paves the way for data-driven modeling of streamlined weirs.
翻訳日:2022-04-14 04:01:58 公開日:2022-04-12
# (参考訳) 患者表現のための深い規範埋め込み

Deep Normed Embeddings for Patient Representation ( http://arxiv.org/abs/2204.05477v1 )

ライセンス: CC BY 4.0
Thesath Nanayakkara, Gilles Clermont, Christopher James Langmead, David Swigon(参考訳) 本稿では,新しいコントラスト表現学習目標と臨床時系列の訓練方式を提案する。 具体的には、高次元のe.h.r.データを低次元の閉単位球に投影し、原点が理想化された完全な健康状態を表し、ユークリッドノルムが患者の死亡リスクと関連付けられるように幾何学的事前を符号化する。 さらに, 敗血症患者を例として, 2つのベクター間の角度を異なる臓器系の障害と結びつける方法について検討し, 死亡リスクと特定の臓器不全の両方を示すコンパクト表現を学習した。 オンライン患者のモニタリング、臨床医の補足、ダウンストリーム機械学習タスクのパフォーマンス向上に、学習埋め込みがいかに役立つかを示す。 この研究は、医療における強化学習の中間報酬を定義する体系的な方法を導入する必要性と欲求から部分的に動機づけられた。 したがって、学習した埋め込みの観点からそのような設計が、端末報酬のみを使用する場合と比較して質的に異なるポリシーや価値分布をもたらすことを示す。

We introduce a novel contrastive representation learning objective and a training scheme for clinical time series. Specifically, we project high dimensional E.H.R. data to a closed unit ball of low dimension, encoding geometric priors so that the origin represents an idealized perfect health state and the euclidean norm is associated with the patient's mortality risk. Moreover, using septic patients as an example, we show how we could learn to associate the angle between two vectors with the different organ system failures, thereby, learning a compact representation which is indicative of both mortality risk and specific organ failure. We show how the learned embedding can be used for online patient monitoring, supplement clinicians and improve performance of downstream machine learning tasks. This work was partially motivated from the desire and the need to introduce a systematic way of defining intermediate rewards for Reinforcement Learning in critical care medicine. Hence, we also show how such a design in terms of the learned embedding can result in qualitatively different policies and value distributions, as compared with using only terminal rewards.
翻訳日:2022-04-14 03:50:17 公開日:2022-04-12
# (参考訳) 電子文書比較に適用した修正類似性のためのニューラルグラフマッチング

Neural Graph Matching for Modification Similarity Applied to Electronic Document Comparison ( http://arxiv.org/abs/2204.05486v1 )

ライセンス: CC BY 4.0
Po-Fang Hsu, Chiching Wei(参考訳) 本稿では,文書比較に応用した新しいニューラルグラフマッチング手法を提案する。 文書比較は法律や金融業界で一般的な課題である。 いくつかの場合において最も重要な違いは、単語、文、節、段落の追加または省略である。 しかし、編集プロセス全体を記録またはトレースすることなく、難しい作業である。 多くの時間的不確実性の下で、我々は、どの要素ブロックが他の要素とエディションの関係を持つかを確認するために、正確な比較を予言するアプローチの可能性を探る。 まず,従来の技術と近代技術を組み合わせた文書レイアウト解析を,様々なタイプのブロックのセグメントレイアウトに適切に適用する。 そして、この問題をテキスト認識と整合したレイアウトグラフの問題に変換する。 グラフマッチングに関しては、幅広いアプリケーションで長年研究されてきた問題である。 しかし、視覚画像や構造レイアウトに焦点を当てた以前の作品とは異なり、このドメインを適応させるために、テキスト機能もモデルに導入しています。 具体的には、電子文書に基づいて、pdfからの視覚的なプレゼンテーションデコードを扱うエンコーダを導入する。 さらに,修正された文書とブロック間の文書レイアウト解析の不整合を生じさせる可能性があるため,グラフニューラルアプローチではシンクホーンの発散が採用され,これらの問題を多対多のブロックマッチングで克服しようとする。 以下の2つのカテゴリのレイアウトでこれを実証する。 実例データセットから収集した,法的合意と科学的記事。

In this paper, we present a novel neural graph matching approach applied to document comparison. Document comparison is a common task in the legal and financial industries. In some cases, the most important differences may be the addition or omission of words, sentences, clauses, or paragraphs. However, it is a challenging task without recording or tracing whole edited process. Under many temporal uncertainties, we explore the potentiality of our approach to proximate the accurate comparison to make sure which element blocks have a relation of edition with others. In beginning, we apply a document layout analysis that combining traditional and modern technics to segment layout in blocks of various types appropriately. Then we transform this issue to a problem of layout graph matching with textual awareness. About graph matching, it is a long-studied problem with a broad range of applications. However, different from previous works focusing on visual images or structural layout, we also bring textual features into our model for adapting this domain. Specifically, based on the electronic document, we introduce an encoder to deal with the visual presentation decoding from PDF. Additionally, because the modifications can cause the inconsistency of document layout analysis between modified documents and the blocks can be merged and split, Sinkhorn divergence is adopted in our graph neural approach, which tries to overcome both these issues with many-to-many block matching. We demonstrate this on two categories of layouts, as follows., legal agreement and scientific articles, collected from our real-case datasets.
翻訳日:2022-04-14 03:34:41 公開日:2022-04-12
# (参考訳) 重なり合う単語の除去: 音声検出におけるデータ不均衡の再考

Overlapping Word Removal is All You Need: Revisiting Data Imbalance in Hope Speech Detection ( http://arxiv.org/abs/2204.05488v1 )

ライセンス: CC BY 4.0
Hariharan RamakrishnaIyer LekshmiAmmal, Manikandan Ravikiran, Gayathri Nisha, Navyasree Balamuralidhar, Adithya Madhusoodanan, Anand Kumar Madasamy, and Bharathi Raja Chakravarthi(参考訳) ポジティブな表現を認識するタスクであるホープ音声検出は、近年大きな進歩を遂げている。 しかし、現在の作業の多くは、データに固有の不均衡の問題を考えることなく、モデル開発に焦点を当てている。 我々の研究は、焦点損失、データ拡張、前処理戦略を導入することで、希望音声検出においてこの問題を再考する。 そこで,M-BERTトレーニングプロセスの一部として焦点損失を導入することで,クラス不均衡の影響を軽減し,F1-Macro全体の0.11の改善を図る。 同時に、M-BERTによる文脈的および逆翻訳に基づく単語拡張は、不均衡にもかかわらずベースラインよりも0.10向上する。 最後に,前処理による単語の重複除去は単純ではあるがF1-Macroを0.28改善することを示す。 そこで本研究では,これらの戦略の様々な動作を詳述した詳細な研究を行い,実世界のデータ不均衡条件下での希望音声検出にM-BERTを最大限に活用することに関心のある人々に対して,実験結果から重要な知見を要約する。

Hope Speech Detection, a task of recognizing positive expressions, has made significant strides recently. However, much of the current works focus on model development without considering the issue of inherent imbalance in the data. Our work revisits this issue in hope-speech detection by introducing focal loss, data augmentation, and pre-processing strategies. Accordingly, we find that introducing focal loss as part of Multilingual-BERT's (M-BERT) training process mitigates the effect of class imbalance and improves overall F1-Macro by 0.11. At the same time, contextual and back-translation-based word augmentation with M-BERT improves results by 0.10 over baseline despite imbalance. Finally, we show that overlapping word removal based on pre-processing, though simple, improves F1-Macro by 0.28. In due process, we present detailed studies depicting various behaviors of each of these strategies and summarize key findings from our empirical results for those interested in getting the most out of M-BERT for hope speech detection under real-world conditions of data imbalance.
翻訳日:2022-04-14 03:27:21 公開日:2022-04-12
# (参考訳) 準同型暗号を用いたスケーラブルなプライバシー保全型癌型予測

Scalable privacy-preserving cancer type prediction with homomorphic encryption ( http://arxiv.org/abs/2204.05496v1 )

ライセンス: CC BY 4.0
Esha Sarkar, Eduardo Chielle, Gamze Gursoy, Leo Chen, Mark Gerstein, Michail Maniatakos(参考訳) 機械学習(ML)は、高次元データ分析の課題を軽減し、ヘルスケアのような重要なアプリケーションにおける意思決定を改善する。 高次元遺伝子変異データからの効果的ながんタイプは、がんタイプ間の識別可能なパターンが特定できれば、がんの診断と治療に有用である。 同時に、高次元データの分析は計算コストが高く、しばしばクラウドサービスにアウトソースされる。 外部ソースのML、特に遺伝学の分野でのプライバシに関する懸念は、ホモモルフィック暗号化(HE)のような暗号化計算の使用を動機付けている。 しかし、暗号化された計算のオーバーヘッドは、その使用を阻害する。 本研究では,複数種類のがんに対して200万以上の遺伝情報からなる実世界のデータセットを用いたがん検出のプライバシー保護の課題について検討する。 データは本質的に高次元であるため、プライバシ保存領域における高速な推論を可能にするため、癌予測のためのより小さなMLモデルを検討する。 まず、遺伝子変異を効率的にエンコードするために体細胞突然変異に関するドメイン知識を活用し、次に特徴選択に統計的テストを使用するプライバシ保存癌推論のソリューションを開発した。 提案手法で構築したロジスティック回帰モデルは, 曲線下の0.98マイクロ平均面積を, 同様の実験よりも13%高い精度で達成する。 モデルが使用する遺伝子を解析することにより、モデルの予測能力を徹底的に検証する。 さらに,高次元データを効率的に処理できる高速行列乗算アルゴリズムを提案する。 実験結果から,提案する行列乗算アルゴリズムは,4万個の特徴を伴っても,複数の個体の同時推定を約10倍,一つの個体の同時推定を約550倍高速化できることがわかった。

Machine Learning (ML) alleviates the challenges of high-dimensional data analysis and improves decision making in critical applications like healthcare. Effective cancer type from high-dimensional genetic mutation data can be useful for cancer diagnosis and treatment, if the distinguishable patterns between cancer types are identified. At the same time, analysis of high-dimensional data is computationally expensive and is often outsourced to cloud services. Privacy concerns in outsourced ML, especially in the field of genetics, motivate the use of encrypted computation, like Homomorphic Encryption (HE). But restrictive overheads of encrypted computation deter its usage. In this work, we explore the challenges of privacy preserving cancer detection using a real-world dataset consisting of more than 2 million genetic information for several cancer types. Since the data is inherently high-dimensional, we explore smaller ML models for cancer prediction to enable fast inference in the privacy preserving domain. We develop a solution for privacy preserving cancer inference which first leverages the domain knowledge on somatic mutations to efficiently encode genetic mutations and then uses statistical tests for feature selection. Our logistic regression model, built using our novel encoding scheme, achieves 0.98 micro-average area under curve with 13% higher test accuracy than similar studies. We exhaustively test our model's predictive capabilities by analyzing the genes used by the model. Furthermore, we propose a fast matrix multiplication algorithm that can efficiently handle high-dimensional data. Experimental results show that, even with 40,000 features, our proposed matrix multiplication algorithm can speed up concurrent inference of multiple individuals by approximately 10x and inference of a single individual by approximately 550x, in comparison to standard matrix multiplication.
翻訳日:2022-04-14 02:54:57 公開日:2022-04-12
# (参考訳) CoupleFace: 顔認識蒸留における関係性

CoupleFace: Relation Matters for Face Recognition Distillation ( http://arxiv.org/abs/2204.05502v1 )

ライセンス: CC0 1.0
Jiaheng Liu, Haoyu Qin, Yichao Wu, Jinyang Guo, Ding Liang, Ke Xu(参考訳) 知識蒸留は、顔認識を含む多くのコンピュータビジョンタスクに広く応用されている、高性能ニューラルネットワーク(教師モデル)の知識を伝達することにより、軽量ニューラルネットワーク(学生モデル)の性能を向上させる効果的な方法である。 それにもかかわらず、現在の顔認識蒸留法では、教師および生徒モデルから抽出された学習埋め込みについて、通常、特徴的一貫性蒸留(fcd)(例えばl2距離)を用いて、各サンプルに対して、教師から生徒への知識を完全に移すことができない。 本研究では,学生モデルの学習表現の識別能力を高めるために,サンプル間の相互関係の知識も重要であることを考察し,既存の蒸留フレームワークに相互関係蒸留(MRD)を導入することで,カップルフェイスと呼ばれる効果的な顔認識蒸留法を提案する。 具体的には,まず,情報的相互関係を掘り起こし,その後,教師モデルの相互関係知識を学生モデルに移すために,関係認識蒸留(rad)損失を導入することを提案する。 複数のベンチマークデータセットにおける広範囲な実験結果から,提案手法が顔認識に有効であることを示す。 さらに,提案したCoupleFaceに基づいて,ICCV21 Masked Face Recognition Challenge (MS1M track)で優勝した。

Knowledge distillation is an effective method to improve the performance of a lightweight neural network (i.e., student model) by transferring the knowledge of a well-performed neural network (i.e., teacher model), which has been widely applied in many computer vision tasks, including face recognition. Nevertheless, the current face recognition distillation methods usually utilize the Feature Consistency Distillation (FCD) (e.g., L2 distance) on the learned embeddings extracted by the teacher and student models for each sample, which is not able to fully transfer the knowledge from the teacher to the student for face recognition. In this work, we observe that mutual relation knowledge between samples is also important to improve the discriminative ability of the learned representation of the student model, and propose an effective face recognition distillation method called CoupleFace by additionally introducing the Mutual Relation Distillation (MRD) into existing distillation framework. Specifically, in MRD, we first propose to mine the informative mutual relations, and then introduce the Relation-Aware Distillation (RAD) loss to transfer the mutual relation knowledge of the teacher model to the student model. Extensive experimental results on multiple benchmark datasets demonstrate the effectiveness of our proposed CoupleFace for face recognition. Moreover, based on our proposed CoupleFace, we have won the first place in the ICCV21 Masked Face Recognition Challenge (MS1M track).
翻訳日:2022-04-14 02:31:56 公開日:2022-04-12
# (参考訳) 優先順位付けメモリリセットによる教材の学習設計と構成

Learning Design and Construction with Varying-Sized Materials via Prioritized Memory Resets ( http://arxiv.org/abs/2204.05509v1 )

ライセンス: CC BY 4.0
Yunfei Li, Tao Kong, Lei Li and Yi Wu(参考訳) ロボットは、ブループリントなしで、さまざまなサイズのブロックから橋の設計と構築を自律的に学べるだろうか? ロボットは、ブロックを操作して輸送するために、物理的に安定した設計スキームと実行可能なアクションを見つけなければならない。 ブロックサイズが多様であるため、状態空間と行動軌道は探索に広く用いられる。 本稿では,この問題に対する階層的アプローチを提案する。 高いレベルの建築指示を提案する強化学習デザイナと、低レベルのブロックを操作するモーションプランニングベースのアクションジェネレータで構成されている。 高レベルの学習のために,探索を改善するためにメモリリセット(PMR)を優先する新しい手法を開発した。 pmrは状態をリプレイバッファから最も重要な設定に適応的にリセットするので、ロボットはスクラッチではなく部分的なアーキテクチャのトレーニングを再開できる。 さらに,補助訓練目標でpmrを補強し,ロコモーション発生器で設計者を微調整する。 シミュレーションと実際のロボットシステムによる実験により,異なる大きさのブロックを有する橋を,高い成功率で効果的に構築できることを実証した。 デモはhttps://sites.google.com/view/bridge-pmrで見ることができる。

Can a robot autonomously learn to design and construct a bridge from varying-sized blocks without a blueprint? It is a challenging task with long horizon and sparse reward -- the robot has to figure out physically stable design schemes and feasible actions to manipulate and transport blocks. Due to diverse block sizes, the state space and action trajectories are vast to explore. In this paper, we propose a hierarchical approach for this problem. It consists of a reinforcement-learning designer to propose high-level building instructions and a motion-planning-based action generator to manipulate blocks at the low level. For high-level learning, we develop a novel technique, prioritized memory resetting (PMR) to improve exploration. PMR adaptively resets the state to those most critical configurations from a replay buffer so that the robot can resume training on partial architectures instead of from scratch. Furthermore, we augment PMR with auxiliary training objectives and fine-tune the designer with the locomotion generator. Our experiments in simulation and on a real deployed robotic system demonstrate that it is able to effectively construct bridges with blocks of varying sizes at a high success rate. Demos can be found at https://sites.google.com/view/bridge-pmr.
翻訳日:2022-04-14 02:08:10 公開日:2022-04-12
# (参考訳) 意味深度クラウドマッピングとマルチエージェントによる完全エンドツーエンド自動運転

Fully End-to-end Autonomous Driving with Semantic Depth Cloud Mapping and Multi-Agent ( http://arxiv.org/abs/2204.05513v1 )

ライセンス: CC BY 4.0
Oskar Natan and Jun Miura(参考訳) 自律走行車におけるポイント・ツー・ポイント・ナビゲーションの課題に着目し,エンド・ツー・エンドとマルチタスクの学習方法で訓練された新しいディープラーニングモデルを提案する。 このモデルは、グローバルプランナーによって定義された一連のルートに従って、エゴ車両を安全に駆動するために使用される。 モデルの知覚部は、セマンティックセグメンテーション、セマンティック深度クラウド(sdc)マッピング、トラヒックライト状態およびストップサイン予測を実行しながら、rgbdカメラにより提供される高次元の観測データをエンコードするために使用される。 そして、制御部は、エンコードされた特徴とgpsおよび速度計によって提供される追加情報とをデコードし、潜在的な特徴空間を持つ経路ポイントを予測する。 さらに、2つのエージェントがこれらの出力を処理し、最終動作としてステアリング、スロットル、ブレーキのレベルを決定する制御ポリシーを作成する。 このモデルは,CARLAシミュレータ上で,現実の環境を模倣するために,通常の状況と異なる天候のシナリオを用いて評価する。 さらに、運転の様々な側面のパフォーマンスを正当化するために、最近のモデルをいくつか比較研究している。 さらに,sdcマッピングとマルチエージェントを用いたアブレーション研究を行い,その役割と行動について検討した。 その結果, パラメータや計算負荷が少なくても, 最高運転スコアが得られることがわかった。 今後の研究をサポートするために、私たちはhttps://github.com/oskarnatan/end-to-end-driving.comでコードを共有します。

Focusing on the task of point-to-point navigation for an autonomous driving vehicle, we propose a novel deep learning model trained with end-to-end and multi-task learning manners to perform both perception and control tasks simultaneously. The model is used to drive the ego vehicle safely by following a sequence of routes defined by the global planner. The perception part of the model is used to encode high-dimensional observation data provided by an RGBD camera while performing semantic segmentation, semantic depth cloud (SDC) mapping, and traffic light state and stop sign prediction. Then, the control part decodes the encoded features along with additional information provided by GPS and speedometer to predict waypoints that come with a latent feature space. Furthermore, two agents are employed to process these outputs and make a control policy that determines the level of steering, throttle, and brake as the final action. The model is evaluated on CARLA simulator with various scenarios made of normal-adversarial situations and different weathers to mimic real-world conditions. In addition, we do a comparative study with some recent models to justify the performance in multiple aspects of driving. Moreover, we also conduct an ablation study on SDC mapping and multi-agent to understand their roles and behavior. As a result, our model achieves the highest driving score even with fewer parameters and computation load. To support future studies, we share our codes at https://github.com/oskarnatan/end-to-end-driving.
翻訳日:2022-04-14 01:48:25 公開日:2022-04-12
# (参考訳) Trigger-GNN: ネストした名前付きエンティティ認識のためのトリガーベースグラフニューラルネットワーク

Trigger-GNN: A Trigger-Based Graph Neural Network for Nested Named Entity Recognition ( http://arxiv.org/abs/2204.05518v1 )

ライセンス: CC BY 4.0
Yuan Sui, Fanyang Bu, Yingting Hu, Wei Yan, and Liang Zhang(参考訳) nested named entity recognition(ner)は、エンティティ境界を特定し、複雑な階層文内の名前付きエンティティのカテゴリを認識することを目的としている。 いくつかの作品は文字レベル、単語レベル、語彙レベルモデルを用いて行われている。 しかし、このような研究は補足的注釈の役割を無視している。 本稿では,ネストしたNERを利用するトリガベースグラフニューラルネットワーク(Trigger-GNN)を提案する。 エンティティトリガエンコーディングとセマンティクスマッチングを通じて補完的なアノテーション埋め込みを取得し、効率的なグラフメッセージパッシングアーキテクチャであるアグリゲーション更新モードを利用してネストされたエンティティに取り組む。 我々は、エンティティトリガを外部アノテーションとして使用することで、文全体に補完的な監視信号を加えることができると仮定する。 モデルがより効率的に、費用効率良く学習し、一般化するのに役立ちます。 実験によると、Trigger-GNNは4つのパブリックNERデータセットのベースラインを一貫して上回り、ネストしたNERを効果的に緩和することができる。

Nested named entity recognition (NER) aims to identify the entity boundaries and recognize categories of the named entities in a complex hierarchical sentence. Some works have been done using character-level, word-level, or lexicon-level based models. However, such researches ignore the role of the complementary annotations. In this paper, we propose a trigger-based graph neural network (Trigger-GNN) to leverage the nested NER. It obtains the complementary annotation embeddings through entity trigger encoding and semantic matching, and tackle nested entity utilizing an efficient graph message passing architecture, aggregation-update mode. We posit that using entity triggers as external annotations can add in complementary supervision signals on the whole sentences. It helps the model to learn and generalize more efficiently and cost-effectively. Experiments show that the Trigger-GNN consistently outperforms the baselines on four public NER datasets, and it can effectively alleviate the nested NER.
翻訳日:2022-04-14 01:19:53 公開日:2022-04-12
# (参考訳) NightLab: 夜間セグメンテーションのための硬度検出機能を備えたデュアルレベルのアーキテクチャ

NightLab: A Dual-level Architecture with Hardness Detection for Segmentation at Night ( http://arxiv.org/abs/2204.05538v1 )

ライセンス: CC BY 4.0
Xueqing Deng, Peng Wang, Xiaochen Lian, Shawn Newsam(参考訳) 夜間シーンのセマンティックセグメンテーションは、自動運転車のようなインパクトのあるアプリケーションにとって重要な課題である。 しかし、昼間に比べてほとんど注目されていない。 本稿では,複数の夜間セグメンテーション・ベンチマークにおいて,複数の夜間セグメンテーション・モデルに夜間認識機能を組み込んだ新しい夜間セグメンテーション・フレームワークであるNightLabを提案する。 特にNightLabには、画像と地域という2つのレベルの粒度のモデルが含まれており、各レベルは光適応とセグメンテーションモジュールで構成されている。 夜間画像が与えられた場合、画像レベルモデルは初期セグメンテーション推定を提供し、並行して、硬度検出モジュールは、さらなる分析を必要とする領域とその周辺状況を特定する。 地域レベルのモデルでは、これらの困難な地域に焦点を当て、大幅に改善されたセグメンテーションを提供する。 NightLabのすべてのモデルは、手作りのヒューリスティックを使わずに、一連のナイトアウェア損失を使ってエンドツーエンドでトレーニングされている。 NightCityとBDD100Kデータセットに関する大規模な実験は、NightLabが並行メソッドと比較してSoTAのパフォーマンスを達成したことを示している。

The semantic segmentation of nighttime scenes is a challenging problem that is key to impactful applications like self-driving cars. Yet, it has received little attention compared to its daytime counterpart. In this paper, we propose NightLab, a novel nighttime segmentation framework that leverages multiple deep learning models imbued with night-aware features to yield State-of-The-Art (SoTA) performance on multiple night segmentation benchmarks. Notably, NightLab contains models at two levels of granularity, i.e. image and regional, and each level is composed of light adaptation and segmentation modules. Given a nighttime image, the image level model provides an initial segmentation estimate while, in parallel, a hardness detection module identifies regions and their surrounding context that need further analysis. A regional level model focuses on these difficult regions to provide a significantly improved segmentation. All the models in NightLab are trained end-to-end using a set of proposed night-aware losses without handcrafted heuristics. Extensive experiments on the NightCity and BDD100K datasets show NightLab achieves SoTA performance compared to concurrent methods.
翻訳日:2022-04-14 01:01:22 公開日:2022-04-12
# (参考訳) あなたのことばかりではない:絶滅危惧言語技術を開発する際のコミュニティニーズの優先順位付け

Not always about you: Prioritizing community needs when developing endangered language technology ( http://arxiv.org/abs/2204.05541v1 )

ライセンス: CC BY 4.0
Zoey Liu, Crystal Richardson, Richard Hatcher Jr and Emily Prud'hommeaux(参考訳) 統計的および機械学習ツールやモデルをトレーニングするために必要なデータ量が不足している場合、言語は低リソースに分類される。 資源不足の原因は様々であるが、これらの資源を開発するための技術へのアクセスが不十分なこと、話者が比較的少ないこと、あるいは第二言語が高資源であるバイリンガル人口における資源収集の緊急性の欠如などが挙げられる。 その結果、文献で低資源言語として記述される言語はフィンランド語と同等に異なり、何百万人もの話者が想像可能な全ての領域で用い、セネカ語は、主に制限された領域でこの言語を使用する少数の能動的話者しかいない。 モデルのトレーニングに必要なリソースの不足が、この異なる言語群を統一することに起因する一方で、他の多くの問題は、広く普及している低リソース言語と絶滅危惧言語の間の隔たりを断ち切っている。 本稿では,絶滅危惧言語文書作成と再生を支援する言語技術開発において,研究者や先住民コミュニティのメンバが直面する,独特の技術的,文化的,実践的,倫理的課題について論じる。 本報告では, 言語教師, マスタースピーカー, および先住民コミュニティの高齢者の視点と, 学術的視点について報告する。 我々は,継続的な実りあるコラボレーションについて述べ,学術研究者と言語コミュニティの利害関係者との今後のパートナーシップを推奨する。

Languages are classified as low-resource when they lack the quantity of data necessary for training statistical and machine learning tools and models. Causes of resource scarcity vary but can include poor access to technology for developing these resources, a relatively small population of speakers, or a lack of urgency for collecting such resources in bilingual populations where the second language is high-resource. As a result, the languages described as low-resource in the literature are as different as Finnish on the one hand, with millions of speakers using it in every imaginable domain, and Seneca, with only a small-handful of fluent speakers using the language primarily in a restricted domain. While issues stemming from the lack of resources necessary to train models unite this disparate group of languages, many other issues cut across the divide between widely-spoken low resource languages and endangered languages. In this position paper, we discuss the unique technological, cultural, practical, and ethical challenges that researchers and indigenous speech community members face when working together to develop language technology to support endangered language documentation and revitalization. We report the perspectives of language teachers, Master Speakers and elders from indigenous communities, as well as the point of view of academics. We describe an ongoing fruitful collaboration and make recommendations for future partnerships between academic researchers and language community stakeholders.
翻訳日:2022-04-14 00:43:44 公開日:2022-04-12
# (参考訳) 画像の高信頼化に向けて:奥行き誘導による学習構造を考慮したマルチモーダル融合

Towards Reliable Image Outpainting: Learning Structure-Aware Multimodal Fusion with Depth Guidance ( http://arxiv.org/abs/2204.05543v1 )

ライセンス: CC BY 4.0
Lei Zhang, Kang Liao, Chunyu Lin, Yao Zhao(参考訳) イメージアウトペイント技術は、真正性に関係なく視覚的に合理的なコンテンツを生成し、追加のモダリティを導入しても実用的な用途には役立たない。 スケッチだ スパース深度マップは、ロボット工学や自律システムにおいて、RGB画像とともに広く捉えられているため、画像出力タスクにおけるスパース深度を組み合わせて、より信頼性の高い性能を提供する。 具体的には,異なるモダリティの特徴表現を微分的にモデル化し,構造認識型クロスモーダル融合を学習するための奥行き誘導型アウトパインティングネットワーク(dgonet)を提案する。 この目的のために、2つのコンポーネントが実装されている。 1)マルチモーダル学習モジュールは,異なるモーダル特性の観点から,独自の深度とRGB特徴表現を生成する。 2) 深層誘導核融合モジュールは, 完全深度モードを利用して, プログレッシブマルチモーダル機能融合によるRGBコンテンツの確立を導く。 さらに,クロスモーダル損失とエッジ損失からなる付加的な制約戦略を特別に設計し,曖昧な輪郭を強化し,信頼性の高いコンテンツ生成を迅速化する。 KITTIに関する大規模な実験は、より信頼性の高いコンテンツ生成を伴う最先端の手法よりも優れていることを示す。

Image outpainting technology generates visually reasonable content regardless of authenticity, making it unreliable to serve for practical applications even though introducing additional modalities eg. the sketch. Since sparse depth maps are widely captured in robotics and autonomous systems, together with RGB images, we combine the sparse depth in the image outpainting task to provide more reliable performance. Concretely, we propose a Depth-Guided Outpainting Network (DGONet) to model the feature representations of different modalities differentially and learn the structure-aware cross-modal fusion. To this end, two components are designed to implement: 1) The Multimodal Learning Module produces unique depth and RGB feature representations from the perspectives of different modal characteristics. 2) The Depth Guidance Fusion Module leverages the complete depth modality to guide the establishment of RGB contents by progressive multimodal feature fusion. Furthermore, we specially design an additional constraint strategy consisting of Cross-modal Loss and Edge Loss to enhance ambiguous contours and expedite reliable content generation. Extensive experiments on KITTI demonstrate our superiority over the state-of-the-art methods with more reliable content generation.
翻訳日:2022-04-14 00:27:25 公開日:2022-04-12
# (参考訳) distpro: メタ最適化による高速知識蒸留プロセスの探索

DistPro: Searching A Fast Knowledge Distillation Process via Meta Optimization ( http://arxiv.org/abs/2204.05547v1 )

ライセンス: CC BY 4.0
Xueqing Deng, Dawei Sun, Shawn Newsam, Peng Wang(参考訳) 最近の知識蒸留(KD)研究は、異なる手作業で設計したスキームが学習結果に大きな影響を及ぼすことを示している。 しかしkdでは、最適蒸留スキームの自動探索はまだ十分に研究されていない。 本稿では,識別可能なメタ学習を通じて最適なKDプロセスを求める新しいフレームワークであるDistProを提案する。 具体的には, 学生と教師のネットワークが一対の場合, ディストプロはまず教師の伝達層から生徒の受取層への豊富なkd接続を設定し, その一方で, 蒸留経路に沿って特徴マップを比較するための様々な変換が提案されている。 次に、接続と変換選択(経路)の組み合わせは、蒸留中の各ステップにおいてその重要性を示す確率的重み付け過程に関連付けられる。 探索段階では,提案するbiレベルメタ最適化戦略により,その過程を効果的に学習することができる。 蒸留段階において、DistProは知識蒸留の学習プロセスを採用し、特に高速な訓練が必要な場合、学生の精度を大幅に向上させる。 最後に、学習プロセスは類似したタスクとネットワークの間で一般化可能であることを発見した。 実験では、一般的なデータセット(CIFAR100とImageNet)上で、さまざまな学習エポック数に基づいて最先端(SoTA)の精度を生成し、フレームワークの有効性を実証した。

Recent Knowledge distillation (KD) studies show that different manually designed schemes impact the learned results significantly. Yet, in KD, automatically searching an optimal distillation scheme has not yet been well explored. In this paper, we propose DistPro, a novel framework which searches for an optimal KD process via differentiable meta-learning. Specifically, given a pair of student and teacher networks, DistPro first sets up a rich set of KD connection from the transmitting layers of the teacher to the receiving layers of the student, and in the meanwhile, various transforms are also proposed for comparing feature maps along its pathway for the distillation. Then, each combination of a connection and a transform choice (pathway) is associated with a stochastic weighting process which indicates its importance at every step during the distillation. In the searching stage, the process can be effectively learned through our proposed bi-level meta-optimization strategy. In the distillation stage, DistPro adopts the learned processes for knowledge distillation, which significantly improves the student accuracy especially when faster training is required. Lastly, we find the learned processes can be generalized between similar tasks and networks. In our experiments, DistPro produces state-of-the-art (SoTA) accuracy under varying number of learning epochs on popular datasets, i.e. CIFAR100 and ImageNet, which demonstrate the effectiveness of our framework.
翻訳日:2022-04-14 00:12:00 公開日:2022-04-12
# (参考訳) マルチスケール特徴表現におけるグローバルアウェア融合による音声感情認識

Speech Emotion Recognition with Global-Aware Fusion on Multi-scale Feature Representation ( http://arxiv.org/abs/2204.05571v1 )

ライセンス: CC BY-SA 4.0
Wenjing Zhu, Xiang Li(参考訳) 音声感情認識(ser)は、音声データから感情ラベルを予測するための基本課題である。 最近の研究は主に畳み込みニューラルネットワーク(cnns)を用いて、時間変化スペクトル特徴を画像として見ることにより、固定スケール特徴表現の局所的注意マップを学習することに焦点を当てている。 しかし、SERの既存のCNNの限界のため、異なるスケールでのリッチな感情的特徴や重要なグローバル情報を得ることはできない。 本稿では,新しいグローバル・アウェア・マルチ・スケール(glam)ニューラルネットワークを提案する(コードはhttps://github.com/lixiangucas01/glamで利用可能)。 具体的には、GLAMは異なるスケールの複数の畳み込みカーネルを反復的に利用して、複数の特徴表現を学習する。 次に、注意に基づく方法を使う代わりに、最も重要な感情情報を取得するために、単純で効果的なグローバルアウェア・フュージョンモジュールが適用される。 ベンチマークコーパスにおけるiemocapの4つの感情に対する実験は、提案モデルが4つの一般的なメトリクスに対して2.5%から4.5%改善されていることを示した。

Speech Emotion Recognition (SER) is a fundamental task to predict the emotion label from speech data. Recent works mostly focus on using convolutional neural networks~(CNNs) to learn local attention map on fixed-scale feature representation by viewing time-varied spectral features as images. However, rich emotional feature at different scales and important global information are not able to be well captured due to the limits of existing CNNs for SER. In this paper, we propose a novel GLobal-Aware Multi-scale (GLAM) neural network (The code is available at https://github.com/lixiangucas01/GLAM) to learn multi-scale feature representation with global-aware fusion module to attend emotional information. Specifically, GLAM iteratively utilizes multiple convolutional kernels with different scales to learn multiple feature representation. Then, instead of using attention-based methods, a simple but effective global-aware fusion module is applied to grab most important emotional information globally. Experiments on the benchmark corpus IEMOCAP over four emotions demonstrates the superiority of our proposed model with 2.5% to 4.5% improvements on four common metrics compared to previous state-of-the-art approaches.
翻訳日:2022-04-14 00:10:55 公開日:2022-04-12
# (参考訳) DAIR-V2X:自動車・インフラ協調3次元物体検出のための大規模データセット

DAIR-V2X: A Large-Scale Dataset for Vehicle-Infrastructure Cooperative 3D Object Detection ( http://arxiv.org/abs/2204.05575v1 )

ライセンス: CC0 1.0
Haibao Yu, Yizhen Luo, Mao Shu, Yiyi Huo, Zebang Yang, Yifeng Shi, Zhenglong Guo, Hanyu Li, Xing Hu, Jirui Yuan, Zaiqing Nie(参考訳) 自動運転は、グローバル視点の欠如と長距離知覚能力の限界のために、大きな安全性の課題に直面している。 レベル5の自律を達成するには車両とインフラの協力が必要であると広く合意されている。 しかし、コンピュータビジョン研究者が自動車インフラ協力問題に取り組むために利用可能な実際のシナリオからのデータセットはまだ存在しない。 自動車・インフラ協調自律運転(VICAD)のコンピュータビジョン研究と革新を加速するために,我々は,VICADの実際のシナリオから,最初の大規模かつ多目的なマルチビューデータセットであるDAIR-V2Xデータセットをリリースする。 DAIR-V2Xは71254のLiDARフレームと71254のカメラフレームで構成される。 車両とインフラの両方からのセンサ入力を用いて3次元物体を協調的に位置決めし識別する問題を定式化したVIC3D(Vine-Infrastructure Cooperative 3D Object Detection problem)が導入された。 従来の3Dオブジェクト検出問題に加えて、VIC3Dの解決策は、車両とインフラセンサー間の時間的非同期問題とそれらの間のデータ伝送コストを考慮する必要がある。 さらに, DAIR-V2X に基づくベンチマークとして, VIC3D タスクの遅延融合フレームワークである Time Compensation Late Fusion (TCLF) を提案する。 https://thudair.baai.ac.cn/index and https://github.com/AIR-THU/DAIR-V2X

Autonomous driving faces great safety challenges for a lack of global perspective and the limitation of long-range perception capabilities. It has been widely agreed that vehicle-infrastructure cooperation is required to achieve Level 5 autonomy. However, there is still NO dataset from real scenarios available for computer vision researchers to work on vehicle-infrastructure cooperation-related problems. To accelerate computer vision research and innovation for Vehicle-Infrastructure Cooperative Autonomous Driving (VICAD), we release DAIR-V2X Dataset, which is the first large-scale, multi-modality, multi-view dataset from real scenarios for VICAD. DAIR-V2X comprises 71254 LiDAR frames and 71254 Camera frames, and all frames are captured from real scenes with 3D annotations. The Vehicle-Infrastructure Cooperative 3D Object Detection problem (VIC3D) is introduced, formulating the problem of collaboratively locating and identifying 3D objects using sensory inputs from both vehicle and infrastructure. In addition to solving traditional 3D object detection problems, the solution of VIC3D needs to consider the temporal asynchrony problem between vehicle and infrastructure sensors and the data transmission cost between them. Furthermore, we propose Time Compensation Late Fusion (TCLF), a late fusion framework for the VIC3D task as a benchmark based on DAIR-V2X. Find data, code, and more up-to-date information at https://thudair.baai.ac.cn/index and https://github.com/AIR-THU/DAIR-V2X.
翻訳日:2022-04-14 00:02:31 公開日:2022-04-12
# (参考訳) 時間力学対向モデルを用いたマルチエージェントアクタ-クリティック

Multi-agent Actor-Critic with Time Dynamical Opponent Model ( http://arxiv.org/abs/2204.05576v1 )

ライセンス: CC0 1.0
Yuan Tian, Klaus-Rudolf Kladny, Qin Wang, Zhiwu Huang, Olga Fink(参考訳) 多エージェント強化学習では、複数のエージェントが共通の環境と相互作用しながら同時に学習する。 エージェントは学習中にポリシーに適応するため、単一のエージェントの振る舞いが非定常的になるだけでなく、エージェントが認識する環境も変化する。 これは特に政策改善を困難にしている。 本稿では,エージェントが期待される累積報酬を改善しようとする事実を生かして,時間とともに相手の方針が改善する傾向にあるという知識を符号化する新しい「textit{Time Dynamical Opponent Model} (TDOM)」を提案する。 我々は、個々のエージェントのログ対象の下位境界を導出することで、理論的にTDOMを動機付け、さらに時間動的応答モデルを用いた \textit{Multi-Agent Actor-Critic (TDOM-AC)を提案する。 差分ゲームとマルチエージェント粒子環境におけるTDOM-ACの評価を行った。 我々は,テスト期間中にTDOMが優れた対向行動予測を達成できることを実証的に示す。 提案するtdom-ac手法は,混合協調競争環境における協調実験および \textbf{ especially} 実験において,最先端のアクター批判手法を上回っている。 TDOM-ACはより安定したトレーニングとより速い収束をもたらす。

In multi-agent reinforcement learning, multiple agents learn simultaneously while interacting with a common environment and each other. Since the agents adapt their policies during learning, not only the behavior of a single agent becomes non-stationary, but also the environment as perceived by the agent. This renders it particularly challenging to perform policy improvement. In this paper, we propose to exploit the fact that the agents seek to improve their expected cumulative reward and introduce a novel \textit{Time Dynamical Opponent Model} (TDOM) to encode the knowledge that the opponent policies tend to improve over time. We motivate TDOM theoretically by deriving a lower bound of the log objective of an individual agent and further propose \textit{Multi-Agent Actor-Critic with Time Dynamical Opponent Model} (TDOM-AC). We evaluate the proposed TDOM-AC on a differential game and the Multi-agent Particle Environment. We show empirically that TDOM achieves superior opponent behavior prediction during test time. The proposed TDOM-AC methodology outperforms state-of-the-art Actor-Critic methods on the performed experiments in cooperative and \textbf{especially} in mixed cooperative-competitive environments. TDOM-AC results in a more stable training and a faster convergence.
翻訳日:2022-04-14 00:01:05 公開日:2022-04-12
# (参考訳) SwinNet: Swin Transformerはエッジ対応のRGB-DとRGB-Tの正体検出を駆動

SwinNet: Swin Transformer drives edge-aware RGB-D and RGB-T salient object detection ( http://arxiv.org/abs/2204.05585v1 )

ライセンス: CC0 1.0
Zhengyi Liu, Yacheng Tan, Qian He, Yun Xiao(参考訳) 畳み込みニューラルネットワーク(CNN)は、ある種の受容領域におけるコンテキスト特徴の抽出に長けており、トランスフォーマーはグローバルな長距離依存機能をモデル化することができる。 変換器の利点とCNNの利点を吸収することにより、Swin Transformerは強力な特徴表現能力を示す。 そこで本研究では,RGB-D と RGB-T の有向物体検出のための相互モード融合モデル SwinNet を提案する。 Swin Transformerによって、階層的な特徴を抽出し、2つのモード間のギャップをブリッジするアテンション機構によって強化され、エッジ情報によってガイドされ、サリアントオブジェクトの輪郭を鋭くする。 具体的には、2ストリームのSwin Transformerエンコーダがまずマルチモーダル特徴を抽出し、次に空間アライメントとチャネル再校正モジュールを提示し、レベル内のクロスモーダル特徴を最適化する。 ファジィ境界を明らかにするために、エッジ誘導デコーダはエッジ特徴の誘導の下で、レベル間相互モード融合を実現する。 提案したモデルは、RGB-DおよびRGB-Tデータセットの最先端モデルよりも優れており、クロスモダリティ補完性タスクに関するより深い洞察を提供する。

Convolutional neural networks (CNNs) are good at extracting contexture features within certain receptive fields, while transformers can model the global long-range dependency features. By absorbing the advantage of transformer and the merit of CNN, Swin Transformer shows strong feature representation ability. Based on it, we propose a cross-modality fusion model SwinNet for RGB-D and RGB-T salient object detection. It is driven by Swin Transformer to extract the hierarchical features, boosted by attention mechanism to bridge the gap between two modalities, and guided by edge information to sharp the contour of salient object. To be specific, two-stream Swin Transformer encoder first extracts multi-modality features, and then spatial alignment and channel re-calibration module is presented to optimize intra-level cross-modality features. To clarify the fuzzy boundary, edge-guided decoder achieves inter-level cross-modality fusion under the guidance of edge features. The proposed model outperforms the state-of-the-art models on RGB-D and RGB-T datasets, showing that it provides more insight into the cross-modality complementarity task.
翻訳日:2022-04-13 23:51:16 公開日:2022-04-12
# (参考訳) 眼底画像と人工知能による緑内障の自動検出

Automatic detection of glaucoma via fundus imaging and artificial intelligence: A review ( http://arxiv.org/abs/2204.05591v1 )

ライセンス: CC BY 4.0
Lauren Coan, Bryan Williams, Krishna Adithya Venkatesh, Swati Upadhyaya, Silvester Czanner, Rengaraj Venkatesh, Colin E. Willoughby, Srinivasan Kavitha, Gabriela Czanner(参考訳) 緑内障は世界規模で不可逆的な視力障害の主な原因であり、症例は世界中で増え続けている。 早期検出は重要であり、さらなる視野損失を防ぐタイムリーな介入を可能にする。 緑内障の検出には眼底イメージングによる視神経頭部の検査が可能であり、その中心は視神経カップと椎間板の境界の評価である。 眼底撮影は非侵襲的かつ低コストであるが、画像検査は主観的、時間的、そして費用のかかる専門家による評価に依存している。 タイムリーな質問は、人工知能が専門家による緑内障評価を模倣できるかだ。 すなわち、人工知能は光学カップと円板の境界を自動的に見つけて(いわゆるセグメンテーション眼底画像を提供する)、セグメンテーション画像を使用して高精度に緑内障を識別できる。 われわれは人工知能を用いた緑内障検出フレームワークの総合的なレビューを行った。 28の論文を見つけ 2つの主要なアプローチを特定しました 1) 簡素な決定規則の集合に基づく論理規則に基づく枠組み 2) 機械学習/統計モデルに基づくフレームワーク。 我々は,2つのアプローチの最先端を要約し,人工知能による緑内障検出フレームワークを臨床に翻訳する上で,克服すべき重要なハードルを強調した。

Glaucoma is a leading cause of irreversible vision impairment globally and cases are continuously rising worldwide. Early detection is crucial, allowing timely intervention which can prevent further visual field loss. To detect glaucoma, examination of the optic nerve head via fundus imaging can be performed, at the centre of which is the assessment of the optic cup and disc boundaries. Fundus imaging is non-invasive and low-cost; however, the image examination relies on subjective, time-consuming, and costly expert assessments. A timely question to ask is can artificial intelligence mimic glaucoma assessments made by experts. Namely, can artificial intelligence automatically find the boundaries of the optic cup and disc (providing a so-called segmented fundus image) and then use the segmented image to identify glaucoma with high accuracy. We conducted a comprehensive review on artificial intelligence-enabled glaucoma detection frameworks that produce and use segmented fundus images. We found 28 papers and identified two main approaches: 1) logical rule-based frameworks, based on a set of simplistic decision rules; and 2) machine learning/statistical modelling based frameworks. We summarise the state-of-art of the two approaches and highlight the key hurdles to overcome for artificial intelligence-enabled glaucoma detection frameworks to be translated into clinical practice.
翻訳日:2022-04-13 23:17:22 公開日:2022-04-12
# (参考訳) 教師なし領域適応における核ノルム最大化の量について

On the Equity of Nuclear Norm Maximization in Unsupervised Domain Adaptation ( http://arxiv.org/abs/2204.05596v1 )

ライセンス: CC BY 4.0
Wenju Zhang, Xiang Zhang, Qing Liao, Long Lan, Mengzhu Wang, Wei Wang, Baoyun Peng, Zhengming Ding(参考訳) 核ノルムの最大化は、実証的なスキームにおける教師なし領域適応モデル(UDA)の転送可能性を高める力を示している。 本稿では,udaの核規範最大化の有効性を理論的に解き明かすために,予測クラスの均衡度を示す新たな特性「エクイティ」を特定する。 このことを念頭に置いて,予測を明示的に等化するように,正方形損失に基づく新たな識別可能性・等式最大化パラダイムを提案する。 その実現可能性と柔軟性を検証するため、クラスレベルとサンプルレベルから予測的差別性と公平性の両方を最大化するために、クラス重み付き正方形最大化(CWSM)と正規化正方形最大化(NSM)と呼ばれる2つの新たな損失を提案する。 重要なことは、これらの2つの新たな損失(CWSMとNSM)を穏やかな条件下での株式最大化と理論的に関連付け、UDAにおける予測的株式の重要性を実証的に示唆している。 さらに、両損失における株式の制約を実現するのは非常に効率的である。 3つの人気のあるベンチマークデータセットにおけるクロスドメイン画像分類の実験は、CWSMとNSMの両方が対応するデータセットよりも優れていることを示している。

Nuclear norm maximization has shown the power to enhance the transferability of unsupervised domain adaptation model (UDA) in an empirical scheme. In this paper, we identify a new property termed equity, which indicates the balance degree of predicted classes, to demystify the efficacy of nuclear norm maximization for UDA theoretically. With this in mind, we offer a new discriminability-and-equity maximization paradigm built on squares loss, such that predictions are equalized explicitly. To verify its feasibility and flexibility, two new losses termed Class Weighted Squares Maximization (CWSM) and Normalized Squares Maximization (NSM), are proposed to maximize both predictive discriminability and equity, from the class level and the sample level, respectively. Importantly, we theoretically relate these two novel losses (i.e., CWSM and NSM) to the equity maximization under mild conditions, and empirically suggest the importance of the predictive equity in UDA. Moreover, it is very efficient to realize the equity constraints in both losses. Experiments of cross-domain image classification on three popular benchmark datasets show that both CWSM and NSM contribute to outperforming the corresponding counterparts.
翻訳日:2022-04-13 22:46:51 公開日:2022-04-12
# (参考訳) 回帰か分類か? 深部ニューラルネットワークを用いたPPGデータからのBP予測の実際的応用における考察

Regression or Classification? Reflection on BP prediction from PPG data using Deep Neural Networks in the scope of practical applications ( http://arxiv.org/abs/2204.05605v1 )

ライセンス: CC BY-SA 4.0
Fabian Schrumpf, Paul Rudi Serdack, Mirco Fuchs(参考訳) photoplethysmography (ppg) 信号は、心拍数分析や血中酸素濃度モニタリング以上の診断能力を提供する。 近年の研究では、非侵襲的なPPGベースの血圧推定(BP)アプローチに焦点が当てられている。 これらのアプローチは回帰法と分類法に分けられる。 後者は、臨床関連範囲を表すBP間隔を予め定義されたBP間隔にPPGシグナルを割り当てる。 前者は連続変数としてSBP(Systolic)とDBP(Distolic)BPを予測し、研究コミュニティに特に関心を持つ。 しかしながら、BP回帰法の報告された精度は出版物によって大きく異なり、一部の著者はPPGに基づくBP回帰の可能性に疑問を呈している。 本研究ではBP回帰法と分類法の比較を行った。 BP分類は、多くの臨床関連シナリオにおいて回帰と同等の診断値を提供するが、性能面では類似あるいは優位である。 sbp回帰と分類のためのppgデータを用いた確立されたニューラルアーキテクチャと、主題別データを用いたパーソナライズの有無を比較した。 分類と回帰モデルはパーソナライズ前にも同様に機能することがわかった。 しかし、パーソナライズ後、分類に基づく手法の精度は回帰アプローチを上回った。 BP領域の粗いセグメンテーションが十分である特定のシナリオでは,BP分類の方がBP回帰よりも好ましいと考えられる。

Photoplethysmographic (PPG) signals offer diagnostic potential beyond heart rate analysis or blood oxygen level monitoring. In the recent past, research focused extensively on non-invasive PPG-based approaches to blood pressure (BP) estimation. These approaches can be subdivided into regression and classification methods. The latter assign PPG signals to predefined BP intervals that represent clinically relevant ranges. The former predict systolic (SBP) and diastolic (DBP) BP as continuous variables and are of particular interest to the research community. However, the reported accuracies of BP regression methods vary widely among publications with some authors even questioning the feasibility of PPG-based BP regression altogether. In our work, we compare BP regression and classification approaches. We argue that BP classification might provide diagnostic value that is equivalent to regression in many clinically relevant scenarios while being similar or even superior in terms of performance. We compare several established neural architectures using publicly available PPG data for SBP regression and classification with and without personalization using subject-specific data. We found that classification and regression models perform similar before personalization. However, after personalization, the accuracy of classification based methods outperformed regression approaches. We conclude that BP classification might be preferable over BP regression in certain scenarios where a coarser segmentation of the BP range is sufficient.
翻訳日:2022-04-13 22:21:13 公開日:2022-04-12
# (参考訳) ドイツにおけるASR:詳細なエラー分析

ASR in German: A Detailed Error Analysis ( http://arxiv.org/abs/2204.05617v1 )

ライセンス: CC BY-SA 4.0
Johannes Wirth and Rene Peinl(参考訳) ニューラルネットワークに基づく自動音声認識(ASR)のための無料システムの量は着実に増加しており、同様に信頼性が増している。 しかし、訓練されたモデルの評価は、通常、werやcerのような統計指標に基づいており、音声入力から書き起こしを予測する際に生じる誤りの性質や影響についての洞察は得られていない。 この研究は、ドイツ語で事前訓練されたASRモデルアーキテクチャの選択を示し、様々なテストデータセットのベンチマークで評価する。 クロスアーキテクチャの予測エラーを特定し、それらをカテゴリに分類し、カテゴリ毎のエラーソースをトレーニングデータと他のソースにトレースする。 最後に、定性的に優れたトレーニングデータセットとより堅牢なASRシステムを作成するためのソリューションについて議論する。

The amount of freely available systems for automatic speech recognition (ASR) based on neural networks is growing steadily, with equally increasingly reliable predictions. However, the evaluation of trained models is typically exclusively based on statistical metrics such as WER or CER, which do not provide any insight into the nature or impact of the errors produced when predicting transcripts from speech input. This work presents a selection of ASR model architectures that are pretrained on the German language and evaluates them on a benchmark of diverse test datasets. It identifies cross-architectural prediction errors, classifies those into categories and traces the sources of errors per category back into training data as well as other sources. Finally, it discusses solutions in order to create qualitatively better training datasets and more robust ASR systems.
翻訳日:2022-04-13 22:08:12 公開日:2022-04-12
# (参考訳) 行動クローンよりもオフライン強化学習を優先すべきか?

When Should We Prefer Offline Reinforcement Learning Over Behavioral Cloning? ( http://arxiv.org/abs/2204.05618v1 )

ライセンス: CC BY 4.0
Aviral Kumar, Joey Hong, Anikait Singh, Sergey Levine(参考訳) オフライン強化学習(RL)アルゴリズムは、オンラインインタラクションを伴わずに、以前に収集した経験を生かして効果的なポリシーを得ることができる。 オフラインのRLは、データセットを生成するデモンストレータよりも改善されない最適解を模倣学習が見つけ出すシナリオである、高度に最適化されたデータから良いポリシーを抽出できると広く理解されている。 しかし、実践者にとってのもうひとつの一般的なユースケースは、デモに似たデータから学ぶことだ。 この場合、オフラインのRLを適用することもできるが、教師あり学習を通じてデータセットのサブセットを模倣する行動的クローニング(BC)アルゴリズムを使用することもできる。 したがって、問うのは自然に思える: オフラインのRLメソッドは、BCが自然選択である場合でも、BCと同等量の専門家データでBCより優れているのか? この疑問に答えるために、専門家データのみを提供する場合であっても、オフラインのRLメソッドがBCメソッドよりも優れた性能を発揮する環境の特性を特徴付ける。 さらに,十分にノイズの多いサブ最適データにトレーニングされたポリシーは,特に長方形問題において,専門家データを持つbcアルゴリズムよりも優れた性能が得られることを示す。 ロボット操作,迷路ナビゲーション,atariゲームなど,さまざまなデータ分布を含む診断領域と高次元領域の両方について広範な実験を行い,理論結果を検証した。 スパース報酬やノイズの多いデータソースのような特定の条件下では、現代のオフラインRL法はBCよりも著しく優れる。

Offline reinforcement learning (RL) algorithms can acquire effective policies by utilizing previously collected experience, without any online interaction. It is widely understood that offline RL is able to extract good policies even from highly suboptimal data, a scenario where imitation learning finds suboptimal solutions that do not improve over the demonstrator that generated the dataset. However, another common use case for practitioners is to learn from data that resembles demonstrations. In this case, one can choose to apply offline RL, but can also use behavioral cloning (BC) algorithms, which mimic a subset of the dataset via supervised learning. Therefore, it seems natural to ask: when can an offline RL method outperform BC with an equal amount of expert data, even when BC is a natural choice? To answer this question, we characterize the properties of environments that allow offline RL methods to perform better than BC methods, even when only provided with expert data. Additionally, we show that policies trained on sufficiently noisy suboptimal data can attain better performance than even BC algorithms with expert data, especially on long-horizon problems. We validate our theoretical results via extensive experiments on both diagnostic and high-dimensional domains including robotic manipulation, maze navigation, and Atari games, with a variety of data distributions. We observe that, under specific but common conditions such as sparse rewards or noisy data sources, modern offline RL methods can significantly outperform BC.
翻訳日:2022-04-13 21:53:38 公開日:2022-04-12
# (参考訳) 混雑する高速道路交通の制御に基づく近位政策最適化学習

Proximal Policy Optimization Learning based Control of Congested Freeway Traffic ( http://arxiv.org/abs/2204.05627v1 )

ライセンス: CC BY 4.0
Shurong Mo, Jie Qi, Anqi Pan(参考訳) 本研究では,Aw-Rascle-Zhang(ARZ)モデルにより高速道路セグメントの交通動態を制御し,2-times 2$の非線形1次偏微分方程式(PDEs)で制御することで,渋滞状態におけるトラフィックフローの安定化を図るためのPPO強化学習に基づく遅延補償フィードバックコントローラを提案する。 バックステッピング遅延補償器[18]に着想を得たが、複雑なセグメント制御方式とは異なるPPO制御は、現在の交通流速度、現在の交通流密度、以前の1ステップ制御入力という3つのフィードバックからなる。 3つのフィードバックの制御ゲインは、PPOと交通システムの数値シミュレータとの相互作用から、システムのダイナミクスを知らずに学習する。 数値シミュレーション実験は、リアプノフ制御、バックステッピング制御、PPO制御を比較するように設計されている。 その結果,遅延フリーシステムでは,ppo制御はリアプノフ制御よりも収束速度が速く,制御労力も少ないことがわかった。 入力遅延のある交通システムでは、遅延値が一致しない状況であっても、PPOコントローラの性能はバックステッピングコントローラの性能に匹敵する。 しかし、PPOはパラメータ摂動に対して頑健であるが、バックステッピングコントローラはガウス雑音によってパラメータの1つが乱されるシステムを安定化できない。

This study proposes a delay-compensated feedback controller based on proximal policy optimization (PPO) reinforcement learning to stabilize traffic flow in the congested regime by manipulating the time-gap of adaptive cruise control-equipped (ACC-equipped) vehicles.The traffic dynamics on a freeway segment are governed by an Aw-Rascle-Zhang (ARZ) model, consisting of $2\times 2$ nonlinear first-order partial differential equations (PDEs).Inspired by the backstepping delay compensator [18] but different from whose complex segmented control scheme, the PPO control is composed of three feedbacks, namely the current traffic flow velocity, the current traffic flow density and previous one step control input. The control gains for the three feedbacks are learned from the interaction between the PPO and the numerical simulator of the traffic system without knowing the system dynamics. Numerical simulation experiments are designed to compare the Lyapunov control, the backstepping control and the PPO control. The results show that for a delay-free system, the PPO control has faster convergence rate and less control effort than the Lyapunov control. For a traffic system with input delay, the performance of the PPO controller is comparable to that of the Backstepping controller, even for the situation that the delay value does not match. However, the PPO is robust to parameter perturbations, while the Backstepping controller cannot stabilize a system where one of the parameters is disturbed by Gaussian noise.
翻訳日:2022-04-13 21:52:13 公開日:2022-04-12
# (参考訳) Idiomify --非ネイティブ学習者のためのWord2Vecを用いた英語イディオムのコロケーション補足逆辞書の構築

Idiomify -- Building a Collocation-supplemented Reverse Dictionary of English Idioms with Word2Vec for non-native learners ( http://arxiv.org/abs/2204.05634v1 )

ライセンス: CC BY 4.0
Eu-Bin Kim(参考訳) idiomifyの目的は、英語の非ネイティブ学習者のための、コロケーションによる逆イディオム辞書を構築することである。 私たちは、逆辞書が非ネイティブの人々がオンデマンドでイディオムを探索するのに役立ちますし、コロケーションもイディオムの使用をより適切に導くことができます。 プロジェクトの基礎は、コーパスからイディオムを採掘する信頼性の高い方法である。 我々は、マッチングルールを基本形式から自動的に導出することにより、これに取り組む。 我々は,コロケーションのモデル化にpoint-wise mutual inclusion (pmi), term frequency - inverse document frequency (tf-idf) を用いる。 また、ベースラインモデルとしてTF(Term Frequency)を試みます。 逆辞書の実装については、逆インデックス、グラフ、分布意味論の3つのアプローチが考えられる。 最後のアプローチを選択して、Word2Vecで逆辞書を実装する。なぜなら、Word2Vecは最も柔軟なアプローチであり、Word2Vecはシンプルだが強力なベースラインであるからである。 方法を評価することで改善の余地が明らかになった。 slop、wildcard、reordering techniqueの助けを借りて、イディオムをよりよく識別できることを学びました。 また、マシンラーニングを使用してスイートスポットを見つけることで、PMIとTF-IDFの両方のメリットを享受できることも学べます。 最後に,inverted index と distributional semantics のアプローチを組み合わせることで idiomify をさらに改善できることがわかった。 制限はさておき、提案手法は実現可能であり、非ネイティブに対するその利点は明らかであり、それゆえ、非ネイティブが英語のイディオムを取得するのを助けるために使用できる。

The aim of idiomify is to build a collocation-supplemented reverse dictionary of idioms for the non-native learners of English. We aim to do so because the reverse dictionary could help the non-natives explore idioms on demand, and the collocations could also guide them on using idioms more adequately. The cornerstone of the project is a reliable way of mining idioms from corpora, which is however a challenge because idioms extensively vary in forms. We tackle this by automatically deriving matching rules from their base forms. We use Point-wise Mutual Inclusion (PMI), Term Frequency - Inverse Document Frequency (TF-IDF) to model collocations, since both of them are popular metric for pairwise significance. We also try Term Frequency (TF) as the baseline model. As for implementing the reverse-dictionary, three approaches could be taken: inverted index, graphs and distributional semantics. We choose to take the last approach and implement the reverse dictionary with Word2Vec, because it is the most flexible approach of all and Word2Vec is a simple yet strong baseline. Evaluating the methods has revealed rooms for improvement. We learn that we can better identify idioms with the help of slop, wildcard and reordering techniques. We also learn that we can get the best of both PMI and TF-IDF if we use machine learning to find the sweet spot. Lastly, We learn that Idiomify could be further improved with a mixture of inverted index and distributional semantics approach. The limits aside, the proposed methods are feasible, and their benefits to the non-natives are apparent, which therefore can be used to aid the non-natives in acquiring English idioms.
翻訳日:2022-04-13 21:38:44 公開日:2022-04-12
# (参考訳) 線形システムのロバストオンラインジョイント状態/入力/パラメータ推定

Robust online joint state/input/parameter estimation of linear systems ( http://arxiv.org/abs/2204.05663v1 )

ライセンス: CC BY 4.0
Jean-S\'ebastien Brouillon, Keith Moffat, Florian D\"orfler, Giancarlo Ferrari-Trecate(参考訳) 本稿では,線形システムの状態,入力,パラメータをオンライン形式で共同で推定する手法を提案する。 この方法は、工学的応用で一般的に見られる非ガウスノイズや異常値で崩壊する測定のために特別に設計されている。 特に、再帰的、反復的、反復的に重み付けされた最小二乗を1つの1ステップのアルゴリズムに組み合わせ、オンラインで推定問題を解き、最小決定回帰法の堅牢性から恩恵を受ける。 反復法の収束は正式に保証される。 数値実験により, 外れ値が存在する場合や最先端手法と比較して, 推定アルゴリズムの優れた性能を示す。

This paper presents a method for jointly estimating the state, input, and parameters of linear systems in an online fashion. The method is specially designed for measurements that are corrupted with non-Gaussian noise or outliers, which are commonly found in engineering applications. In particular, it combines recursive, alternating, and iteratively-reweighted least squares into a single, one-step algorithm, which solves the estimation problem online and benefits from the robustness of least-deviation regression methods. The convergence of the iterative method is formally guaranteed. Numerical experiments show the good performance of the estimation algorithm in presence of outliers and in comparison to state-of-the-art methods.
翻訳日:2022-04-13 21:37:34 公開日:2022-04-12
# (参考訳) 肝臓に生を登録する方法は? 多様体空間における部分マッチング

How to Register a Live onto a Liver ? Partial Matching in the Space of Varifolds ( http://arxiv.org/abs/2204.05665v1 )

ライセンス: CC BY-SA 4.0
Pierre-Louis Antonsanti and Thomas Benseghir and Vincent Jugnon and Mario Ghosn and Perrine Chassat and Ir\`ene Kaltenmark and Joan Glaun\`es(参考訳) 部分的形状対応(英: partial shapes correspondences)とは、コンピュータビジョンにおいてしばしば発生する問題である。 医用画像では、データは異なるモードから得られ、異なる条件下で取得され、形状やトポロジーのバリエーションにつながる。 本稿では、曲線や曲面の集合のような様々な幾何学的形状に適用可能な非対称データ差分項を用い、対応に頼らずに形状の埋め込みを評価する。 これはLDDMM(Large deformation Diffomorphic Metric Mapping)フレームワークのためのデータアタッチメントとして設計されており、一方の形状を他方のサブセットに有意な変形を計算することができる。 結果として生じる非剛性変形を制御するために精錬し,その周囲空間とともに形状の一貫した変形を与える。 CT (Computed Tomography) ボリュームとCBCT (Cone Beam Computed Tomography) ボリュームとの間には, 頑健なマルチモーダル肝登録のための部分的マッチングが可能であることを示す。 肝の3次元画像検査では, 肝の3次元観察が困難であり, 術前CTで肝の完全な可視化が可能であった。 提案手法により,CBCTからの切り抜き面を非剛性かつ現実的に整列し,CTからの平均距離2.6mm(+/- 2.2)の面に配置することができる。 生成した変形は肝体積に一貫して拡がっており、血管分岐術の平均距離は5.8mm (+/- 2.7)、腫瘍ランドマークは5.13mm (+/-2.5)である。 このようなマルチモダリティボリュームの登録は、医師が患者の解剖学で道具をナビゲートし、処置中にCBCTでほとんど見えない構造を見つけるのに役立つだろう。 私たちのコードはhttps://github.com/plantonsanti/PartialMatchingVarifoldsで利用可能です。

Partial shapes correspondences is a problem that often occurs in computer vision (occlusion, evolution in time...). In medical imaging, data may come from different modalities and be acquired under different conditions which leads to variations in shapes and topologies. In this paper we use an asymmetric data dissimilarity term applicable to various geometric shapes like sets of curves or surfaces, assessing the embedding of a shape into another one without relying on correspondences. It is designed as a data attachment for the Large Deformation Diffeomorphic Metric Mapping (LDDMM) framework, allowing to compute a meaningful deformation of one shape onto a subset of the other. We refine it in order to control the resulting non-rigid deformations and provide consistent deformations of the shapes along with their ambient space. We show that partial matching can be used for robust multi-modal liver registration between a Computed Tomography (CT) volume and a Cone Beam Computed Tomography (CBCT) volume. The 3D imaging of the patient CBCT at point of care that we call live is truncated while the CT pre-intervention provides a full visualization of the liver. The proposed method allows the truncated surfaces from CBCT to be aligned non-rigidly, yet realistically, with surfaces from CT with an average distance of 2.6mm(+/- 2.2). The generated deformations extend consistently to the liver volume, and are evaluated on points of interest for the physicians, with an average distance of 5.8mm (+/- 2.7) for vessels bifurcations and 5.13mm (+/- 2.5) for tumors landmarks. Such multi-modality volumes registrations would help the physicians in the perspective of navigating their tools in the patient's anatomy to locate structures that are hardly visible in the CBCT used during their procedures. Our code is available at https://github.com/plantonsanti/PartialMatchingVarifolds.
翻訳日:2022-04-13 21:18:16 公開日:2022-04-12
# (参考訳) ゼロショットスケッチに基づく画像検索のための3ストリームジョイントネットワーク

Three-Stream Joint Network for Zero-Shot Sketch-Based Image Retrieval ( http://arxiv.org/abs/2204.05666v1 )

ライセンス: CC BY 4.0
Yu-Wei Zhan, Xin Luo, Yongxin Wang, Zhen-Duo Chen, Xin-Shun Xu(参考訳) ZS-SBIR(Zero-Shot Sketch-based Image Retrieval)は、スケッチと自然画像の間の大きなドメインギャップと、目に見えないカテゴリと見えないカテゴリ間のセマンティック不整合のため、難しいタスクである。 それまでの文献ブリッジはセマンティック埋め込みによって見え、目に見えないカテゴリーであり、正確なクラス名に関する事前の知識と追加の抽出努力が必要である。 そしてほとんどの研究は、スケッチと自然なイメージを構築済みのスケッチイメージペアを使って共通の高レベルな空間にマッピングすることで、ドメインギャップを減らす。 そこで本稿では,zs-sbirタスクのための新たな3系統合同学習ネットワーク(3join)を提案する。 スケッチと画像の領域差を狭めるために,自然画像のエッジマップを抽出し,画像とスケッチの橋渡しとして扱う。 スケッチ,自然画像,エッジマップの十分な組み合わせを利用するために,新しい3ストリーム共同学習ネットワークを提案する。 さらに,教師ネットワークを用いてサンプルの暗黙的な意味を他の意味論の助けを借りずに抽出し,学習した知識を未知のクラスに転送する。 2つの実世界のデータセット上で行った広範囲な実験により,提案手法の優越性が証明された。

The Zero-Shot Sketch-based Image Retrieval (ZS-SBIR) is a challenging task because of the large domain gap between sketches and natural images as well as the semantic inconsistency between seen and unseen categories. Previous literature bridges seen and unseen categories by semantic embedding, which requires prior knowledge of the exact class names and additional extraction efforts. And most works reduce domain gap by mapping sketches and natural images into a common high-level space using constructed sketch-image pairs, which ignore the unpaired information between images and sketches. To address these issues, in this paper, we propose a novel Three-Stream Joint Training Network (3JOIN) for the ZS-SBIR task. To narrow the domain differences between sketches and images, we extract edge maps for natural images and treat them as a bridge between images and sketches, which have similar content to images and similar style to sketches. For exploiting a sufficient combination of sketches, natural images, and edge maps, a novel three-stream joint training network is proposed. In addition, we use a teacher network to extract the implicit semantics of the samples without the aid of other semantics and transfer the learned knowledge to unseen classes. Extensive experiments conducted on two real-world datasets demonstrate the superiority of our proposed method.
翻訳日:2022-04-13 20:53:30 公開日:2022-04-12
# (参考訳) 財務因果抽出のための生成的アプローチ

A Generative Approach for Financial Causality Extraction ( http://arxiv.org/abs/2204.05674v1 )

ライセンス: CC0 1.0
Tapas Nayak and Soumya Sharma and Yash Butala and Koustuv Dasgupta and Pawan Goyal and Niloy Ganguly(参考訳) 因果関係は、金融ニュース記事や財務報告などの財務文書における出来事の最も大きな関係を表す。 各経済的因果関係は原因スパンと効果スパンを含む。 従来、この課題を解決するためにシーケンスラベリング手法が提案されていた。 しかし、シーケンスラベリングモデルでは、テキストセグメントから複数の因果関係と重複因果関係を抽出することが困難である。 本稿では,エンコーダ・デコーダ・フレームワークとポインタ・ネットワークを用いた因果抽出手法を提案する。 我々は、金融分野の因果関係のデータセットであるtextit{FinCausal} を実験に使用し、提案したフレームワークは、このデータセット上で非常に競争力のあるパフォーマンスを達成する。

Causality represents the foremost relation between events in financial documents such as financial news articles, financial reports. Each financial causality contains a cause span and an effect span. Previous works proposed sequence labeling approaches to solve this task. But sequence labeling models find it difficult to extract multiple causalities and overlapping causalities from the text segments. In this paper, we explore a generative approach for causality extraction using the encoder-decoder framework and pointer networks. We use a causality dataset from the financial domain, \textit{FinCausal}, for our experiments and our proposed framework achieves very competitive performance on this dataset.
翻訳日:2022-04-13 20:34:00 公開日:2022-04-12
# (参考訳) 標準スパイクニューラルネットワークにおける教師付き学習と競合するソフトバウンドのmemristive synapsesに対するロバストな学習規則

A Robust Learning Rule for Soft-Bounded Memristive Synapses Competitive with Supervised Learning in Standard Spiking Neural Networks ( http://arxiv.org/abs/2204.05682v1 )

ライセンス: CC BY 4.0
Thomas F. Tiotto, Jelmer P. Borst and Niels A. Taatgen(参考訳) memristive devicesは、脳にインスパイアされたコンピューティングの将来の構築ブロックとして大きな可能性を秘めている回路要素のクラスである。 理論神経科学において、脳は機能計算装置であり、入力信号が与えられたとき、脳は新しい内部状態と運動出力を生成するために機能を適用する。 したがって、関数を近似できることは、将来の脳研究のために構築し、より効率的な計算機械を導き出すための基本的な公理である。 本研究では,非自明な多次元関数の学習に,ニオブをドープしたチタン酸ストロンチウムの旋律的シナプスを制御する新しい教師付き学習アルゴリズムを適用する。 本手法をspiking neural network simulator nengoに実装することにより,理想的かつ線形なシナプスを用いて得られた性能を少なくとも一致させることができること,および,このようなmemristive deviceを計算基盤として活用することで,より効率的で脳に触発された計算へと移行できることを示す。

Memristive devices are a class of circuit elements that shows great promise as future building block for brain-inspired computing. One influential view in theoretical neuroscience sees the brain as a function-computing device: given input signals, the brain applies a function in order to generate new internal states and motor outputs. Therefore, being able to approximate functions is a fundamental axiom to build upon for future brain research and to derive more efficient computational machines. In this work we apply a novel supervised learning algorithm - based on controlling niobium-doped strontium titanate memristive synapses - to learning non-trivial multidimensional functions. By implementing our method into the spiking neural network simulator Nengo, we show that we are able to at least match the performance obtained when using ideal, linear synapses and - in doing so - that this kind of memristive device can be harnessed as computational substrate to move towards more efficient, brain-inspired computing.
翻訳日:2022-04-13 20:28:53 公開日:2022-04-12
# (参考訳) 3DeformRS: 点雲上の空間的変形の認証

3DeformRS: Certifying Spatial Deformations on Point Clouds ( http://arxiv.org/abs/2204.05687v1 )

ライセンス: CC BY 4.0
Gabriel P\'erez S., Juan C. P\'erez, Motasem Alfarra, Silvio Giancola, Bernard Ghanem(参考訳) 3dコンピュータビジョンモデルは、自動運転や手術ロボティクスなどのセキュリティクリティカルなアプリケーションで一般的に使われている。 これらのモデルの実世界の変形に対する堅牢性に対する懸念は、実用的かつ確実に対処する必要がある。 本研究では,実世界の変形に対するdnn(point cloud deep neural networks)のロバスト性を検証する3deformrsを提案する。 我々は、画素強度の摂動からベクトル場変形へのランダム化平滑化(RS)を一般化した最近の研究に基づいて、3DeformRSを開発した。 特に, DNNのパラメータ化変形(回転, ねじれなど)に対して, 実用的な計算コストを享受しながら, DNNの認証を専門に行う。 2つのデータセットと7つの異なる変形に対して、4つの代表的ポイントクラウドdnnの認定ロバスト性に関する包括的実証研究を行うために、3deformrの利点を利用する。 ポイントクラウドDNNの認定に対する従来のアプローチと比較して、3DeformRSは高速で、ポイントクラウドサイズによく対応し、同等の証明書を提供する。 例えば、1024点の雲上の3{\deg} z回転に対してプレーンポイントネットを認証する場合、3デフォルマは証明書を3倍大きく20倍高速に許可する。

3D computer vision models are commonly used in security-critical applications such as autonomous driving and surgical robotics. Emerging concerns over the robustness of these models against real-world deformations must be addressed practically and reliably. In this work, we propose 3DeformRS, a method to certify the robustness of point cloud Deep Neural Networks (DNNs) against real-world deformations. We developed 3DeformRS by building upon recent work that generalized Randomized Smoothing (RS) from pixel-intensity perturbations to vector-field deformations. In particular, we specialized RS to certify DNNs against parameterized deformations (e.g. rotation, twisting), while enjoying practical computational costs. We leverage the virtues of 3DeformRS to conduct a comprehensive empirical study on the certified robustness of four representative point cloud DNNs on two datasets and against seven different deformations. Compared to previous approaches for certifying point cloud DNNs, 3DeformRS is fast, scales well with point cloud size, and provides comparable-to-better certificates. For instance, when certifying a plain PointNet against a 3{\deg} z-rotation on 1024-point clouds, 3DeformRS grants a certificate 3x larger and 20x faster than previous work.
翻訳日:2022-04-13 20:16:09 公開日:2022-04-12
# (参考訳) 一級テキスト異常検出のための自己教師付き損失

Self-Supervised Losses for One-Class Textual Anomaly Detection ( http://arxiv.org/abs/2204.05695v1 )

ライセンス: CC BY 4.0
Kimberly T. Mai, Toby Davies, Lewis D. Griffin(参考訳) テキスト中の異常検出のための現在のディープラーニング手法は、調整が難しい不確実性や目覚ましくないアーキテクチャの監督的な信号に依存している。 我々は, 自己教師付き目標を持つ不規則データに対する微調整トランスフォーマーと, 損失を異常スコアとして用いる方法について検討した。 全体として、自己スーパービジョンアプローチは様々な異常検出シナリオで他の手法よりも優れており、意味的異常のオーロラスコアを11.6%、構文的異常を平均22.8%改善している。 さらに、最適な目的と結果の学習表現は下流の異常の種類に依存する。 異常と不整合の分離性は、表現が意味的異常を検出するのに効果的であることを示す一方で、狭い特徴方向の存在は、構文的異常を検出するのに有効な表現を示す。

Current deep learning methods for anomaly detection in text rely on supervisory signals in inliers that may be unobtainable or bespoke architectures that are difficult to tune. We study a simpler alternative: fine-tuning Transformers on the inlier data with self-supervised objectives and using the losses as an anomaly score. Overall, the self-supervision approach outperforms other methods under various anomaly detection scenarios, improving the AUROC score on semantic anomalies by 11.6% and on syntactic anomalies by 22.8% on average. Additionally, the optimal objective and resultant learnt representation depend on the type of downstream anomaly. The separability of anomalies and inliers signals that a representation is more effective for detecting semantic anomalies, whilst the presence of narrow feature directions signals a representation that is effective for detecting syntactic anomalies.
翻訳日:2022-04-13 20:14:42 公開日:2022-04-12
# (参考訳) 多変量ガウス化による教師なし異常と変化検出

Unsupervised Anomaly and Change Detection with Multivariate Gaussianization ( http://arxiv.org/abs/2204.05699v1 )

ライセンス: CC BY 4.0
Jos\'e A. Padr\'on-Hidalgo, Valero Laparra, and Gustau Camps-Valls(参考訳) 異常検出は、激しい研究の分野である。 データ/画像における低確率事象の特定は、データの高次元性、特に異常に関する情報がない場合(あるいは少ない場合)に問題となる。 多くのメソッドが利用可能だが、その大部分は大規模なデータセットにうまくスケールせず、いくつかの(非常に重要な)ハイパーパラメータを選択する必要がある。 したがって、教師なしかつ計算効率の良い検出手法が厳格に必要となる。 本稿では,多変量密度を正確に推定できる多変量ガウス化手法を用いて,遠隔センシング画像の異常や変化を検出する非教師あり手法を提案する。 この手法は任意に複雑な多変量データを多変量ガウス分布に変換する。 変換は微分可能であるので、変数の式の変化を適用することで元の領域の任意の点における確率を推定することができる。 推定確率の低い画素は異常と見なされる。 本手法は,任意の多変量分布を記述でき,メモリと計算資源を効率的に利用でき,パラメータフリーである。 本稿では,異なるリモートセンシング画像セットにおける異常検出と変化検出の両方を含む実験において,この手法の有効性を示す。 その結果,本手法は異常・変化検出の両シナリオにおいて,他の線形・非線形手法よりも優れた性能を示し,寸法やサンプルサイズに対する堅牢性とスケーラビリティを示す。

Anomaly detection is a field of intense research. Identifying low probability events in data/images is a challenging problem given the high-dimensionality of the data, especially when no (or little) information about the anomaly is available a priori. While plenty of methods are available, the vast majority of them do not scale well to large datasets and require the choice of some (very often critical) hyperparameters. Therefore, unsupervised and computationally efficient detection methods become strictly necessary. We propose an unsupervised method for detecting anomalies and changes in remote sensing images by means of a multivariate Gaussianization methodology that allows to estimate multivariate densities accurately, a long-standing problem in statistics and machine learning. The methodology transforms arbitrarily complex multivariate data into a multivariate Gaussian distribution. Since the transformation is differentiable, by applying the change of variables formula one can estimate the probability at any point of the original domain. The assumption is straightforward: pixels with low estimated probability are considered anomalies. Our method can describe any multivariate distribution, makes an efficient use of memory and computational resources, and is parameter-free. We show the efficiency of the method in experiments involving both anomaly detection and change detection in different remote sensing image sets. Results show that our approach outperforms other linear and nonlinear methods in terms of detection power in both anomaly and change detection scenarios, showing robustness and scalability to dimensionality and sample sizes.
翻訳日:2022-04-13 20:04:51 公開日:2022-04-12
# (参考訳) 文法的プロファイルは言語モデルが意味的変化を検出するのに役立つ

Do Not Fire the Linguist: Grammatical Profiles Help Language Models Detect Semantic Change ( http://arxiv.org/abs/2204.05717v1 )

ライセンス: CC BY 4.0
Mario Giulianelli, Andrey Kutuzov, Lidia Pivovarova(参考訳) 単語使用の形態的および構文的変化(例えば、文法的プロファイルによって捉えられる)は、単語の意味変化の優れた予測因子であることが示されている。 本研究では,語彙的意味変化検出の一般的なツールである事前学習型言語モデルが,このような形態的変化に敏感であるかどうかを考察する。 この目的のために、まず10個のデータセット上の多言語ニューラル言語モデル(XLM-R)の性能を比較し、7つの言語をカバーし、2つのアプローチをアンサンブルに組み合わせて相補性を評価する。 その結果,XLM-Rによる文法プロファイルのアンサンブルにより,ほとんどのデータセットや言語における意味変化検出性能が向上することがわかった。 これは、言語モデルが文法的プロファイルで明示的に表されるきめ細かい形態的および構文的シグナルを完全にカバーしていないことを示している。 興味深い例外は、分析対象の時間間隔が、それらの間の時間間隔よりもはるかに長いテストセットである(例えば、1年間隔の1世紀の長さ)。 モルフォシンタクティックな変化は遅いので、文法的なプロファイルはそのような場合には検出しない。 対照的に、語彙情報へのアクセスによる言語モデルは、高速な話題の変更を検出することができる。

Morphological and syntactic changes in word usage (as captured, e.g., by grammatical profiles) have been shown to be good predictors of a word's meaning change. In this work, we explore whether large pre-trained contextualised language models, a common tool for lexical semantic change detection, are sensitive to such morphosyntactic changes. To this end, we first compare the performance of grammatical profiles against that of a multilingual neural language model (XLM-R) on 10 datasets, covering 7 languages, and then combine the two approaches in ensembles to assess their complementarity. Our results show that ensembling grammatical profiles with XLM-R improves semantic change detection performance for most datasets and languages. This indicates that language models do not fully cover the fine-grained morphological and syntactic signals that are explicitly represented in grammatical profiles. An interesting exception are the test sets where the time spans under analysis are much longer than the time gap between them (for example, century-long spans with a one-year gap between them). Morphosyntactic change is slow so grammatical profiles do not detect in such cases. In contrast, language models, thanks to their access to lexical information, are able to detect fast topical changes.
翻訳日:2022-04-13 19:45:46 公開日:2022-04-12
# (参考訳) オンライン損傷回復のための階層的品質多様性

Hierarchical Quality-Diversity for Online Damage Recovery ( http://arxiv.org/abs/2204.05726v1 )

ライセンス: CC BY 4.0
Maxime Allard, Sim\'on C. Smith, Konstantinos Chatzilygeroudis, Antoine Cully(参考訳) 損傷回復のような適応能力は、複雑な環境へのロボットの配備に不可欠である。 いくつかの研究は、事前訓練されたスキルのレパートリーを使うことで、ロボットが数分間で予期せぬ機械的損傷に適応できることを示した。 これらの適応能力はレパートリーの行動多様性に直接関連している。 ロボットがスキルを実行しなければならない選択肢が多ければ多いほど、新しい状況に適応できる可能性は高くなる。 しかし、迷路ナビゲーションのような複雑なタスクを解決するには、通常複数の異なるスキルが必要である。 これらの複数のスキルに対する大きな行動の多様性を見つけることは、しばしば必要なソリューションの数を指数関数的に増加させる。 本稿では,階層的行動レパートリーを用いて多様なスキルを学習し,それらを活用して,ロボットをさまざまな状況に適応させる階層的試行錯誤アルゴリズムを提案する。 階層的なスキルの分解により、ロボットはより複雑な振る舞いを学習し、レパートリーの学習を学習しやすくする。 ヘキサポッドロボットを用いた実験により,本手法は,最高のベースラインよりも20%少ない動作で迷路ナビゲーションタスクを解くと同時に,57%の障害を回避できることがわかった。

Adaptation capabilities, like damage recovery, are crucial for the deployment of robots in complex environments. Several works have demonstrated that using repertoires of pre-trained skills can enable robots to adapt to unforeseen mechanical damages in a few minutes. These adaptation capabilities are directly linked to the behavioural diversity in the repertoire. The more alternatives the robot has to execute a skill, the better are the chances that it can adapt to a new situation. However, solving complex tasks, like maze navigation, usually requires multiple different skills. Finding a large behavioural diversity for these multiple skills often leads to an intractable exponential growth of the number of required solutions. In this paper, we introduce the Hierarchical Trial and Error algorithm, which uses a hierarchical behavioural repertoire to learn diverse skills and leverages them to make the robot more adaptive to different situations. We show that the hierarchical decomposition of skills enables the robot to learn more complex behaviours while keeping the learning of the repertoire tractable. The experiments with a hexapod robot show that our method solves maze navigation tasks with 20% less actions in the most challenging scenarios than the best baseline while having 57% less complete failures.
翻訳日:2022-04-13 19:27:58 公開日:2022-04-12
# (参考訳) PyDTS: 競合するリスクを伴う時間的生存分析のためのPythonパッケージ

PyDTS: A Python Package for Discrete Time Survival Analysis with Competing Risks ( http://arxiv.org/abs/2204.05731v1 )

ライセンス: CC BY 4.0
Tomer Meir, Rom Gutman, and Malka Gorfine(参考訳) time-to-event analysis (survival analysis) は、結果や関心の応答が事前に特定されたイベントが発生するまでの時間である場合に使用される。 時間から時間へのデータは、時間自体が離散的であるか、障害時間を間隔にグループ化したり、測定を丸めるため、時に離散される。 さらに、個人の失敗は、競合するリスク(イベント)データとして知られる、いくつかの異なる障害タイプの1つになる可能性がある。 この研究は、競合するイベントとの離散時間回帰に焦点を当てている。 我々は、競合するイベントとの連続的設定と離散的設定の主な違いを強調し、新しい推定手順を開発し、我々の推定手順と競合するリスクを伴う離散時間-生存分析のための他のツールを実装するオープンソースのpythonパッケージであるpydtsを提示する。

Time-to-event analysis (survival analysis) is used when the outcome or the response of interest is the time until a pre-specified event occurs. Time-to-event data are sometimes discrete either because time itself is discrete or due to grouping of failure times into intervals or rounding off measurements. In addition, the failure of an individual could be one of several distinct failure types; known as competing risks (events) data. This work focuses on discrete-time regression with competing events. We emphasize the main difference between the continuous and discrete settings with competing events, develop a new estimation procedure, and present PyDTS, an open source Python package which implements our estimation procedure and other tools for discrete-time-survival analysis with competing risks.
翻訳日:2022-04-13 19:10:29 公開日:2022-04-12
# (参考訳) 単目的連続性景観評価のための深層学習に基づく特徴自由アプローチの収集

A Collection of Deep Learning-based Feature-Free Approaches for Characterizing Single-Objective Continuous Fitness Landscapes ( http://arxiv.org/abs/2204.05752v1 )

ライセンス: CC BY 4.0
Moritz Vinzent Seiler and Raphael Patrick Prager and Pascal Kerschke and Heike Trautmann(参考訳) 探索的景観解析は単目的連続最適化問題の景観を数値的に特徴づける強力な手法である。 ランドスケープの洞察は、問題を理解するだけでなく、ベンチマークセットの多様性と構成を評価するためにも重要である。 これらの特徴が不確実な有用性にもかかわらず、彼ら自身の病気と欠点に悩まされている。 したがって、本研究では最適化ランドスケープを特徴付ける様々なアプローチのコレクションを提供する。 従来の景観の特徴と同様に、小さな初期サンプルが必要である。 しかし、そのサンプルに基づく機能を計算する代わりに、元のサンプルの代替表現を開発する。 これらは点雲から2D画像まで多岐にわたるため、完全に機能なしである。 我々は,BBOBテストベッド上で考案された手法を実証し,Deep Learningの助けを借りて,マルチモーダリティの度合いやファンネル構造の存在など,高度で専門家による景観特性の予測を行った。 私たちのアプローチの品質は、従来のランドスケープ機能に依存するメソッドと同等です。 そこで我々は,問題理解やアルゴリズム設計などの問題情報と,自動アルゴリズム設定と選択を併用した,すべての研究領域に対するエキサイティングな新しい視点を提供する。

Exploratory Landscape Analysis is a powerful technique for numerically characterizing landscapes of single-objective continuous optimization problems. Landscape insights are crucial both for problem understanding as well as for assessing benchmark set diversity and composition. Despite the irrefutable usefulness of these features, they suffer from their own ailments and downsides. Hence, in this work we provide a collection of different approaches to characterize optimization landscapes. Similar to conventional landscape features, we require a small initial sample. However, instead of computing features based on that sample, we develop alternative representations of the original sample. These range from point clouds to 2D images and, therefore, are entirely feature-free. We demonstrate and validate our devised methods on the BBOB testbed and predict, with the help of Deep Learning, the high-level, expert-based landscape properties such as the degree of multimodality and the existence of funnel structures. The quality of our approaches is on par with methods relying on the traditional landscape features. Thereby, we provide an exciting new perspective on every research area which utilizes problem information such as problem understanding and algorithm design as well as automated algorithm configuration and selection.
翻訳日:2022-04-13 19:02:29 公開日:2022-04-12
# (参考訳) 音色保存ピッチ強調によるファストピッチのピッチ制御性の向上

Enhancement of Pitch Controllability using Timbre-Preserving Pitch Augmentation in FastPitch ( http://arxiv.org/abs/2204.05753v1 )

ライセンス: CC BY 4.0
Hanbin Bae, Young-Sun Joo(参考訳) 最近開発されたピッチ制御可能なテキスト音声合成(TTS)モデル、すなわちFastPitchはピッチの輪郭に設定された。 しかし, 合成音声の品質は, 平均ピッチから著しく低下したピッチ値に対して有意に低下し, ピッチ制御能力は限られていた。 そこで本研究では,FastPitchの堅牢性向上のための2つのアルゴリズムを提案する。 まず,自然ピッチ増大のための音節保存型ピッチシフトアルゴリズムを提案する。 ピッチシフト音声サンプルは,話者の発声音色が維持されるため,提案アルゴリズムを用いた場合より自然に聞こえる。 さらに,同じ文に対して異なるピッチ範囲を持つ音声データセットを用いてFastPitchを定義する訓練アルゴリズムを提案する。 実験により,提案アルゴリズムはFastPitchのピッチ制御性を向上することを示した。

The recently developed pitch-controllable text-to-speech (TTS) model, i.e. FastPitch, was conditioned for the pitch contours. However, the quality of the synthesized speech degraded considerably for pitch values that deviated significantly from the average pitch; i.e. the ability to control pitch was limited. To address this issue, we propose two algorithms to improve the robustness of FastPitch. First, we propose a novel timbre-preserving pitch-shifting algorithm for natural pitch augmentation. Pitch-shifted speech samples sound more natural when using the proposed algorithm because the speaker's vocal timbre is maintained. Moreover, we propose a training algorithm that defines FastPitch using pitch-augmented speech datasets with different pitch ranges for the same sentence. The experimental results demonstrate that the proposed algorithms improve the pitch controllability of FastPitch.
翻訳日:2022-04-13 18:43:49 公開日:2022-04-12
# (参考訳) ディープネットワークにおけるクラスマニフォールドに対する逆例の近さの検討

Examining the Proximity of Adversarial Examples to Class Manifolds in Deep Networks ( http://arxiv.org/abs/2204.05764v1 )

ライセンス: CC BY 4.0
\v{S}tefan P\'oco\v{s}, Iveta Be\v{c}kov\'a, Igor Farka\v{s}(参考訳) ディープニューラルネットワークは、複数の分野において顕著な性能を達成する。 しかし、適切な訓練の後、敵の例(AE)に対する固有の脆弱性に悩まされる。 この研究では、隠れた層上での活性化を分析することで、aesの内部表現に光を当てた。 我々は様々なタイプのaesをテストし、それぞれが特定の規範制約を用いて作成し、その視覚の外観と最終的には訓練されたネットワークにおける行動に影響を及ぼす。 画像分類タスク (MNIST, CIFAR-10) の結果, 内部表現上のクラス固有多様体との近接性を比較すると, 個々のAE間の質的差異が明らかになった。 ネットワーク全体の寸法の変化に関わらず,クラス固有の多様体との距離を比較するために使用できる2つの手法を提案する。 これらの手法を用いることで、ニューラルネットワークの最後の隠蔽層においても、逆数の一部が必ずしも正しいクラスの多様体の近傍に留まらないことを確実に確認する。 次に、UMAP可視化技術を用いて、クラスアクティベーションを2次元空間に投影する。 その結果,個々のAEの活性化はテストセットの活性化と絡み合っていることがわかった。 しかし、これはラッビッシュクラスと呼ばれる手作りの入力群には当てはまらない。 また, ソフト近接損失を用いて, 対向性の絡み合いを数値的に検証した。

Deep neural networks achieve remarkable performance in multiple fields. However, after proper training they suffer from an inherent vulnerability against adversarial examples (AEs). In this work we shed light on inner representations of the AEs by analysing their activations on the hidden layers. We test various types of AEs, each crafted using a specific norm constraint, which affects their visual appearance and eventually their behavior in the trained networks. Our results in image classification tasks (MNIST and CIFAR-10) reveal qualitative differences between the individual types of AEs, when comparing their proximity to the class-specific manifolds on the inner representations. We propose two methods that can be used to compare the distances to class-specific manifolds, regardless of the changing dimensions throughout the network. Using these methods, we consistently confirm that some of the adversarials do not necessarily leave the proximity of the manifold of the correct class, not even in the last hidden layer of the neural network. Next, using UMAP visualisation technique, we project the class activations to 2D space. The results indicate that the activations of the individual AEs are entangled with the activations of the test set. This, however, does not hold for a group of crafted inputs called the rubbish class. We also confirm the entanglement of adversarials with the test set numerically using the soft nearest neighbour loss.
翻訳日:2022-04-13 18:35:46 公開日:2022-04-12
# (参考訳) セキュアな分散ディープラーニングのためのメンバシップマッピング

Membership-Mappings for Practical Secure Distributed Deep Learning ( http://arxiv.org/abs/2204.05765v1 )

ライセンス: CC BY 4.0
Mohit Kumar, Weiping Zhang, Lukas Fischer, and Bernhard Freudenthaler(参考訳) 本研究では,完全準同型暗号を用いたセキュアな分散深層学習のために,ファジィベースメンバシップマップのデータ表現能力を活用する。 完全同型暗号化データを用いたセキュアマシン(ディープ)学習の非現実性問題は, ファジィ属性の適用により, 計算オーバーヘッドが大きいことに起因する。 ファジィ属性は、グローバルに収束し、ロバストなメンバーシップマップベースのローカルディープモデルによって引き起こされる。 ファジィ属性は局所的な深層モデルを堅牢で柔軟な方法で結合し、ブートストラップされたバイナリゲートからなるブール回路を用いて、グローバルモデルを効率的に準同型に評価できる。 提案手法は,分散学習シナリオにおいてプライバシを保ちながら,正確かつ実用的でスケーラブルなままである。 この方法はmnistデータセットとfreiburg groceriesデータセットによるデモンストレーションを含む多数の実験を通じて評価される。 さらに、個人に対する精神的ストレス検出に関する生体医学的応用を検討する。

This study leverages the data representation capability of fuzzy based membership-mappings for practical secure distributed deep learning using fully homomorphic encryption. The impracticality issue of secure machine (deep) learning with fully homomorphic encrypted data, arising from large computational overhead, is addressed via applying fuzzy attributes. Fuzzy attributes are induced by globally convergent and robust variational membership-mappings based local deep models. Fuzzy attributes combine the local deep models in a robust and flexible manner such that the global model can be evaluated homomorphically in an efficient manner using a boolean circuit composed of bootstrapped binary gates. The proposed method, while preserving privacy in a distributed learning scenario, remains accurate, practical, and scalable. The method is evaluated through numerous experiments including demonstrations through MNIST dataset and Freiburg Groceries Dataset. Further, a biomedical application related to mental stress detection on individuals is considered.
翻訳日:2022-04-13 18:25:16 公開日:2022-04-12
# (参考訳) 完全結合fbsdによる確率的最適制御問題の深層学習法

A deep learning method for solving stochastic optimal control problems driven by fully-coupled FBSDEs ( http://arxiv.org/abs/2204.05796v1 )

ライセンス: CC BY 4.0
Shaolin Ji, Shige Peng, Ying Peng and Xichuan Zhang(参考訳) 本稿では,完全結合型前方確率微分方程式(FBSDEs,略してFBSDEs)による高次元確率的最適制御問題の数値解に着目した。 まず,この問題を確率的なStackelberg差分ゲーム(リーダー-フォロワー問題)に変換し,より深いニューラルネットワークを用いて,リーダのコスト関数と追従者のコスト関数を最適化するクロス最適化法(CO法)を開発する。 数値計算では,確率的再帰的効用モデルによる投資消費問題の2つの例を計算し,その2つの例が提案アルゴリズムの有効性を示した。

In this paper, we mainly focus on the numerical solution of high-dimensional stochastic optimal control problem driven by fully-coupled forward-backward stochastic differential equations (FBSDEs in short) through deep learning. We first transform the problem into a stochastic Stackelberg differential game(leader-follower problem), then a cross-optimization method (CO method) is developed where the leader's cost functional and the follower's cost functional are optimized alternatively via deep neural networks. As for the numerical results, we compute two examples of the investment-consumption problem solved through stochastic recursive utility models, and the results of both examples demonstrate the effectiveness of our proposed algorithm.
翻訳日:2022-04-13 17:34:59 公開日:2022-04-12
# (参考訳) ハイパースペクトル画像分類のための適応クロスアテンション駆動型空間スペクトルグラフ畳み込みネットワーク

Adaptive Cross-Attention-Driven Spatial-Spectral Graph Convolutional Network for Hyperspectral Image Classification ( http://arxiv.org/abs/2204.05823v1 )

ライセンス: CC BY 4.0
Jin-Yu Yang, Heng-Chao Li, Wen-Shuai Hu, and Lei Pan, and Qian Du(参考訳) 近年,画素間の空間的関係を探索するグラフ畳み込みネットワーク(GCN)が開発され,ハイパースペクトル画像(HSI)の分類性能が向上している。 しかし、これらの手法は、HSIデータにおけるスペクトル帯域間の関係を十分に活用できない。 そこで我々は,空間GCN(Sa-GCN)サブネットワーク,スペクトルGCN(Se-GCN)サブネットワーク,グラフクロスアテンション融合モジュール(GCAFM)で構成される適応型クロスアテンション駆動空間スペクトルグラフ畳み込みネットワーク(ACSS-GCN)を提案する。 具体的には,空間画素間とスペクトル帯域間の相関をモデル化することにより,空間特徴とスペクトル特徴を抽出する。 次に、注意機構をグラフの情報集約に統合することにより、空間グラフ注意ブロック、スペクトルグラフ注意ブロック、融合ブロックの3部を含むgcafmを、空間的及びスペクトル的特徴を融合させ、sa−gcn及びse−gcnにおけるノイズ干渉を抑制するように設計する。 さらに, 学習過程におけるバック伝播を通した最適グラフを探索するために, 適応グラフのアイデアを導入した。 2つのHSIデータセットに対する実験により,提案手法は他の分類法よりも優れた性能を示した。

Recently, graph convolutional networks (GCNs) have been developed to explore spatial relationship between pixels, achieving better classification performance of hyperspectral images (HSIs). However, these methods fail to sufficiently leverage the relationship between spectral bands in HSI data. As such, we propose an adaptive cross-attention-driven spatial-spectral graph convolutional network (ACSS-GCN), which is composed of a spatial GCN (Sa-GCN) subnetwork, a spectral GCN (Se-GCN) subnetwork, and a graph cross-attention fusion module (GCAFM). Specifically, Sa-GCN and Se-GCN are proposed to extract the spatial and spectral features by modeling correlations between spatial pixels and between spectral bands, respectively. Then, by integrating attention mechanism into information aggregation of graph, the GCAFM, including three parts, i.e., spatial graph attention block, spectral graph attention block, and fusion block, is designed to fuse the spatial and spectral features and suppress noise interference in Sa-GCN and Se-GCN. Moreover, the idea of the adaptive graph is introduced to explore an optimal graph through back propagation during the training process. Experiments on two HSI data sets show that the proposed method achieves better performance than other classification methods.
翻訳日:2022-04-13 16:55:52 公開日:2022-04-12
# (参考訳) 意味的キーポイントに基づく単一のRGBフレームからのポーズ推定

Semantic keypoint-based pose estimation from single RGB frames ( http://arxiv.org/abs/2204.05864v1 )

ライセンス: CC BY 4.0
Karl Schmeckpeper, Philip R. Osteen, Yufu Wang, Georgios Pavlakos, Kenneth Chaney, Wyatt Jordan, Xiaowei Zhou, Konstantinos G. Derpanis, and Kostas Daniilidis(参考訳) 本稿では,オブジェクトの連続6-DoFポーズを1枚のRGB画像から推定する手法を提案する。 このアプローチは、畳み込みネットワーク(convnet)によって予測される意味キーポイントと変形可能な形状モデルを組み合わせる。 従来の研究者とは異なり、convnetは利用可能なトレーニング画像データから最適な表現を学習するため、オブジェクトがテクスチャ化されているかテクスチャレスであるかに無関係である。 さらに、このアプローチはインスタンスベースおよびクラスベースのポーズリカバリにも適用できる。 さらに,ラベルのないビデオからセミオートマチックデータを生成する手法をメインパイプラインに導入した。 この手順により、ラベリングプロセスに最小限の手動介入で学習可能なコンポーネントをトレーニングできます。 提案手法は,乱雑な背景に対しても,インスタンスベースとクラスベースの両方のシナリオに対して,正確に6-DoFオブジェクトのポーズを復元できることを実証的に示す。 当社のアプローチは、pascal3d+、linemod-occluded、ycb-video、tud-lightなど、既存の大規模データセットのいくつかに適用し、ラベリングパイプラインを使用して、ここで紹介する新しいオブジェクトクラスを持つ新しいデータセットに適用します。 広範な経験的評価から,我々のアプローチは,最先端に匹敵する姿勢推定結果を提供できることが示された。

This paper presents an approach to estimating the continuous 6-DoF pose of an object from a single RGB image. The approach combines semantic keypoints predicted by a convolutional network (convnet) with a deformable shape model. Unlike prior investigators, we are agnostic to whether the object is textured or textureless, as the convnet learns the optimal representation from the available training-image data. Furthermore, the approach can be applied to instance- and class-based pose recovery. Additionally, we accompany our main pipeline with a technique for semi-automatic data generation from unlabeled videos. This procedure allows us to train the learnable components of our method with minimal manual intervention in the labeling process. Empirically, we show that our approach can accurately recover the 6-DoF object pose for both instance- and class-based scenarios even against a cluttered background. We apply our approach both to several, existing, large-scale datasets - including PASCAL3D+, LineMOD-Occluded, YCB-Video, and TUD-Light - and, using our labeling pipeline, to a new dataset with novel object classes that we introduce here. Extensive empirical evaluations show that our approach is able to provide pose estimation results comparable to the state of the art.
翻訳日:2022-04-13 16:44:51 公開日:2022-04-12
# (参考訳) 超低次元グラフ表現のための階層的ブロック距離モデル

A Hierarchical Block Distance Model for Ultra Low-Dimensional Graph Representations ( http://arxiv.org/abs/2204.05885v1 )

ライセンス: CC BY 4.0
Nikolaos Nakis and Abdulkadir \c{C}elikkanat and Sune Lehmann J{\o}rgensen and Morten M{\o}rup(参考訳) グラフ表現学習(grl)は、複雑なネットワークの構造を特徴付け、リンク予測、ノード分類、ネットワーク再構築、コミュニティ検出などのタスクを実行するための中心となっている。 多くの生成型GRLモデルが提案されているが、多くのアプローチは大規模ネットワーク解析を阻害する計算要求を禁止しているが、複数のスケールで現れる構造を明示的に説明できるものは少なく、ホモフィリクスや推移性といった重要なネットワーク特性を明示的に尊重するものもある。 本稿では,階層ブロック距離モデル(HBDM)と呼ばれる,スケーラブルなグラフ表現学習手法を提案する。 HBDMは確率的ブロックモデリング(SBM)に似たマルチスケールのブロック構造を課し、推論階層全体を通して遅延距離モデル(LDM)を正確に近似することにより、ホモフィリと推移性を考慮した。 hbdmは自然に単部ネットワーク、有向ネットワーク、二部ネットワークに対応し、階層構造は大規模ネットワークの解析を可能にする線形時間と空間複雑性を保証するように設計されている。 我々は,数百万ノードからなる大規模ネットワーク上でのHBDMの性能を評価する。 重要なことは、提案したHBDMフレームワークが、下流タスクすべてにおいて、最近のスケーラブルなアプローチを著しく上回っていることだ。 驚くべきことに、我々は、正確な直接的および階層的なネットワークの可視化と解釈を容易にする、超低次元の埋め込みでさえも優れた性能を示す。

Graph Representation Learning (GRL) has become central for characterizing structures of complex networks and performing tasks such as link prediction, node classification, network reconstruction, and community detection. Whereas numerous generative GRL models have been proposed, many approaches have prohibitive computational requirements hampering large-scale network analysis, fewer are able to explicitly account for structure emerging at multiple scales, and only a few explicitly respect important network properties such as homophily and transitivity. This paper proposes a novel scalable graph representation learning method named the Hierarchical Block Distance Model (HBDM). The HBDM imposes a multiscale block structure akin to stochastic block modeling (SBM) and accounts for homophily and transitivity by accurately approximating the latent distance model (LDM) throughout the inferred hierarchy. The HBDM naturally accommodates unipartite, directed, and bipartite networks whereas the hierarchy is designed to ensure linearithmic time and space complexity enabling the analysis of very large-scale networks. We evaluate the performance of the HBDM on massive networks consisting of millions of nodes. Importantly, we find that the proposed HBDM framework significantly outperforms recent scalable approaches in all considered downstream tasks. Surprisingly, we observe superior performance even imposing ultra-low two-dimensional embeddings facilitating accurate direct and hierarchical-aware network visualization and interpretation.
翻訳日:2022-04-13 16:12:06 公開日:2022-04-12
# (参考訳) 不確実性のあるラグランジアンドリフト学習のためのDNNフレームワーク

A DNN Framework for Learning Lagrangian Drift With Uncertainty ( http://arxiv.org/abs/2204.05891v1 )

ライセンス: CC BY 4.0
Joseph Jenkins, Adeline Paiement, Yann Ourmi\`eres, Julien Le Sommer, Jacques Verron, Cl\'ement Ubelmann and Herv\'e Glotin(参考訳) ラグランジュの漂流の復元、例えば海で失われた物体は、しばしばデータの中で未解決の物理的現象のために不確実である。 不確実性は通常、ドリフトに確率性を導入することで克服されるが、このアプローチは不確実性をモデル化するための特定の仮定を必要とする。 柔軟性のある環境で確率的ドリフトをモデリングするための純粋データ駆動フレームワークを提示して、この制約を取り除く。 入力速度場が与えられた場合、粒子位置の確率密度マップの時間的発展を$t$から$t+1$に予測するためにCNNを訓練する。 粒子軌道の初期位置の不確かさをシミュレートすることにより,海洋循環モデルシミュレーションに基づく地中構造密度マップを生成する。 予測密度マップを回帰するいくつかの損失関数をテストする。 異なる年を経た非知覚速度に関するモデルを評価することにより,その出力は数値シミュレーションとよく一致し,異なる動的状況に対する十分な一般化を示唆する。

Reconstructions of Lagrangian drift, for example for objects lost at sea, are often uncertain due to unresolved physical phenomena within the data. Uncertainty is usually overcome by introducing stochasticity into the drift, but this approach requires specific assumptions for modelling uncertainty. We remove this constraint by presenting a purely data-driven framework for modelling probabilistic drift in flexible environments. We train a CNN to predict the temporal evolution of probability density maps of particle locations from $t$ to $t+1$ given an input velocity field. We generate groundtruth density maps on the basis of ocean circulation model simulations by simulating uncertainty in the initial position of particle trajectories. Several loss functions for regressing the predicted density maps are tested. Through evaluating our model on unseen velocities from a different year, we find its outputs to be in good agreement with numerical simulations, suggesting satisfactory generalisation to different dynamical situations.
翻訳日:2022-04-13 16:10:14 公開日:2022-04-12
# (参考訳) VisCUIT: CNN画像分類器におけるバイアスの視覚的監査

VisCUIT: Visual Auditor for Bias in CNN Image Classifier ( http://arxiv.org/abs/2204.05899v1 )

ライセンス: CC BY 4.0
Seongmin Lee, Zijie J. Wang, Judy Hoffman, Duen Horng (Polo) Chau(参考訳) CNN画像分類器は、その効率と精度のために広く使われている。 しかし、実用的応用を妨げる偏見に苦しむことがある。 既存のバイアス調査技術のほとんどは、一般的な画像分類タスクには適用できないか、または検査すべきデータ属性を手作業で指定するためにすべてのデータサブグループを熟読するための重要なユーザー努力を必要とする。 本稿では,cnn分類器の偏りを可視化する対話型可視化システムviscuitを提案する。 VisCUITは、分類器が機能しないサブグループを視覚的に要約し、誤分類に寄与するニューロンの活性化に責任があるイメージ概念を明らかにすることで、ユーザがパフォーマンスの原因を発見し、特徴付けるのを助ける。 VisCUITはモダンなブラウザで動作し、オープンソースであるため、ツールを他のモデルアーキテクチャやデータセットに簡単にアクセスして拡張することができる。 VisCUITは以下の公開デモリンクで利用可能である。 ビデオデモはhttps://youtu.be/endbsym4r_4で見ることができる。

CNN image classifiers are widely used, thanks to their efficiency and accuracy. However, they can suffer from biases that impede their practical applications. Most existing bias investigation techniques are either inapplicable to general image classification tasks or require significant user efforts in perusing all data subgroups to manually specify which data attributes to inspect. We present VisCUIT, an interactive visualization system that reveals how and why a CNN classifier is biased. VisCUIT visually summarizes the subgroups on which the classifier underperforms and helps users discover and characterize the cause of the underperformances by revealing image concepts responsible for activating neurons that contribute to misclassifications. VisCUIT runs in modern browsers and is open-source, allowing people to easily access and extend the tool to other model architectures and datasets. VisCUIT is available at the following public demo link: https://poloclub.github.io/VisCUIT. A video demo is available at https://youtu.be/eNDbSyM4R_4.
翻訳日:2022-04-13 15:59:30 公開日:2022-04-12
# (参考訳) 医療領域におけるiotデバイス機能、アーキテクチャ、プロトコル、スマートアプリケーション:レビュー

Internet of Things Device Capabilities, Architectures, Protocols, and Smart Applications in Healthcare Domain: A Review ( http://arxiv.org/abs/2204.05921v1 )

ライセンス: CC BY 4.0
Md. Milon Islam, Sheikh Nooruddin, Fakhri Karray, and Ghulam Muhammad(参考訳) 今日、インターネットは事実上世界中のあらゆる国に広がり、人々の生活に前例のない影響を与えている。 IoT(Internet of Things, モノのインターネット)は、その多様なアプリケーションのために、無線通信の時代において、実践者と学者の両方に高い関心を集めている。 IoTは、日常的な物事がより使いやすくなり、日常的な計算が知的になり、日常的なコミュニケーションがより洞察に富むようになる技術である。 本稿では、最も一般的で一般的なIoTデバイス機能、アーキテクチャ、プロトコルを簡潔に示し、この分野の研究者にIoT技術の明確な概要を提供する。 ハードウェア(raspberry pi、arduino、esp8266)とソフトウェア(運用システム、組み込みツール)を含む一般的なiotデバイス機能については、詳細に説明されている。 最近進化して使われてきたアーキテクチャは、三層アーキテクチャ、SOAベースのアーキテクチャ、ミドルウェアベースのアーキテクチャである。 一般的なIoTプロトコルとしては、CoAP、MQTT、XMPP、AMQP、DDS、LoWPAN、BLE、Zigbeeなどがあり、スマートIoTアプリケーションの開発に頻繁に使用されている。 さらに、この研究は、さまざまな医療上の懸念に対処するコンテキストにおいて、IoT技術に基づく潜在的なヘルスケアアプリケーションについて、詳細な概要を提供する。 最後に、現状の知識を要約し、オープンな問題と欠点を強調し、この分野で働きたいと願う人やこの分野の専門知識を得るためのブレークスルーを行う人には、さらなる研究を推奨する。

Nowadays, the Internet has spread to practically every country around the world and is having unprecedented effects on people's lives. The Internet of Things (IoT) is getting more popular and has a high level of interest in both practitioners and academicians in the age of wireless communication due to its diverse applications. The IoT is a technology that enables everyday things to become savvier, everyday computation towards becoming intellectual, and everyday communication to become a little more insightful. In this paper, the most common and popular IoT device capabilities, architectures, and protocols are demonstrated in brief to provide a clear overview of the IoT technology to the researchers in this area. The common IoT device capabilities including hardware (Raspberry Pi, Arduino, and ESP8266) and software (operating systems, and built-in tools) platforms are described in detail. The widely used architectures that have been recently evolved and used are the three-layer architecture, SOA-based architecture, and middleware-based architecture. The popular protocols for IoT are demonstrated which include CoAP, MQTT, XMPP, AMQP, DDS, LoWPAN, BLE, and Zigbee that are frequently utilized to develop smart IoT applications. Additionally, this research provides an in-depth overview of the potential healthcare applications based on IoT technologies in the context of addressing various healthcare concerns. Finally, this paper summarizes state-of-the-art knowledge, highlights open issues and shortcomings, and provides recommendations for further studies which would be quite beneficial to anyone with a desire to work in this field and make breakthroughs to get expertise in this area.
翻訳日:2022-04-13 15:45:01 公開日:2022-04-12
# twitterにおけるsqlクエリコスト予測

Forecasting SQL Query Cost at Twitter ( http://arxiv.org/abs/2204.05529v1 )

ライセンス: Link先を確認
Chunxu Tang, Beinan Wang, Zhenxiao Luo, Huijun Wu, Shajan Dasan, Maosong Fu, Yao Li, Mainak Ghosh, Ruchin Kabra, Nikhil Kantibhai Navadiya, Da Cheng, Fred Dai, Vrushali Channapattan, and Prachi Mishra(参考訳) ビッグデータ時代の到来とともに、従来のDBMSアプローチによるSQLクエリのリソース使用量を計算するのは通常、計算コストがかかる。 sqlエンジンカーネルで計算することなく、各クエリのコストをより効率的に見積もることができるか? 機械学習技術はsqlクエリリソースの利用を見積もるのに役立つか? 答えはイエスです。 本稿では,過去のクエリ要求ログからモデルをトレーニングする機械学習技術を用いて,sqlエンジンで計算することなく,オンラインクエリのcpuおよびメモリリソース使用量を迅速に予測するsqlクエリコスト予測サービスを提案する。 twitterでは、インフラストラクチャエンジニアがオンプレミスとクラウドデータセンタをまたいで、アドホックなクエリを提供する大規模なsqlフェデレーションシステムをメンテナンスしている。 提案されたサービスは、SQLエンジンクラスタ内の不均衡なオンライン分析処理(OLAP)ワークロードの問題を軽減することで、クエリスケジューリングの改善を支援する。 プリエンプティブスケーリングの実現も支援できる。 さらに、提案手法では、モデルトレーニングとオンライン予測にプレーンSQLステートメントを使用し、ハードウェアとソフトウェアに依存しないことを示している。 この方法はより広範なSQLシステムや異種環境に一般化することができる。 モデルはcpu使用量予測の97.9\%精度とメモリ使用量予測の97\%精度を達成できる。

With the advent of the Big Data era, it is usually computationally expensive to calculate the resource usages of a SQL query with traditional DBMS approaches. Can we estimate the cost of each query more efficiently without any computation in a SQL engine kernel? Can machine learning techniques help to estimate SQL query resource utilization? The answers are yes. We propose a SQL query cost predictor service, which employs machine learning techniques to train models from historical query request logs and rapidly forecasts the CPU and memory resource usages of online queries without any computation in a SQL engine. At Twitter, infrastructure engineers are maintaining a large-scale SQL federation system across on-premises and cloud data centers for serving ad-hoc queries. The proposed service can help to improve query scheduling by relieving the issue of imbalanced online analytical processing (OLAP) workloads in the SQL engine clusters. It can also assist in enabling preemptive scaling. Additionally, the proposed approach uses plain SQL statements for the model training and online prediction, indicating it is both hardware and software-agnostic. The method can be generalized to broader SQL systems and heterogeneous environments. The models can achieve 97.9\% accuracy for CPU usage prediction and 97\% accuracy for memory usage prediction.
翻訳日:2022-04-13 14:43:18 公開日:2022-04-12
# 可逆ジャンプと擬似後肢によるマルコフランダムフィールドのスパース相互作用近傍選択

Sparse Interaction Neighborhood Selection for Markov Random Fields via Reversible Jump and Pseudoposteriors ( http://arxiv.org/abs/2204.05933v1 )

ライセンス: Link先を確認
Victor Freguglia and Nancy Lopes Garcia(参考訳) マルコフ確率場モデルの相互作用近傍を有限な支持と2次元格子の相対的位置に基づく一様対の相互作用で推定する問題を考察する。 ベイジアンフレームワークを用いて,最大範囲近傍の部分集合に飛び乗る可逆ジャンプモンテカルロマルコフ連鎖アルゴリズムを提案する。

We consider the problem of estimating the interacting neighborhood of a Markov Random Field model with finite support and homogeneous pairwise interactions based on relative positions of a two-dimensional lattice. Using a Bayesian framework, we propose a Reversible Jump Monte Carlo Markov Chain algorithm that jumps across subsets of a maximal range neighborhood, allowing us to perform model selection based on a marginal pseudoposterior distribution of models.
翻訳日:2022-04-13 14:43:02 公開日:2022-04-12
# CorrectSpeech: 音声訂正とアクセント低減のための完全自動化システム

CorrectSpeech: A Fully Automated System for Speech Correction and Accent Reduction ( http://arxiv.org/abs/2204.05460v1 )

ライセンス: Link先を確認
Daxin Tan, Liqun Deng, Nianzu Zheng, Yu Ting Yeung, Xin Jiang, Xiao Chen, Tan Lee(参考訳) 本研究は,テキストベースの音声編集に関する先行研究を拡張し,完全に自動化された音声補正・アクセント低減システムを開発した。 録音された音声音声が、修正が必要な不適切な単語、誤認識などの特定のエラーを含むアプリケーションシナリオを考える。 提案システムはCorrectSpeechと名づけられた3つのステップで修正を行い、記録された音声を認識してタイムスタンプのシンボルシーケンスに変換し、認識されたシンボルシーケンスをターゲットテキストに整列させ、必要な編集操作の場所や種類を判定し、修正された音声を生成する。 実験により,修正音声の品質と自然性は,音声認識およびアライメントモジュールの性能と,編集操作の粒度レベルに依存することが示された。 提案システムはVCTKとL2-ARCTICの2つのコーパスを用いて評価した。 その結果,本システムは音声録音の誤りを訂正し,アクセントを低減できることがわかった。 オーディオサンプルは、デモ https://daxintan-cuhk.github.io/CorrectSpeech/.comで公開されている。

This study extends our previous work on text-based speech editing to developing a fully automated system for speech correction and accent reduction. Consider the application scenario that a recorded speech audio contains certain errors, e.g., inappropriate words, mispronunciations, that need to be corrected. The proposed system, named CorrectSpeech, performs the correction in three steps: recognizing the recorded speech and converting it into time-stamped symbol sequence, aligning recognized symbol sequence with target text to determine locations and types of required edit operations, and generating the corrected speech. Experiments show that the quality and naturalness of corrected speech depend on the performance of speech recognition and alignment modules, as well as the granularity level of editing operations. The proposed system is evaluated on two corpora: a manually perturbed version of VCTK and L2-ARCTIC. The results demonstrate that our system is able to correct mispronunciation and reduce accent in speech recordings. Audio samples are available online for demonstration https://daxintan-cuhk.github.io/CorrectSpeech/ .
翻訳日:2022-04-13 14:42:55 公開日:2022-04-12
# 深層学習とトレーニングデータを用いた3次元脳MRIにおける教師なし異常検出

Unsupervised Anomaly Detection in 3D Brain MRI using Deep Learning with impured training data ( http://arxiv.org/abs/2204.05778v1 )

ライセンス: Link先を確認
Finn Behrendt, Marcel Bengs, Frederik Rogge, Julia Kr\"uger, Roland Opfer, Alexander Schlaefer(参考訳) 磁気共鳴イメージング(MRI)によるヒト脳の病変の検出は、依然として困難であり、時間を要する。 近年, 教師なし異常検出 (UAD) 手法は, この課題に対して有望な結果を示した。 これらの方法は、健康なサンプルのみを含むトレーニングデータセットに依存している。 教師付きアプローチと比較して、これは大量のラベル付きトレーニングデータの必要性を大幅に削減する。 しかし、データラベリングはエラーを起こしやすい。 トレーニングデータ中の不健康なサンプルが脳MRIスキャンの異常検出性能に与える影響について検討した。 評価では,3つの公開データセットとオートエンコーダ(AE)を,UDAの確立されたベースライン手法として利用する。 t1強調mri-scansのトレーニングセットに不健康なサンプルを多量に注入し,不健康なトレーニングデータの効果を体系的に評価した。 AEの再構成誤差に基づいて,トレーニング中に誤ラベル付きサンプルを直接識別する手法の評価を行った。 以上の結果から,有意なラベル付きサンプルが少なくても,不正なデータによるトレーニングがUAD性能を低下させることが明らかとなった。 再構成損失に基づいてトレーニング中に直接外乱除去を行うことにより、偽ラベル付きデータを検出・除去し、偽ラベル付きデータの効果を軽減できることを示す。 全体として、脳MRIにおけるUDAのためのクリーンデータセットの重要性を強調し、トレーニング中に誤ラベル付きデータを直接検出するためのアプローチを示す。

The detection of lesions in magnetic resonance imaging (MRI)-scans of human brains remains challenging, time-consuming and error-prone. Recently, unsupervised anomaly detection (UAD) methods have shown promising results for this task. These methods rely on training data sets that solely contain healthy samples. Compared to supervised approaches, this significantly reduces the need for an extensive amount of labeled training data. However, data labelling remains error-prone. We study how unhealthy samples within the training data affect anomaly detection performance for brain MRI-scans. For our evaluations, we consider three publicly available data sets and use autoencoders (AE) as a well-established baseline method for UAD. We systematically evaluate the effect of impured training data by injecting different quantities of unhealthy samples to our training set of healthy samples from T1-weighted MRI-scans. We evaluate a method to identify falsely labeled samples directly during training based on the reconstruction error of the AE. Our results show that training with impured data decreases the UAD performance notably even with few falsely labeled samples. By performing outlier removal directly during training based on the reconstruction-loss, we demonstrate that falsely labeled data can be detected and removed to mitigate the effect of falsely labeled data. Overall, we highlight the importance of clean data sets for UAD in brain MRI and demonstrate an approach for detecting falsely labeled data directly during training.
翻訳日:2022-04-13 14:40:37 公開日:2022-04-12
# EVOPSベンチマーク:RGBDとLiDARデータからの平面分割の評価

EVOPS Benchmark: Evaluation of Plane Segmentation from RGBD and LiDAR Data ( http://arxiv.org/abs/2204.05799v1 )

ライセンス: Link先を確認
Anastasiia Kornilova, Dmitrii Iarosh, Denis Kukushkin, Nikolai Goncharov, Pavel Mokeev, Arthur Saliou, Gonzalo Ferrer(参考訳) 本稿では、RGBD画像とLiDAR点雲(PC)から3次元データから平面セグメンテーションを行うためのEVOPSデータセットを提供する。 我々は、よく知られた、広く使われているデータセット上で動作する2つのアノテーション方法論(RGBDとLiDAR)を設計し、ポイント、プレーン、セグメンテーションメトリクスを含むベンチマークツールの完全なセットを提供した。 データには、10kのRGBDと7KのLiDARフレームが含まれている。 実験では,rgbd平面セグメンテーションにおけるsoma法の品質について報告する。 ラベル付きデータとベンチマークツールはすべて公開されています。

This paper provides the EVOPS dataset for plane segmentation from 3D data, both from RGBD images and LiDAR point clouds (PC). We have designed two annotation methodologies (RGBD and LiDAR) running on well-known and widely-used datasets and we have provided a complete set of benchmarking tools including point, planes and segmentation metrics. The data includes a total number of 10k RGBD and 7K LiDAR frames over different selected scenes which consist of high quality segmented planes. The experiments report quality of SOTA methods for RGBD plane segmentation on our annotated data. All labeled data and benchmark tools used have been made publicly available.
翻訳日:2022-04-13 14:40:15 公開日:2022-04-12
# DCMS:Dual ConsistencyとMulti-Pseudo-Target Supervisionを用いたモーション予測

DCMS: Motion Forecasting with Dual Consistency and Multi-Pseudo-Target Supervision ( http://arxiv.org/abs/2204.05859v1 )

ライセンス: Link先を確認
Maosheng Ye, Jiamiao Xu, Xunnong Xu, Tongyi Cao, Qifeng Chen(参考訳) 本稿では,デュアル一貫性制約とマルチ擬似目標監視を用いた動き予測手法を提案する。 動作予測タスクは、過去の空間的および時間的情報を組み込むことで、車両の将来の軌道を予測する。 dcmsの鍵となる設計は、トレーニング段階での空間的および時間的摂動の下で予測された軌道を規則化する双対一貫性制約である。 さらに,複数の目標,すなわちマルチ・プセド・ターゲット・スーパーバイザリングを用いて,動作予測におけるマルチモダリティをモデル化するために,正確な疑似目標を得るための新しい自己センシングスキームを考案する。 Argoverse運動予測ベンチマークの実験結果から,DCMSは最先端の手法よりも優れ,リーダーボード上では1位となった。 また,提案手法は,他の動き予測手法にも適用可能であることを実証した。

We present a novel framework for motion forecasting with Dual Consistency Constraints and Multi-Pseudo-Target supervision. The motion forecasting task predicts future trajectories of vehicles by incorporating spatial and temporal information from the past. A key design of DCMS is the proposed Dual Consistency Constraints that regularize the predicted trajectories under spatial and temporal perturbation during the training stage. In addition, we design a novel self-ensembling scheme to obtain accurate pseudo targets to model the multi-modality in motion forecasting through supervision with multiple targets explicitly, namely Multi-Pseudo-Target supervision. Our experimental results on the Argoverse motion forecasting benchmark show that DCMS significantly outperforms the state-of-the-art methods, achieving 1st place on the leaderboard. We also demonstrate that our proposed strategies can be incorporated into other motion forecasting approaches as general training schemes.
翻訳日:2022-04-13 14:40:04 公開日:2022-04-12
# イベントカメラを用いた惑星ロボットのオドメトリー

Exploring Event Camera-based Odometry for Planetary Robots ( http://arxiv.org/abs/2204.05880v1 )

ライセンス: Link先を確認
Florian Mahlknecht, Daniel Gehrig, Jeremy Nash, Friedrich M. Rockenbauer, Benjamin Morrell, Jeff Delaune, Davide Scaramuzza(参考訳) 低照度および高ダイナミックレンジ条件下では、動きのぼやけや高ロバスト性に耐性があるため、イベントカメラは将来の火星のヘリコプターミッションで視覚に基づく探査を可能にするセンサーとなる可能性がある。 しかし、既存のイベントベースの視覚慣性オドメトリ (vio) アルゴリズムは、予測不能なトラッキングや他の影響によるかなりの深さの不確実性に対処できないため、高いトラッキングエラーまたは不安定である。 本研究では,最先端のイベントベースフロントエンドとフィルタベースのバックエンドを組み合わせたEKLT-VIOを提案する。 これにより、不確実性に対して正確かつ堅牢であり、挑戦的なベンチマークでイベントベースのVIOアルゴリズムとフレームベースのVIOアルゴリズムを32%上回る。 さらに,ホバリングのような条件(既存のイベントベース手法よりも優れている)と,既存のフレームベース手法が失敗する火星系および高ダイナミックレンジ系における高いロバスト性を示す。 これによって、イベントベースのVIOが、火星でのビジョンベースの探査の先駆けとなることが示される。

Due to their resilience to motion blur and high robustness in low-light and high dynamic range conditions, event cameras are poised to become enabling sensors for vision-based exploration on future Mars helicopter missions. However, existing event-based visual-inertial odometry (VIO) algorithms either suffer from high tracking errors or are brittle, since they cannot cope with significant depth uncertainties caused by an unforeseen loss of tracking or other effects. In this work, we introduce EKLT-VIO, which addresses both limitations by combining a state-of-the-art event-based frontend with a filter-based backend. This makes it both accurate and robust to uncertainties, outperforming event- and frame-based VIO algorithms on challenging benchmarks by 32%. In addition, we demonstrate accurate performance in hover-like conditions (outperforming existing event-based methods) as well as high robustness in newly collected Mars-like and high-dynamic-range sequences, where existing frame-based methods fail. In doing so, we show that event-based VIO is the way forward for vision-based exploration on Mars.
翻訳日:2022-04-13 14:39:46 公開日:2022-04-12
# データ中毒に対する機械学習のセキュリティ:まだあるのか?

Machine Learning Security against Data Poisoning: Are We There Yet? ( http://arxiv.org/abs/2204.05986v1 )

ライセンス: Link先を確認
Antonio Emanuele Cin\`a, Kathrin Grosse, Ambra Demontis, Battista Biggio, Fabio Roli, and Marcello Pelillo(参考訳) 最近の機械学習の成功は、多くの異なるアプリケーションで計算能力と大量のデータの可用性が増すことに拍車をかけた。 しかし、そのようなデータを不正に操作して学習プロセスを誤解させると、結果モデルの信頼性が損なわれる可能性がある。 本稿では,機械学習モデルの学習に使用されるトレーニングデータを損なう毒殺攻撃について,総合的な性能低下を目的とした攻撃,特定のテストサンプルの予測の操作,さらにはモデルにバックドアを埋め込む攻撃について概説する。 次に,モデルトレーニングの前後において,これらの攻撃を軽減する方法について論じる。 本稿では、データ中毒攻撃に対する機械学習モデルの信頼性評価と改善に適したテスト方法やベンチマークの開発を妨げる、関連するオープンな課題を定式化する。

The recent success of machine learning has been fueled by the increasing availability of computing power and large amounts of data in many different applications. However, the trustworthiness of the resulting models can be compromised when such data is maliciously manipulated to mislead the learning process. In this article, we first review poisoning attacks that compromise the training data used to learn machine-learning models, including attacks that aim to reduce the overall performance, manipulate the predictions on specific test samples, and even implant backdoors in the model. We then discuss how to mitigate these attacks before, during, and after model training. We conclude our article by formulating some relevant open challenges which are hindering the development of testing methods and benchmarks suitable for assessing and improving the trustworthiness of machine-learning models against data poisoning attacks.
翻訳日:2022-04-13 14:39:27 公開日:2022-04-12
# malceiver: androidマルウェア検出のための階層的およびマルチモーダル機能を備えたperceiver

Malceiver: Perceiver with Hierarchical and Multi-modal Features for Android Malware Detection ( http://arxiv.org/abs/2204.05994v1 )

ライセンス: Link先を確認
Niall McLaughlin(参考訳) マルチモーダル機能を利用したAndroidマルウェア検出のための階層型PerceiverモデルであるMalceiverを提案する。 主な入力は、android apkファイルのopcodeシーケンスと要求されたパーミッションである。 マルウェア分類決定に到達するために、オプコードシーケンスから抽出された階層的特徴と要求された許可とを組み合わせる。 このモデルのアーキテクチャは、非常に長いopcodeシーケンスを効率的に処理できるperceiver/perceiverioに基づいている。 提案モデルはマルチモーダル機能に容易に拡張できる。 本モデルは,Opcode シーケンスに基づくマルウェア検出において,従来の CNN アーキテクチャよりも優れていることを示す。 そして、追加のモダリティを使用することでパフォーマンスが向上することを示す。 提案するアーキテクチャは,マルウェア研究におけるトランスフォーマー型ネットワークの利用に新たな道を開く。

We propose the Malceiver, a hierarchical Perceiver model for Android malware detection that makes use of multi-modal features. The primary inputs are the opcode sequence and the requested permissions of a given Android APK file. To reach a malware classification decision the model combines hierarchical features extracted from the opcode sequence together with the requested permissions. The model's architecture is based on the Perceiver/PerceiverIO which allows for very long opcode sequences to be processed efficiently. Our proposed model can be easily extended to use multi-modal features. We show experimentally that this model outperforms a conventional CNN architecture for opcode sequence based malware detection. We then show that using additional modalities improves performance. Our proposed architecture opens new avenues for the use of Transformer-style networks in malware research.
翻訳日:2022-04-13 14:39:13 公開日:2022-04-12
# ハイパーグラフにおけるハイパーエッジと重複コミュニティの原理推論

Principled inference of hyperedges and overlapping communities in hypergraphs ( http://arxiv.org/abs/2204.05646v1 )

ライセンス: Link先を確認
Martina Contisciani, Federico Battiston, Caterina De Bacco(参考訳) ハイパーグラフは、様々なシステムユニット間で構造化された相互作用を符号化し、多くの現実世界の生物学的および社会的ネットワークを記述するのに成功している。 本稿では,ハイパーグラフの構造構造を特徴付ける統計的推論に基づく枠組みを提案する。 この方法では、任意の大きさの欠落したハイパーエッジを原則的に推測し、高次相互作用の存在下で重なり合うコミュニティを共同で検出することができる。 さらに,本モデルでは,高次データから投影されるペアワイドレコード上で,動的アルゴリズムよりも高速に動作可能である。 提案手法を実世界の様々なシステムに適用し,ハイパーエッジ予測タスクの強い性能,インタラクションによってもたらされる情報に順応したコミュニティの検出,ノイズの多いハイパーエッジの追加に対する堅牢性を示す。 提案手法は,高次相互作用を持つ関係系をモデル化する際のハイパーグラフ確率モデルの基本的利点を示す。

Hypergraphs, encoding structured interactions among any number of system units, have recently proven a successful tool to describe many real-world biological and social networks. Here we propose a framework based on statistical inference to characterize the structural organization of hypergraphs. The method allows to infer missing hyperedges of any size in a principled way, and to jointly detect overlapping communities in presence of higher-order interactions. Furthermore, our model has an efficient numerical implementation, and it runs faster than dyadic algorithms on pairwise records projected from higher-order data. We apply our method to a variety of real-world systems, showing strong performance in hyperedge prediction tasks, detecting communities well aligned with the information carried by interactions, and robustness against addition of noisy hyperedges. Our approach illustrates the fundamental advantages of a hypergraph probabilistic model when modeling relational systems with higher-order interactions.
翻訳日:2022-04-13 14:38:42 公開日:2022-04-12
# シンボル実行とグラフカーネルによるマルウェア解析

Malware Analysis with Symbolic Execution and Graph Kernel ( http://arxiv.org/abs/2204.05632v1 )

ライセンス: Link先を確認
Charles-Henry Bertrand Van Ouytsel and Axel Legay(参考訳) マルウェア解析技術は静的解析と動的解析に分けられる。 どちらの手法も難読化のような回避技術によってバイパスすることができる。 著者らは一連の研究で、このようなトラップを避けるために、機械学習と組み合わせたシンボル実行の使用を奨励している。 これらのほとんどは、自然グラフベースの表現に依存しており、gspanのようなグラフベースの学習アルゴリズムにプラグインすることができる。 このアプローチには2つの大きな問題があります。 1つ目は、グラフを計算するコストです。 実際、グラフを扱うには、分析中のファイルの状態空間全体を計算して表現する必要がある。 このような計算は面倒すぎるため、その手法は行動の代表的な部分グラフを計算するための戦略の開発にしばしば依存する。 残念ながら、効率的なグラフ構築戦略はいまだに弱い。 第二の問題は分類そのものである。 グラフベースの機械学習アルゴリズムは、最大の共通構造の比較に依存する。 これはマルウェアシグネチャの小さいが特定の部分を横取りする。 また,ベクトルマシンのサポートなど,効率的なアルゴリズムの開発も不可能である。 機械学習に基づく分類のためのオープンソースのツールチェーンを提案する。 また、このプロセスでグラフカーネル技術をどのように利用できるかについても検討する。 グラフ間の局所的な類似性を捉えることができる1次元Weisfeiler-Lehmanカーネルに焦点を当てる。 実験結果から,本手法は既存手法よりも優れた性能を示した。

Malware analysis techniques are divided into static and dynamic analysis. Both techniques can be bypassed by circumvention techniques such as obfuscation. In a series of works, the authors have promoted the use of symbolic executions combined with machine learning to avoid such traps. Most of those works rely on natural graph-based representations that can then be plugged into graph-based learning algorithms such as Gspan. There are two main problems with this approach. The first one is in the cost of computing the graph. Indeed, working with graphs requires one to compute and representing the entire state-space of the file under analysis. As such computation is too cumbersome, the techniques often rely on developing strategies to compute a representative subgraph of the behaviors. Unfortunately, efficient graph-building strategies remain weakly explored. The second problem is in the classification itself. Graph-based machine learning algorithms rely on comparing the biggest common structures. This sidelines small but specific parts of the malware signature. In addition, it does not allow us to work with efficient algorithms such as support vector machine. We propose a new efficient open source toolchain for machine learning-based classification. We also explore how graph-kernel techniques can be used in the process. We focus on the 1-dimensional Weisfeiler-Lehman kernel, which can capture local similarities between graphs. Our experimental results show that our approach outperforms existing ones by an impressive factor.
翻訳日:2022-04-13 14:37:07 公開日:2022-04-12
# 階層的特徴空間に対する木強化ナイーブベイズ分類器を優先した正の特徴値

Positive Feature Values Prioritized Hierarchical Redundancy Eliminated Tree Augmented Naive Bayes Classifier for Hierarchical Feature Spaces ( http://arxiv.org/abs/2204.05668v1 )

ライセンス: Link先を確認
Cen Wan(参考訳) HRE-TAN(Hierarchical Redundancy Eliminateed Tree Augmented Naive Bayes)分類器は、階層的冗長性のない木のような特徴表現を学習し、データ分布を推定する半裸ベイズモデルである。 本研究では,2種類の正の特徴値が優先される階層的冗長性を優先し,正のインスタンス値を持つ特徴に焦点をあてた木強化ナイーブ型ベイズ分類器を提案する。 提案手法は,従来のHRE-TAN分類器よりも優れた予測性能を示す28の実世界のバイオインフォマティクスデータセットに適用した。

The Hierarchical Redundancy Eliminated Tree Augmented Naive Bayes (HRE-TAN) classifier is a semi-naive Bayesian model that learns a type of hierarchical redundancy-free tree-like feature representation to estimate the data distribution. In this work, we propose two new types of positive feature values prioritized hierarchical redundancy eliminated tree augmented naive Bayes classifiers that focus on features bearing positive instance values. The two newly proposed methods are applied to 28 real-world bioinformatics datasets showing better predictive performance than the conventional HRE-TAN classifier.
翻訳日:2022-04-13 14:36:52 公開日:2022-04-12
# マルチエージェント強化学習によるコミュニケーション学習のための離散化手法の解析

An Analysis of Discretization Methods for Communication Learning with Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2204.05669v1 )

ライセンス: Link先を確認
Astrid Vanneste, Simon Vanneste, Kevin Mets, Tom De Schepper, Siegfried Mercelis, Steven Latr\'e, Peter Hellinckx(参考訳) エージェントが環境の完全な状態を観察できない場合、マルチエージェント強化学習ではコミュニケーションが不可欠である。 エージェント間の学習的なコミュニケーションを可能にする最も一般的なアプローチは、フィードバックの形式としてエージェント間の勾配を流すことができる、微分可能なコミュニケーションチャネルの使用である。 しかし、勾配が離散的な通信チャネルを流れることができないため、メッセージサイズを小さくするために離散メッセージを使用する場合、これは困難である。 以前の研究ではこの問題に対処する方法を提案していた。 しかし、これらの手法は異なるコミュニケーション学習アーキテクチャと環境でテストされており、比較が困難である。 本稿では,従来のコミュニケーション学習に使用されていない2つの手法と,最先端の離散化手法を比較した。 この比較は、他のエージェントからの勾配を用いたコミュニケーション学習の文脈で行い、複数の環境でテストを実行する。 その結果,どの手法もすべての環境において最適ではないことがわかった。 離散化法の最良の選択は、環境に大きく依存する。 しかし、離散正則化ユニット(DRU)は、DRUを直進し、ガムベルソフトマックスを直進し、全てのテスト環境において最も一貫した結果を示す。 したがって、これらの手法は一般的な用途に最適であり、ストレートスルー推定器とガムベルソフトマックスは特定の環境でより良い結果をもたらすが、他の環境では完全に失敗する可能性がある。

Communication is crucial in multi-agent reinforcement learning when agents are not able to observe the full state of the environment. The most common approach to allow learned communication between agents is the use of a differentiable communication channel that allows gradients to flow between agents as a form of feedback. However, this is challenging when we want to use discrete messages to reduce the message size since gradients cannot flow through a discrete communication channel. Previous work proposed methods to deal with this problem. However, these methods are tested in different communication learning architectures and environments, making it hard to compare them. In this paper, we compare several state-of-the-art discretization methods as well as two methods that have not been used for communication learning before. We do this comparison in the context of communication learning using gradients from other agents and perform tests on several environments. Our results show that none of the methods is best in all environments. The best choice in discretization method greatly depends on the environment. However, the discretize regularize unit (DRU), straight through DRU and the straight through gumbel softmax show the most consistent results across all the tested environments. Therefore, these methods prove to be the best choice for general use while the straight through estimator and the gumbel softmax may provide better results in specific environments but fail completely in others.
翻訳日:2022-04-13 14:36:40 公開日:2022-04-12
# 動的気候影響モデルのためのサロゲートアンサンブル予測

Surrogate Ensemble Forecasting for Dynamic Climate Impact Models ( http://arxiv.org/abs/2204.05795v1 )

ライセンス: Link先を確認
Julian Kuehnert (1), Deborah McGlynn (1 and 2), Sekou L. Remy (1), Aisha Walcott-Bryant (1), Anne Jones (3) ((1) IBM Research Africa, (2) Virginia Tech, (3) IBM Research Europe)(参考訳) 気候変動が気象や気候変動に影響を及ぼすにつれて、影響の予測を導出できる堅牢な気候影響モデル予測への需要が高まっている。 これらの予測の質は、自然界において非線形で非常に可変な影響モデルに対する気候要因によって制限される。 モデルドライバの不確実性を推定する1つの方法は、気候予測のアンサンブルの分布を評価することである。 入力気候予測の分布に関連するインパクトモデル出力の不確かさを捉えるためには、個々の予測アンサンブルメンバーを、計算コストの高い物理モデルを介して伝播させる必要がある。 したがって、気候ドライバのアンサンブルにおける出力分布の不確かさを予測できるサロゲートモデルの訓練が望ましいため、資源需要の削減が望まれる。 本研究は, マラリア感染係数R0を予測するリバプールマラリアモデル(LMM)について考察した。 6ヶ月の地平線による気温と降水量の季節的予測は,送信時系列の分布を予測し,モデルを通して伝播する。 入力および出力データは、ランダムフォレスト量子回帰(RFQR)モデルとベイズ長短期記憶(BLSTM)ニューラルネットワークの形式で代理モデルをトレーニングするために使用される。 予測性能と比較すると、RFQRは個々のアンサンブルメンバーの時系列をより正確に予測し、BLSTMはすべてのアンサンブルメンバーの同時分布を構築する直接的な方法を提供する。 提案手法の重要な要素は、気候予測アンサンブルの非正規分布の計算をベイズ式によって自然に捉えることができることである。

As acute climate change impacts weather and climate variability, there is increased demand for robust climate impact model predictions from which forecasts of the impacts can be derived. The quality of those predictions are limited by the climate drivers for the impact models which are nonlinear and highly variable in nature. One way to estimate the uncertainty of the model drivers is to assess the distribution of ensembles of climate forecasts. To capture the uncertainty in the impact model outputs associated with the distribution of the input climate forecasts, each individual forecast ensemble member has to be propagated through the physical model which can imply high computational costs. It is therefore desirable to train a surrogate model which allows predictions of the uncertainties of the output distribution in ensembles of climate drivers, thus reducing resource demands. This study considers a climate driven disease model, the Liverpool Malaria Model (LMM), which predicts the malaria transmission coefficient R0. Seasonal ensembles forecasts of temperature and precipitation with a 6-month horizon are propagated through the model, predicting the distribution of transmission time series. The input and output data is used to train surrogate models in the form of a Random Forest Quantile Regression (RFQR) model and a Bayesian Long Short-Term Memory (BLSTM) neural network. Comparing the predictive performance, the RFQR better predicts the time series of the individual ensemble member, while the BLSTM offers a direct way to construct a combined distribution for all ensemble members. An important element of the proposed methodology is that accounting for non-normal distributions of climate forecast ensembles can be captured naturally by a Bayesian formulation.
翻訳日:2022-04-13 14:34:28 公開日:2022-04-12
# 材料最適化と発見のためのアクティブラーニング戦略のベンチマーク

Benchmarking Active Learning Strategies for Materials Optimization and Discovery ( http://arxiv.org/abs/2204.05838v1 )

ライセンス: Link先を確認
Alex Wang, Haotong Liang, Austin McDannald, Ichiro Takeuchi, A. Gilad Kusne(参考訳) 自律物理科学は物質科学に革命をもたらす。 これらのシステムでは、機械学習は実験の設計、実行、分析を閉じたループで制御する。 最適な実験設計の機械学習分野であるアクティブラーニングは、各実験を選択し、ユーザ目標に向けた知識を最大化する。 自律システムの性能は、帰納的バイアスエンジニアリング人工知能(inductive bias-engineered intelligence)としても知られる科学機械学習の実装によってさらに改善され、物理法則(例えばギブス位相規則)の事前の知識をアルゴリズムに折り畳むことができる。 アクティブな学習戦略の数、多様性、利用が増加するにつれ、実世界の参照データセットがベンチマーク戦略として必要となる。 参照データセットを提示し、様々な獲得関数の形式で能動的学習戦略のベンチマークを行う。 アクティブラーニング戦略は、三元系において最適な物理特性を持つ材料を迅速に識別するために用いられる。 データは実際のFe-Co-Ni薄膜ライブラリから取得され、材料組成、X線回折パターン、磁気保磁力とカー回転の2つの機能特性の実験データを含む。 一般的なアクティブラーニング手法と最近の科学的なアクティブラーニング手法は,材料最適化性能のベンチマークを行う。 本稿では,アルゴリズムの性能,材料探索空間の複雑さ,事前知識の導入との関係について論じる。

Autonomous physical science is revolutionizing materials science. In these systems, machine learning controls experiment design, execution, and analysis in a closed loop. Active learning, the machine learning field of optimal experiment design, selects each subsequent experiment to maximize knowledge toward the user goal. Autonomous system performance can be further improved with implementation of scientific machine learning, also known as inductive bias-engineered artificial intelligence, which folds prior knowledge of physical laws (e.g., Gibbs phase rule) into the algorithm. As the number, diversity, and uses for active learning strategies grow, there is an associated growing necessity for real-world reference datasets to benchmark strategies. We present a reference dataset and demonstrate its use to benchmark active learning strategies in the form of various acquisition functions. Active learning strategies are used to rapidly identify materials with optimal physical properties within a ternary materials system. The data is from an actual Fe-Co-Ni thin-film library and includes previously acquired experimental data for materials compositions, X-ray diffraction patterns, and two functional properties of magnetic coercivity and the Kerr rotation. Popular active learning methods along with a recent scientific active learning method are benchmarked for their materials optimization performance. We discuss the relationship between algorithm performance, materials search space complexity, and the incorporation of prior knowledge.
翻訳日:2022-04-13 14:34:01 公開日:2022-04-12
# MITのスーパークラウドワークロード分類チャレンジ

The MIT Supercloud Workload Classification Challenge ( http://arxiv.org/abs/2204.05839v1 )

ライセンス: Link先を確認
Benny J. Tang, Qiqi Chen, Matthew L. Weiss, Nathan Frey, Joseph McDonald, David Bestor, Charles Yee, William Arcand, Chansup Byun, Daniel Edelman, Matthew Hubbell, Michael Jones, Jeremy Kepner, Anna Klein, Adam Michaleas, Peter Michaleas, Lauren Milechin, Julia Mullen, Andrew Prout, Albert Reuther, Antonio Rosa, Andrew Bowne, Lindsey McEvoy, Baolin Li, Devesh Tiwari, Vijay Gadepally, Siddharth Samsi(参考訳) ハイパフォーマンスコンピューティング(HPC)センターとクラウドプロバイダは、異種ハードウェア上でますます多様なアプリケーションの集合をサポートする。 人工知能(AI)と機械学習(ML)のワークロードが計算ワークロードのシェアを拡大するにつれ、リソースの最適化、アロケーション、新しいAIフレームワークのデプロイに対する新たなアプローチが求められている。 計算ワークロードとその利用特性を識別することで、hpcシステムは利用可能なリソースとアプリケーション要求をよりよく一致させることができる。 データセンタインスツルメンテーションを活用することで、ワークロードを特定し、運用効率を改善するために研究者やデータセンタオペレータにフィードバックを提供するaiベースのアプローチを開発することが可能になる。 この研究を可能にするために、我々はmit supercloudクラスタからの詳細な監視ログを提供するmit supercloudデータセットをリリースした。 このデータセットには、ジョブ、メモリ使用量、ファイルシステムログによるcpuとgpuの利用が含まれている。 本稿では,このデータセットに基づくワークロード分類の課題について述べる。 ワークロード分類の新しいアプローチの開発や,既存のアプローチに基づいた初期結果の提示に使用可能なラベル付きデータセットを導入する。 この課題の目標は、既存の方法よりも高い精度を達成できる計算ワークロードの分析において、アルゴリズムによるイノベーションを促進することである。 データとコードは、Datacenter ChallengeのWebサイト(https://dcc.mit.edu.com)から公開される。

High-Performance Computing (HPC) centers and cloud providers support an increasingly diverse set of applications on heterogenous hardware. As Artificial Intelligence (AI) and Machine Learning (ML) workloads have become an increasingly larger share of the compute workloads, new approaches to optimized resource usage, allocation, and deployment of new AI frameworks are needed. By identifying compute workloads and their utilization characteristics, HPC systems may be able to better match available resources with the application demand. By leveraging datacenter instrumentation, it may be possible to develop AI-based approaches that can identify workloads and provide feedback to researchers and datacenter operators for improving operational efficiency. To enable this research, we released the MIT Supercloud Dataset, which provides detailed monitoring logs from the MIT Supercloud cluster. This dataset includes CPU and GPU usage by jobs, memory usage, and file system logs. In this paper, we present a workload classification challenge based on this dataset. We introduce a labelled dataset that can be used to develop new approaches to workload classification and present initial results based on existing approaches. The goal of this challenge is to foster algorithmic innovations in the analysis of compute workloads that can achieve higher accuracy than existing methods. Data and code will be made publicly available via the Datacenter Challenge website : https://dcc.mit.edu.
翻訳日:2022-04-13 14:33:38 公開日:2022-04-12
# タスクベース評価によるデモからパフォーマンスグラフを学ぶ

Learning Performance Graphs from Demonstrations via Task-Based Evaluations ( http://arxiv.org/abs/2204.05909v1 )

ライセンス: Link先を確認
Aniruddh G. Puranic, Jyotirmoy V. Deshmukh and Stefanos Nikolaidis(参考訳) learning from demonstration (lfd)パラダイムでは、デモされた行動の理解と評価がロボットの制御ポリシーの抽出に重要な役割を果たしている。 この知識がなければ、ロボットは不適切な報酬関数を推測し、望ましくないあるいは安全でない制御ポリシーにつながる。 最近の研究は、ユーザーが報酬形成の課題に取り組むために、LfDをガイドする正式なタスク仕様セットを提供するLfDフレームワークを提案している。 しかしながら、このフレームワークでは、仕様はパフォーマンスグラフ(仕様間の相対的な重要性を規定する部分順序)で手動で順序付けされる。 本研究の主な貢献は,ユーザが提供する実演から演奏グラフを直接学習するアルゴリズムであり,学習した演奏グラフから得られる報酬関数が,手動で指定した演奏グラフと類似したポリシーを生成することを示す。 シミュレーションされた高速道路走行領域におけるユーザの行動の優先順位が,自動推定性能グラフと一致することを示す。 これは、専門家の基準なしに、タスク仕様に関するユーザデモを正確に評価できることを示す。

In the learning from demonstration (LfD) paradigm, understanding and evaluating the demonstrated behaviors plays a critical role in extracting control policies for robots. Without this knowledge, a robot may infer incorrect reward functions that lead to undesirable or unsafe control policies. Recent work has proposed an LfD framework where a user provides a set of formal task specifications to guide LfD, to address the challenge of reward shaping. However, in this framework, specifications are manually ordered in a performance graph (a partial order that specifies relative importance between the specifications). The main contribution of this paper is an algorithm to learn the performance graph directly from the user-provided demonstrations, and show that the reward functions generated using the learned performance graph generate similar policies to those from manually specified performance graphs. We perform a user study that shows that priorities specified by users on behaviors in a simulated highway driving domain match the automatically inferred performance graph. This establishes that we can accurately evaluate user demonstrations with respect to task specifications without expert criteria.
翻訳日:2022-04-13 14:33:17 公開日:2022-04-12
# 大域最適化のための代数収束確率勾配降下アルゴリズム

An Algebraically Converging Stochastic Gradient Descent Algorithm for Global Optimization ( http://arxiv.org/abs/2204.05923v1 )

ライセンス: Link先を確認
Bj\"orn Engquist, Kui Ren and Yunan Yang(参考訳) 本稿では,非凸最適化問題の大域的オプティマイザを求めるための新しい確率的勾配降下アルゴリズムを提案する。 アルゴリズムの主要な構成要素は、目的関数の値に基づいてランダム性の適応的なチューニングである。 模擬アニーリングの言語では、温度は状態に依存している。 これにより、確率空間とパラメータ空間の両方において代数的速度で大域収束を証明できる。 これは、ノイズ項のより単純な制御を使用することによる古典的な速度に対する大きな改善である。 収束証明はアルゴリズムの実際の離散的な設定に基づいている。 また,大域収束アルゴリズムの効率性とロバスト性を示す数値例をいくつか提示する。

We propose a new stochastic gradient descent algorithm for finding the global optimizer of nonconvex optimization problems, referred to here as "AdaVar". A key component in the algorithm is the adaptive tuning of the randomness based on the value of the objective function. In the language of simulated annealing, the temperature is state-dependent. With this, we can prove global convergence with an algebraic rate both in probability and in the parameter space. This is a major improvement over the classical rate from using a simpler control of the noise term. The convergence proof is based on the actual discrete setup of the algorithm. We also present several numerical examples demonstrating the efficiency and robustness of the algorithm for global convergence.
翻訳日:2022-04-13 14:33:00 公開日:2022-04-12
# S-DABT:オープンソースのバグ追跡システムにおけるスケジュールと依存性を考慮したバグトリアージ

S-DABT: Schedule and Dependency-Aware Bug Triage in Open-Source Bug Tracking Systems ( http://arxiv.org/abs/2204.05972v1 )

ライセンス: Link先を確認
Hadi Jahanshahi, Mucahit Cevik(参考訳) バグをタイムリーに修正することで、ソフトウェアメンテナンスの潜在的なコストを低減します。 しかし、手動のバグ修正スケジュールは時間がかかり、面倒で、エラーが発生しやすい。 本稿では,s-dabt(schedul and dependency-aware bug triage)を提案する。s-dabtは,整数プログラミングと機械学習技術を用いて適切な開発者にバグを割り当てるバグトリージング手法である。 バグレポートの単一コンポーネントに主にフォーカスする以前の作業とは異なり、私たちのアプローチでは、テキストデータ、バグ修正コスト、バグ依存関係を考慮に入れています。 さらに、この多面的な問題に対してより包括的なモデルを構築するために、開発者のスケジュールを定式化に組み込んでいます。 結果として、この完全な定式化は、これまで提案されたメソッドの最も重要な側面をカバーしながら、開発者のスケジュールとバグのブロック効果を考察する。 EclipseJDT、LibreOffice、GCC、Mozillaの4つのオープンソースソフトウェアシステムに関する数値研究は、開発者のスケジュールを考慮すると、平均的なバグ修正時間が減少することを示している。 S-DABTは、開発者間のタスクの公平な分配と、スケジュールにおけるフリースポットの効率的な利用を通じて、開発者の高い利用率につながる。 また,課題追跡システムのシミュレーションにより,モデル定式化にスケジュールを組み込むことで,バグ修正時間を短縮し,割り当て精度を向上し,モデル実行時間に大きく依存せずに各開発者の能力を利用することを示す。 S-DABTは、バグの優先順位付けにより、バグ依存グラフの複雑さを低減し、バグ依存による実行不可能な割り当て比率を効果的に削減する。 したがって、バグトリアージを自動化しながら、開発者のスケジュールを検討することを推奨する。

Fixing bugs in a timely manner lowers various potential costs in software maintenance. However, manual bug fixing scheduling can be time-consuming, cumbersome, and error-prone. In this paper, we propose the Schedule and Dependency-aware Bug Triage (S-DABT), a bug triaging method that utilizes integer programming and machine learning techniques to assign bugs to suitable developers. Unlike prior works that largely focus on a single component of the bug reports, our approach takes into account the textual data, bug fixing costs, and bug dependencies. We further incorporate the schedule of developers in our formulation to have a more comprehensive model for this multifaceted problem. As a result, this complete formulation considers developers' schedules and the blocking effects of the bugs while covering the most significant aspects of the previously proposed methods. Our numerical study on four open-source software systems, namely, EclipseJDT, LibreOffice, GCC, and Mozilla, shows that taking into account the schedules of the developers decreases the average bug fixing times. We find that S-DABT leads to a high level of developer utilization through a fair distribution of the tasks among the developers and efficient use of the free spots in their schedules. Via the simulation of the issue tracking system, we also show how incorporating the schedule in the model formulation reduces the bug fixing time, improves the assignment accuracy, and utilizes the capability of each developer without much comprising in the model run times. We find that S-DABT decreases the complexity of the bug dependency graph by prioritizing blocking bugs and effectively reduces the infeasible assignment ratio due to bug dependencies. Consequently, we recommend considering developers' schedules while automating bug triage.
翻訳日:2022-04-13 14:32:52 公開日:2022-04-12
# 最適反転攻撃によるフェアバイナリ分類の解読

Breaking Fair Binary Classification with Optimal Flipping Attacks ( http://arxiv.org/abs/2204.05472v1 )

ライセンス: Link先を確認
Changhun Jo, Jy-yong Sohn, Kangwook Lee(参考訳) 公平さの制約によるリスクの最小化は、公正な分類法を学ぶための一般的なアプローチの1つだ。 最近の研究は、トレーニングセットが破損した場合、このアプローチが不公平な分類子となることを示した。 本研究では,フリップ攻撃を成功させるために必要な最小データ破損量について検討する。 まず, 対象モデルが一意の制約のないリスク最小化器である場合に, これらの境界がきついことを示す。 次に、公正学習アルゴリズムの性能を損なうことができる計算効率の良いデータ中毒攻撃アルゴリズムを提案する。

Minimizing risk with fairness constraints is one of the popular approaches to learning a fair classifier. Recent works showed that this approach yields an unfair classifier if the training set is corrupted. In this work, we study the minimum amount of data corruption required for a successful flipping attack. First, we find lower/upper bounds on this quantity and show that these bounds are tight when the target model is the unique unconstrained risk minimizer. Second, we propose a computationally efficient data poisoning attack algorithm that can compromise the performance of fair learning algorithms.
翻訳日:2022-04-13 14:32:23 公開日:2022-04-12
# 水中音響学習のための畳み込み再帰型オートエンコーダネットワーク

Convolutional recurrent autoencoder network for learning underwater ocean acoustics ( http://arxiv.org/abs/2204.05573v1 )

ライセンス: Link先を確認
Wrik Mallik, Rajeev K. Jaiman and Jasmin Jelovica(参考訳) 水中の海洋音響は複雑な物理現象であり、物理的パラメータや動的スケールだけでなく、海洋のパラメータにも不確かさがある。 したがって、幅広い状況で機能する一般化された物理モデルを構築することは困難である。 本稿では、音響伝搬のためのデータ駆動ディープラーニングモデルである畳み込み再帰型オートエンコーダネットワーク(CRAN)アーキテクチャを提案する。 データ駆動型であり、データの取得方法とは無関係であり、様々な海洋音響現象の学習に利用できる。 CRANモデルは物理データの低次元表現を学習し、システムの進化を効率的に予測することができる。 複雑性が増大する2つのケースは、CRANの一般化能力を示すと考えられている。 最初のケースは、空間的に変化する不連続な初期条件を持つ1次元波動伝搬である。 第2のケースは、深度に依存した2次元海洋ドメインにおける遠距離電界透過損失分布に対応する。 どちらの場合も、CRANは特性パターンのような波動伝播物理の本質的要素を学習し、良好な精度で長期システムの進化を予測することができる。 CRANが複雑な海洋音響現象を学習する能力は、海洋船の決定とオンライン制御のリアルタイム予測の可能性を秘めている。

Underwater ocean acoustics is a complex physical phenomenon involving not only widely varying physical parameters and dynamical scales but also uncertainties in the ocean parameters. Thus, it is difficult to construct generalized physical models which can work in a broad range of situations. In this regard, we propose a convolutional recurrent autoencoder network (CRAN) architecture, which is a data-driven deep learning model for acoustic propagation. Being data-driven it is independent of how the data is obtained and can be employed for learning various ocean acoustic phenomena. The CRAN model can learn a reduced-dimensional representation of physical data and can predict the system evolution efficiently. Two cases of increasing complexity are considered to demonstrate the generalization ability of the CRAN. The first case is a one-dimensional wave propagation with spatially-varying discontinuous initial conditions. The second case corresponds to a far-field transmission loss distribution in a two-dimensional ocean domain with depth-dependent sources. For both cases, the CRAN can learn the essential elements of wave propagation physics such as characteristic patterns while predicting long-time system evolution with satisfactory accuracy. Such ability of the CRAN to learn complex ocean acoustics phenomena has the potential of real-time prediction for marine vessel decision-making and online control.
翻訳日:2022-04-13 14:31:17 公開日:2022-04-12
# 導出型正規化ニューラルネットワークを用いたNARX同定

NARX Identification using Derivative-Based Regularized Neural Networks ( http://arxiv.org/abs/2204.05892v1 )

ライセンス: Link先を確認
L.H. Peeters, G.I. Beintema, M. Forgione and M. Schoukens(参考訳) 本研究は非線形自己回帰eXogenous(NARX)モデルの同定のための新しい正規化手法を提案する。 正則化法は、過去の入力サンプルが現在のモデル出力に与える影響の指数的減衰を促進する。 これは、過去の入力に対する出力をシミュレートしたNARXモデルの感度(すなわち偏微分)をペナル化する。 本手法の有効性は,ニューラルネットワークのnarxモデルが同定されたシミュレーション例を用いて実証された。 また,提案手法は,他の正規化手法やモデルクラスと比較して,シミュレーション誤差性能の点でモデルの精度が向上することを示した。

This work presents a novel regularization method for the identification of Nonlinear Autoregressive eXogenous (NARX) models. The regularization method promotes the exponential decay of the influence of past input samples on the current model output. This is done by penalizing the sensitivity (i.e. partial derivative) of the NARX model simulated output with respect to the past inputs. The effectiveness of the approach is demonstrated through a simulation example, where a neural network NARX model is identified with this novel method. Moreover, it is shown that the proposed regularization approach improves the model accuracy in terms of simulation error performance compared to that of other regularization methods and model classes.
翻訳日:2022-04-13 14:30:33 公開日:2022-04-12
# 不規則相関電子系の局所電子特性に対する機械学習予測

Machine learning predictions for local electronic properties of disordered correlated electron systems ( http://arxiv.org/abs/2204.05967v1 )

ライセンス: Link先を確認
Yi-Hsuan Liu, Sheng Zhang, Puhan Zhang, Ting-Kuo Lee, Gia-Wei Chern(参考訳) 本稿では,障害電子系に対するオンサイト電子数や二重占有などの局所電子特性を予測するスケーラブル機械学習(ML)モデルを提案する。 本手法は多電子系の局所性原理(近視性性質)に基づいており,即ち局所電子特性は主に直接環境に依存する。 mlモデルは、近傍の局所量の複雑な依存を符号化するために開発された。 我々は,モット遷移とアンダーソン局在の相互作用を研究するパラダイムシステムである正方格子アンダーソン・ハバードモデルを用いて,このアプローチを実証する。 有限領域内のオンサイト確率ポテンシャルを表現するグループ理論的手法に基づく格子記述子を開発した。 結果として得られる特徴変数は、小さなシステム上での変分モンテカルロ(VMC)シミュレーションのデータセットからトレーニングされた多層完全連結ニューラルネットワークへの入力として使用される。 ML予測はVMCデータと合理的に一致していることを示す。 本研究は,相関電子系のマルチスケールモデリングにおけるML法の可能性を明らかにするものである。

We present a scalable machine learning (ML) model to predict local electronic properties such as on-site electron number and double occupation for disordered correlated electron systems. Our approach is based on the locality principle, or the nearsightedness nature, of many-electron systems, which means local electronic properties depend mainly on the immediate environment. A ML model is developed to encode this complex dependence of local quantities on the neighborhood. We demonstrate our approach using the square-lattice Anderson-Hubbard model, which is a paradigmatic system for studying the interplay between Mott transition and Anderson localization. We develop a lattice descriptor based on group-theoretical method to represent the on-site random potentials within a finite region. The resultant feature variables are used as input to a multi-layer fully connected neural network, which is trained from datasets of variational Monte Carlo (VMC) simulations on small systems. We show that the ML predictions agree reasonably well with the VMC data. Our work underscores the promising potential of ML methods for multi-scale modeling of correlated electron systems.
翻訳日:2022-04-13 14:30:25 公開日:2022-04-12
# 離散コサイン変換と離散ウェーブレット変換による表面自動テクスチャ解析

Automated Surface Texture Analysis via Discrete Cosine Transform and Discrete Wavelet Transform ( http://arxiv.org/abs/2204.05968v1 )

ライセンス: Link先を確認
Melih C. Yesilli, Jisheng Chen, Firas A. Khasawneh, Yang Guo(参考訳) 表面粗さとテクスチャは、エンジニアリングコンポーネントの機能性能に不可欠である。 加工や表面機械処理などの多くの表面生成プロセスにおいて表面品質を確保するためには, 粗さやテクスチャを効果的かつ効率的に解析する能力が必要である。 離散ウェーブレット変換(dwt)と離散コサイン変換(dct)は、表面粗さとテクスチャ解析によく用いられる2つの信号分解ツールである。 どちらの方法も、与えられた表面を3つの主成分(形、和らぎ、粗さ)に分解する閾値を選択する必要がある。 しかし、DWTとDCTはISOサーフェスフィニッシュ標準の一部であるものの、これらのしきい値の計算方法に関する体系的なガイダンスは存在せず、ケースベースでしばしば手動で選択される。 これにより、これらの手法をユーザの判断に依存する表面の研究に利用し、自動化の可能性を制限することができる。 そこで,情報理論と信号エネルギーに基づく2つの自動しきい値選択アルゴリズムを提案する。 我々は機械学習を用いて、シミュレーションされた表面と、人工表面のデジタル顕微鏡画像の両方を用いて、アルゴリズムの成功を検証する。 具体的には,各表面積やプロファイルの特徴ベクトルを生成し,教師付き分類を適用する。 本結果とヒューリスティックしきい値選択法を比較したところ, 平均精度は95%と良好であった。 また, この結果とGaussian filtering (GF) を比較し, 面積のGF値はわずかに高い精度を示すが, 表面プロファイルではGFよりも優れていた。 さらに,我々の自動しきい値選択は,DCTのヒューリスティックしきい値決定と比較して,モード計算の桁数を大幅に減らすことにより,計算時間の面で大きな利点があることを示した。

Surface roughness and texture are critical to the functional performance of engineering components. The ability to analyze roughness and texture effectively and efficiently is much needed to ensure surface quality in many surface generation processes, such as machining, surface mechanical treatment, etc. Discrete Wavelet Transform (DWT) and Discrete Cosine Transform (DCT) are two commonly used signal decomposition tools for surface roughness and texture analysis. Both methods require selecting a threshold to decompose a given surface into its three main components: form, waviness, and roughness. However, although DWT and DCT are part of the ISO surface finish standards, there exists no systematic guidance on how to compute these thresholds, and they are often manually selected on case by case basis. This makes utilizing these methods for studying surfaces dependent on the user's judgment and limits their automation potential. Therefore, we present two automatic threshold selection algorithms based on information theory and signal energy. We use machine learning to validate the success of our algorithms both using simulated surfaces as well as digital microscopy images of machined surfaces. Specifically, we generate feature vectors for each surface area or profile and apply supervised classification. Comparing our results with the heuristic threshold selection approach shows good agreement with mean accuracies as high as 95\%. We also compare our results with Gaussian filtering (GF) and show that while GF results for areas can yield slightly higher accuracies, our results outperform GF for surface profiles. We further show that our automatic threshold selection has significant advantages in terms of computational time as evidenced by decreasing the number of mode computations by an order of magnitude compared to the heuristic thresholding for DCT.
翻訳日:2022-04-13 14:30:09 公開日:2022-04-12
# 潜在ゲームに対する独立自然政策勾配法:エントロピー正規化を伴う有限時間大域収束

Independent Natural Policy Gradient Methods for Potential Games: Finite-time Global Convergence with Entropy Regularization ( http://arxiv.org/abs/2204.05466v1 )

ライセンス: Link先を確認
Shicong Cen, Fan Chen, Yuejie Chi(参考訳) マルチエージェントシステムにおける大きな課題は、エージェントの数とアクションスペースのサイズによって、システムの複雑さが劇的に増加することだ。 したがって、各エージェントの更新は、複雑な通信/コーディネート機構を導入することなく、そのローカルな観測に基づいてのみ行われる、分散化または独立したアルゴリズムをすぐに設計する必要がある。 本研究では,一側偏差によるエージェントの効用関数の差が共通のポテンシャル関数と正確に一致するような,独立エントロピー規則化自然ポリシー勾配法(NPG)のポテンシャルゲームに対する有限時間収束について検討する。 提案したエントロピー正規化NPG法により,各エージェントは,それぞれのペイオフに応じて対称的,分散的,乗算的更新をデプロイできる。 提案手法は, 量子応答平衡(QRE) – エントロピー正則化ゲームに対する平衡 – に収束し, 作用空間のサイズによらず, エージェント数にほぼ準線形に成長することを示す。 興味深いことに、収束率はさらに、同じ興味を持つゲームの重要な特別な場合のエージェントの数と独立になり、次元自由率で収束する最初の方法につながる。 本手法は,定常政策が孤立していると仮定することなく,非正規化問題の近似nash平衡(ne)を求めるための平滑化手法として利用できる。

A major challenge in multi-agent systems is that the system complexity grows dramatically with the number of agents as well as the size of their action spaces, which is typical in real world scenarios such as autonomous vehicles, robotic teams, network routing, etc. It is hence in imminent need to design decentralized or independent algorithms where the update of each agent is only based on their local observations without the need of introducing complex communication/coordination mechanisms. In this work, we study the finite-time convergence of independent entropy-regularized natural policy gradient (NPG) methods for potential games, where the difference in an agent's utility function due to unilateral deviation matches exactly that of a common potential function. The proposed entropy-regularized NPG method enables each agent to deploy symmetric, decentralized, and multiplicative updates according to its own payoff. We show that the proposed method converges to the quantal response equilibrium (QRE) -- the equilibrium to the entropy-regularized game -- at a sublinear rate, which is independent of the size of the action space and grows at most sublinearly with the number of agents. Appealingly, the convergence rate further becomes independent with the number of agents for the important special case of identical-interest games, leading to the first method that converges at a dimension-free rate. Our approach can be used as a smoothing technique to find an approximate Nash equilibrium (NE) of the unregularized problem without assuming that stationary policies are isolated.
翻訳日:2022-04-13 14:29:21 公開日:2022-04-12
# ネットワークシステムのためのニア最適分散線形量子レギュレータ

Near-Optimal Distributed Linear-Quadratic Regulator for Networked Systems ( http://arxiv.org/abs/2204.05551v1 )

ライセンス: Link先を確認
Sungho Shin, Yiheng Lin, Guannan Qu, Adam Wierman, Mihai Anitescu(参考訳) 本稿では,分散制御器の分散化度と分散制御器の性能のトレードオフについて検討する。 本研究では,グラフ上の相互接続エージェントのシステムと分散コントローラである$\kappa$-distributed controlについて検討した。 このコントローラはパラメータ$\kappa$を使って分散度を調整することができ、分散度とパフォーマンスの関係を特徴づけることができる。 安定化性,検出性,多項式的に増大するグラフ条件などの軽微な仮定の下では,$\kappa$分散制御と集中型最適制御のパフォーマンス差は$\kappa$で指数関数的に小さくなる。 この結果は、分散制御が適度な分散化でほぼ最適性能を達成できることを示し、大規模ネットワークシステムにおいて効果的な制御アーキテクチャであることを示す。

This paper studies the trade-off between the degree of decentralization and the performance of a distributed controller in a linear-quadratic control setting. We study a system of interconnected agents over a graph and a distributed controller, called $\kappa$-distributed control, which lets the agents make control decisions based on the state information within distance $\kappa$ on the underlying graph. This controller can tune its degree of decentralization using the parameter $\kappa$ and thus allows a characterization of the relationship between decentralization and performance. We show that under mild assumptions, including stabilizability, detectability, and a polynomially growing graph condition, the performance difference between $\kappa$-distributed control and centralized optimal control becomes exponentially small in $\kappa$. This result reveals that distributed control can achieve near-optimal performance with a moderate degree of decentralization, and thus it is an effective controller architecture for large-scale networked systems.
翻訳日:2022-04-13 14:27:54 公開日:2022-04-12
# (参考訳) 物体検出のための局所蒸留

Localization Distillation for Object Detection ( http://arxiv.org/abs/2204.05957v1 )

ライセンス: CC BY 4.0
Zhaohui Zheng, Rongguang Ye, Qibin Hou, Dongwei Ren, Ping Wang, Wangmeng Zuo, Ming-Ming Cheng(参考訳) 対象物検出のための従来の知識蒸留法(KD)は, ローカライゼーション情報の蒸留に不効率なため, 分類ロジットを模倣するのではなく, 特徴模倣に重点を置いている。 本稿では,ロジット模倣が常に特徴模倣に遅れているかどうかを検討する。 そこで本研究では,まず,教師から生徒へのローカライゼーション知識を効率的に伝達できる新しいローカライゼーション蒸留法(ld)を提案する。 第2に,特定の領域の分類と局所化の知識を選択的に蒸留する上で有用な局所化領域の概念を提案する。 これら2つの新成分を組み合わせることで,ロジット模倣が特徴的模倣より優れていること,ロージット模倣が長年にわたって低性能であった理由として,ロージットの蒸留が欠如していることが示唆された。 徹底的な研究は、ロジット模倣の大きな可能性を示し、局所化の曖昧さを著しく軽減し、堅牢な特徴表現を学習し、初期の訓練の難しさを緩和する。 また,提案するLDと分類KDとの間には等価な最適化効果があるという理論的関係も提供する。 蒸留方式は単純かつ効果的であり, 高密度水平物体検出器と回転物体検出器の両方に容易に適用できる。 MS COCO, PASCAL VOC, DOTAベンチマークの大規模実験により, 提案手法は推定速度を犠牲にすることなく, かなりのAP改善を達成できることを示した。 ソースコードと事前トレーニング済みモデルはhttps://github.com/hikaritju/ld.comから公開しています。

Previous knowledge distillation (KD) methods for object detection mostly focus on feature imitation instead of mimicking the classification logits due to its inefficiency in distilling the localization information. In this paper, we investigate whether logit mimicking always lags behind feature imitation. Towards this goal, we first present a novel localization distillation (LD) method which can efficiently transfer the localization knowledge from the teacher to the student. Second, we introduce the concept of valuable localization region that can aid to selectively distill the classification and localization knowledge for a certain region. Combining these two new components, for the first time, we show that logit mimicking can outperform feature imitation and the absence of localization distillation is a critical reason for why logit mimicking underperforms for years. The thorough studies exhibit the great potential of logit mimicking that can significantly alleviate the localization ambiguity, learn robust feature representation, and ease the training difficulty in the early stage. We also provide the theoretical connection between the proposed LD and the classification KD, that they share the equivalent optimization effect. Our distillation scheme is simple as well as effective and can be easily applied to both dense horizontal object detectors and rotated object detectors. Extensive experiments on the MS COCO, PASCAL VOC, and DOTA benchmarks demonstrate that our method can achieve considerable AP improvement without any sacrifice on the inference speed. Our source code and pretrained models are publicly available at https://github.com/HikariTJU/LD.
翻訳日:2022-04-13 14:27:06 公開日:2022-04-12
# 翻訳における創造性:文学テキストの制約としての機械翻訳

Creativity in translation: machine translation as a constraint for literary texts ( http://arxiv.org/abs/2204.05655v1 )

ライセンス: Link先を確認
Ana Guerberof Arenas and Antonio Toral(参考訳) 本稿では、機械翻訳(MT)、後編集(PE)、援助なし翻訳(HT)の3つのモードを用いて、クルト・ヴォネグートによる英語からカタルーニャ語、オランダ語への短い物語の翻訳に関する研究結果を紹介する。 私たちの目標は、定量的な観点から、創造性を探求し、新しさと受容性を伴うと理解することにあります。 その結果,HTのクリエイティビティスコアが最も高く,PE,MTの順に高い結果が得られた。 文学データに基づいてトレーニングされたニューラルMTシステムは、現在、創造的な翻訳に必要な機能を持っていない。 さらに重要なことは、MTを使って生の出力を後処理することで翻訳者の創造性を制限し、結果として翻訳の質が低くなることだ。

This article presents the results of a study involving the translation of a short story by Kurt Vonnegut from English to Catalan and Dutch using three modalities: machine-translation (MT), post-editing (PE) and translation without aid (HT). Our aim is to explore creativity, understood to involve novelty and acceptability, from a quantitative perspective. The results show that HT has the highest creativity score, followed by PE, and lastly, MT, and this is unanimous from all reviewers. A neural MT system trained on literary data does not currently have the necessary capabilities for a creative translation; it renders literal solutions to translation problems. More importantly, using MT to post-edit raw output constrains the creativity of translators, resulting in a poorer translation often not fit for publication, according to experts.
翻訳日:2022-04-13 13:43:06 公開日:2022-04-12
# 時間的集合予測のための進化的および定常的ユーザ嗜好のモデル化

Modelling Evolutionary and Stationary User Preferences for Temporal Sets Prediction ( http://arxiv.org/abs/2204.05490v1 )

ライセンス: Link先を確認
Le Yu, Zihang Liu, Tongyu Zhu, Leilei Sun, Bowen Du, Weifeng Lv(参考訳) 各集合がタイムスタンプに関連付けられ、任意の数の要素を含む集合列が与えられたとき、時間集合予測のタスクは、次の集合の要素を予測することを目的としている。 時間集合予測のための従来の研究は、主にユーザーの進化的嗜好を自身のシーケンスから学習することによって捉えている。 洞察力はあるが、我々はそう主張する。 1) 異なるユーザのシーケンスに潜む協調信号は必須であるが, 利用されていない。 2)既存手法では考慮できないが,利用者は定常的な嗜好を示す傾向にある。 そこで本研究では,すべてのユーザ・セット間インタラクションを時系列的に配置し,各ユーザ・セット間インタラクションを学習することにより,まず普遍的なシーケンスを構築する時間的集合予測のための,ユーザの進化的選好と定常的選好の両方をモデル化する統合学習フレームワークを提案する。 特に,ユーザ・セット間のインタラクション毎に,まず,ユーザの時間発展的嗜好を追跡する進化的ユーザ嗜好モデリングコンポーネントをデザインし,異なるユーザ間の潜在協調信号を活用した。 このコンポーネントは、関連するユーザと要素のメモリを格納するメモリバンクを保持し、現在のエンコードされたメッセージと過去の記憶に基づいて、メモリを継続的に更新する。 次に,ユーザ嗜好モデリングモジュールを考案し,ユーザと要素の埋め込みのガイダンスを用いて,前回インタラクションした要素をデュアルパースペクティブから適応的に集約する履歴シーケンスに従って,各ユーザのパーソナライズされた特性を検出する。 最後に、モデル効率を向上させるためのセットバッチアルゴリズムを開発し、時間一貫性のあるバッチを事前に生成し、平均3.5倍のトレーニングスピードアップを達成する。 実世界のデータセットに関する実験は、このアプローチの有効性と優れた解釈性を示している。

Given a sequence of sets, where each set is associated with a timestamp and contains an arbitrary number of elements, the task of temporal sets prediction aims to predict the elements in the subsequent set. Previous studies for temporal sets prediction mainly capture each user's evolutionary preference by learning from his/her own sequence. Although insightful, we argue that: 1) the collaborative signals latent in different users' sequences are essential but have not been exploited; 2) users also tend to show stationary preferences while existing methods fail to consider. To this end, we propose an integrated learning framework to model both the evolutionary and the stationary preferences of users for temporal sets prediction, which first constructs a universal sequence by chronologically arranging all the user-set interactions, and then learns on each user-set interaction. In particular, for each user-set interaction, we first design an evolutionary user preference modelling component to track the user's time-evolving preference and exploit the latent collaborative signals among different users. This component maintains a memory bank to store memories of the related user and elements, and continuously updates their memories based on the currently encoded messages and the past memories. Then, we devise a stationary user preference modelling module to discover each user's personalized characteristics according to the historical sequence, which adaptively aggregates the previously interacted elements from dual perspectives with the guidance of the user's and elements' embeddings. Finally, we develop a set-batch algorithm to improve the model efficiency, which can create time-consistent batches in advance and achieve 3.5x training speedups on average. Experiments on real-world datasets demonstrate the effectiveness and good interpretability of our approach.
翻訳日:2022-04-13 13:42:48 公開日:2022-04-12
# FederatedScope-GNN:Federated Graph Learningのための統一的で包括的で効率的なパッケージを目指して

FederatedScope-GNN: Towards a Unified, Comprehensive and Efficient Package for Federated Graph Learning ( http://arxiv.org/abs/2204.05562v1 )

ライセンス: Link先を確認
Zhen Wang, Weirui Kuang, Yuexiang Xie, Liuyi Yao, Yaliang Li, Bolin Ding, Jingren Zhou(参考訳) 連邦学習(FL)の驚くべき発展は、コンピュータビジョンと自然言語処理の分野における様々なタスクに恩恵をもたらし、TFFやFATEといった既存のフレームワークは、現実世界のアプリケーションでデプロイを容易にした。 しかし,FGL(Federated Graph Learning)は,グラフデータが広く普及しているにもかかわらず,その特徴や要件から十分にサポートされていない。 fgl関連フレームワークの欠如は、再現可能な研究と実際のアプリケーションへのデプロイを達成する努力を増加させる。 そこで本稿では,この強い需要に動機づけられて,まず,使いやすいfglパッケージを作成する際の課題について論じるとともに,(1)fglアルゴリズムのモジュール化と表現のための統一的なビューを提供するfs-g(package federatedscope-gnn),(2)アウト・オブ・ボックスのfgl機能のための包括的なdatazooとmodelzoo,(3)効率的なモデル自動チューニングコンポーネント,(4)既製のプライバシー攻撃と防御能力を提供する。 我々は,FS-Gの有効性を広範囲な実験によって検証し,同時にコミュニティにとってのFGLに関する貴重な洞察を得る。 さらに、実世界のEコマースシナリオでFGLアプリケーションを提供するためにFS-Gを使用します。 私たちは、fglの研究を促進し、専用のパッケージがないため実現不可能な幅広いアプリケーションを可能にするために、fs-gをhttps://github.com/alibaba/federatedscopeで公開しています。

The incredible development of federated learning (FL) has benefited various tasks in the domains of computer vision and natural language processing, and the existing frameworks such as TFF and FATE has made the deployment easy in real-world applications. However, federated graph learning (FGL), even though graph data are prevalent, has not been well supported due to its unique characteristics and requirements. The lack of FGL-related framework increases the efforts for accomplishing reproducible research and deploying in real-world applications. Motivated by such strong demand, in this paper, we first discuss the challenges in creating an easy-to-use FGL package and accordingly present our implemented package FederatedScope-GNN (FS-G), which provides (1) a unified view for modularizing and expressing FGL algorithms; (2) comprehensive DataZoo and ModelZoo for out-of-the-box FGL capability; (3) an efficient model auto-tuning component; and (4) off-the-shelf privacy attack and defense abilities. We validate the effectiveness of FS-G by conducting extensive experiments, which simultaneously gains many valuable insights about FGL for the community. Moreover, we employ FS-G to serve the FGL application in real-world E-commerce scenarios, where the attained improvements indicate great potential business benefits. We publicly release FS-G at https://github.com/alibaba/FederatedScope to promote FGL's research and enable broad applications that would otherwise be infeasible due to the lack of a dedicated package.
翻訳日:2022-04-13 13:42:19 公開日:2022-04-12
# medusa: 注意型マルチタスクによるユニバーサル機能学習

Medusa: Universal Feature Learning via Attentional Multitasking ( http://arxiv.org/abs/2204.05698v1 )

ライセンス: Link先を確認
Jaime Spencer, Richard Bowden, Simon Hadfield(参考訳) マルチタスク学習(MTL)への最近のアプローチは、デコーダレベルでタスク間の接続をモデル化することに焦点を当てている。 これにより、タスク間の密結合が発生し、新しいタスクが挿入または削除された場合に再トレーニングが必要になる。 MTLは普遍的特徴学習(Universal Feature Learning, UFL)への一歩であり, 新たなタスクに適用可能な汎用的な特徴を再学習することなく学習することができる。 我々は,この目標を達成するために,二重注意機構を備えたタスクヘッドの設計を提案する。 共有機能アテンションは、各タスクの関連するバックボーン機能をマスクし、汎用表現を学習できるようにする。 一方、新しいマルチスケールアテンションヘッドにより、最終的な予測を行う際に、異なるスケールのタスク毎の機能を統合することができる。 我々は,mtl性能を維持しつつ,従来よりも25%効率の良いメデューサの有効性を示す(+13.18%改善)。

Recent approaches to multi-task learning (MTL) have focused on modelling connections between tasks at the decoder level. This leads to a tight coupling between tasks, which need retraining if a new task is inserted or removed. We argue that MTL is a stepping stone towards universal feature learning (UFL), which is the ability to learn generic features that can be applied to new tasks without retraining. We propose Medusa to realize this goal, designing task heads with dual attention mechanisms. The shared feature attention masks relevant backbone features for each task, allowing it to learn a generic representation. Meanwhile, a novel Multi-Scale Attention head allows the network to better combine per-task features from different scales when making the final prediction. We show the effectiveness of Medusa in UFL (+13.18% improvement), while maintaining MTL performance and being 25% more efficient than previous approaches.
翻訳日:2022-04-13 13:41:46 公開日:2022-04-12
# (参考訳) Video Captioning: 私たちがどこにいて、どこがルートなのかの比較レビュー

Video Captioning: a comparative review of where we are and which could be the route ( http://arxiv.org/abs/2204.05976v1 )

ライセンス: CC BY 4.0
Daniela Moctezuma, Tania Ram\'irez-delReal, Guillermo Ruiz, Oth\'on Gonz\'alez-Ch\'avez(参考訳) ビデオキャプションは、その意味的関係と意味をキャプチャする一連の画像の内容を記述するプロセスである。 このタスクを単一のイメージで処理することは、ビデオ(あるいは画像シーケンス)がどれほど難しいかは言うまでもなく、難しい。 ビデオキャプションの応用の量と関連性は、主にビデオ監視における大量のビデオ記録を扱うか、視覚障害者を支援するために、非常に大きい。 ビデオキャプションの課題を解決するためのコミュニティの努力や、フォローするべき道を分析するために、本原稿は2016年から2021年までの期間に105以上の論文を広範囲にレビューしている。 その結果、最もよく使われるデータセットとメトリクスが特定される。 また、主なアプローチと最良のアプローチも使用しました。 本研究では,いくつかのパフォーマンス指標に基づいてランキングを算出し,その評価に基づいて,動画キャプションタスクにおいて最高の結果が得られる最善の方法を得る。 最後に、この複雑なタスクの処理を改善するための次のステップまたは機会領域として、いくつかの洞察が得られます。

Video captioning is the process of describing the content of a sequence of images capturing its semantic relationships and meanings. Dealing with this task with a single image is arduous, not to mention how difficult it is for a video (or images sequence). The amount and relevance of the applications of video captioning are vast, mainly to deal with a significant amount of video recordings in video surveillance, or assisting people visually impaired, to mention a few. To analyze where the efforts of our community to solve the video captioning task are, as well as what route could be better to follow, this manuscript presents an extensive review of more than 105 papers for the period of 2016 to 2021. As a result, the most-used datasets and metrics are identified. Also, the main approaches used and the best ones. We compute a set of rankings based on several performance metrics to obtain, according to its performance, the best method with the best result on the video captioning task. Finally, some insights are concluded about which could be the next steps or opportunity areas to improve dealing with this complex task.
翻訳日:2022-04-13 13:39:21 公開日:2022-04-12
# 一般化可能な多元的人物再同定のためのラベル分布学習

Label Distribution Learning for Generalizable Multi-source Person Re-identification ( http://arxiv.org/abs/2204.05903v1 )

ライセンス: Link先を確認
Lei Qi, Jiaying Shen, Jiaqi Liu, Yinghuan Shi, Xin Geng(参考訳) 人物再識別(Re-ID)は,映像監視システムにおいて重要な技術であり,教師付き環境において大きな成功を収めている。 しかし、利用可能なソースドメインと対象ドメインとのドメインギャップのため、任意の非対象ドメインに対して教師付きモデルを直接適用することは困難である。 本稿では,汎用性のある複数ソースのRe-IDタスク(複数のソースドメインがあり,テストドメインはトレーニング中に見つからない)に対処し,異なるドメイン間のドメインシフトを緩和し,モデルの識別を改善し,ドメイン不変性を同時に学習することを目的とした,ラベル分散学習手法を提案する。 具体的には, 学習過程において, 異なるクラスの関係情報をマイニングするために, オンライン方式でラベル分布を作成し, 識別的特徴の抽出に有用である。 また、各クラスのラベル分布については、クラスが属していない他のドメインにさらに注意を向けるように修正し、異なるドメイン間のドメインギャップを効果的に低減し、ドメイン不変機能を得ることができる。 さらに,提案手法がドメインシフト問題に効果的に対処可能であることを示す理論的解析を行った。 複数のベンチマークデータセットの大規模な実験により,提案手法の有効性を検証し,提案手法が最先端手法より優れていることを示す。 さらに分析により,提案手法の優位性も明らかにした。

Person re-identification (Re-ID) is a critical technique in the video surveillance system, which has achieved significant success in the supervised setting. However, it is difficult to directly apply the supervised model to arbitrary unseen domains due to the domain gap between the available source domains and unseen target domains. In this paper, we propose a novel label distribution learning (LDL) method to address the generalizable multi-source person Re-ID task (i.e., there are multiple available source domains, and the testing domain is unseen during training), which aims to explore the relation of different classes and mitigate the domain-shift across different domains so as to improve the discrimination of the model and learn the domain-invariant feature, simultaneously. Specifically, during the training process, we produce the label distribution via the online manner to mine the relation information of different classes, thus it is beneficial for extracting the discriminative feature. Besides, for the label distribution of each class, we further revise it to give more and equal attention to the other domains that the class does not belong to, which can effectively reduce the domain gap across different domains and obtain the domain-invariant feature. Furthermore, we also give the theoretical analysis to demonstrate that the proposed method can effectively deal with the domain-shift issue. Extensive experiments on multiple benchmark datasets validate the effectiveness of the proposed method and show that the proposed method can outperform the state-of-the-art methods. Besides, further analysis also reveals the superiority of the proposed method.
翻訳日:2022-04-13 13:35:44 公開日:2022-04-12
# ガイド付き逆境補間による数発偽造検出

Few-shot Forgery Detection via Guided Adversarial Interpolation ( http://arxiv.org/abs/2204.05905v1 )

ライセンス: Link先を確認
Haonan Qiu, Siyu Chen, Bei Gan, Kun Wang, Huafeng Shi, Jing Shao, Ziwei Liu(参考訳) 現実的なビジュアルメディア合成は、顔操作モデルの増加に伴い、重要な社会問題になりつつある。 残念ながら、既存の偽造検出手法は、新しい偽造手法を適用すると、大幅な性能低下を被る。 本稿では,様々なフォージェリーアプローチのカバレッジ分析に基づく包括的なベンチマークを設計し,GAI(Guid Adversarial Interpolation)を提案することで,数発のフォージェリー検出問題に対処する。 我々の重要な洞察は、多数派と少数派階級の異なる偽造アプローチの間に転送可能な分布特性が存在することである。 具体的には,教師ネットワークの指導のもと,少数サンプルのアーティファクトを多数サンプルに対逆的に補間することで,新たな偽造アプローチに対する差別能力を高める。 通常、少数派に過度に適合する標準的再バランス法とは異なり、本手法は多数派情報の多様性と少数派情報の重要さを同時に考慮する。 広範な実験により,提案手法が確立されたマイナショット偽造検出ベンチマークにおいて最先端のパフォーマンスを達成できることが実証された。 また,本手法は,多数派および少数派の偽造手法の選択に対して堅牢であることを示す。

Realistic visual media synthesis is becoming a critical societal issue with the surge of face manipulation models; new forgery approaches emerge at an unprecedented pace. Unfortunately, existing forgery detection methods suffer significant performance drops when applied to novel forgery approaches. In this work, we address the few-shot forgery detection problem by designing a comprehensive benchmark based on coverage analysis among various forgery approaches, and proposing Guided Adversarial Interpolation (GAI). Our key insight is that there exist transferable distribution characteristics among different forgery approaches with the majority and minority classes. Specifically, we enhance the discriminative ability against novel forgery approaches via adversarially interpolating the artifacts of the minority samples to the majority samples under the guidance of a teacher network. Unlike the standard re-balancing method which usually results in over-fitting to minority classes, our method simultaneously takes account of the diversity of majority information as well as the significance of minority information. Extensive experiments demonstrate that our GAI achieves state-of-the-art performances on the established few-shot forgery detection benchmark. Notably, our method is also validated to be robust to choices of majority and minority forgery approaches.
翻訳日:2022-04-13 13:35:20 公開日:2022-04-12
# RL-CoSeg : 深層強化学習を用いた画像合成アルゴリズム

RL-CoSeg : A Novel Image Co-Segmentation Algorithm with Deep Reinforcement Learning ( http://arxiv.org/abs/2204.05951v1 )

ライセンス: Link先を確認
Xin Duan, Xiabi Liu, Xiaopeng Gong, Mengqiao Han(参考訳) 本稿では,深部強化学習(RL)に基づく自動画像分割アルゴリズムを提案する。 既存の協調作業は主にディープラーニング手法に依存しており、得られた前景の縁は粗いことが多い。 より精密な前景エッジを得るために、この問題を解くために深部RLを使用し、より微細なセグメンテーションを実現する。 我々の知る限りでは、これはRL法をコセグメンテーションに適用する最初の試みである。 我々は,この問題をマルコフ決定プロセス(MDP)として定義し,非同期アドバンテージアクタ批判(A3C)を用いてRLで最適化する。 RL画像コセグメンテーションネットワークは、画像間の相関を利用して、一連の関連画像から共通オブジェクトと有能オブジェクトを分割する。 自動セグメンテーションを実現するため,RL-CoSeg法はユーザのヒントを除去する。 画像分割問題に対して,A3Cモデルに基づく協調RLアルゴリズムを提案する。 本稿では, 画像のコアテンションを求めるために, シームズRLコセグメンテーションネットワーク構造を提案する。 自動RLアルゴリズムの自己アテンションを改善して、長距離依存を求め、受容場を拡大する。 セルフアテンションにより得られた画像特徴情報は、削除されたユーザのヒントを補完し、より正確なアクションを得るのに役立つ。 実験結果から,提案手法は粗さと細かな初期セグメンテーションの両方において効率よく性能を向上し,インターネットデータセット,iCosegデータセット,MLMR-COSデータセット上での最先端性能を実現することができることがわかった。

This paper proposes an automatic image co-segmentation algorithm based on deep reinforcement learning (RL). Existing co-segmentation tasks mainly rely on deep learning methods, and the obtained foreground edges are often rough. In order to obtain more precise foreground edges, we use deep RL to solve this problem and achieve the finer segmentation. To our best knowledge, this is the first work to apply RL methods to co-segmentation. We define the problem as a Markov Decision Process (MDP) and optimize it by RL with asynchronous advantage actor-critic (A3C). The RL image co-segmentation network uses the correlation between images to segment common and salient objects from a set of related images. In order to achieve automatic segmentation, our RL-CoSeg method eliminates user's hints. For the image co-segmentation problem, we propose a collaborative RL algorithm based on the A3C model. We propose a Siamese RL co-segmentation network structure to obtain the co-attention of images for co-segmentation. We improve the self-attention for automatic RL algorithm to obtain long-distance dependence and enlarge the receptive field. The image feature information obtained by self-attention can be used to supplement the deleted user's hints and help to obtain more accurate actions. Experimental results have shown that our method can improve the performance effectively on both coarse and fine initial segmentations, and it achieves the state-of-the-art performance on Internet dataset, iCoseg dataset and MLMR-COS dataset.
翻訳日:2022-04-13 13:35:00 公開日:2022-04-12
# 多言語テキスト分類におけるジェンダーバイアスの簡易適応

Easy Adaptation to Mitigate Gender Bias in Multilingual Text Classification ( http://arxiv.org/abs/2204.05459v1 )

ライセンス: Link先を確認
Xiaolei Huang(参考訳) 既往の人口統計学的偏見をモノリンガルデータに基づいて緩和するアプローチは検討されていない。 本研究では、性別をドメイン(男性と女性)として扱い、標準ドメイン適応モデルを導入し、性別バイアスを低減し、多言語環境でのテキスト分類器の性能を向上させる。 我々は,2つのテキスト分類タスク,ヘイトスピーチ検出と評価予測に対するアプローチを評価し,そのアプローチの有効性を3つのフェアアウェアベースラインで実証した。

Existing approaches to mitigate demographic biases evaluate on monolingual data, however, multilingual data has not been examined. In this work, we treat the gender as domains (e.g., male vs. female) and present a standard domain adaptation model to reduce the gender bias and improve performance of text classifiers under multilingual settings. We evaluate our approach on two text classification tasks, hate speech detection and rating prediction, and demonstrate the effectiveness of our approach with three fair-aware baselines.
翻訳日:2022-04-13 13:34:16 公開日:2022-04-12
# GERE: ファクト検証のための生成的証拠検索

GERE: Generative Evidence Retrieval for Fact Verification ( http://arxiv.org/abs/2204.05511v1 )

ライセンス: Link先を確認
Jiangui Chen, Ruqing Zhang, Jiafeng Guo, Yixing Fan, and Xueqi Cheng(参考訳) Fact validation (FV) は、ウィキペディアのような信頼できるコーパスから複数の明らかな文を用いてクレームを検証することを目的とした課題である。 既存のアプローチのほとんどは、文書検索、文検索、クレーム検証を含む3段階のパイプラインフレームワークに従っている。 最初の2ステップによって提供される高品質な証拠は、最終段階における効果的な推論の基礎である。 重要であるにもかかわらず、高品質な証拠はfvの既存の作品によって研究されることはほとんどなく、それらはしばしばオフ・ザ・棚のモデルを採用し、関連する文書や文を「インデックス・レトリーブ・ザ・ランク」の方法で取り出す。 この古典的アプローチには、次のような明確な欠点がある。 一 大規模な文書インデックス及び複雑な検索プロセスが必要で、メモリ及び計算上のオーバーヘッドがかなり大きいこと。 二 独立スコアリングパラダイムは、ランキングにおける文書及び文間の相互作用を捉えない。 三 確定した文数を選択して最終証拠集合を形成すること。 本研究では,証明文の識別子だけでなく,文書名を生成する生成的手法で証拠を検索する最初のシステムである \textit{gere}を提案する。 これにより、上記の技術的問題を緩和できます。 一 文書インデックスを廃止し、重格付け処理を軽量生成工程に置き換えたことにより、メモリ及び計算コストが大幅に削減される。 二 文書間の依存関係と文間の依存関係を、逐次生成により取得することができること。 三 生成的定式化により、各クレームに関する正確な証拠の集合を動的に選択することができる。 FEVERデータセットの実験結果は、GEREが時間効率とメモリ効率の両方で最先端のベースラインを大幅に改善したことを示している。

Fact verification (FV) is a challenging task which aims to verify a claim using multiple evidential sentences from trustworthy corpora, e.g., Wikipedia. Most existing approaches follow a three-step pipeline framework, including document retrieval, sentence retrieval and claim verification. High-quality evidences provided by the first two steps are the foundation of the effective reasoning in the last step. Despite being important, high-quality evidences are rarely studied by existing works for FV, which often adopt the off-the-shelf models to retrieve relevant documents and sentences in an "index-retrieve-then-rank" fashion. This classical approach has clear drawbacks as follows: i) a large document index as well as a complicated search process is required, leading to considerable memory and computational overhead; ii) independent scoring paradigms fail to capture the interactions among documents and sentences in ranking; iii) a fixed number of sentences are selected to form the final evidence set. In this work, we propose \textit{GERE}, the first system that retrieves evidences in a generative fashion, i.e., generating the document titles as well as evidence sentence identifiers. This enables us to mitigate the aforementioned technical issues since: i) the memory and computational cost is greatly reduced because the document index is eliminated and the heavy ranking process is replaced by a light generative process; ii) the dependency between documents and that between sentences could be captured via sequential generation process; iii) the generative formulation allows us to dynamically select a precise set of relevant evidences for each claim. The experimental results on the FEVER dataset show that GERE achieves significant improvements over the state-of-the-art baselines, with both time-efficiency and memory-efficiency.
翻訳日:2022-04-13 13:34:07 公開日:2022-04-12
# 心理療法における治療連携の深部アノテーション

Deep Annotation of Therapeutic Working Alliance in Psychotherapy ( http://arxiv.org/abs/2204.05522v1 )

ライセンス: Link先を確認
Baihan Lin, Guillermo Cecchi, Djallel Bouneffouf(参考訳) 治療作業同盟は、精神療法治療の結果の重要な予測因子である。 実際には、患者とセラピストの両方が記入した調査項目のスコアから、作業提携を推定する。 本研究では,doc2vecモデルやmentalbertモデルなどの深層埋め込みによるターンレベルの解決において,精神療法セッション内の自然言語から治療作業同盟を直接推測する分析枠組みを提案する。 各心理療法セッションの書き起こしは、セッション音声記録からリアルタイムで書き起こし、生成することができ、これらの組込み対話は、ワーキングアライアンスインベントリにおけるステートメントの分散表現と比較される。 本研究では,不安,うつ病,統合失調症,自殺患者の心理療法を950回以上実施した実世界のデータセットにおいて,患者とセラピストの整列の軌跡をマッピングし,臨床精神医学の知見を提供するための解釈可能性を示す。 このようなフレームワークは,インタビューセッションにおける会話の質について,セラピストにタイムリーなフィードバックを提供することができると考えている。

The therapeutic working alliance is an important predictor of the outcome of the psychotherapy treatment. In practice, the working alliance is estimated from a set of scoring questionnaires in an inventory that both the patient and the therapists fill out. In this work, we propose an analytical framework of directly inferring the therapeutic working alliance from the natural language within the psychotherapy sessions in a turn-level resolution with deep embeddings such as the Doc2Vec and SentenceBERT models. The transcript of each psychotherapy session can be transcribed and generated in real-time from the session speech recordings, and these embedded dialogues are compared with the distributed representations of the statements in the working alliance inventory. We demonstrate, in a real-world dataset with over 950 sessions of psychotherapy treatments in anxiety, depression, schizophrenia and suicidal patients, the effectiveness of this method in mapping out trajectories of patient-therapist alignment and the interpretability that can offer insights in clinical psychiatry. We believe such a framework can be provide timely feedback to the therapist regarding the quality of the conversation in interview sessions.
翻訳日:2022-04-13 13:33:37 公開日:2022-04-12
# 偽ニュースはどうやってサムネイルを使うのか? 非表現型ニュース画像におけるCLIPに基づくマルチモーダル検出

How does fake news use a thumbnail? CLIP-based Multimodal Detection on the Unrepresentative News Image ( http://arxiv.org/abs/2204.05533v1 )

ライセンス: Link先を確認
Hyewon Choi, Yejun Yoon, Seunghyun Yoon, Kunwoo Park(参考訳) 本研究では,ニュース記事のサムネイルがニュースコンテンツを正しく表現しているかどうかに着目し,偽ニュースがニュース記事のサムネイルをどのように利用するかを検討する。 無関係なサムネイルで共有されたニュース記事は、特にユーザーがリンクをクリックしてコンテンツ全体を消費しがちなソーシャルメディア環境で、読者を誤った印象に陥らせる可能性がある。 事前学習したCLIP表現を用いて,マルチモーダル関係における意味的不一致の程度を捉えることを提案する。 ソースレベルの分析から、偽ニュースは一般的なニュースよりもメインコンテンツに不都合なイメージを取り入れていることがわかった。 さらに,画像テキストの不一致によるニュース記事の検出を試みた。 評価実験は,サムネイルがニューステキストと意味的に無関係なニュース記事の検出にクリップベースの手法が有効であることを示唆する。 本研究は,オンライン偽ニュースや誤情報に対処する新たな視点を提供することによって,研究に寄与する。 コードとデータセットはhttps://github.com/ssu-humane/fake-news-thumbnailで入手できる。

This study investigates how fake news uses a thumbnail for a news article with a focus on whether a news article's thumbnail represents the news content correctly. A news article shared with an irrelevant thumbnail can mislead readers into having a wrong impression of the issue, especially in social media environments where users are less likely to click the link and consume the entire content. We propose to capture the degree of semantic incongruity in the multimodal relation by using the pretrained CLIP representation. From a source-level analysis, we found that fake news employs a more incongruous image to the main content than general news. Going further, we attempted to detect news articles with image-text incongruity. Evaluation experiments suggest that CLIP-based methods can successfully detect news articles in which the thumbnail is semantically irrelevant to news text. This study contributes to the research by providing a novel view on tackling online fake news and misinformation. Code and datasets are available at https://github.com/ssu-humane/fake-news-thumbnail.
翻訳日:2022-04-13 13:33:20 公開日:2022-04-12
# (参考訳) より詳細なガイダンスを探求する: データ拡張による手話翻訳のためのタスクアウェアインストラクションネットワーク

Explore More Guidance: A Task-aware Instruction Network for Sign Language Translation Enhanced with Data Augmentation ( http://arxiv.org/abs/2204.05953v1 )

ライセンス: CC BY 4.0
Yong Cao, Wei Li, Xianzhi Li, Min Chen, Guangyong Chen, Long Hu, Zhengdao Li, Hwang Kai(参考訳) 手話認識と翻訳は、まず認識モジュールを使用して手話ビデオから光沢を生成し、次に翻訳モジュールを使用して音声文に翻訳する。 既存の作業の多くは認識ステップに重点を置いており、手話翻訳にはあまり注意を払わない。 本研究では,手話翻訳のためのタスク認識型命令ネットワークであるTIN-SLTを提案する。 このように、事前学習されたモデルの言語能力はよく検討され、翻訳性能をさらに高めるために利用される。 さらに,手話グルースとターゲット音声言語の表現空間を探索することにより,トレーニングセットのデータ分布を調整するための多段階データ拡張スキームを提案する。 我々は,PHOENIX-2014-T と ASLG-PC12 という2つの挑戦的ベンチマークデータセットに対して,BLEU-4 の2つの実験を行った。 私たちのコードはhttps://github.com/yongcaoplus/TIN-SLTで公開されています。

Sign language recognition and translation first uses a recognition module to generate glosses from sign language videos and then employs a translation module to translate glosses into spoken sentences. Most existing works focus on the recognition step, while paying less attention to sign language translation. In this work, we propose a task-aware instruction network, namely TIN-SLT, for sign language translation, by introducing the instruction module and the learning-based feature fuse strategy into a Transformer network. In this way, the pre-trained model's language ability can be well explored and utilized to further boost the translation performance. Moreover, by exploring the representation space of sign language glosses and target spoken language, we propose a multi-level data augmentation scheme to adjust the data distribution of the training set. We conduct extensive experiments on two challenging benchmark datasets, PHOENIX-2014-T and ASLG-PC12, on which our method outperforms former best solutions by 1.65 and 1.42 in terms of BLEU-4. Our code is published at https://github.com/yongcaoplus/TIN-SLT.
翻訳日:2022-04-13 13:31:46 公開日:2022-04-12
# マルチモーダルトランスフォーマーはモダリティを損なうのか?

Are Multimodal Transformers Robust to Missing Modality? ( http://arxiv.org/abs/2204.05454v1 )

ライセンス: Link先を確認
Mengmeng Ma, Jian Ren, Long Zhao, Davide Testuggine, Xi Peng(参考訳) 実世界から収集されたマルチモーダルデータは、しばしばモダリティの欠如により不完全である。 したがって、モーダル不完全データに対して頑健なマルチモーダルモデルが非常に好まれる。 近年,Transformerモデルはマルチモーダルデータ処理において大きな成功を収めている。 しかし、既存の作業はアーキテクチャ設計か事前学習戦略に限られており、Transformerモデルが欠落したモーダルデータに対して自然に堅牢であるかどうかはほとんど調査されていない。 本稿では,モーダル不完全データの存在下でのトランスフォーマーの挙動を包括的に調査する。 当然ながら、トランスフォーマーモデルは欠落したモダリティに敏感であり、異なるモーダル核融合戦略はロバスト性に大きく影響する。 私たちが驚いたのは、最適な融合戦略が同じトランスフォーマーモデルでもデータセットに依存することだ。 これらの結果に基づいて,入力データに関する最適な融合戦略を自動探索することで,トランスフォーマーモデルの堅牢性を向上させるための基本手法を提案する。 3つのベンチマーク実験により,提案手法の優れた性能が得られた。

Multimodal data collected from the real world are often imperfect due to missing modalities. Therefore multimodal models that are robust against modal-incomplete data are highly preferred. Recently, Transformer models have shown great success in processing multimodal data. However, existing work has been limited to either architecture designs or pre-training strategies; whether Transformer models are naturally robust against missing-modal data has rarely been investigated. In this paper, we present the first-of-its-kind work to comprehensively investigate the behavior of Transformers in the presence of modal-incomplete data. Unsurprising, we find Transformer models are sensitive to missing modalities while different modal fusion strategies will significantly affect the robustness. What surprised us is that the optimal fusion strategy is dataset dependent even for the same Transformer model; there does not exist a universal strategy that works in general cases. Based on these findings, we propose a principle method to improve the robustness of Transformer models by automatically searching for an optimal fusion strategy regarding input data. Experimental validations on three benchmarks support the superior performance of the proposed method.
翻訳日:2022-04-13 13:15:52 公開日:2022-04-12
# 教師なし連続学習における分布外検出

Out-Of-Distribution Detection In Unsupervised Continual Learning ( http://arxiv.org/abs/2204.05462v1 )

ライセンス: Link先を確認
Jiangpeng He and Fengqing Zhu(参考訳) 教師なし連続学習は、人間のアノテーションを必要とせずに、新しいタスクを段階的に学習することを目的としている。 しかし、既存のほとんどの方法、特に画像分類をターゲットにした手法は、すべての新しいデータが新しいタスクに属すると仮定することで、単純化されたシナリオでのみ機能する。 したがって、実生活アプリケーションで教師なし連続学習を行うには、まず、新しいデータが新しいタスクに対応するか、既に学習済みのタスクに対応するかを特定するために、配布外検出が必要である。 本研究では,教師なし連続学習(OOD-UCL)におけるアウト・オブ・ディストリビューション検出の問題を,対応する評価プロトコルを用いて定式化する。 また, 学習の学習手順や目的を変更することなく, 直接適用可能なタスク識別性に基づいて, まずは出力バイアスを補正し, 分布内データの出力信頼度を高める新たなood検出法を提案する。 本手法は,提案した評価プロトコルに従ってCIFAR-100データセット上で評価し,教師なし連続学習シナリオ下での既存のOOD検出手法と比較して改善された性能を示す。

Unsupervised continual learning aims to learn new tasks incrementally without requiring human annotations. However, most existing methods, especially those targeted on image classification, only work in a simplified scenario by assuming all new data belong to new tasks, which is not realistic if the class labels are not provided. Therefore, to perform unsupervised continual learning in real life applications, an out-of-distribution detector is required at beginning to identify whether each new data corresponds to a new task or already learned tasks, which still remains under-explored yet. In this work, we formulate the problem for Out-of-distribution Detection in Unsupervised Continual Learning (OOD-UCL) with the corresponding evaluation protocol. In addition, we propose a novel OOD detection method by correcting the output bias at first and then enhancing the output confidence for in-distribution data based on task discriminativeness, which can be applied directly without modifying the learning procedures and objectives of continual learning. Our method is evaluated on CIFAR-100 dataset by following the proposed evaluation protocol and we show improved performance compared with existing OOD detection methods under the unsupervised continual learning scenario.
翻訳日:2022-04-13 13:15:33 公開日:2022-04-12
# HiTPR: ポイントクラウドにおける位置認識のための階層変換器

HiTPR: Hierarchical Transformer for Place Recognition in Point Cloud ( http://arxiv.org/abs/2204.05481v1 )

ライセンス: Link先を確認
Zhixing Hou, Yan Yan, Chengzhong Xu and Hui Kong(参考訳) 位置認識またはループ閉鎖検出は、完全なSLAMシステムの中核コンポーネントの1つである。 本稿では,局所的隣接点の関連性とグローバル点間の文脈依存性を同時に強化することを目的として,特徴抽出のためのトランスフォーマーネットワークの活用について検討し,位置認識のための階層変換器(HiTPR)を提案する。 HiTPRは、ポイントセル生成、ショートレンジトランスフォーマー(SRT)、ロングレンジトランスフォーマー(LRT)、グローバルディスクリプタアグリゲーションの4つの主要部分から構成される。 具体的には、点雲は最初、ダウンサンプリングと最も近い隣人の探索によって小さな細胞列に分けられる。 srtでは、各点セルの局所的な特徴を抽出する。 LRTでは、全ポイントクラウド内のすべてのポイントセル間でグローバルな依存関係を構築しています。 いくつかの標準ベンチマークの実験では、平均リコール率においてHiTPRの優位性が示され、例えばオックスフォード・ロボカル・データセットの上位1位で93.71%、86.63%を記録した。

Place recognition or loop closure detection is one of the core components in a full SLAM system. In this paper, aiming at strengthening the relevancy of local neighboring points and the contextual dependency among global points simultaneously, we investigate the exploitation of transformer-based network for feature extraction, and propose a Hierarchical Transformer for Place Recognition (HiTPR). The HiTPR consists of four major parts: point cell generation, short-range transformer (SRT), long-range transformer (LRT) and global descriptor aggregation. Specifically, the point cloud is initially divided into a sequence of small cells by downsampling and nearest neighbors searching. In the SRT, we extract the local feature for each point cell. While in the LRT, we build the global dependency among all of the point cells in the whole point cloud. Experiments on several standard benchmarks demonstrate the superiority of the HiTPR in terms of average recall rate, achieving 93.71% at top 1% and 86.63% at top 1 on the Oxford RobotCar dataset for example.
翻訳日:2022-04-13 13:15:15 公開日:2022-04-12
# 時間的ビデオグラウンドのための位置認識位置回帰ネットワーク

Position-aware Location Regression Network for Temporal Video Grounding ( http://arxiv.org/abs/2204.05499v1 )

ライセンス: Link先を確認
Sunoh Kim, Kimin Yun, Jin Young Choi(参考訳) ビデオ監視を成功させる鍵は、重要なアクターやオブジェクトに対応する意味的フレーズを理解することである。 従来の手法では、フレーズの包括的なコンテキストを無視したり、複数のフレーズの重い計算を必要とする。 1つの意味句だけで包括的文脈を理解するために,クエリとビデオの位置認識機能を活用した位置認識位置回帰ネットワーク (plrn) を提案する。 具体的には、PLRNはまず、単語とビデオセグメントの位置情報を用いて、ビデオとクエリの両方をエンコードする。 そして、注目された符号化クエリから意味句特徴を抽出する。 セマンティックフレーズ機能とエンコードされたビデオは統合され、ローカルおよびグローバルコンテキストを反映してコンテキスト認識機能に変換される。 最後に、plrnは接地境界の開始、終了、中心、および幅値を予測する。 実験の結果,PLRNは計算時間やメモリの少ない既存手法に比べて性能が優れていた。

The key to successful grounding for video surveillance is to understand a semantic phrase corresponding to important actors and objects. Conventional methods ignore comprehensive contexts for the phrase or require heavy computation for multiple phrases. To understand comprehensive contexts with only one semantic phrase, we propose Position-aware Location Regression Network (PLRN) which exploits position-aware features of a query and a video. Specifically, PLRN first encodes both the video and query using positional information of words and video segments. Then, a semantic phrase feature is extracted from an encoded query with attention. The semantic phrase feature and encoded video are merged and made into a context-aware feature by reflecting local and global contexts. Finally, PLRN predicts start, end, center, and width values of a grounding boundary. Our experiments show that PLRN achieves competitive performance over existing methods with less computation time and memory.
翻訳日:2022-04-13 13:14:57 公開日:2022-04-12
# FSOINet:画像圧縮センシングのための特徴空間最適化型ネットワーク

FSOINet: Feature-Space Optimization-Inspired Network for Image Compressive Sensing ( http://arxiv.org/abs/2204.05503v1 )

ライセンス: Link先を確認
Wenjun Chen, Chunling Yang, Xin Yang(参考訳) 近年,深層学習に基づく画像圧縮センシング(ics)手法が目覚ましい成功を収めている。 多くの最適化に触発されたネットワークは、最適化アルゴリズムの洞察をネットワーク構造設計にもたらし、計算複雑性の低い優れた再構成品質を達成するために提案されている。 しかし、画像の特徴を十分に利用していないピクセル空間の画像を更新、転送することで、従来のアルゴリズムとして、情報フローをピクセル空間に保持する。 本稿では,情報フロー位相を特徴空間の位相ごとに達成し,特徴空間最適化に触発されたネットワーク(fsoinet)を設計し,近位勾配降下アルゴリズムの両ステップを画素空間から特徴空間にマッピングする手法を提案する。 さらに、サンプリング行列は、他のネットワークパラメータと共にエンドツーエンドに学習される。 実験により,fsoinetは既存の最先端手法を定量的に,質的にも大きなマージンで上回ることがわかった。 ソースコードはhttps://github.com/cwjjun/FSOINet.comで入手できる。

In recent years, deep learning-based image compressive sensing (ICS) methods have achieved brilliant success. Many optimization-inspired networks have been proposed to bring the insights of optimization algorithms into the network structure design and have achieved excellent reconstruction quality with low computational complexity. But they keep the information flow in pixel space as traditional algorithms by updating and transferring the image in pixel space, which does not fully use the information in the image features. In this paper, we propose the idea of achieving information flow phase by phase in feature space and design a Feature-Space Optimization-Inspired Network (dubbed FSOINet) to implement it by mapping both steps of proximal gradient descent algorithm from pixel space to feature space. Moreover, the sampling matrix is learned end-to-end with other network parameters. Experiments show that the proposed FSOINet outperforms the existing state-of-the-art methods by a large margin both quantitatively and qualitatively. The source code is available on https://github.com/cwjjun/FSOINet.
翻訳日:2022-04-13 13:13:04 公開日:2022-04-12
# TopFormer:モバイルセマンティックセグメンテーションのためのToken Pyramid Transformer

TopFormer: Token Pyramid Transformer for Mobile Semantic Segmentation ( http://arxiv.org/abs/2204.05525v1 )

ライセンス: Link先を確認
Wenqiang Zhang, Zilong Huang, Guozhong Luo, Tao Chen, Xinggang Wang, Wenyu Liu, Gang Yu, Chunhua Shen(参考訳) 視覚変換器(ViT)はコンピュータビジョンにおいて大きな成功を収めているが、計算コストの重いため、モバイルデバイス上のセマンティックセグメンテーションのような密集した予測タスクに応用される。 本稿では,モバイルフレンドリーなアーキテクチャである \textbf{To}ken \textbf{P}yramid Vision Trans\textbf{former} (\textbf{TopFormer})を提案する。 提案された \textbf{TopFormer} は、様々なスケールから Tokens を入力として、スケール対応のセマンティック機能を生成し、対応するトークンに注入して表現を拡大する。 実験の結果,本手法は複数のセマンティクスセグメンテーションデータセットにおいてcnnおよびvitベースのネットワークを著しく上回っており,精度とレイテンシのトレードオフが良好であることがわかった。 ADE20Kデータセットでは、TopFormerはMobileNetV3よりもmIoUの精度が5倍高く、ARMベースのモバイルデバイスではレイテンシが低い。 さらに、TopFormerの小さなバージョンは、ARMベースのモバイルデバイス上で、競合する結果のリアルタイム推論を実現する。 コードとモデルは、https://github.com/hustvl/topformerで利用可能である。

Although vision transformers (ViTs) have achieved great success in computer vision, the heavy computational cost hampers their applications to dense prediction tasks such as semantic segmentation on mobile devices. In this paper, we present a mobile-friendly architecture named \textbf{To}ken \textbf{P}yramid Vision Trans\textbf{former} (\textbf{TopFormer}). The proposed \textbf{TopFormer} takes Tokens from various scales as input to produce scale-aware semantic features, which are then injected into the corresponding tokens to augment the representation. Experimental results demonstrate that our method significantly outperforms CNN- and ViT-based networks across several semantic segmentation datasets and achieves a good trade-off between accuracy and latency. On the ADE20K dataset, TopFormer achieves 5\% higher accuracy in mIoU than MobileNetV3 with lower latency on an ARM-based mobile device. Furthermore, the tiny version of TopFormer achieves real-time inference on an ARM-based mobile device with competitive results. The code and models are available at: https://github.com/hustvl/TopFormer
翻訳日:2022-04-13 13:12:47 公開日:2022-04-12
# 後方追従モジュールと前方追従モジュールの混在による一方向映像認識

Unidirectional Video Denoising by Mimicking Backward Recurrent Modules with Look-ahead Forward Ones ( http://arxiv.org/abs/2204.05532v1 )

ライセンス: Link先を確認
Junyi Li, Xiaohe Wu, Zhenxin Niu, and Wangmeng Zuo(参考訳) ディープ・ビデオのDeep Denoisingでは大きな進歩があったが、歴史的および将来のフレームを利用するのは非常に難しい。 双方向リカレントネットワーク (BiRNN) は、いくつかのビデオ復元作業において魅力的な性能を示した。 しかし、birnnは本質的にオフラインであるため、下位のリカレントモジュールを使用してラストフレームから現在のフレームに伝播し、高いレイテンシと大きなメモリ消費を引き起こす。 BiRNNのオフライン問題に対処するため,一方向映像復調のためのフォワードとルックアヘッドのリカレントモジュールからなる新しいリカレントネットワークを提案する。 特にlook-aheadモジュールは、近未来のフレームからの情報を活用するための精巧な前方モジュールである。 現行のフレームを飾る際、前向きと後向きのリカレントモジュールによる隠蔽特徴を組み合わせ、歴史的および近未来のフレームを活用できるようにする。 隣接しないフレーム間のシーン移動により、近未来のフレームから現在のフレームへのルックアヘッド特徴の歪曲時に境界画素が欠落する可能性がある。 実験により,本手法は一定レイテンシとメモリ消費で最先端の性能を実現することを示す。 ソースコードと事前訓練されたモデルが公開される。

While significant progress has been made in deep video denoising, it remains very challenging for exploiting historical and future frames. Bidirectional recurrent networks (BiRNN) have exhibited appealing performance in several video restoration tasks. However, BiRNN is intrinsically offline because it uses backward recurrent modules to propagate from the last to current frames, which causes high latency and large memory consumption. To address the offline issue of BiRNN, we present a novel recurrent network consisting of forward and look-ahead recurrent modules for unidirectional video denoising. Particularly, look-ahead module is an elaborate forward module for leveraging information from near-future frames. When denoising the current frame, the hidden features by forward and look-ahead recurrent modules are combined, thereby making it feasible to exploit both historical and near-future frames. Due to the scene motion between non-neighboring frames, border pixels missing may occur when warping look-ahead feature from near-future frame to current frame, which can be largely alleviated by incorporating forward warping and border enlargement. Experiments show that our method achieves state-of-the-art performance with constant latency and memory consumption. The source code and pre-trained models will be publicly available.
翻訳日:2022-04-13 13:12:27 公開日:2022-04-12
# 文字コンテキストデカップリングによるオープンセットテキスト認識

Open-set Text Recognition via Character-Context Decoupling ( http://arxiv.org/abs/2204.05535v1 )

ライセンス: Link先を確認
Chang Liu, Chun Yang, Xu-Cheng Yin(参考訳) オープンセットテキスト認識タスクは、評価中に新しい文字を認識する余分な能力を必要とする、新たな課題である。 現状の手法における限られた性能の大きな原因は,個々の文字の視覚的情報に対する文脈情報の影響である。 オープンセットのシナリオでは、コンテキスト情報の難解なバイアスが視覚情報に受け継がれ、結果として分類性能が損なわれる。 本稿では,文脈情報と文字視覚情報を分離することにより,この問題を軽減するために,文字コンテキスト分離フレームワークを提案する。 文脈情報は時間情報と言語情報に分解することができる。 ここでは、文字順と単語長をモデル化する時間情報を分離した時間的注意モジュールで分離する。 n-gramや他の言語統計をモデル化する言語情報は、分離されたコンテキストアンカー機構によって分離される。 様々な定量的および定性的な実験により,提案手法はオープンセット,ゼロショット,クローズセットのテキスト認識データセット上で有望な性能を達成することを示す。

The open-set text recognition task is an emerging challenge that requires an extra capability to cognize novel characters during evaluation. We argue that a major cause of the limited performance for current methods is the confounding effect of contextual information over the visual information of individual characters. Under open-set scenarios, the intractable bias in contextual information can be passed down to visual information, consequently impairing the classification performance. In this paper, a Character-Context Decoupling framework is proposed to alleviate this problem by separating contextual information and character-visual information. Contextual information can be decomposed into temporal information and linguistic information. Here, temporal information that models character order and word length is isolated with a detached temporal attention module. Linguistic information that models n-gram and other linguistic statistics is separated with a decoupled context anchor mechanism. A variety of quantitative and qualitative experiments show that our method achieves promising performance on open-set, zero-shot, and close-set text recognition datasets.
翻訳日:2022-04-13 13:12:06 公開日:2022-04-12
# 手書き認識のためのテキスト行画像の内容とスタイル認識

Content and Style Aware Generation of Text-line Images for Handwriting Recognition ( http://arxiv.org/abs/2204.05539v1 )

ライセンス: Link先を確認
Lei Kang, Pau Riba, Mar\c{c}al Rusi\~nol, Alicia Forn\'es, Mauricio Villegas(参考訳) 手書きテキスト認識は、公開ベンチマークで素晴らしいパフォーマンスを達成した。 しかし、手書きスタイル間の高いクラス間およびクラス内変動のため、このような認識器は大量の手書きラベル付きトレーニングデータを用いて訓練する必要がある。 この手間の軽減のために、truetypeフォントで生成された合成データはしばしばトレーニングループで使用され、ボリュームを獲得し、手書きスタイルの変化性を高める。 しかし、認識性能の向上を妨げる合成データと実データの間には、重要なスタイルバイアスがある。 このような制約に対処するため,視覚的外観とテキストコンテンツの両方を条件とした手書きテキストライン画像の生成手法を提案する。 本手法では,筆跡の異なる長いテキストラインサンプルを作成できる。 本手法は,手書きのスタイルを模倣し,任意のテキストコンテンツで画像を生成するために,ラベルのないテキストライン画像にのみアクセスすることで,新たなターゲットデータに適応することができる。 生成したサンプルを用いて手書き文字認識性能を向上させる実験が数多く行われている。 定性的かつ定量的な結果は,提案手法が現状よりも優れていることを示している。

Handwritten Text Recognition has achieved an impressive performance in public benchmarks. However, due to the high inter- and intra-class variability between handwriting styles, such recognizers need to be trained using huge volumes of manually labeled training data. To alleviate this labor-consuming problem, synthetic data produced with TrueType fonts has been often used in the training loop to gain volume and augment the handwriting style variability. However, there is a significant style bias between synthetic and real data which hinders the improvement of recognition performance. To deal with such limitations, we propose a generative method for handwritten text-line images, which is conditioned on both visual appearance and textual content. Our method is able to produce long text-line samples with diverse handwriting styles. Once properly trained, our method can also be adapted to new target data by only accessing unlabeled text-line images to mimic handwritten styles and produce images with any textual content. Extensive experiments have been done on making use of the generated samples to boost Handwritten Text Recognition performance. Both qualitative and quantitative results demonstrate that the proposed approach outperforms the current state of the art.
翻訳日:2022-04-13 13:11:50 公開日:2022-04-12
# クロスドメインセマンティクスセグメンテーションにおけるラベルシフトの損傷の解消

Undoing the Damage of Label Shift for Cross-domain Semantic Segmentation ( http://arxiv.org/abs/2204.05546v1 )

ライセンス: Link先を確認
Yahao Liu, Jinhong Deng, Jiale Tao, Tong Chu, Lixin Duan, Wen Li(参考訳) 既存の作業は通常、データ分散ミスマッチ問題としてクロスドメインセマンティックセグメンテーション(CDSS)を扱い、限界分布や条件分布の整合に集中する。 しかし、ラベルシフト問題は残念ながら見過ごされ、CDSSタスクに一般的に存在し、しばしば学習モデルに分類器バイアスを引き起こす。 本稿では,データ条件分布を整列し,後続確率を補正することにより,ラベルシフトの損傷を克服できることを示す。 そこで本研究では,CDSSにおけるラベルシフト問題に対するダメージを解消するための新しい手法を提案する。 実装では、条件分布アライメントのためのクラスレベルの特徴アライメントと、2つの単純かつ効果的な方法を採用し、分類器の予測を書き換えることで、ソースからターゲットへの分類器バイアスを補正する。 我々は,gta5から都市景観へ,シンセシアから都市景観へといった都市景観のベンチマークデータセットを広範囲に実験し,提案手法が従来の手法を大きく上回った。 例えば、我々のモデルは、GTA5上で59.3% mIoUに達し、Cityscapesに到達し、新しい最先端技術へと押し上げています。 コードはhttps://github.com/manmanjun/Undoing UDAで入手できる。

Existing works typically treat cross-domain semantic segmentation (CDSS) as a data distribution mismatch problem and focus on aligning the marginal distribution or conditional distribution. However, the label shift issue is unfortunately overlooked, which actually commonly exists in the CDSS task, and often causes a classifier bias in the learnt model. In this paper, we give an in-depth analysis and show that the damage of label shift can be overcome by aligning the data conditional distribution and correcting the posterior probability. To this end, we propose a novel approach to undo the damage of the label shift problem in CDSS. In implementation, we adopt class-level feature alignment for conditional distribution alignment, as well as two simple yet effective methods to rectify the classifier bias from source to target by remolding the classifier predictions. We conduct extensive experiments on the benchmark datasets of urban scenes, including GTA5 to Cityscapes and SYNTHIA to Cityscapes, where our proposed approach outperforms previous methods by a large margin. For instance, our model equipped with a self-training strategy reaches 59.3% mIoU on GTA5 to Cityscapes, pushing to a new state-of-the-art. The code will be available at https://github.com/manmanjun/Undoing UDA.
翻訳日:2022-04-13 13:11:32 公開日:2022-04-12
# エネルギー移動を伴う低ランク射影によるコンパクトモデルトレーニング

Compact Model Training by Low-Rank Projection with Energy Transfer ( http://arxiv.org/abs/2204.05566v1 )

ライセンス: Link先を確認
Kailing Guo, Zhenquan Lin, Xiaofen Xing, Fang Liu, Xiangmin Xu(参考訳) 低ランクは従来の機械学習において重要な役割を果たすが、ディープラーニングではそれほど人気がない。 従来の低ランクネットワーク圧縮法は、事前訓練されたモデルと再訓練を近似してネットワークを圧縮する。 しかし、ユークリッド空間の最適解はローランク多様体の最適解とは全く異なるかもしれない。 十分に事前訓練されたモデルは、低ランク制約のモデルにとって良い初期化ではない。 これにより、低ランク圧縮ネットワークの性能は著しく低下する。 プルーニングなどの他のネットワーク圧縮手法と比較して、近年は低ランク法が注目されている。 本稿では,低ランク圧縮ネットワークをスクラッチからトレーニングし,競争性能を向上する,新しいトレーニング手法である低ランクプロジェクション・アンド・エネルギ転送(LRPET)を提案する。 まず, 確率勾配降下訓練と低ランク多様体への射影を交互に行うことを提案する。 この漸近的に低ランク多様体の最適解に近づく。 コンパクトモデルでのリトレーニングと比較して、プロジェクション後に解空間がユークリッド空間に緩和されるため、モデル容量を十分に活用することができる。 第二に、射影による行列エネルギー(特異値の二乗の和)の減少はエネルギー移動によって補償される。 切断された特異値のエネルギーを残りの値に均一に転送する。 理論上, エネルギー移動は投影による勾配消失の傾向を緩和することを示した。 CIFAR-10 と ImageNet の総合的な実験により,本手法は他の低ランク圧縮法よりも優れていること,また最近の最先端プルーニング法よりも優れていることが確認された。

Low-rankness plays an important role in traditional machine learning, but is not so popular in deep learning. Most previous low-rank network compression methods compress the networks by approximating pre-trained models and re-training. However, optimal solution in the Euclidean space may be quite different from the one in the low-rank manifold. A well pre-trained model is not a good initialization for the model with low-rank constraint. Thus, the performance of low-rank compressed network degrades significantly. Compared to other network compression methods such as pruning, low-rank methods attracts less attention in recent years. In this paper, we devise a new training method, low-rank projection with energy transfer (LRPET), that trains low-rank compressed networks from scratch and achieves competitive performance. First, we propose to alternately perform stochastic gradient descent training and projection onto the low-rank manifold. This asymptotically approaches the optimal solution in the low-rank manifold. Compared to re-training on compact model, this enables fully utilization of model capacity since solution space is relaxed back to Euclidean space after projection. Second, the matrix energy (the sum of squares of singular values) reduction caused by projection is compensated by energy transfer. We uniformly transfer the energy of the pruned singular values to the remaining ones. We theoretically show that energy transfer eases the trend of gradient vanishing caused by projection. Comprehensive experiment on CIFAR-10 and ImageNet have justified that our method is superior to other low-rank compression methods and also outperforms recent state-of-the-art pruning methods.
翻訳日:2022-04-13 13:11:07 公開日:2022-04-12
# hyperdet3d:シーン条件付き3dオブジェクト検出器の学習

HyperDet3D: Learning a Scene-conditioned 3D Object Detector ( http://arxiv.org/abs/2204.05599v1 )

ライセンス: Link先を確認
Yu Zheng, Yueqi Duan, Jiwen Lu, Jie Zhou, Qi Tian(参考訳) 図書室の浴槽、オフィスの流し台、洗濯室のベッド 逆直観は、シーンが3dオブジェクトの検出に重要な事前知識を提供することを示唆している。 本稿では,3次元物体検出のためのシーン条件付き事前知識を探索するHyperDet3Dを提案する。 既存の手法では、局所的な要素とその関係をシーン条件の知識を伴わずに表現し、個々の点や対象候補の理解に基づく曖昧さを引き起こすことを目指している。 代わりにHyperDet3Dは、シーン条件のハイパーネットワークを通じて、シーンに依存しない埋め込みとシーン固有の知識を同時に学習する。 より具体的には、HyperDet3Dは様々な3Dシーンのシャーバブルな抽象化を探索するだけでなく、テスト時の特定のシーンに検出器を適応させる。 シーン条件付き知識の融合に基づいて条件付き検出器の層パラメータを動的に制御する識別型マルチヘッドシーン依存モジュールを提案する。 我々のHyperDet3Dは、ScanNetとSUN RGB-Dデータセットの3Dオブジェクト検出ベンチマークで最先端の結果を得る。 さらに、クロスデータセット評価により、取得したシーン条件の事前知識がドメインギャップのある3次元シーンに直面する場合、依然として有効であることを示す。

A bathtub in a library, a sink in an office, a bed in a laundry room -- the counter-intuition suggests that scene provides important prior knowledge for 3D object detection, which instructs to eliminate the ambiguous detection of similar objects. In this paper, we propose HyperDet3D to explore scene-conditioned prior knowledge for 3D object detection. Existing methods strive for better representation of local elements and their relations without scene-conditioned knowledge, which may cause ambiguity merely based on the understanding of individual points and object candidates. Instead, HyperDet3D simultaneously learns scene-agnostic embeddings and scene-specific knowledge through scene-conditioned hypernetworks. More specifically, our HyperDet3D not only explores the sharable abstracts from various 3D scenes, but also adapts the detector to the given scene at test time. We propose a discriminative Multi-head Scene-specific Attention (MSA) module to dynamically control the layer parameters of the detector conditioned on the fusion of scene-conditioned knowledge. Our HyperDet3D achieves state-of-the-art results on the 3D object detection benchmark of the ScanNet and SUN RGB-D datasets. Moreover, through cross-dataset evaluation, we show the acquired scene-conditioned prior knowledge still takes effect when facing 3D scenes with domain gap.
翻訳日:2022-04-13 13:09:37 公開日:2022-04-12
# オープンセット物体検出と発見に向けて

Towards Open-Set Object Detection and Discovery ( http://arxiv.org/abs/2204.05604v1 )

ライセンス: Link先を確認
Jiyang Zheng, Weihao Li, Jie Hong, Lars Petersson, Nick Barnes(参考訳) 知識の人間の追求により、オープンセットオブジェクト検出(osod)は動的世界の未知のオブジェクトを識別するために設計されている。 しかし、現在の設定の問題は、予測された未知のオブジェクトはすべて「未知」と同一のカテゴリを共有しており、新しいクラスをラベル付けするためには、人間とループのアプローチによる漸進的な学習が必要であることである。 この問題に対処するため,OODD(Open-Set Object Detection and Discovery)という新しいタスクを提案する。 この新たな課題は、オープンセットのオブジェクト検出器が、人間の努力なしに視覚的外観に基づいて未知のオブジェクトのカテゴリを発見できるように拡張することを目的としている。 本研究では,まずオープンセット物体検出器を用いて未知物体と未知物体の両方を予測する2段階法を提案する。 次に,予測対象の表現を教師なしの方法で検討し,未知対象の集合から新たなカテゴリを見つける。 この方法では、既知のクラスに属するオブジェクトを検出し、最小限の監督で未知クラスのオブジェクトの新しいカテゴリを定義することができる。 我々は,MS-COCOデータセット上でのモデルの性能を,徹底的な評価プロトコルの下で示す。 我々は、より堅牢な現実世界検出システムに向けたさらなる研究を促進することを願っている。

With the human pursuit of knowledge, open-set object detection (OSOD) has been designed to identify unknown objects in a dynamic world. However, an issue with the current setting is that all the predicted unknown objects share the same category as "unknown", which require incremental learning via a human-in-the-loop approach to label novel classes. In order to address this problem, we present a new task, namely Open-Set Object Detection and Discovery (OSODD). This new task aims to extend the ability of open-set object detectors to further discover the categories of unknown objects based on their visual appearance without human effort. We propose a two-stage method that first uses an open-set object detector to predict both known and unknown objects. Then, we study the representation of predicted objects in an unsupervised manner and discover new categories from the set of unknown objects. With this method, a detector is able to detect objects belonging to known classes and define novel categories for objects of unknown classes with minimal supervision. We show the performance of our model on the MS-COCO dataset under a thorough evaluation protocol. We hope that our work will promote further research towards a more robust real-world detection system.
翻訳日:2022-04-13 13:09:14 公開日:2022-04-12
# 自撮りバイオメトリクスの超解法:顔と虹彩への導入と応用

Super-Resolution for Selfie Biometrics: Introduction and Application to Face and Iris ( http://arxiv.org/abs/2204.05688v1 )

ライセンス: Link先を確認
Fernando Alonso-Fernandez, Reuben A. Farrugia, Julian Fierrez, Josef Bigun(参考訳) 解像度の欠如は、画像ベースのバイオメトリックスの性能に悪影響を及ぼす。 モバイルデバイスでユビキタスになりつつある多くのアプリケーションは、制御された環境では動作せず、ピクセル解像度の欠如により性能が著しく低下する。 バイオメトリックスのための低解像度画像を復元するために多くの汎用超解像技術が研究されているが、得られた結果は必ずしも望まれるものではない。 これらのジェネリックメソッドは通常、シーンの視覚的外観を高めることを目的としています。 しかし、生体画像の全体的な視覚的拡張は、必ずしもより良い認識性能と相関しない。 このような手法は、汎用的なイメージを復元するために設計されており、バイオメトリック画像(例えば虹彩や顔)で見られる特定の構造を利用せず、それによって解が最適となる。 このため、超解像技術は特定のバイオメトリックモダリティからの画像の特異性に適応する必要がある。 近年では、顔の虹彩、歩行、指紋などの様々な生体情報への超解像の応用への関心が高まっている。 本章では,セルフィーバイオメトリックスの2つの特徴である顔画像と虹彩画像の超解像再構成の最近の進歩について概説する。 また,最先端の復元アルゴリズムを用いて,分類前の顔画像と虹彩画像の品質向上にスーパーレゾリューションを用いることの利点を実証する実験を行った。 報告した実験では、セルフィーバイオメトリックスシナリオをよく表わす実験的なセットアップを用いて、可視範囲で撮影された顔画像と虹彩画像に対する超解像の応用について検討した。

The lack of resolution has a negative impact on the performance of image-based biometrics. Many applications which are becoming ubiquitous in mobile devices do not operate in a controlled environment, and their performance significantly drops due to the lack of pixel resolution. While many generic super-resolution techniques have been studied to restore low-resolution images for biometrics, the results obtained are not always as desired. Those generic methods are usually aimed to enhance the visual appearance of the scene. However, producing an overall visual enhancement of biometric images does not necessarily correlate with a better recognition performance. Such techniques are designed to restore generic images and therefore do not exploit the specific structure found in biometric images (e.g. iris or faces), which causes the solution to be sub-optimal. For this reason, super-resolution techniques have to be adapted for the particularities of images from a specific biometric modality. In recent years, there has been an increased interest in the application of super-resolution to different biometric modalities, such as face iris, gait or fingerprint. This chapter presents an overview of recent advances in super-resolution reconstruction of face and iris images, which are the two prevalent modalities in selfie biometrics. We also provide experimental results using several state-of-the-art reconstruction algorithms, demonstrating the benefits of using super-resolution to improve the quality of face and iris images prior to classification. In the reported experiments, we study the application of super-resolution to face and iris images captured in the visible range, using experimental setups that represent well the selfie biometrics scenario.
翻訳日:2022-04-13 13:08:55 公開日:2022-04-12
# GARF:高忠実度再構成のためのガウス能動放射場とポース推定

GARF: Gaussian Activated Radiance Fields for High Fidelity Reconstruction and Pose Estimation ( http://arxiv.org/abs/2204.05735v1 )

ライセンス: Link先を確認
Shin-Fang Chng, Sameera Ramasinghe, Jamie Sherrah, Simon Lucey(参考訳) neural radiance fields (nerf)は、実世界のシーンを合成するフォトリアリスティックな斬新なビューの魅力的な結果を示しているが、既存のアプローチのほとんどは正確な事前カメラポーズを必要とする。 レージアンス場とカメラポーズを共同で回収するためのアプローチ(BARF)は存在するが、良好な性能を確保するために、粗い粗い位置埋め込みに依存している。 本稿では, ガウス能動型ニューラルレージアン場(GARF)について述べる。ガウス能動を用いた新しい位置埋め込み自由なニューラルレージアン場(GARF)は, 高忠実度再構成とポーズ推定の観点から, 現在の最先端技術を上回っている。

Despite Neural Radiance Fields (NeRF) showing compelling results in photorealistic novel views synthesis of real-world scenes, most existing approaches require accurate prior camera poses. Although approaches for jointly recovering the radiance field and camera pose exist (BARF), they rely on a cumbersome coarse-to-fine auxiliary positional embedding to ensure good performance. We present Gaussian Activated neural Radiance Fields (GARF), a new positional embedding-free neural radiance field architecture - employing Gaussian activations - that outperforms the current state-of-the-art in terms of high fidelity reconstruction and pose estimation.
翻訳日:2022-04-13 13:08:27 公開日:2022-04-12
# LifeLonger: 継続的な疾患分類のためのベンチマーク

LifeLonger: A Benchmark for Continual Disease Classification ( http://arxiv.org/abs/2204.05737v1 )

ライセンス: Link先を確認
Mohammad Mahdi Derakhshani, Ivona Najdenkoska, Tom van Sonsbeek, Xiantong Zhen, Dwarikanath Mahapatra, Marcel Worring and Cees G. M. Snoek(参考訳) 深層学習モデルは医療画像における発見の認識において大きな効果を示した。 しかし、絶え間なく変化する臨床環境には対処できず、異なるソースから新たに注釈された医療データをもたらす。 入力されるデータストリームを利用するには、これらのモデルは、事前に得られた知識を忘れることなく、新しいサンプルから順次学習することによるメリットが大きい。 本稿では,現在最先端の連続学習手法を応用し,メドムニストコレクションにおける連続病分類の指標であるlifelongerを提案する。 特に,タスクとクラスによるインクリメンタル学習と,新たに定義されたクロスドメインインクリメンタル学習という,3つの連続学習シナリオを検討する。 タスクとクラスによる病気のインクリメンタル学習は、モデルをゼロから再トレーニングせずに新しいサンプルを分類する問題に対処する一方、クロスドメインインクリメンタル学習は、前もって得られた知識を保持しながら、異なる機関に由来するデータセットを扱う問題に対処する。 性能の徹底的な分析を行い,大惨事の忘れなど,継続的な学習の周知の課題がどのように現れるかを検討する。 その結果, 連続学習は疾患分類を前進させ, より堅牢で効率的な臨床学習フレームワークを構築する上で大きな可能性を秘めている。 完全なベンチマークのためのコードリポジトリ、データパーティション、ベースライン結果が公開される予定だ。

Deep learning models have shown a great effectiveness in recognition of findings in medical images. However, they cannot handle the ever-changing clinical environment, bringing newly annotated medical data from different sources. To exploit the incoming streams of data, these models would benefit largely from sequentially learning from new samples, without forgetting the previously obtained knowledge. In this paper we introduce LifeLonger, a benchmark for continual disease classification on the MedMNIST collection, by applying existing state-of-the-art continual learning methods. In particular, we consider three continual learning scenarios, namely, task and class incremental learning and the newly defined cross-domain incremental learning. Task and class incremental learning of diseases address the issue of classifying new samples without re-training the models from scratch, while cross-domain incremental learning addresses the issue of dealing with datasets originating from different institutions while retaining the previously obtained knowledge. We perform a thorough analysis of the performance and examine how the well-known challenges of continual learning, such as the catastrophic forgetting exhibit themselves in this setting. The encouraging results demonstrate that continual learning has a major potential to advance disease classification and to produce a more robust and efficient learning framework for clinical settings. The code repository, data partitions and baseline results for the complete benchmark will be made publicly available.
翻訳日:2022-04-13 13:08:12 公開日:2022-04-12
# (参考訳) 検出・曖昧化・再分類:マルチタスク問題としての自己回帰エンティティリンク

Detection, Disambiguation, Re-ranking: Autoregressive Entity Linking as a Multi-Task Problem ( http://arxiv.org/abs/2204.05990v1 )

ライセンス: CC BY 4.0
Khalil Mrini, Shaoliang Nie, Jiatao Gu, Sinong Wang, Maziar Sanjabi, Hamed Firooz(参考訳) 2つの補助タスクで訓練し,生成したサンプルの再ランク付けを学習する自己回帰型エンティティリンクモデルを提案する。 我々の新案は文学の弱点を2つ取り上げている。 まず、参照検出とエンティティ候補の選択を学習する手法を提案するが、事前に定義された候補集合に依存する。 我々は,このニーズを回避すべく,エンコーダ・デコーダ自己回帰エンティティリンクを用い,その代わりに注意点検出を補助タスクとして訓練する。 第2に、以前の研究は、再ランク付けが予測エラーの修正に役立つことを示唆している。 再ランキングを学ぶために、新しい補助タスク、予測マッチングを追加します。 バイオメディカルドメインのCOMETAとニュースドメインのAIDA-CoNLLという,エンティティリンクのベンチマークデータセットに,知識ベースや候補セットを使わずに新たな技術状態を設定する。 アブレーション研究により,2つの補助タスクのそれぞれが性能を増加させ,再ランキングが増加の重要な要因であることを示した。 最後に,低リソースな実験結果から,メインタスクのパフォーマンスは,追加のトレーニングデータだけでなく,補助タスクから得られる知識によっても有益であることが示唆された。

We propose an autoregressive entity linking model, that is trained with two auxiliary tasks, and learns to re-rank generated samples at inference time. Our proposed novelties address two weaknesses in the literature. First, a recent method proposes to learn mention detection and then entity candidate selection, but relies on predefined sets of candidates. We use encoder-decoder autoregressive entity linking in order to bypass this need, and propose to train mention detection as an auxiliary task instead. Second, previous work suggests that re-ranking could help correct prediction errors. We add a new, auxiliary task, match prediction, to learn re-ranking. Without the use of a knowledge base or candidate sets, our model sets a new state of the art in two benchmark datasets of entity linking: COMETA in the biomedical domain, and AIDA-CoNLL in the news domain. We show through ablation studies that each of the two auxiliary tasks increases performance, and that re-ranking is an important factor to the increase. Finally, our low-resource experimental results suggest that performance on the main task benefits from the knowledge learned by the auxiliary tasks, and not just from the additional training data.
翻訳日:2022-04-13 13:07:18 公開日:2022-04-12
# clmlf:マルチモーダル感情検出のためのコントラスト学習と多層融合法

CLMLF:A Contrastive Learning and Multi-Layer Fusion Method for Multimodal Sentiment Detection ( http://arxiv.org/abs/2204.05515v1 )

ライセンス: Link先を確認
Zhen Li, Bing Xu, Conghui Zhu, Tiejun Zhao(参考訳) ユニモーダルデータと比較すると、マルチモーダルデータは、モデルがデータの感情を分析するのに役立つより多くの機能を提供する。 従来の研究ではトークンレベルの特徴融合はめったに検討されておらず、モデルがマルチモーダルな特徴を融合させるためにマルチモーダルなデータの感情に関連する共通の特徴を学習する研究はほとんどない。 本稿では,マルチモーダル感情検出のためのコントラスト学習と多層融合(CLMLF)手法を提案する。 具体的には、まずテキストと画像をエンコードして隠れ表現を取得し、次に多層融合モジュールを使用してテキストと画像のトークンレベルの特徴を整合・融合する。 また、感情分析タスクに加えて、ラベルベースのコントラスト学習とデータベースのコントラスト学習タスクという2つのコントラスト学習タスクも設計し、マルチモーダルデータにおける感情に関する共通特徴の学習を支援する。 3つの公開マルチモーダルデータセットで行った広範囲な実験は、既存の手法と比較して、マルチモーダル感情検出に対するアプローチの有効性を示している。 コードはhttps://github.com/Link-Li/CLMLFで利用可能である。

Compared with unimodal data, multimodal data can provide more features to help the model analyze the sentiment of data. Previous research works rarely consider token-level feature fusion, and few works explore learning the common features related to sentiment in multimodal data to help the model fuse multimodal features. In this paper, we propose a Contrastive Learning and Multi-Layer Fusion (CLMLF) method for multimodal sentiment detection. Specifically, we first encode text and image to obtain hidden representations, and then use a multi-layer fusion module to align and fuse the token-level features of text and image. In addition to the sentiment analysis task, we also designed two contrastive learning tasks, label based contrastive learning and data based contrastive learning tasks, which will help the model learn common features related to sentiment in multimodal data. Extensive experiments conducted on three publicly available multimodal datasets demonstrate the effectiveness of our approach for multimodal sentiment detection compared with existing methods. The codes are available for use at https://github.com/Link-Li/CLMLF
翻訳日:2022-04-13 12:48:58 公開日:2022-04-12
# 正則性に深く潜入する:中国の固有実体認識のための単純だが効果的な方法

Delving Deep into Regularity: A Simple but Effective Method for Chinese Named Entity Recognition ( http://arxiv.org/abs/2204.05544v1 )

ライセンス: Link先を確認
Yingjie Gu, Xiaoye Qu, Zhefeng Wang, Yi Zheng, Baoxing Huai, Nicholas Jing Yuan(参考訳) 近年,中国における名前付きエンティティ認識(NER)の性能向上は,新たなフレームワークの提案や単語レキシコンの導入によるものだ。 しかし、文字レベルの中国語のnerでは、エンティティを参照する内部構成が研究されることはほとんどない。 実際、正則型のほとんどの言及は強い名前規則性を持っている。 例えば、エンティティは通常、組織に属する"company"や"bank"といった指標語で終わる。 本稿では,中国NERにおけるエンティティスパンの規則性について,RICON(Regularity-Inspired Recognition Network)と呼ばれる簡易かつ効果的な調査手法を提案する。 具体的には,正則性認識モジュールと正則性認識モジュールの2つの分岐からなる。 正規性認識モジュールは、エンティティタイプ予測を改善するために各スパンの内部正規性をキャプチャし、正規性非依存モジュールは、エンティティの境界の位置を特定し、スパン正規性に対する過度な注意を緩和するために使用される。 直交空間はさらに、2つの加群が正則性の特徴の異なる側面を抽出することを奨励するために構成される。 本手法の有効性を検証するため、3つのベンチマークデータセットと実用的な医療データセットについて広範な実験を行った。 実験の結果, RICONは様々なレキシコン法を含む従来の最先端手法よりも優れていた。

Recent years have witnessed the improving performance of Chinese Named Entity Recognition (NER) from proposing new frameworks or incorporating word lexicons. However, the inner composition of entity mentions in character-level Chinese NER has been rarely studied. Actually, most mentions of regular types have strong name regularity. For example, entities end with indicator words such as "company" or "bank" usually belong to organization. In this paper, we propose a simple but effective method for investigating the regularity of entity spans in Chinese NER, dubbed as Regularity-Inspired reCOgnition Network (RICON). Specifically, the proposed model consists of two branches: a regularity-aware module and a regularityagnostic module. The regularity-aware module captures the internal regularity of each span for better entity type prediction, while the regularity-agnostic module is employed to locate the boundary of entities and relieve the excessive attention to span regularity. An orthogonality space is further constructed to encourage two modules to extract different aspects of regularity features. To verify the effectiveness of our method, we conduct extensive experiments on three benchmark datasets and a practical medical dataset. The experimental results show that our RICON significantly outperforms previous state-of-the-art methods, including various lexicon-based methods.
翻訳日:2022-04-13 12:48:40 公開日:2022-04-12
# 歯ブラシはキッチンで何をしますか。 トランスフォーマーが世界の構造をどう考えるか

What do Toothbrushes do in the Kitchen? How Transformers Think our World is Structured ( http://arxiv.org/abs/2204.05673v1 )

ライセンス: Link先を確認
Alexander Henlein, Alexander Mehler(参考訳) トランスフォーマーベースのモデルは現在ではNLPが主流である。 多くの点で静的モデルに基づくアプローチよりも優れています。 この成功により、トランスフォーマーによって生成される言語モデルに多くのバイアスが生じる研究がもたらされた。 本稿では, 対象関係に関する知識の抽出にトランスフォーマーに基づく言語モデルがどの程度有効かを調べるために, バイアスに関するこの研究を利用する(XはY、XはZ、アクションAはXを含む)。 この目的のために、文脈化されたモデルと静的なモデルを比較する。 この比較は、多くの類似性尺度と分類器の適用に依存する。 まず, 異なる類似度尺度と組み合わせたモデルが, 抽出可能な知識量で大きく異なることを示す。 第2に,類似度測定は分類器に基づく手法よりもはるかに優れていることを示す。 第3に、驚くべきことに、静的モデルはコンテキスト化されたモデルとほぼ同じように動作することを示しています。

Transformer-based models are now predominant in NLP. They outperform approaches based on static models in many respects. This success has in turn prompted research that reveals a number of biases in the language models generated by transformers. In this paper we utilize this research on biases to investigate to what extent transformer-based language models allow for extracting knowledge about object relations (X occurs in Y; X consists of Z; action A involves using X). To this end, we compare contextualized models with their static counterparts. We make this comparison dependent on the application of a number of similarity measures and classifiers. Our results are threefold: Firstly, we show that the models combined with the different similarity measures differ greatly in terms of the amount of knowledge they allow for extracting. Secondly, our results suggest that similarity measures perform much worse than classifier-based approaches. Thirdly, we show that, surprisingly, static models perform almost as well as contextualized models -- in some cases even better.
翻訳日:2022-04-13 12:48:19 公開日:2022-04-12
# エンティティ認識のための分解メタラーニング

Decomposed Meta-Learning for Few-Shot Named Entity Recognition ( http://arxiv.org/abs/2204.05751v1 )

ライセンス: Link先を確認
Tingting Ma, Huiqiang Jiang, Qianhui Wu, Tiejun Zhao, Chin-Yew Lin(参考訳) NER (Few-shot named entity recognition) システムは、いくつかのラベル付き例に基づいて、新しい名前付きエンティティを認識することを目的としている。 本稿では,数ショットスパン検出とメタラーニングを用いた数ショットエンティティタイピングを逐次行うことで,数ショットNERの問題に対処するメタラーニング手法を提案する。 特に,数発のスパン検出をシーケンスラベル問題として捉え,モデルに依存しないメタラーニング(MAML)アルゴリズムを導入して,新しいエンティティクラスに迅速に適応できる優れたモデルパラメータの初期化を求める。 少数のエンティティタイプの場合、maml-protonet、すなわちmamlエンハンス付きプロトタイプネットワークを提案し、異なるエンティティクラスからテキストスパン表現を区別する優れた埋め込み空間を見つける。 様々なベンチマーク実験により,本手法は従来の手法よりも優れた性能を示すことが示された。

Few-shot named entity recognition (NER) systems aim at recognizing novel-class named entities based on only a few labeled examples. In this paper, we present a decomposed meta-learning approach which addresses the problem of few-shot NER by sequentially tackling few-shot span detection and few-shot entity typing using meta-learning. In particular, we take the few-shot span detection as a sequence labeling problem and train the span detector by introducing the model-agnostic meta-learning (MAML) algorithm to find a good model parameter initialization that could fast adapt to new entity classes. For few-shot entity typing, we propose MAML-ProtoNet, i.e., MAML-enhanced prototypical networks to find a good embedding space that can better distinguish text span representations from different entity classes. Extensive experiments on various benchmarks show that our approach achieves superior performance over prior methods.
翻訳日:2022-04-13 12:48:03 公開日:2022-04-12
# 知識基盤会話における表現の学習

Learning to Express in Knowledge-Grounded Conversation ( http://arxiv.org/abs/2204.05805v1 )

ライセンス: Link先を確認
Xueliang Zhao, Tingchen Fu, Chongyang Tao, Wei Wu, Dongyan Zhao and Rui Yan(参考訳) 余分な知識による対話生成は、知識と係わる応答で応答できるシステムを構築する大きな可能性を示している。 既存の研究では、適切な知識で応答を合成する方法に焦点が当てられているが、同じ知識が同じ文脈でも話者によって異なる表現が可能であることは無視されている。 本稿では,主に知識表現の2つの側面,すなわち各部分における内容の応答構造とスタイルについて考察する。 そこで我々は,構造とコンテンツスタイルを表す2つの逐次潜在変数を導入する。 本稿では,セグメンテーションに基づく生成モデルを提案し,応答における知識表現の基盤となるパターンを発見するための変分的アプローチによる最適化を行う。 2つのベンチマークによる評価結果は,本モデルがいくつかの例で定義された構造スタイルを学習し,所望のコンテンツスタイルで応答を生成することを示す。

Grounding dialogue generation by extra knowledge has shown great potentials towards building a system capable of replying with knowledgeable and engaging responses. Existing studies focus on how to synthesize a response with proper knowledge, yet neglect that the same knowledge could be expressed differently by speakers even under the same context. In this work, we mainly consider two aspects of knowledge expression, namely the structure of the response and style of the content in each part. We therefore introduce two sequential latent variables to represent the structure and the content style respectively. We propose a segmentation-based generation model and optimize the model by a variational approach to discover the underlying pattern of knowledge expression in a response. Evaluation results on two benchmarks indicate that our model can learn the structure style defined by a few examples and generate responses in desired content style.
翻訳日:2022-04-13 12:47:47 公開日:2022-04-12
# プロジェクトダイアログの新しいコーパス:文学テキストにおける引用属性のデータセット

The Project Dialogism Novel Corpus: A Dataset for Quotation Attribution in Literary Texts ( http://arxiv.org/abs/2204.05836v1 )

ライセンス: Link先を確認
Krishnapriya Vishnubhotla, Adam Hammond, Graeme Hirst(参考訳) 本稿では,英文テキストの引用の注釈付きデータセットであるproject dialogism novel corpus(pdnc)を提案する。 PDNCには22の長編小説に35,978の引用の注釈があり、その種類の中で最大のコーパスである。 各引用は、話者、宛先、引用の種類、表現の参照、引用テキスト内の文字の言及に対して注釈付けされる。 注釈付き属性は、文学テキストの引用属性とコア推論のモデルに対する包括的な評価を可能にする。

We present the Project Dialogism Novel Corpus, or PDNC, an annotated dataset of quotations for English literary texts. PDNC contains annotations for 35,978 quotations across 22 full-length novels, and is by an order of magnitude the largest corpus of its kind. Each quotation is annotated for the speaker, addressees, type of quotation, referring expression, and character mentions within the quotation text. The annotated attributes allow for a comprehensive evaluation of models of quotation attribution and coreference for literary texts.
翻訳日:2022-04-13 12:45:48 公開日:2022-04-12
# ウィキペディア全長伝記の作成:女性伝記の検索に基づく生成におけるジェンダーバイアスの影響

Generating Full Length Wikipedia Biographies: The Impact of Gender Bias on the Retrieval-Based Generation of Women Biographies ( http://arxiv.org/abs/2204.05879v1 )

ライセンス: Link先を確認
Angela Fan, Claire Gardent(参考訳) wikipediaの記事のような、事実的で長文のテキストを生成することは、3つの重要な課題を提起する: 関連する証拠の収集方法、情報の構造化方法、そして生成されたテキストが事実的に正しいことを保証する方法。 本稿では,Web上の関連情報を特定するための検索機構と,キャッシュベースの事前学習エンコーダデコーダを用いて,引用情報を含む長文のバイオグラフィーセクションを生成することで,これらに対処する。 得られたWebエビデンスが出力テキストに与える影響を評価するため,女性に関する伝記(ウェブ上での情報が少ない)を作成する際のアプローチと,一般的にはバイオグラフィの比較を行った。 この目的のために、女性に関する1500の伝記のデータセットをキュレートする。 生成したテキストを分析し、利用可能なWebエビデンスデータの差が生成に与える影響を理解する。 自動測定と人格評価を用いて,生成したテキストの事実性,流動性,品質を評価する。 これらの技術が人間の作家の出発点として利用され、長文、事実文の作成に固有の複雑さを軽減できることを願っている。

Generating factual, long-form text such as Wikipedia articles raises three key challenges: how to gather relevant evidence, how to structure information into well-formed text, and how to ensure that the generated text is factually correct. We address these by developing a model for English text that uses a retrieval mechanism to identify relevant supporting information on the web and a cache-based pre-trained encoder-decoder to generate long-form biographies section by section, including citation information. To assess the impact of available web evidence on the output text, we compare the performance of our approach when generating biographies about women (for which less information is available on the web) vs. biographies generally. To this end, we curate a dataset of 1,500 biographies about women. We analyze our generated text to understand how differences in available web evidence data affect generation. We evaluate the factuality, fluency, and quality of the generated texts using automatic metrics and human evaluation. We hope that these techniques can be used as a starting point for human writers, to aid in reducing the complexity inherent in the creation of long-form, factual text.
翻訳日:2022-04-13 12:45:39 公開日:2022-04-12
# xqa-dst: マルチドメインおよび多言語対話状態追跡

XQA-DST: Multi-Domain and Multi-Lingual Dialogue State Tracking ( http://arxiv.org/abs/2204.05895v1 )

ライセンス: Link先を確認
Han Zhou, Ignacio Iacobacci, Pasquale Minervini(参考訳) タスク指向対話システムにおいて、対話状態追跡(dst)は、会話を通じて与えられた値にスロットを埋めて、すべての重要な情報を追跡する。 既存のメソッドは通常、事前に定義された値セットに依存し、新しいドメインの未確認スロットに一般化するのに苦労する。 本稿では,ニューラルリーディング理解手法を用いた多言語・多言語対話状態トラッカーを提案する。 提案手法は,対話自体から値が抽出されるスパン予測を用いてスロット値を満たす。 新たなトレーニング戦略と独立したドメイン分類器により、我々のモデルは、MultiWOZ 2.1上で53.2%のジョイントゴール精度(JGA)を達成するドメインスケーリング可能かつオープンな語彙モデルであることが実証された。 5つのドメインに対して平均31.6%のJGAを持つMultiWOZ 2.1上でのゼロショットドメイン適応実験による競合転送性を示す。 さらに、最先端のゼロショット結果、64.9%のJGAを英語からドイツ語に、68.6%のJGAを英語からイタリア語にWOZ 2.0で移行した。

In a task-oriented dialogue system, Dialogue State Tracking (DST) keeps track of all important information by filling slots with values given through the conversation. Existing methods generally rely on a predefined set of values and struggle to generalise to previously unseen slots in new domains. In this paper, we propose a multi-domain and multi-lingual dialogue state tracker in a neural reading comprehension approach. Our approach fills the slot values using span prediction, where the values are extracted from the dialogue itself. With a novel training strategy and an independent domain classifier, empirical results demonstrate that our model is a domain-scalable and open-vocabulary model that achieves 53.2% Joint Goal Accuracy (JGA) on MultiWOZ 2.1. We show its competitive transferability by zero-shot domain-adaptation experiments on MultiWOZ 2.1 with an average JGA of 31.6% for five domains. In addition, it achieves cross-lingual transfer with state-of-the-art zero-shot results, 64.9% JGA from English to German and 68.6% JGA from English to Italian on WOZ 2.0.
翻訳日:2022-04-13 12:45:18 公開日:2022-04-12
# NLP結果の定量再現性評価

Quantified Reproducibility Assessment of NLP Results ( http://arxiv.org/abs/2204.05961v1 )

ライセンス: Link先を確認
Anya Belz, Maja Popovi\'c and Simon Mille(参考訳) 本稿では,計量学の概念と定義に基づく量化再現性評価(qra)を行う手法について述べる。 QRAは、所定のシステムの再現可能性の度合いと評価尺度を、異なる再生のスコアと差に基づいて推定する単一スコアを生成する。 我々は18のシステム上でQRAを試験し、それぞれに元の結果と1~7の再生結果を持つ様々なNLPタスクと評価のタイプを含む)評価指標の組み合わせを検証した。 提案するqra法では, 同一ではなく, 異なるオリジナル研究の複数の再現に匹敵する再現度スコアを生成する。 提案手法は,再現性の違いの原因を把握し,システムや評価設計の変更が再現性の向上につながる可能性について結論を導き出す。

This paper describes and tests a method for carrying out quantified reproducibility assessment (QRA) that is based on concepts and definitions from metrology. QRA produces a single score estimating the degree of reproducibility of a given system and evaluation measure, on the basis of the scores from, and differences between, different reproductions. We test QRA on 18 system and evaluation measure combinations (involving diverse NLP tasks and types of evaluation), for each of which we have the original results and one to seven reproduction results. The proposed QRA method produces degree-of-reproducibility scores that are comparable across multiple reproductions not only of the same, but of different original studies. We find that the proposed method facilitates insights into causes of variation between reproductions, and allows conclusions to be drawn about what changes to system and/or evaluation design might lead to improved reproducibility.
翻訳日:2022-04-13 12:44:58 公開日:2022-04-12
# 事前データを最大限に活用する: 好みフィードバックを伴う対話型テキスト要約ソリューション

Make The Most of Prior Data: A Solution for Interactive Text Summarization with Preference Feedback ( http://arxiv.org/abs/2204.05512v1 )

ライセンス: Link先を確認
Duy-Hung Nguyen and Nguyen Viet Dung Nghiem and Bao-Sinh Nguyen and Dung Tien Le and Shahab Sabahi and Minh-Tien Nguyen and Hung Le(参考訳) 要約にとって、人間の嗜好は、人間の利益を優先して要約者のテイムアウトプットに欠かせないものであり、基礎的な要約は乏しく曖昧である。 実践的な設定では、人間とaiエージェント間のダイナミックな交換が必要で、フィードバックはオンライン形式で提供され、一度に数回提供される。 本稿では,嗜好フィードバックを用いた要約モデルを対話的に学習するための新しいフレームワークを提案する。 オフラインデータと新たな報酬モデルを適切に活用することにより,ルージュスコアとサンプル効率の向上を図る。 提案する3つのデータセットを用いた実験により,提案フレームワークの有効・少数・オンラインの選好学習におけるメリットが確認できた。

For summarization, human preference is critical to tame outputs of the summarizer in favor of human interests, as ground-truth summaries are scarce and ambiguous. Practical settings require dynamic exchanges between human and AI agent wherein feedback is provided in an online manner, a few at a time. In this paper, we introduce a new framework to train summarization models with preference feedback interactively. By properly leveraging offline data and a novel reward model, we improve the performance regarding ROUGE scores and sample-efficiency. Our experiments on three various datasets confirm the benefit of the proposed framework in active, few-shot and online settings of preference learning.
翻訳日:2022-04-13 12:44:40 公開日:2022-04-12
# 車両間供給による電気自動車走行問題に対する強化学習アプローチ

A Reinforcement Learning Approach for Electric Vehicle Routing Problem with Vehicle-to-Grid Supply ( http://arxiv.org/abs/2204.05545v1 )

ライセンス: Link先を確認
Ajay Narayanan, Prasant Misra, Ankush Ojha, Vivek Bandhu, Supratim Ghosh, Arunchandar Vasan(参考訳) ラストマイルでの電気自動車(ev)の使用は持続可能性と運用コストの両方の観点からアピールされている。 EVの原価効率に加えて、ピークグリッド需要時に電力をグリッドに戻すことは、フリートオペレーターへの追加収入源となる可能性がある。 これを実現するためには、EVは顧客への商品の配送という中核的な目的を満たしつつも、特定のポイント(所要時間)に特定の場所(ディスチャージポイント)に配置する必要がある。 本研究では,複数のシステム目標を満たした車両間エネルギー供給(cevrptw-d)の負荷容量,タイムウィンドウ,車両間電力供給(cevrptw-d)に制約のあるevルーティングの問題を考える。 EVルーティングに強化学習(RL)を用いたQuikRouteFinderを提案する。 ソロモンデータセットを用いて、RLの結果を混合整数線形プログラム(MILP)と遺伝的アルゴリズム(GA)のメタヒューリスティックスに基づく正確な定式化と比較する。 その結果、RLはMILPとGAの24倍の速さで、品質(20%)は最適であることがわかった。

The use of electric vehicles (EV) in the last mile is appealing from both sustainability and operational cost perspectives. In addition to the inherent cost efficiency of EVs, selling energy back to the grid during peak grid demand, is a potential source of additional revenue to a fleet operator. To achieve this, EVs have to be at specific locations (discharge points) during specific points in time (peak period), even while meeting their core purpose of delivering goods to customers. In this work, we consider the problem of EV routing with constraints on loading capacity; time window; vehicle-to-grid energy supply (CEVRPTW-D); which not only satisfy multiple system objectives, but also scale efficiently to large problem sizes involving hundreds of customers and discharge stations. We present QuikRouteFinder that uses reinforcement learning (RL) for EV routing to overcome these challenges. Using Solomon datasets, results from RL are compared against exact formulations based on mixed-integer linear program (MILP) and genetic algorithm (GA) metaheuristics. On an average, the results show that RL is 24 times faster than MILP and GA, while being close in quality (within 20%) to the optimal.
翻訳日:2022-04-13 12:44:30 公開日:2022-04-12
# 知識フラグメントによる人工知能説明の充実

Enriching Artificial Intelligence Explanations with Knowledge Fragments ( http://arxiv.org/abs/2204.05579v1 )

ライセンス: Link先を確認
Jo\v{z}e M. Ro\v{z}anec, Elena Trajkova, Inna Novalija, Patrik Zajec, Klemen Kenda, Bla\v{z} Fortuna, Dunja Mladeni\'c(参考訳) 人工知能モデルは意思決定を知らせるために製造業でますます使われている。 責任のある意思決定には正確な予測とモデルの振る舞いの理解が必要である。 さらに、モデルの合理性に対する洞察は、ドメイン知識に富むことができます。 この研究は、特定の予測のための機能ランキングを考慮して、メディアニュースエントリ、データセットのメタデータ、Google Knowledge Graphからのエントリを豊かにする説明を構築している。 需要予測に関する実世界のユースケースにおける2つのアプローチ(埋め込みベースと意味ベース)を比較した。

Artificial Intelligence models are increasingly used in manufacturing to inform decision-making. Responsible decision-making requires accurate forecasts and an understanding of the models' behavior. Furthermore, the insights into models' rationale can be enriched with domain knowledge. This research builds explanations considering feature rankings for a particular forecast, enriching them with media news entries, datasets' metadata, and entries from the Google Knowledge Graph. We compare two approaches (embeddings-based and semantic-based) on a real-world use case regarding demand forecasting.
翻訳日:2022-04-13 12:44:07 公開日:2022-04-12
# (参考訳) マルチモーダル画像検索のための確率的合成埋め込み

Probabilistic Compositional Embeddings for Multimodal Image Retrieval ( http://arxiv.org/abs/2204.05845v1 )

ライセンス: CC BY 4.0
Andrei Neculai, Yanbei Chen, Zeynep Akata(参考訳) 画像検索における既存の研究は、1つまたは2つのクエリ入力で画像を取得することを検討することが多い。 本研究では,画像検索において複数のマルチモーダルクエリを構成するためのより困難なシナリオについて検討する。 任意の数のクエリイメージと(あるいは)テキストが与えられた場合、我々のゴールは、複数のマルチモーダルクエリで指定されたセマンティックな概念を含むターゲットイメージを検索することである。 様々なクエリのセマンティクスを柔軟にエンコードできる情報埋め込みを学習するために,新しい多モーダル確率作曲家(MPC)を提案する。 具体的には、入力画像とテキストを確率的埋め込みとしてモデル化し、複数のマルチモーダルクエリによる画像検索を容易にする確率的合成規則によりさらに構成することができる。 我々はMS-COCOデータセットに基づく新しいベンチマークを提案し、マルチモーダル画像検索のための複数の画像と(または)テキストクエリを構成する様々な設定でモデルを評価する。 ベルやホイッスルがなければ、我々の確率モデル定式化は既存のマルチモーダル画像検索手法よりも優れており、任意の視覚的および(あるいは)テクスチャ的モダリティで与えられた様々な入力のクエリをうまく一般化する。 コードは、https://github.com/andreineculai/MPC.comで入手できる。

Existing works in image retrieval often consider retrieving images with one or two query inputs, which do not generalize to multiple queries. In this work, we investigate a more challenging scenario for composing multiple multimodal queries in image retrieval. Given an arbitrary number of query images and (or) texts, our goal is to retrieve target images containing the semantic concepts specified in multiple multimodal queries. To learn an informative embedding that can flexibly encode the semantics of various queries, we propose a novel multimodal probabilistic composer (MPC). Specifically, we model input images and texts as probabilistic embeddings, which can be further composed by a probabilistic composition rule to facilitate image retrieval with multiple multimodal queries. We propose a new benchmark based on the MS-COCO dataset and evaluate our model on various setups that compose multiple images and (or) text queries for multimodal image retrieval. Without bells and whistles, we show that our probabilistic model formulation significantly outperforms existing related methods on multimodal image retrieval while generalizing well to query with different amounts of inputs given in arbitrary visual and (or) textual modalities. Code is available here: https://github.com/andreineculai/MPC.
翻訳日:2022-04-13 12:42:28 公開日:2022-04-12
# GORDA:神経線維のSLI散乱パターンのグラフベース配向分布解析

GORDA: Graph-based ORientation Distribution Analysis of SLI scatterometry Patterns of Nerve Fibres ( http://arxiv.org/abs/2204.05776v1 )

ライセンス: Link先を確認
Esteban Vaca, Miriam Menzel, Katrin Amunts, Markus Axer, Timo Dickscheid(参考訳) 散乱光イメージング(SLI)は、非定常脳部分の繊維構造を顕微鏡的に明らかにするための新しいアプローチである。 この測定は、異なる角度から脳の部位を照らし、正常な入射の下で透過(散乱)光を測定することで得られる。 散乱プロファイルの評価はピークピック法とピークからの特徴抽出に大きく依存しており、各画像画素の平面内神経繊維方向の並列および交差を定量的に決定できる。 しかし、繊維の3次元配向の推定は従来の手法では評価できない。 神経線維の3次元配向を推定するために球状畳み込みを用いた教師なし学習法を提案し,脳内の繊維配向分布をより詳細に解釈する。

Scattered Light Imaging (SLI) is a novel approach for microscopically revealing the fibre architecture of unstained brain sections. The measurements are obtained by illuminating brain sections from different angles and measuring the transmitted (scattered) light under normal incidence. The evaluation of scattering profiles commonly relies on a peak picking technique and feature extraction from the peaks, which allows quantitative determination of parallel and crossing in-plane nerve fibre directions for each image pixel. However, the estimation of the 3D orientation of the fibres cannot be assessed with the traditional methodology. We propose an unsupervised learning approach using spherical convolutions for estimating the 3D orientation of neural fibres, resulting in a more detailed interpretation of the fibre orientation distributions in the brain.
翻訳日:2022-04-13 12:21:43 公開日:2022-04-12
# redwood: 衝突検出を使って大規模意図分類データセットを成長させる

Redwood: Using Collision Detection to Grow a Large-Scale Intent Classification Dataset ( http://arxiv.org/abs/2204.05483v1 )

ライセンス: Link先を確認
Stefan Larson, Kevin Leach(参考訳) ダイアログシステムは、新しいユースケースやデプロイメントシナリオを反映するために、更新を通じて新しいスキルを組み込むことができる必要があります。 同様に、このようなML駆動システムの開発者は、これらの新しいスキルをサポートするために、既存のデータセットに新しいトレーニングデータを追加する必要がある。 意図分類システムでは、新しいスキルの意図のためのトレーニングデータが既に存在する意図と意味的に重なると問題が発生することがある。 そのような場合を衝突と呼ぶ。 本稿では,システムのスキルセットを育成するために,複数のデータセット間の意図的衝突検出タスクを紹介する。 衝突検出法をいくつか紹介し,衝突を呈する実データセットについて評価する。 意図衝突検出の必要性を強調するために,新たなデータを追加しても衝突意図を調停しないようなモデル性能が損なわれることを示す。 最後に、衝突検出を用いて新しいデータセットRedwoodを構築し、ベンチマークする。Redwoodは、13の意図分類データセットから451の帰属カテゴリで構成されており、公開意図分類ベンチマークとしては最大である。

Dialog systems must be capable of incorporating new skills via updates over time in order to reflect new use cases or deployment scenarios. Similarly, developers of such ML-driven systems need to be able to add new training data to an already-existing dataset to support these new skills. In intent classification systems, problems can arise if training data for a new skill's intent overlaps semantically with an already-existing intent. We call such cases collisions. This paper introduces the task of intent collision detection between multiple datasets for the purposes of growing a system's skillset. We introduce several methods for detecting collisions, and evaluate our methods on real datasets that exhibit collisions. To highlight the need for intent collision detection, we show that model performance suffers if new data is added in such a way that does not arbitrate colliding intents. Finally, we use collision detection to construct and benchmark a new dataset, Redwood, which is composed of 451 ntent categories from 13 original intent classification datasets, making it the largest publicly available intent classification benchmark.
翻訳日:2022-04-13 12:20:41 公開日:2022-04-12
# (参考訳) 人間フィードバックによる強化学習による有益で無害なアシスタントの訓練

Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback ( http://arxiv.org/abs/2204.05862v1 )

ライセンス: CC BY 4.0
Yuntao Bai, Andy Jones, Kamal Ndousse, Amanda Askell, Anna Chen, Nova DasSarma, Dawn Drain, Stanislav Fort, Deep Ganguli, Tom Henighan, Nicholas Joseph, Saurav Kadavath, Jackson Kernion, Tom Conerly, Sheer El-Showk, Nelson Elhage, Zac Hatfield-Dodds, Danny Hernandez, Tristan Hume, Scott Johnston, Shauna Kravec, Liane Lovitt, Neel Nanda, Catherine Olsson, Dario Amodei, Tom Brown, Jack Clark, Sam McCandlish, Chris Olah, Ben Mann, Jared Kaplan(参考訳) 我々は,人間フィードバック(rlhf)からの選好モデリングと強化学習を言語モデルに応用し,有益で無害なアシスタントとして振る舞う。 このアライメントトレーニングは、ほぼすべてのNLP評価のパフォーマンスを改善し、ピソン符号化や要約などの特殊スキルのトレーニングと完全に互換性がある。 我々は、好みモデルとrlポリシーを毎週のリズムで更新し、新しいフィードバックデータを用いて、データセットとモデルを効率的に改善する、反復したオンライントレーニングモードを探求する。 最後に、RLHFトレーニングの頑健性について検討し、RL報酬とKLの2乗根との概略線形関係をポリシーと初期化の間に同定する。 主な結果と並行して,キャリブレーション,競合対象,およびood検出の利用に関する周辺的分析を行い,モデルと人間の書き手を比較し,最近の研究に現れるプロンプトを用いて,モデルからのサンプルを提供する。

We apply preference modeling and reinforcement learning from human feedback (RLHF) to finetune language models to act as helpful and harmless assistants. We find this alignment training improves performance on almost all NLP evaluations, and is fully compatible with training for specialized skills such as python coding and summarization. We explore an iterated online mode of training, where preference models and RL policies are updated on a weekly cadence with fresh human feedback data, efficiently improving our datasets and models. Finally, we investigate the robustness of RLHF training, and identify a roughly linear relation between the RL reward and the square root of the KL divergence between the policy and its initialization. Alongside our main results, we perform peripheral analyses on calibration, competing objectives, and the use of OOD detection, compare our models with human writers, and provide samples from our models using prompts appearing in recent related work.
翻訳日:2022-04-13 12:20:03 公開日:2022-04-12
# ReCLIP:表現理解の参照のための強力なゼロショットベースライン

ReCLIP: A Strong Zero-Shot Baseline for Referring Expression Comprehension ( http://arxiv.org/abs/2204.05991v1 )

ライセンス: Link先を確認
Sanjay Subramanian, Will Merrill, Trevor Darrell, Matt Gardner, Sameer Singh, Anna Rohrbach(参考訳) 新しい視覚領域に対する参照表現理解(ReC)モデルを訓練するには、参照表現や、ドメイン内の画像に対する潜在的に対応するバウンディングボックスの収集が必要である。 大規模事前学習モデルは領域間の画像分類に有用であるが、ReCのような複雑なタスクにゼロショットで適用できるかどうかは不明だ。 ReCLIPは単純だが強力なゼロショットベースラインであり、ReCのための最先端の大規模モデルであるCLIPを再利用する。 ReCLIPの最初のコンポーネントは、ReCとCLIPの対照的な事前トレーニング目標との密接な接続によって動機付けられ、トリミングとぼかしによってオブジェクトの提案を分離し、CLIPに渡す。 しかし,合成データセットの制御実験により,CLIPの空間的推論は不可能であることが判明した。 したがって、ReCLIPの第2のコンポーネントは、空間関係を扱う空間関係リゾルバである。 RefCOCOgでは0ショットベースラインと教師付きモデルとのギャップを最大29%削減し,RefGTAではReCLIPの教師付きReCモデルに対する相対的な改善は8%とした。

Training a referring expression comprehension (ReC) model for a new visual domain requires collecting referring expressions, and potentially corresponding bounding boxes, for images in the domain. While large-scale pre-trained models are useful for image classification across domains, it remains unclear if they can be applied in a zero-shot manner to more complex tasks like ReC. We present ReCLIP, a simple but strong zero-shot baseline that repurposes CLIP, a state-of-the-art large-scale model, for ReC. Motivated by the close connection between ReC and CLIP's contrastive pre-training objective, the first component of ReCLIP is a region-scoring method that isolates object proposals via cropping and blurring, and passes them to CLIP. However, through controlled experiments on a synthetic dataset, we find that CLIP is largely incapable of performing spatial reasoning off-the-shelf. Thus, the second component of ReCLIP is a spatial relation resolver that handles several types of spatial relations. We reduce the gap between zero-shot baselines from prior work and supervised models by as much as 29% on RefCOCOg, and on RefGTA (video game imagery), ReCLIP's relative improvement over supervised ReC models trained on real images is 8%.
翻訳日:2022-04-13 12:17:06 公開日:2022-04-12
# モデル解釈可能性法における忠実度指標の比較研究

A Comparative Study of Faithfulness Metrics for Model Interpretability Methods ( http://arxiv.org/abs/2204.05514v1 )

ライセンス: Link先を確認
Chun Sik Chan, Huanqi Kong, Guanqing Liang(参考訳) 近年,機械学習モデルの背後にある内部推論プロセスを明らかにする解釈手法が注目されている。 識別された解釈が本質的な意思決定機構を真に反映する程度を定量化するために,様々な忠実性評価指標が提案されている。 しかし、異なる忠実度指標は異なる解釈を比較するときに相反する好みを示す。 本研究の目的は,広く採用されている忠実度尺度を包括的かつ比較研究することである。 特に,診断と時間複雑性という2つの評価次元を導入する。 診断性は、忠実度メートル法がランダムに生成されたものよりも比較的忠実な解釈を好む程度を指し、時間複雑性はモデルの前方通過の平均数によって測定される。 実験結果によると,満足度と包括性指標は,他の忠実度指標よりも診断性が高く,時間の複雑さが低いことがわかった。

Interpretation methods to reveal the internal reasoning processes behind machine learning models have attracted increasing attention in recent years. To quantify the extent to which the identified interpretations truly reflect the intrinsic decision-making mechanisms, various faithfulness evaluation metrics have been proposed. However, we find that different faithfulness metrics show conflicting preferences when comparing different interpretations. Motivated by this observation, we aim to conduct a comprehensive and comparative study of the widely adopted faithfulness metrics. In particular, we introduce two assessment dimensions, namely diagnosticity and time complexity. Diagnosticity refers to the degree to which the faithfulness metric favours relatively faithful interpretations over randomly generated ones, and time complexity is measured by the average number of model forward passes. According to the experimental results, we find that sufficiency and comprehensiveness metrics have higher diagnosticity and lower time complexity than the other faithfulness metric
翻訳日:2022-04-13 12:16:41 公開日:2022-04-12
# 連続強化学習のための動的対話ポリシー変換器

Dynamic Dialogue Policy Transformer for Continual Reinforcement Learning ( http://arxiv.org/abs/2204.05928v1 )

ライセンス: Link先を確認
Christian Geishauser, Carel van Niekerk, Nurul Lubis, Michael Heck, Hsien-Chin Lin, Shutong Feng, Milica Ga\v{s}i\'c(参考訳) 継続的な学習は人間の学習の重要な要素の一つであり、人工知能に必要な要件である。 対話は無限に多くのトピックやタスクにまたがる可能性があるため、タスク指向の対話システムは、獲得した知識を保ちながら、新しい課題に動的に適応し、継続的に学習する能力を持つ必要がある。 この重要性にもかかわらず、対話政策の継続的な強化学習は、ほとんど未対応のままである。 トレーニングプロトコルやベースラインモデル、適切なメトリクスを備えたフレームワークの欠如は、これまでこの方向の研究を妨げてきた。 本研究では、このギャップを正確に埋め、対話ポリシーの最適化の研究を静的な学習から動的学習へと進める。 連続学習モデルを評価するための連続学習アルゴリズム、ベースラインアーキテクチャ、メトリクスを提供する。 さらに,新しい知識をシームレスに統合する動的対話ポリシートランスフォーマ (DDPT) を提案し,ネットワークパラメータの増大を伴わずに未確認領域に露出した場合に,大きな状態空間を処理でき,大幅なゼロショット性能を得ることができる。

Continual learning is one of the key components of human learning and a necessary requirement of artificial intelligence. As dialogue can potentially span infinitely many topics and tasks, a task-oriented dialogue system must have the capability to continually learn, dynamically adapting to new challenges while preserving the knowledge it already acquired. Despite the importance, continual reinforcement learning of the dialogue policy has remained largely unaddressed. The lack of a framework with training protocols, baseline models and suitable metrics, has so far hindered research in this direction. In this work we fill precisely this gap, enabling research in dialogue policy optimisation to go from static to dynamic learning. We provide a continual learning algorithm, baseline architectures and metrics for assessing continual learning models. Moreover, we propose the dynamic dialogue policy transformer (DDPT), a novel dynamic architecture that can integrate new knowledge seamlessly, is capable of handling large state spaces and obtains significant zero-shot performance when being exposed to unseen domains, without any growth in network parameter size.
翻訳日:2022-04-13 12:16:25 公開日:2022-04-12
# 雑音ラベルを用いたマイトショット学習

Few-shot Learning with Noisy Labels ( http://arxiv.org/abs/2204.05494v1 )

ライセンス: Link先を確認
Kevin J Liang, Samrudhdhi B. Rangrej, Vladan Petrovic, Tal Hassner(参考訳) FSL(Few-shot Learning)法は通常、新しいクラスでトレーニングする際、正確にラベル付けされたサンプルでクリーンなサポートセットを仮定する。 この仮定はしばしば非現実的である: サポートセットは、たとえどんなに小さくても、いまだにラベルのつかないサンプルを含むことができる。 したがって、ラベルノイズに対するロバスト性は、fsl法を実践するには必須であるが、この問題は驚くほど解明されていない。 FSL設定で誤ラベルされたサンプルに対処するため、いくつかの技術的貢献を行う。 1) 一般的なFSL技術であるProtoNetのプロトタイプを改良し, シンプルで効果的な機能集約手法を提供する。 2) 雑音Few-Shot Learning (TraNFS) のためのトランスフォーマーモデルについて述べる。 TraNFSは変圧器の注意機構を利用して、誤ラベルと正しいサンプルを量る。 (3) 最後に、MiniImageNetとTieredImageNetのノイズの多いバージョンでこれらのメソッドを広範囲にテストする。 以上の結果から,TraNFSはクリーンなサポートセット上でのFSL手法と同等でありながら,ラベルノイズの存在下では優れています。

Few-shot learning (FSL) methods typically assume clean support sets with accurately labeled samples when training on novel classes. This assumption can often be unrealistic: support sets, no matter how small, can still include mislabeled samples. Robustness to label noise is therefore essential for FSL methods to be practical, but this problem surprisingly remains largely unexplored. To address mislabeled samples in FSL settings, we make several technical contributions. (1) We offer simple, yet effective, feature aggregation methods, improving the prototypes used by ProtoNet, a popular FSL technique. (2) We describe a novel Transformer model for Noisy Few-Shot Learning (TraNFS). TraNFS leverages a transformer's attention mechanism to weigh mislabeled versus correct samples. (3) Finally, we extensively test these methods on noisy versions of MiniImageNet and TieredImageNet. Our results show that TraNFS is on-par with leading FSL methods on clean support sets, yet outperforms them, by far, in the presence of label noise.
翻訳日:2022-04-13 12:16:05 公開日:2022-04-12
# 多目的ベイズ最適化のための不確実性認識探索フレームワーク

Uncertainty-Aware Search Framework for Multi-Objective Bayesian Optimization ( http://arxiv.org/abs/2204.05944v1 )

ライセンス: Link先を確認
Syrine Belakaria, Aryan Deshwal, Nitthilan Kannappan Jayakodi, Janardhan Rao Doppa(参考訳) 我々は,高機能評価を用いた多目的(mo)ブラックボックス最適化の問題点を考察し,関数評価の回数を最小化しつつ,真のパレート解集合を近似することを目的とした。 例えば、ハードウェア設計の最適化では、高価なシミュレーションを使用して、トレードオフ性能、エネルギー、および領域オーバーヘッドを求める必要がある。 そこで本研究では,usemoと呼ばれる新たな不確実性対応検索フレームワークを提案する。 UeMOの選択方法は、真の関数のサロゲートモデルを用いて安価なMO最適化問題を解くことで、最も有望な候補を特定し、不確実性の尺度に基づいて最適な候補を選択することである。 また、我々のアプローチの有効性を特徴づける理論的分析も提供する。 いくつかの合成および6種類の実世界のベンチマーク問題に関する実験では、usemoが最先端のアルゴリズムを一貫して上回っていることが示されている。

We consider the problem of multi-objective (MO) blackbox optimization using expensive function evaluations, where the goal is to approximate the true Pareto set of solutions while minimizing the number of function evaluations. For example, in hardware design optimization, we need to find the designs that trade-off performance, energy, and area overhead using expensive simulations. We propose a novel uncertainty-aware search framework referred to as USeMO to efficiently select the sequence of inputs for evaluation to solve this problem. The selection method of USeMO consists of solving a cheap MO optimization problem via surrogate models of the true functions to identify the most promising candidates and picking the best candidate based on a measure of uncertainty. We also provide theoretical analysis to characterize the efficacy of our approach. Our experiments on several synthetic and six diverse real-world benchmark problems show that USeMO consistently outperforms the state-of-the-art algorithms.
翻訳日:2022-04-13 12:13:39 公開日:2022-04-12
# 積分勾配に対する最大エントロピーベースライン

Maximum Entropy Baseline for Integrated Gradients ( http://arxiv.org/abs/2204.05948v1 )

ライセンス: Link先を確認
Hanxiao Tan(参考訳) 最も一般的な説明可能性の方法の一つである統合勾配(ig)は、依然としてベースラインの選択において曖昧であり、説明の信頼性を著しく損なう可能性がある。 本研究では、IGで定義された基底線の「非形式的」性質と整合性を持つ、新しい一様基底線、すなわち最大エントロピー基底線を提案する。 また,情報保存性が維持される新しいベースラインを組み込んだアブレーション評価手法を提案する。 本稿では,情報の観点からIGベースラインの線形変換不変性を説明する。 最後に,説明可能性の異なる方法とigベースラインの異なる説明の信頼性を広範囲な評価実験により評価する。

Integrated Gradients (IG), one of the most popular explainability methods available, still remains ambiguous in the selection of baseline, which may seriously impair the credibility of the explanations. This study proposes a new uniform baseline, i.e., the Maximum Entropy Baseline, which is consistent with the "uninformative" property of baselines defined in IG. In addition, we propose an improved ablating evaluation approach incorporating the new baseline, where the information conservativeness is maintained. We explain the linear transformation invariance of IG baselines from an information perspective. Finally, we assess the reliability of the explanations generated by different explainability methods and different IG baselines through extensive evaluation experiments.
翻訳日:2022-04-13 12:13:24 公開日:2022-04-12
# 映像からの連続予測学習

Continual Predictive Learning from Videos ( http://arxiv.org/abs/2204.05624v1 )

ライセンス: Link先を確認
Geng Chen, Wendong Zhang, Han Lu, Siyu Gao, Yunbo Wang, Mingsheng Long, Xiaokang Yang(参考訳) 予測学習は、1つ以上の特定の環境で物理的プロセスの世界モデルを構築するのが理想的です。 典型的なセットアップでは、すべての環境から常にデータを収集できると仮定します。 しかし実際には、異なる予測タスクが順次到着し、トレーニング手順を通して環境が永続的に変化する可能性がある。 より現実的な非定常な物理環境に対処できる予測学習アルゴリズムの開発は可能か? 本稿では,映像予測の文脈における新しい連続学習問題について検討し,既存の手法の多くが,この設定で深刻な破滅的な忘れ去に苦しむことを観察する。 この問題を解決するために,予測経験の再生を通じて混合世界モデルを学習し,非パラメトリックタスク推論によるテスト時間適応を行う連続予測学習(CPL)手法を提案する。 robonetとkthに基づく2つの新しいベンチマークを構築し、異なるタスクが異なる物理的ロボット環境や人間の行動に対応している。 本手法は,映像の予測と連続学習において,先行技術であるna\"iveの組み合わせを効果的に軽減し,その性能を著しく上回ることを示す。

Predictive learning ideally builds the world model of physical processes in one or more given environments. Typical setups assume that we can collect data from all environments at all times. In practice, however, different prediction tasks may arrive sequentially so that the environments may change persistently throughout the training procedure. Can we develop predictive learning algorithms that can deal with more realistic, non-stationary physical environments? In this paper, we study a new continual learning problem in the context of video prediction, and observe that most existing methods suffer from severe catastrophic forgetting in this setup. To tackle this problem, we propose the continual predictive learning (CPL) approach, which learns a mixture world model via predictive experience replay and performs test-time adaptation with non-parametric task inference. We construct two new benchmarks based on RoboNet and KTH, in which different tasks correspond to different physical robotic environments or human actions. Our approach is shown to effectively mitigate forgetting and remarkably outperform the na\"ive combinations of previous art in video prediction and continual learning.
翻訳日:2022-04-13 12:13:13 公開日:2022-04-12
# Arch-Graph: Task-Transferable Neural Architecture Searchのための非循環アーキテクチャ関係予測器

Arch-Graph: Acyclic Architecture Relation Predictor for Task-Transferable Neural Architecture Search ( http://arxiv.org/abs/2204.05941v1 )

ライセンス: Link先を確認
Minbin Huang, Zhijian Huang, Changlin Li, Xin Chen, Hang Xu, Zhenguo Li, Xiaodan Liang(参考訳) Neural Architecture Search (NAS)は、複数のタスクの効率的なモデルを見つけることを目的としている。 単一のタスクに対するソリューションを求めるだけでなく、ネットワーク設計の知識を複数のタスクに渡すことへの関心が高まっている。 この研究では、タスク相関を効果的にモデル化することは不可欠であるが、非常に無視されている。 そこで本稿では,タスク固有の最適アーキテクチャを与えられたタスク埋め込みに対して予測する,転送可能なNAS手法である‘textbf{Arch-Graph}’を提案する。 高速適応のための予測器の入力の一部として組込みを使用することで、複数のタスクにまたがる相関を利用する。 また,候補アーキテクチャをノードとして扱い,その対関係をエッジとして扱う関係グラフを用いて,nasをアーキテクチャ関係グラフ予測問題として定式化する。 関係グラフにおける非巡回性などの基本的な性質を強制するために、最適化プロセスにさらなる制約を加え、NASを最大重み付き非巡回部分グラフ(MWAS)を見つける問題に変換する。 このアルゴリズムはサイクルを排除し、ランク結果が信頼できる場合にのみグラフのエッジを確立するよう努力する。 MWASを通じてArch-Graphは、予測器を微調整するための小さな予算だけで、各タスクの候補モデルを効果的にランク付けすることができる。 TransNAS-Bench-101の広範な実験により、Arch-Graphのトランスファービリティと多数のタスクにわたる高サンプリング効率が示され、単一タスクとマルチタスク検索の両方のために設計された多くのNASメソッドを上回った。 2つの検索空間で平均で 0.16\% と 0.29\% のアーキテクチャを、たった 50 モデルの予算で見つけることができる。

Neural Architecture Search (NAS) aims to find efficient models for multiple tasks. Beyond seeking solutions for a single task, there are surging interests in transferring network design knowledge across multiple tasks. In this line of research, effectively modeling task correlations is vital yet highly neglected. Therefore, we propose \textbf{Arch-Graph}, a transferable NAS method that predicts task-specific optimal architectures with respect to given task embeddings. It leverages correlations across multiple tasks by using their embeddings as a part of the predictor's input for fast adaptation. We also formulate NAS as an architecture relation graph prediction problem, with the relational graph constructed by treating candidate architectures as nodes and their pairwise relations as edges. To enforce some basic properties such as acyclicity in the relational graph, we add additional constraints to the optimization process, converting NAS into the problem of finding a Maximal Weighted Acyclic Subgraph (MWAS). Our algorithm then strives to eliminate cycles and only establish edges in the graph if the rank results can be trusted. Through MWAS, Arch-Graph can effectively rank candidate models for each task with only a small budget to finetune the predictor. With extensive experiments on TransNAS-Bench-101, we show Arch-Graph's transferability and high sample efficiency across numerous tasks, beating many NAS methods designed for both single-task and multi-task search. It is able to find top 0.16\% and 0.29\% architectures on average on two search spaces under the budget of only 50 models.
翻訳日:2022-04-13 12:12:56 公開日:2022-04-12
# 不均衡経験を有するロボット生涯学習のためのオフライン蒸留

Offline Distillation for Robot Lifelong Learning with Imbalanced Experience ( http://arxiv.org/abs/2204.05893v1 )

ライセンス: Link先を確認
Wenxuan Zhou, Steven Bohez, Jan Humplik, Abbas Abdolmaleki, Dushyant Rao, Markus Wulfmeier, Tuomas Haarnoja, Nicolas Heess(参考訳) ロボットは生涯を通じて非定常環境のダイナミクスを体験する:ロボットのダイナミクスは、摩耗と涙によって変化するか、あるいはその周囲が時間とともに変化する可能性がある。 最終的には、ロボットは遭遇した環境のあらゆるバリエーションでうまく機能するべきです。 同時に、新しい環境で速く学習できるべきです。 まず、既存のオフポリシーアルゴリズムは、古い環境で優れたパフォーマンスを維持するために保守的であることと、新しい環境で効率的に学習することのトレードオフに苦しむ。 オンラインインタラクションとオフライン蒸留のインターリーブフェーズにトレーニング手順を分離することで,このトレードオフを断ち切るためのオフライン蒸留パイプラインを提案する。 第二に、生涯にわたる複数の環境からのデータセットの組み合わせによるトレーニングは、データセットの個別のトレーニングと比べて大きなパフォーマンス低下を引き起こす可能性がある。 我々の仮説は、データセットの品質とサイズの不均衡が、オフライントレーニング中のQ関数の外挿誤差を悪化させるというものである。 本稿では, 蒸留段階のデータセットにポリシーを近づけることにより, 簡単な解決法を提案する。 実験では,様々な環境変化をシミュレートした2足歩行ロボットによる課題とその解決法を示す。 オフライン蒸留パイプラインは,データ収集に影響を与えることなく,遭遇したすべての環境において優れた性能を実現する。 データ不均衡問題に関する仮説を支持するための総合的な実証的研究も提供する。

Robots will experience non-stationary environment dynamics throughout their lifetime: the robot dynamics can change due to wear and tear, or its surroundings may change over time. Eventually, the robots should perform well in all of the environment variations it has encountered. At the same time, it should still be able to learn fast in a new environment. We investigate two challenges in such a lifelong learning setting: first, existing off-policy algorithms struggle with the trade-off between being conservative to maintain good performance in the old environment and learning efficiently in the new environment. We propose the Offline Distillation Pipeline to break this trade-off by separating the training procedure into interleaved phases of online interaction and offline distillation. Second, training with the combined datasets from multiple environments across the lifetime might create a significant performance drop compared to training on the datasets individually. Our hypothesis is that both the imbalanced quality and size of the datasets exacerbate the extrapolation error of the Q-function during offline training over the "weaker" dataset. We propose a simple fix to the issue by keeping the policy closer to the dataset during the distillation phase. In the experiments, we demonstrate these challenges and the proposed solutions with a simulated bipedal robot walking task across various environment changes. We show that the Offline Distillation Pipeline achieves better performance across all the encountered environments without affecting data collection. We also provide a comprehensive empirical study to support our hypothesis on the data imbalance issue.
翻訳日:2022-04-13 12:10:32 公開日:2022-04-12
# 深部畳み込みニューラルネットワークを用いたTROPOMI NO2カラムの時空間推定

Spatiotemporal Estimation of TROPOMI NO2 Column with Depthwise Partial Convolutional Neural Network ( http://arxiv.org/abs/2204.05917v1 )

ライセンス: Link先を確認
Yannic Lops, Masoud Ghahremanloo, Arman Pouyaei, Yunsoo Choi, Jia Jung, Seyedali Mousavinezhad, Ahmed Khan Salman, Davyda Hammond(参考訳) 衛星からの観測は雲の被覆と表面反射率によって負の影響を受ける。 これらのバイアスは破棄され、リモートセンシング画像内の欠落データ量を大幅に増加させなければならない。 本稿では,部分畳み込みニューラルネットワーク(PCNN)の深部畳み込み層への応用を拡大し,時間次元を計算過程に反映する。 計算過程に時間次元を加えることで、空間的計算が取得できないデータセット内に連続的な存在状態が加わる。 この奥行きの畳み込みプロセスにより、PCNNは各チャネルのデータを独立して畳み込むことができる。 深層学習システムは,多スケール大気質モデルによる二酸化窒素の対流圏カラム密度(tcdno2)をシミュレーションし,対流圏モニタリング機器tcdno2を誘導する。 奥行き方向のpcnnモデルは、合意の指標 0.82 を達成し、データの時間次元の有無にかかわらず、デフォルトのpcnnモデルと、一致の指標および相関の指標における逆距離重み付けの3-11%および8-15%の従来のデータインプテーション法をそれぞれ上回る。 このモデルは、NO2画像のTROPOSpheric Monitoring Instrument tropospheric column densityの再構成においてより整合性を示す。 このモデルはまた、95%以上のデータが失われているリモートセンシング画像の正確なインプテーションを実証した。 PCNNは、大量の欠落したデータによるリモートセンシングデータの正確な計算を可能にし、将来の研究者が大気汚染による数値モデル、エミッション研究、ヒトの健康影響分析のためにデータ同化を行うのに役立つだろう。

Satellite-derived measurements are negatively impacted by cloud cover and surface reflectivity. These biases must be discarded and significantly increase the amount of missing data within remote sensing images. This paper expands the application of a partial convolutional neural network (PCNN) to incorporate depthwise convolution layers, conferring temporal dimensionality to the imputation process. The addition of a temporal dimension to the imputation process adds a state of successive existence within the dataset which spatial imputation cannot capture. The depthwise convolution process enables the PCNN to independently convolve the data for each channel. The deep learning system is trained with the Community Multiscale Air Quality model-simulated tropospheric column density of Nitrogen Dioxide (TCDNO2) to impute TROPOspheric Monitoring Instrument TCDNO2. The depthwise PCNN model achieves an index of agreement of 0.82 and outperforms the default PCNN models, with and without temporal dimensionality of data, and conventional data imputation methods such as inverse distance weighting by 3-11% and 8-15% in the index of agreement and correlation, respectively. The model demonstrates more consistency in the reconstruction of TROPOspheric Monitoring Instrument tropospheric column density of NO2 images. The model has also demonstrated the accurate imputation of remote sensing images with over 95% of the data missing. PCNN enables the accurate imputation of remote sensing data with large regions of missing data and will benefit future researchers conducting data assimilation for numerical models, emission studies, and human health impact analyses from air pollution.
翻訳日:2022-04-13 12:10:13 公開日:2022-04-12
# ガウス核の局所的ランダム特徴近似

Local Random Feature Approximations of the Gaussian Kernel ( http://arxiv.org/abs/2204.05667v1 )

ライセンス: Link先を確認
Jonas Wacker, Maurizio Filippone(参考訳) カーネルベースの統計モデルの根本的な欠点は、大規模なデータセットへのスケーラビリティに制限があることである。 本研究では,一般のgaussian kernelに着目し,ランダム特徴近似を用いてカーネルモデルを線形化する手法を提案する。 特に、マクローリン展開と多項式スケッチに基づく非探索的なランダムな特徴近似を研究することによってそうする。 このような手法は高周波データをモデル化する際には不十分な結果をもたらすことを示し、この手法においてカーネル近似と下流性能を大幅に改善する新しい局在化スキームを提案する。 ガウス過程回帰(gaussian process regression)をデータサイズや次元の異なる合成データや実世界のデータに適用する実験で、これらの成果を実証する。

A fundamental drawback of kernel-based statistical models is their limited scalability to large data sets, which requires resorting to approximations. In this work, we focus on the popular Gaussian kernel and on techniques to linearize kernel-based models by means of random feature approximations. In particular, we do so by studying a less explored random feature approximation based on Maclaurin expansions and polynomial sketches. We show that such approaches yield poor results when modelling high-frequency data, and we propose a novel localization scheme that improves kernel approximations and downstream performance significantly in this regime. We demonstrate these gains on a number of experiments involving the application of Gaussian process regression to synthetic and real-world data of different data sizes and dimensions.
翻訳日:2022-04-13 12:09:43 公開日:2022-04-12
# Coxモデルの分散学習最適化は患者のデータを漏洩させる:リスクと解決策

Distributed learning optimisation of Cox models can leak patient data: Risks and solutions ( http://arxiv.org/abs/2204.05856v1 )

ライセンス: Link先を確認
Carsten Brink (1,2) and Christian R{\o}nn Hansen (1,2) and Matthew Field (3,4) and Gareth Price (5) and David Thwaites (6) and Nis Sarup (1) and Uffe Bernchou (1,2) and Lois Holloway (3,4,6,7) ((1) Laboratory of Radiation Physics, Department of Oncology, Odense University Hospital, Odense, Denmark, (2) Department of Clinical Research, University of Southern Denmark, Odense, Denmark, (3) South Western Sydney Clinical School, Faculty of Medicine, UNSW, Sydney, New South Wales, Australia, (4) Ingham Institute for Applied Medical Research, Liverpool, New South Wales, Australia, (5) The University of Manchester, Manchester Academic Health Science Centre, The Christie NHS Foundation Trust, Manchester, UK, (6) Institute of Medical Physics, School of Physics, University of Sydney, Sydney, New South Wales, Australia, (7) Liverpool and Macarthur Cancer Therapy Centres, Liverpool, New South Wales, Australia)(参考訳) 医療データは、しばしば非常に敏感であり、しばしば欠落するデータがある。 データのセンシティブな性質のため、データのプライバシを維持するために各センタにデータを格納するモデリング手法を作成することに関心があるが、モデルは複数のセンタにまたがるデータに基づいてトレーニングし学習することができる。 このようなアプローチは、各センターの集約されたローカルモデル情報に基づいてモデルが反復的に計算される分散機械学習(フェデレーションラーニング、協調学習)かもしれない。 しかし, 特定のデータが中心を離れていなくても, 交換された情報が患者の全または一部を再構築するのに十分である可能性があり, 分散学習の安全性を守る合理的な考え方を阻害する可能性がある。 本稿では,Coxサバイバルモデルの最適化が患者のデータ漏洩につながることを示す。 次に、これらの問題を安全に回避するCoxモデルを最適化し、検証する方法を提案する。 提案手法の有効性は、不足したデータを扱う方法も含む、提供されたMatlabコードで示される。

Medical data are often highly sensitive, and frequently there are missing data. Due to the data's sensitive nature, there is an interest in creating modelling methods where the data are kept in each local centre to preserve their privacy, but yet the model can be trained on and learn from data across multiple centres. Such an approach might be distributed machine learning (federated learning, collaborative learning) in which a model is iteratively calculated based on aggregated local model information from each centre. However, even though no specific data are leaving the centre, there is a potential risk that the exchanged information is sufficient to reconstruct all or part of the patient data, which would hamper the safety-protecting rationale idea of distributed learning. This paper demonstrates that the optimisation of a Cox survival model can lead to patient data leakage. Following this, we suggest a way to optimise and validate a Cox model that avoids these problems in a secure way. The feasibility of the suggested method is demonstrated in a provided Matlab code that also includes methods for handling missing data.
翻訳日:2022-04-13 12:09:31 公開日:2022-04-12
# (参考訳) 小量子コンピュータ上のハイパースペクトル画像のコアセット

Coreset of Hyperspectral Images on Small Quantum Computer ( http://arxiv.org/abs/2204.04691v2 )

ライセンス: CC BY 4.0
Soronzonbold Otgonbaatar, Mihai Datcu, Beg\"um Demir(参考訳) 機械学習(ML)技術は、大きなリモートセンシング(RS)データを分析・処理するために使用され、有名なML技術はサポートベクトルマシン(SVM)である。 SVMは二次プログラミング(QP)問題であり、D波量子アニール(D-Wave quantum annealer、D-Wave QA)はこのQP問題を従来のコンピュータよりも効率的に解くことを約束する。 しかし、D-Wave QAは入力キュービットが少ないため、直接SVMを解くことはできない。 したがって、この小さなD-Wave QA上でSVMをトレーニングするために、与えられたEOデータのコアセット(データセットのコア)を使用します。 coresetはオリジナルデータセットの小さな、代表的な重み付きサブセットであり、トレーニングモデルでは、オリジナルのデータセットを使用するのとは対照的に、coresetを使用して競合クラスを生成する。 Kullback-Leibler (KL) 分散測定を用いて, 元のデータセットとコアセットの近接性を測定した。 さらに、D-Wave QAと従来の手法の両方を用いてコアセットデータに基づいてSVMを訓練した。 コアセットは、元のデータセットを非常に小さなklダイバージェンス測度で特徴付けると結論づける。 さらに,本論文では,元のデータとコアセットの近接性を示すために,KL分散結果を示す。 実用的なRSデータとして、アメリカ・インディアンパインのハイパースペクトル画像(HSI)を用いる。

Machine Learning (ML) techniques are employed to analyze and process big Remote Sensing (RS) data, and one well-known ML technique is a Support Vector Machine (SVM). An SVM is a quadratic programming (QP) problem, and a D-Wave quantum annealer (D-Wave QA) promises to solve this QP problem more efficiently than a conventional computer. However, the D-Wave QA cannot solve directly the SVM due to its very few input qubits. Hence, we use a coreset ("core of a dataset") of given EO data for training an SVM on this small D-Wave QA. The coreset is a small, representative weighted subset of an original dataset, and any training models generate competitive classes by using the coreset in contrast to by using its original dataset. We measured the closeness between an original dataset and its coreset by employing a Kullback-Leibler (KL) divergence measure. Moreover, we trained the SVM on the coreset data by using both a D-Wave QA and a conventional method. We conclude that the coreset characterizes the original dataset with very small KL divergence measure. In addition, we present our KL divergence results for demonstrating the closeness between our original data and its coreset. As practical RS data, we use Hyperspectral Image (HSI) of Indian Pine, USA.
翻訳日:2022-04-13 12:07:54 公開日:2022-04-12
# 各種カーネルサイズを有するマルチモーダルマルチヘッドコンボリューションの医療画像超解像への応用

Multimodal Multi-Head Convolutional Attention with Various Kernel Sizes for Medical Image Super-Resolution ( http://arxiv.org/abs/2204.04218v2 )

ライセンス: Link先を確認
Mariana-Iuliana Georgescu, Radu Tudor Ionescu, Andreea-Iuliana Miron, Olivian Savencu, Nicolae-Catalin Ristea, Nicolae Verga, Fahad Shahbaz Khan(参考訳) 超解像医療画像は、医師がより正確な診断を行うのに役立つ。 コンピュータ断層撮影(CT)または磁気共鳴イメージング(MRI)技術は、単一の調査で複数のスキャン(モデム)を出力するが、これは(マルチモーダルな方法で)共同で使用することで、超解像結果の質をさらに高めることができる。 そこで本研究では,超解像CTおよびMRIスキャンのためのマルチモーダルマルチヘッドコンボリューションアテンションモジュールを提案する。 コンボリューションモジュールは、コンボリューション演算を用いて複数の連結入力テンソルに対して共同で空間チャネル注意を行う。カーネル(受信フィールド)サイズが空間注意の低減率を制御し、畳み込みフィルタの個数がチャネル注意の低減率をそれぞれ制御する。 本稿では,空間的注意の特定の低減率に対応する異なる受容場サイズを有する複数の注意ヘッドを紹介する。 我々は,マルチモーダルマルチヘッド畳み込み注意(mmhca)を2つのディープニューラルネットワークに統合し,超解像実験を行った。 実験の結果,超解像における注目機構よりも注目モジュールの方が優れていることが示された。 さらに,注目モジュールの入力数や頭部数など,注目モジュールに関わるコンポーネントの影響を評価するためのアブレーション調査を実施している。

Super-resolving medical images can help physicians in providing more accurate diagnostics. In many situations, computed tomography (CT) or magnetic resonance imaging (MRI) techniques output several scans (modes) during a single investigation, which can jointly be used (in a multimodal fashion) to further boost the quality of super-resolution results. To this end, we propose a novel multimodal multi-head convolutional attention module to super-resolve CT and MRI scans. Our attention module uses the convolution operation to perform joint spatial-channel attention on multiple concatenated input tensors, where the kernel (receptive field) size controls the reduction rate of the spatial attention and the number of convolutional filters controls the reduction rate of the channel attention, respectively. We introduce multiple attention heads, each head having a distinct receptive field size corresponding to a particular reduction rate for the spatial attention. We integrate our multimodal multi-head convolutional attention (MMHCA) into two deep neural architectures for super-resolution and conduct experiments on three data sets. Our empirical results show the superiority of our attention module over the state-of-the-art attention mechanisms used in super-resolution. Moreover, we conduct an ablation study to assess the impact of the components involved in our attention module, e.g. the number of inputs or the number of heads.
翻訳日:2022-04-13 11:44:00 公開日:2022-04-12
# NAN:バースト消音用ノイズ対応NeRF

NAN: Noise-Aware NeRFs for Burst-Denoising ( http://arxiv.org/abs/2204.04668v2 )

ライセンス: Link先を確認
Naama Pearl, Tali Treibitz, Simon Korman(参考訳) 計算写真は携帯電話や小型カメラに固有の感度問題を克服するのに役立ちます。 バーストデノゲーションにおける大きな課題は、単純な動きや前処理で整列する能力というより単純な仮定でこれまで処理されてきたピクセルの不一致に対処することである。 このような仮定は、大きな動きと高いレベルのノイズの存在下では現実的ではない。 物理に基づくノベルビューレンダリングのために提案されたNeural Radiance Fields (NeRF) は,バーストデノゲーションのための強力なフレームワークとして機能することを示す。 NeRFは複数の画像からの情報を統合することでノイズを処理できる固有の能力を持っているが、理想の撮像条件に適した画素演算に基づいて構築されるため、その処理には制限がある。 私たちのアプローチはnanと呼ばれ、nerfsの視点間情報と空間情報を活用してノイズに対処する。 バーストデノゲーションの最先端の結果を達成し、特に非常に高い騒音の下で大きな動きや閉塞に対処することに成功している。 nerfを加速する急速な進歩により、挑戦的な環境において、強力なプラットフォームを提供することができる。

Burst denoising is now more relevant than ever, as computational photography helps overcome sensitivity issues inherent in mobile phones and small cameras. A major challenge in burst-denoising is in coping with pixel misalignment, which was so far handled with rather simplistic assumptions of simple motion, or the ability to align in pre-processing. Such assumptions are not realistic in the presence of large motion and high levels of noise. We show that Neural Radiance Fields (NeRFs), originally suggested for physics-based novel-view rendering, can serve as a powerful framework for burst denoising. NeRFs have an inherent capability of handling noise as they integrate information from multiple images, but they are limited in doing so, mainly since they build on pixel-wise operations which are suitable to ideal imaging conditions. Our approach, termed NAN, leverages inter-view and spatial information in NeRFs to better deal with noise. It achieves state-of-the-art results in burst denoising and is especially successful in coping with large movement and occlusions, under very high levels of noise. With the rapid advances in accelerating NeRFs, it could provide a powerful platform for denoising in challenging environments.
翻訳日:2022-04-13 11:43:36 公開日:2022-04-12
# ピラミッドグラフトネットワークによる1段階高分解能塩分検出

Pyramid Grafting Network for One-Stage High Resolution Saliency Detection ( http://arxiv.org/abs/2204.05041v2 )

ライセンス: Link先を確認
Chenxi Xie, Changqun Xia, Mingcan Ma, Zhirui Zhao, Xiaowu Chen and Jia Li(参考訳) 近年,ディープニューラルネットワークに基づくsalient object detection (sod)法が注目されている。 しかし,低分解能入力用に設計された既存のSODモデルは,サンプリング深度と受容野の大きさの矛盾により,高分解能画像に不利な結果をもたらす。 本稿では,この矛盾を解決するために,トランスフォーマーとcnnバックボーンを用いて異なる解像度画像から特徴を独立に抽出し,その特徴をトランスフォーマーブランチからcnnブランチにグラフトする,ピラミッドグラフトネットワーク(pgnet)と呼ばれる新しい一段階フレームワークを提案する。 クロスモデルグラフトモジュール (cmgm) の提案により, cnn の分岐部では, 復号処理中の異なるソース特徴により, 分割された詳細な情報をより包括的に結合することが可能となった。 さらに,注意誘導損失(agl)を設計,cmgmが生成する注意行列を明示的に監視し,ネットワークが異なるモデルからの注意とよりよく相互作用できるようにする。 4k-8k解像度で5,920枚の画像を含む超高分解能saliency detection dataset uhrsdを提案する。 我々の知る限り、将来の研究でトレーニングやテストに使用できる高解像度SODタスクの量と解像度において最大のデータセットである。 UHRSDと広く使われているSODデータセットの十分な実験により,本手法は最先端の手法と比較して優れた性能を発揮することが示された。

Recent salient object detection (SOD) methods based on deep neural network have achieved remarkable performance. However, most of existing SOD models designed for low-resolution input perform poorly on high-resolution images due to the contradiction between the sampling depth and the receptive field size. Aiming at resolving this contradiction, we propose a novel one-stage framework called Pyramid Grafting Network (PGNet), using transformer and CNN backbone to extract features from different resolution images independently and then graft the features from transformer branch to CNN branch. An attention-based Cross-Model Grafting Module (CMGM) is proposed to enable CNN branch to combine broken detailed information more holistically, guided by different source feature during decoding process. Moreover, we design an Attention Guided Loss (AGL) to explicitly supervise the attention matrix generated by CMGM to help the network better interact with the attention from different models. We contribute a new Ultra-High-Resolution Saliency Detection dataset UHRSD, containing 5,920 images at 4K-8K resolutions. To our knowledge, it is the largest dataset in both quantity and resolution for high-resolution SOD task, which can be used for training and testing in future research. Sufficient experiments on UHRSD and widely-used SOD datasets demonstrate that our method achieves superior performance compared to the state-of-the-art methods.
翻訳日:2022-04-13 11:43:11 公開日:2022-04-12
# 衛星画像から得られた気象データとデータの統合に基づく太陽放射予測のための機械学習モデル

Machine learning model to predict solar radiation, based on the integration of meteorological data and data obtained from satellite images ( http://arxiv.org/abs/2204.04313v2 )

ライセンス: Link先を確認
Luis Eduardo Ordo\~nez Palacios, V\'ictor Bucheli Guerrero, Hugo Ordo\~nez(参考訳) 地理的な位置における太陽放射の挙動を知ることは、太陽光発電システムを用いた太陽からのエネルギーの使用には不可欠であるが、気象パラメータの測定と遠隔地における太陽磁場の大きさの決定のためのステーションの数は限られている。 この研究では、gos-13衛星から得られた画像を用いて、気象観測所からデータセットに統合可能な変数を抽出した。 このことから、3つの異なるモデルが構築され、5つの機械学習アルゴリズムによる日射予測の性能が評価された。 4つの評価指標を用いて行った分析によれば、ニューラルネットワークは、気象変数と画像から得られる変数を統合するモデルで最も高い性能を示したが、rrmseが考慮された場合、得られたすべての結果は20%以上であり、アルゴリズムのパフォーマンスは公平であると分類された。 2012年のデータセットでは、MBE、R2、RMSE、rRMSEによる推定結果は、それぞれ-0.051、0.880、90.99、26.7%であった。 2017年のデータセットでは、MBE、R2、RMSE、rRMSEはそれぞれ-0.146、0.917、40.97、22.3%であった。 衛星画像から太陽放射を計算することは可能であるが、地上観測機器で捉えた放射データや日光に依存する統計方法もあることは事実であり、地上測定ステーションの数は限られているため、必ずしも不可能である。

Knowing the behavior of solar radiation at a geographic location is essential for the use of energy from the sun using photovoltaic systems; however, the number of stations for measuring meteorological parameters and for determining the size of solar fields in remote areas is limited. In this work, images obtained from the GOES-13 satellite were used, from which variables were extracted that could be integrated into datasets from meteorological stations. From this, 3 different models were built, on which the performance of 5 machine learning algorithms in predicting solar radiation was evaluated. The neural networks had the highest performance in the model that integrated the meteorological variables and the variables obtained from the images, according to an analysis carried out using four evaluation metrics; although if the rRMSE is considered, all results obtained were higher than 20%, which classified the performance of the algorithms as fair. In the 2012 dataset, the estimation results according to the metrics MBE, R2, RMSE, and rRMSE corresponded to -0.051, 0.880, 90.99 and 26.7%, respectively. In the 2017 dataset, the results of MBE, R2, RMSE, and rRMSE were -0.146, 0.917, 40.97 and 22.3%, respectively. Although it is possible to calculate solar radiation from satellite images, it is also true that some statistical methods depend on radiation data and sunshine captured by ground-based instruments, which is not always possible given that the number of measurement stations on the surface is limited.
翻訳日:2022-04-13 11:42:45 公開日:2022-04-12
# Nested Quasi-Independent Setsによるユークリッド$k$-meansおよび$k$-medianの近似の改善

Improved Approximations for Euclidean $k$-means and $k$-median, via Nested Quasi-Independent Sets ( http://arxiv.org/abs/2204.04828v2 )

ライセンス: Link先を確認
Vincent Cohen-Addad, Hossein Esfandiari, Vahab Mirrokni, Shyam Narayanan(参考訳) データ分析や機械学習の応用によって動機付けられた、一般的な高次元ユークリッドの$k$-medianと$k$-meansの問題を考える。 本稿では,ジャイナとヴァジラニの古典的アルゴリズムと,Ahmadian,Noouzi-Fard,Svensson,Wardの最近のアルゴリズムに着想を得た新しい原始双対アルゴリズムを提案する。 このアルゴリズムは、euclidean $k$medianと$k$-meansに対してそれぞれ2.406$と5.912$の近似比を達成し、ahmadian et al.の2.633近似比とgrandoni、ostrovsky、rabani、schulman、venkatの6.1291近似比を改善した。 我々の手法は、以前のユークリッドクラスタリングの研究よりもはるかに強いユークリッド計量の活用を含む。 さらに,我々は「ネスト準独立集合」をダビングするグラフ上の独立集合の変種を用いて,余剰中心を除去する新しい方法を提案する。 逆に、この手法はユークリッド空間や$\ell_p$計量空間における他の最適化問題にも興味を持つ。

Motivated by data analysis and machine learning applications, we consider the popular high-dimensional Euclidean $k$-median and $k$-means problems. We propose a new primal-dual algorithm, inspired by the classic algorithm of Jain and Vazirani and the recent algorithm of Ahmadian, Norouzi-Fard, Svensson, and Ward. Our algorithm achieves an approximation ratio of $2.406$ and $5.912$ for Euclidean $k$-median and $k$-means, respectively, improving upon the 2.633 approximation ratio of Ahmadian et al. and the 6.1291 approximation ratio of Grandoni, Ostrovsky, Rabani, Schulman, and Venkat. Our techniques involve a much stronger exploitation of the Euclidean metric than previous work on Euclidean clustering. In addition, we introduce a new method of removing excess centers using a variant of independent sets over graphs that we dub a "nested quasi-independent set". In turn, this technique may be of interest for other optimization problems in Euclidean and $\ell_p$ metric spaces.
翻訳日:2022-04-13 11:42:21 公開日:2022-04-12
# アンタングルテンプレート書き換えによるスティル化知識包含対話生成

Stylized Knowledge-Grounded Dialogue Generation via Disentangled Template Rewriting ( http://arxiv.org/abs/2204.05610v1 )

ライセンス: Link先を確認
Qingfeng Sun, Can Xu, Huang Hu, Yujing Wang, Jian Miao, Xiubo Geng, Yining Chen, Fei Xu, Daxin Jiang(参考訳) 現在の知識接地対話生成モデル(kdg)は、合理的かつ事実的応答の生成を専門としている。 しかし、ユーザとの長期的な関係を確立するために、KDGモデルは望ましいスタイルや属性で応答を生成する能力が必要である。 そこで我々は,Stylized Knowledge-Grounded Dialogue Generation (SKDG) という新たな問題を研究する。 これは、(1)<コンテキスト、知識、スタイル化された応答>トリプルがないskdgモデルをどのようにトレーニングするか、という2つの課題を提示している。 2) スタイル化された応答を生成する際に, コンテキストと結びつき, 知識を保存する方法。 本稿では,単言語スタイライゼーションコーパスから)不連続スタイルテンプレートと(kdgコーパスから)コンテンツテンプレートを融合して応答を生成する,新しい不連続テンプレート書き換え(dtr)手法を提案する。 フレームワーク全体がエンドツーエンドで差別化可能で、監督なしで学べる。 2つのベンチマークの大規模な実験により、DTRは従来の最先端のスタイリングダイアログ生成手法と比較して、すべての評価指標を大幅に改善した。 さらに、DTRは、標準KDG評価設定における最先端KDG法と同等の性能を達成する。

Current Knowledge-Grounded Dialogue Generation (KDG) models specialize in producing rational and factual responses. However, to establish long-term relationships with users, the KDG model needs the capability to generate responses in a desired style or attribute. Thus, we study a new problem: Stylized Knowledge-Grounded Dialogue Generation (SKDG). It presents two challenges: (1) How to train a SKDG model where no <context, knowledge, stylized response> triples are available. (2) How to cohere with context and preserve the knowledge when generating a stylized response. In this paper, we propose a novel disentangled template rewriting (DTR) method which generates responses via combing disentangled style templates (from monolingual stylized corpus) and content templates (from KDG corpus). The entire framework is end-to-end differentiable and learned without supervision. Extensive experiments on two benchmarks indicate that DTR achieves a significant improvement on all evaluation metrics compared with previous state-of-the-art stylized dialogue generation methods. Besides, DTR achieves comparable performance with the state-of-the-art KDG methods in standard KDG evaluation setting.
翻訳日:2022-04-13 11:41:57 公開日:2022-04-12
# NumGLUE: 数学的推論タスクの基本的かつ整合性のあるスイート

NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning Tasks ( http://arxiv.org/abs/2204.05660v1 )

ライセンス: Link先を確認
Swaroop Mishra, Arindam Mitra, Neeraj Varshney, Bhavdeep Sachdeva, Peter Clark, Chitta Baral and Ashwin Kalyan(参考訳) テキストにおける数字のユビキタスな性質を考えると、簡単な計算を行うために数字を推論することは、AIシステムにとって重要なスキルである。 多くのデータセットやモデルがこの目的のために開発されたが、最先端のAIシステムは不安定であり、わずかに異なるシナリオに現れると、基礎となる数学的推論を実行できない。 自然言語理解の文脈で提案されたGLUEからインスピレーションを得て,8つのタスクにおけるAIシステムの性能を評価するマルチタスクベンチマークであるNumGLUEを提案する。 我々は、このベンチマークが、最先端の大規模言語モデルを含む神経モデルで解決されるには程遠いことを示している(46.4%低い)。 さらに、NumGLUEはタスク間の知識の共有を促進する。特に、タスク固有のモデリングとは対照的に、モデルがすべてのタスクに対して共同でトレーニングされる場合、優れたパフォーマンス(各タスクにおける平均3.4%のゲイン)によって証明される限られたトレーニングデータを持つ。 最後に、NumGLUEは、より複雑な数学的推論を行うための第一歩として、言語内で堅牢で一般的な算術推論を行うシステムを促進することを願っている。

Given the ubiquitous nature of numbers in text, reasoning with numbers to perform simple calculations is an important skill of AI systems. While many datasets and models have been developed to this end, state-of-the-art AI systems are brittle; failing to perform the underlying mathematical reasoning when they appear in a slightly different scenario. Drawing inspiration from GLUE that was proposed in the context of natural language understanding, we propose NumGLUE, a multi-task benchmark that evaluates the performance of AI systems on eight different tasks, that at their core require simple arithmetic understanding. We show that this benchmark is far from being solved with neural models including state-of-the-art large-scale language models performing significantly worse than humans (lower by 46.4%). Further, NumGLUE promotes sharing knowledge across tasks, especially those with limited training data as evidenced by the superior performance (average gain of 3.4% on each task) when a model is jointly trained on all the tasks as opposed to task-specific modeling. Finally, we hope that NumGLUE will encourage systems that perform robust and general arithmetic reasoning within language, a first step towards being able to perform more complex mathematical reasoning.
翻訳日:2022-04-13 11:41:40 公開日:2022-04-12
# MuCoT:低リソース言語における質問応答のための多言語コントラストトレーニング

MuCoT: Multilingual Contrastive Training for Question-Answering in Low-resource Languages ( http://arxiv.org/abs/2204.05814v1 )

ライセンス: Link先を確認
Gokul Karthik Kumar, Abhishek Singh Gehlot, Sahal Shaji Mullappilly, Karthik Nandakumar(参考訳) 英語質問回答システム(QA)の精度は、Transformerベースのモデル(例えばBERT)の出現により、近年大幅に改善されている。 これらのモデルは、大きな英語のテキストコーパスを持つ自己教師型で事前訓練され、さらに大規模な英語のQAデータセット(SQuADなど)で微調整される。 しかし、そのようなスケールでのQAデータセットは他のほとんどの言語では利用できない。 マルチ言語BERTベースのモデル(mBERT)は、高ソース言語から低リソース言語への知識伝達にしばしば使用される。 これらのモデルは、複数の言語を含む巨大なテキストコーパスで事前訓練されているため、通常、異なる言語からのトークンに対する言語に依存しない埋め込みを学ぶ。 しかし,mBERTをベースとした低リソース言語向けQAシステムを直接トレーニングすることは,トレーニングデータの正確さから困難である。 本研究では、他の言語への翻訳と翻訳を用いて対象言語のQAサンプルを増補し、拡張データを用いてmBERTベースのQAモデルを微調整する。 Google ChAIIデータセットの実験では、mBERTモデルを同じ言語ファミリーからの翻訳で微調整することで、質問応答のパフォーマンスが向上する一方で、クロス言語ファミリーではパフォーマンスが低下することが示された。 さらに, 微調整過程において, 翻訳された質問・文脈特徴対の対比的損失を導入することで, 言語間変換による劣化を防止し, 限界改善につながることを示す。 この作業のコードはhttps://github.com/gokulkarthik/mucotで入手できる。

Accuracy of English-language Question Answering (QA) systems has improved significantly in recent years with the advent of Transformer-based models (e.g., BERT). These models are pre-trained in a self-supervised fashion with a large English text corpus and further fine-tuned with a massive English QA dataset (e.g., SQuAD). However, QA datasets on such a scale are not available for most of the other languages. Multi-lingual BERT-based models (mBERT) are often used to transfer knowledge from high-resource languages to low-resource languages. Since these models are pre-trained with huge text corpora containing multiple languages, they typically learn language-agnostic embeddings for tokens from different languages. However, directly training an mBERT-based QA system for low-resource languages is challenging due to the paucity of training data. In this work, we augment the QA samples of the target language using translation and transliteration into other languages and use the augmented data to fine-tune an mBERT-based QA model, which is already pre-trained in English. Experiments on the Google ChAII dataset show that fine-tuning the mBERT model with translations from the same language family boosts the question-answering performance, whereas the performance degrades in the case of cross-language families. We further show that introducing a contrastive loss between the translated question-context feature pairs during the fine-tuning process, prevents such degradation with cross-lingual family translations and leads to marginal improvement. The code for this work is available at https://github.com/gokulkarthik/mucot.
翻訳日:2022-04-13 11:41:19 公開日:2022-04-12
# 世界中のユニット当たりの価格問題の解決--質問回答としてのファクト抽出の定式化

Solving Price Per Unit Problem Around the World: Formulating Fact Extraction as Question Answering ( http://arxiv.org/abs/2204.05555v1 )

ライセンス: Link先を確認
Tarik Arici, Kushal Kumar, Hayreddin \c{C}eker, Anoop S V K K Saladi, Ismail Tutar(参考訳) プライス・パー・ユニット(PPU)は、商品を比較する際に、eコマースのウェブサイトで買い物をする消費者にとって重要な情報である。 販売者が常に提供していないPPUの計算には、製品内の総量を見つける必要がある。 総量を予測するには、タイトル、説明、画像などの製品属性に与えられるすべての関連量を正しく推測する必要がある。 我々は、事実抽出のための名前付きエンティティ認識(NER)タスクではなく、質問応答(QA)タスクとしてこの問題を定式化する。 当社のqaアプローチでは、まず、所望の質問("総容積"とは何か)を定式化した測定単位(uom)タイプ(ボリューム、重量、数量など)を予測し、その後、この質問を使って関連するすべての回答を見つけます。 モデルアーキテクチャは,UoM型(または疑問)を予測する分類器と,関連する量を抽出する抽出器の2つのサブネットワークから構成される。 我々は,(1)類似のアルファベットを持つ新しいストアへの拡張が容易なサブタスク,(2)スパン型アーキテクチャによるマルチスパン応答,(3)モデル推論遅延を低く保ち,デプロイが容易なサブタスクに対して,文字レベルCNNアーキテクチャを使用する。 当社のQAアプローチはルールベースの手法を34.4%の精度で上回り、BERTベースの事実抽出手法を全世界の店舗で採用しています。

Price Per Unit (PPU) is an essential information for consumers shopping on e-commerce websites when comparing products. Finding total quantity in a product is required for computing PPU, which is not always provided by the sellers. To predict total quantity, all relevant quantities given in a product attributes such as title, description and image need to be inferred correctly. We formulate this problem as a question-answering (QA) task rather than named entity recognition (NER) task for fact extraction. In our QA approach, we first predict the unit of measure (UoM) type (e.g., volume, weight or count), that formulates the desired question (e.g., "What is the total volume?") and then use this question to find all the relevant answers. Our model architecture consists of two subnetworks for the two subtasks: a classifier to predict UoM type (or the question) and an extractor to extract the relevant quantities. We use a deep character-level CNN architecture for both subtasks, which enables (1) easy expansion to new stores with similar alphabets, (2) multi-span answering due to its span-image architecture and (3) easy deployment by keeping model-inference latency low. Our QA approach outperforms rule-based methods by 34.4% in precision and also BERT-based fact extraction approach in all stores globally, with largest precision lift of 10.6% in the US store.
翻訳日:2022-04-13 11:40:52 公開日:2022-04-12
# ゼロショットの一般化に最適な言語モデルアーキテクチャと事前学習は何か?

What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization? ( http://arxiv.org/abs/2204.05832v1 )

ライセンス: Link先を確認
Thomas Wang, Adam Roberts, Daniel Hesslow, Teven Le Scao, Hyung Won Chung, Iz Beltagy, Julien Launay, Colin Raffel(参考訳) 大きな事前訓練されたトランスフォーマー言語モデルは、ゼロショット一般化、すなわち、明示的に訓練されていない様々なタスクを実行することができることが示されている。 しかしながら、最先端モデルで使用されるアーキテクチャや事前学習の目的は大きく異なり、これらの要因の体系的な比較は限られている。 本稿では,モデリング選択の大規模評価とゼロショット一般化への影響について述べる。 特に、テキストからテキストへのモデルに注目し、3つのモデルアーキテクチャ(causal/non-causal decoder-onlyとcorder-decoder)を実験し、2つの異なる事前学習目的(autoregressive and masked language modeling)でトレーニングし、マルチタスクによる微調整による評価を行った。 我々は、70億以上のトークンに対して50億以上のパラメータを持つモデルをトレーニングし、結果がさらに大きなスケールに移行する可能性を高める。 実験により,自己回帰型言語モデリング目標で学習した因果的デコーダのみのモデルが,純粋に教師なし事前学習後の最強のゼロショット一般化を示すことが示された。 しかし, マスク付き言語モデリング目標を用いて学習した入力に対して, 非因果可視性を持つモデルとマルチタスクファインタニングを併用したモデルが, 実験の中で最良である。 したがって、アーキテクチャや目的にまたがる事前訓練されたモデルの適応を考える。 自動回帰型言語モデリングを下流タスクとして用いることにより,事前学習された非コーサルデコーダモデルは,生成因果的デコーダモデルに適応できることがわかった。 さらに,事前学習した因果デコーダモデルを非因果デコーダモデルに効率よく適応させることで,マルチタスクの微調整後に競合性能を達成できることがわかった。 コードとチェックポイントはhttps://github.com/bigscience-workshop/architecture-objectiveで入手できる。

Large pretrained Transformer language models have been shown to exhibit zero-shot generalization, i.e. they can perform a wide variety of tasks that they were not explicitly trained on. However, the architectures and pretraining objectives used across state-of-the-art models differ significantly, and there has been limited systematic comparison of these factors. In this work, we present a large-scale evaluation of modeling choices and their impact on zero-shot generalization. In particular, we focus on text-to-text models and experiment with three model architectures (causal/non-causal decoder-only and encoder-decoder), trained with two different pretraining objectives (autoregressive and masked language modeling), and evaluated with and without multitask prompted finetuning. We train models with over 5 billion parameters for more than 170 billion tokens, thereby increasing the likelihood that our conclusions will transfer to even larger scales. Our experiments show that causal decoder-only models trained on an autoregressive language modeling objective exhibit the strongest zero-shot generalization after purely unsupervised pretraining. However, models with non-causal visibility on their input trained with a masked language modeling objective followed by multitask finetuning perform the best among our experiments. We therefore consider the adaptation of pretrained models across architectures and objectives. We find that pretrained non-causal decoder models can be adapted into performant generative causal decoder models, using autoregressive language modeling as a downstream task. Furthermore, we find that pretrained causal decoder models can be efficiently adapted into non-causal decoder models, ultimately achieving competitive performance after multitask finetuning. Code and checkpoints are available at https://github.com/bigscience-workshop/architecture-objective.
翻訳日:2022-04-13 11:40:04 公開日:2022-04-12
# x-detr: インスタンス毎の視覚言語タスクのための汎用アーキテクチャ

X-DETR: A Versatile Architecture for Instance-wise Vision-Language Tasks ( http://arxiv.org/abs/2204.05626v1 )

ライセンス: Link先を確認
Zhaowei Cai, Gukyeong Kwon, Avinash Ravichandran, Erhan Bas, Zhuowen Tu, Rahul Bhotika, Stefano Soatto(参考訳) 本稿では,画像全体ではなく,オブジェクトと協調するための自由形式言語が必要となる,インスタンス毎の視覚言語課題について検討する。 これらの課題に対処するために,オブジェクト検出,言語エンコーダ,視覚言語アライメントという3つの主要コンポーネントを持つX-DETRを提案する。 ビジョンと言語ストリームは最後まで独立しており、効率的なドット製品操作を使って調整される。 ネットワーク全体はエンドツーエンドでトレーニングされ、検出器は既製のコンポーネントではなく視覚言語タスクに最適化される。 ペアリングされたオブジェクト指向アノテーションの限られたサイズを克服するために、他の弱いタイプの監視を活用して知識カバレッジを拡大する。 この単純で効果的なx-detrのアーキテクチャは、トレーニング中にlvisアノテーションを使わずに、毎秒約20フレームで1.2kのカテゴリを検出するための16.4 apのような、複数のインスタンス毎の視覚言語タスクの精度と高速さを示している。

In this paper, we study the challenging instance-wise vision-language tasks, where the free-form language is required to align with the objects instead of the whole image. To address these tasks, we propose X-DETR, whose architecture has three major components: an object detector, a language encoder, and vision-language alignment. The vision and language streams are independent until the end and they are aligned using an efficient dot-product operation. The whole network is trained end-to-end, such that the detector is optimized for the vision-language tasks instead of an off-the-shelf component. To overcome the limited size of paired object-language annotations, we leverage other weak types of supervision to expand the knowledge coverage. This simple yet effective architecture of X-DETR shows good accuracy and fast speeds for multiple instance-wise vision-language tasks, e.g., 16.4 AP on LVIS detection of 1.2K categories at ~20 frames per second without using any LVIS annotation during training.
翻訳日:2022-04-13 11:39:32 公開日:2022-04-12
# 根の後方:画像に基づく統計的形状モデルによる大脳・複雑頭蓋欠損の再構築

Back to the Roots: Reconstructing Large and Complex Cranial Defects using an Image-based Statistical Shape Model ( http://arxiv.org/abs/2204.05703v1 )

ライセンス: Link先を確認
Jianning Li, David G. Ellis, Antonio Pepe, Christina Gsaxner, Michele R. Aizenberg, Jens Kleesiek, Jan Egger(参考訳) 大型で複雑な頭蓋欠損に対するインプラントの設計は、プロのデザイナーにとっても難しい課題だ。 設計プロセスの自動化に向けた現在の取り組みは、主に畳み込みニューラルネットワーク(CNN)に焦点を当てており、合成欠陥を再構築するための最先端の結果を生み出している。 しかし, 既存のCNN法は, 複雑で不規則な頭蓋欠損に対する成績が相容れないため, 頭蓋形成術の臨床実践への転換が困難である。 本稿では,頭蓋骨のセグメンテーションマスクに直接構築された統計的形状モデル(SSM)について述べる。 頭蓋骨インプラント設計作業におけるSSMの評価は,CNNによるアプローチと比較して,SSMは部分最適に合成欠陥を施すが,手作業による修正だけで,大規模で複雑な欠陥を再構築できることが示唆された。 得られたインプラントの品質は、経験豊富な神経外科医によって検査され、保証される。 対照的に、cnnベースのアプローチは、膨大なデータ拡張であっても、これらのケースに満足のいくインプラントを失敗または生成しない。 コードはhttps://github.com/Jianningli/ssmで公開されている。

Designing implants for large and complex cranial defects is a challenging task, even for professional designers. Current efforts on automating the design process focused mainly on convolutional neural networks (CNN), which have produced state-of-the-art results on reconstructing synthetic defects. However, existing CNN-based methods have been difficult to translate to clinical practice in cranioplasty, as their performance on complex and irregular cranial defects remains unsatisfactory. In this paper, a statistical shape model (SSM) built directly on the segmentation masks of the skulls is presented. We evaluate the SSM on several cranial implant design tasks, and the results show that, while the SSM performs suboptimally on synthetic defects compared to CNN-based approaches, it is capable of reconstructing large and complex defects with only minor manual corrections. The quality of the resulting implants is examined and assured by experienced neurosurgeons. In contrast, CNN-based approaches, even with massive data augmentation, fail or produce less-than-satisfactory implants for these cases. Codes are publicly available at https://github.com/Jianningli/ssm
翻訳日:2022-04-13 11:39:11 公開日:2022-04-12
# 超複雑ニューラルネットワークを用いた多視点乳癌分類

Multi-View Breast Cancer Classification via Hypercomplex Neural Networks ( http://arxiv.org/abs/2204.05798v1 )

ライセンス: Link先を確認
Eleonora Lopez, Eleonora Grassucci, Martina Valleriani, Danilo Comminiello(参考訳) 伝統的に、深層学習に基づく乳がん分類の方法は、シングルビュー分析を行う。 しかし,放射線科医はマンモグラフィ所見に含まれる相関関係から,マンモグラフィ検査を構成する4つの視点をすべて同時に分析し,腫瘍の同定に重要な情報を提供する。 これを踏まえ、いくつかの研究がマルチビュー手法を提案し始めている。 それにもかかわらず、既存のアーキテクチャでは、マンモグラムビューは分離した畳み込み枝によって独立した画像として処理されるため、それらの相関は失われる。 このような制約を克服するために,パラメータ化された超複雑ニューラルネットワークに基づく多視点乳がん分類手法を提案する。 超複素代数特性により、我々のネットワークは、マンモグラム試験を構成する異なる視点間の既存の相関関係をモデル化し、活用することができ、臨床医が実施する読影過程を模倣することができる。 その結果, 試験の多視点性を損なうことなく, 患者の情報を完全に処理することが可能となった。 提案するハイパーコンプレックスアプローチを出発点として,2視点試験,すなわちphresnetと4視点試験,すなわちphysenetとphysbonetを処理し,幅広い臨床応用例における視点間相関を把握可能なアーキテクチャを定義する。 CBIS-DDSM と INbreast の2つの公開データセットを用いて実験を行った結果,パラメータ化ハイパープレックスモデルは実測値と最先端の手法を明らかに上回り,乳がんの分類が提案したマルチビューアーキテクチャによるメリットを証明した。 実験の完全な再現性のための完全なコードと事前訓練されたモデルは、https://github.com/ispamm/PHBreast.comで無料で利用可能です。

Traditionally, deep learning-based methods for breast cancer classification perform a single-view analysis. However, radiologists simultaneously analyze all four views that compose a mammography exam, owing to the correlations contained in mammography views, which present crucial information for identifying tumors. In light of this, some studies have started to propose multi-view methods. Nevertheless, in such existing architectures, mammogram views are processed as independent images by separate convolutional branches, thus losing correlations among them. To overcome such limitations, in this paper we propose a novel approach for multi-view breast cancer classification based on parameterized hypercomplex neural networks. Thanks to hypercomplex algebra properties, our networks are able to model, and thus leverage, existing correlations between the different views that comprise a mammogram exam, thus mimicking the reading process performed by clinicians. As a consequence, the proposed method is able to handle the information of a patient altogether without breaking the multi-view nature of the exam. Starting from the proposed hypercomplex approach, we define architectures designed to process two-view exams, namely PHResNets, and four-view exams, i.e., PHYSEnet and PHYSBOnet, with the ability to grasp inter-view correlations in a wide range of clinical use cases. Through an extensive experimental evaluation conducted with two publicly available datasets, CBIS-DDSM and INbreast, we demonstrate that our parameterized hypercomplex models clearly outperform real-valued counterparts and also state-of-the-art methods, proving that breast cancer classification benefits from the proposed multi-view architecture. Full code and pretrained models for complete reproducibility of our experiments are freely available at: https://github.com/ispamm/PHBreast.
翻訳日:2022-04-13 11:38:51 公開日:2022-04-12
# 連続学習のための生成的否定再生

Generative Negative Replay for Continual Learning ( http://arxiv.org/abs/2204.05842v1 )

ライセンス: Link先を確認
Gabriele Graffieti, Davide Maltoni, Lorenzo Pellegrini, Vincenzo Lomonaco(参考訳) 継続的な学習は知性の重要な側面であり、多くの現実の問題を解決するために必要な能力である。 破滅的な忘れ方を制御する最も効果的な戦略の1つは、アキレスの継続的学習のヒールであり、古いデータの一部を保存し、それらを新しい経験(リプレイアプローチとしても知られる)で再生する。 需要に応じて再生パターンを提供する生成的リプレイは特に興味深いが、単純なシナリオや低次元データといった単純な仮定の下では有効であることが示されている。 本稿では、生成したデータは、通常、古いクラスの分類精度を向上できないが、特に学習経験が小さく、クラス数が少ない場合に、新しいクラスをより良く学習するためのネガティブな例(またはアンタゴニスト)として有効であることを示す。 提案手法は、高次元データと多数のトレーニング経験からなる複雑なクラス増分およびデータ増分連続学習シナリオ(CORe50とImageNet-1000)で検証される。

Learning continually is a key aspect of intelligence and a necessary ability to solve many real-life problems. One of the most effective strategies to control catastrophic forgetting, the Achilles' heel of continual learning, is storing part of the old data and replaying them interleaved with new experiences (also known as the replay approach). Generative replay, which is using generative models to provide replay patterns on demand, is particularly intriguing, however, it was shown to be effective mainly under simplified assumptions, such as simple scenarios and low-dimensional data. In this paper, we show that, while the generated data are usually not able to improve the classification accuracy for the old classes, they can be effective as negative examples (or antagonists) to better learn the new classes, especially when the learning experiences are small and contain examples of just one or few classes. The proposed approach is validated on complex class-incremental and data-incremental continual learning scenarios (CORe50 and ImageNet-1000) composed of high-dimensional data and a large number of training experiences: a setup where existing generative replay approaches usually fail.
翻訳日:2022-04-13 11:38:19 公開日:2022-04-12
# 事前学習言語モデルからの論理イベントスキーマのマイニング

Mining Logical Event Schemas From Pre-Trained Language Models ( http://arxiv.org/abs/2204.05939v1 )

ライセンス: Link先を確認
Lane Lawley and Lenhart Schubert(参考訳) NESL(Neuro-Episodic Schema Learner)は,大規模言語モデル,FrameNet解析,強力な論理的言語表現,学習プロセスのブートストラップを目的とした単純な行動スキーマのセットを組み合わせたイベントスキーマ学習システムである。 私たちのデータセットは、事前に作成されたストーリーのコーパスの代わりに、トレーニング済みの言語モデルから"situation sample"を継続的にフィードし、FrameNetフレームに解析し、単純な振る舞いスキーマにマップし、複雑な階層スキーマに結合して、さまざまな日常シナリオに一般化します。 言語モデルからの注意深いサンプリングは、状況のステレオタイプ的特性を強調し、無関係な詳細を強調するのに役立ち、結果のスキーマが他のシステムで学んだものよりもより包括的に状況を特定することを示す。

We present NESL (the Neuro-Episodic Schema Learner), an event schema learning system that combines large language models, FrameNet parsing, a powerful logical representation of language, and a set of simple behavioral schemas meant to bootstrap the learning process. In lieu of a pre-made corpus of stories, our dataset is a continuous feed of "situation samples" from a pre-trained language model, which are then parsed into FrameNet frames, mapped into simple behavioral schemas, and combined and generalized into complex, hierarchical schemas for a variety of everyday scenarios. We show that careful sampling from the language model can help emphasize stereotypical properties of situations and de-emphasize irrelevant details, and that the resulting schemas specify situations more comprehensively than those learned by other systems.
翻訳日:2022-04-13 11:37:47 公開日:2022-04-12